博客專欄

EEPW首頁 > 博客 > 李飛飛對話王建民 | 云原生數(shù)據(jù)庫:重啟冰山下的戰(zhàn)爭

李飛飛對話王建民 | 云原生數(shù)據(jù)庫:重啟冰山下的戰(zhàn)爭

發(fā)布人:數(shù)據(jù)派THU 時間:2021-09-19 來源:工程師 發(fā)布文章

來源:阿里研究院

本期嘉賓:

李飛飛 阿里巴巴集團(tuán)副總裁、達(dá)摩院數(shù)據(jù)庫與存儲實驗室負(fù)責(zé)人

王建民 清華大學(xué)軟件學(xué)院院長

安筱鵬 阿里研究院副院長

2020年9月17日,美國數(shù)據(jù)庫公司Snowflake上市,市值一度超過1000億美元,但其2019年銷售額不到3億美元。

2020年微軟取代了Oracle,歷史上第一次站在了數(shù)據(jù)庫全球市場的榜首地位。

亞馬遜創(chuàng)始人貝索斯曾說,“The real battle will be in databases”(未來真正的戰(zhàn)爭在數(shù)據(jù)庫)。

2020年《中共中央國務(wù)院關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》提出,數(shù)據(jù)是新的生產(chǎn)要素。數(shù)據(jù)作為一種新要素如何創(chuàng)造價值?數(shù)據(jù)如何被采集、被存儲、被處理、被加工?

數(shù)據(jù)庫是數(shù)字時代最底層的技術(shù),是數(shù)字技術(shù)體系中人們看不到的水面下的冰山,云原生正在重構(gòu)數(shù)據(jù)庫市場的競爭格局。

數(shù)據(jù)庫技術(shù)的50年:經(jīng)歷了如同移動通信從1G到5G的跨越

李飛飛

阿里達(dá)摩院數(shù)據(jù)庫與存儲實驗室負(fù)責(zé)人

數(shù)據(jù)庫是數(shù)字經(jīng)濟(jì)里最重要的基石,人們能感受到移動通信、智能手機(jī)、AI日新月異的變化,但數(shù)據(jù)庫好像幾十年如一日沒有變化。從數(shù)據(jù)庫從業(yè)者角度看,在過去的50年,數(shù)字時代最底層的數(shù)據(jù)庫技術(shù)一直在持續(xù)創(chuàng)新與迭代,經(jīng)歷了如同移動通信技術(shù)從1G到5G的跨越。

數(shù)據(jù)庫英文叫Database,即Data的Base,也就是數(shù)據(jù)基地。相當(dāng)于Air Base,空軍基地一樣。在Air Base里有各種飛機(jī),波音、空客和各類戰(zhàn)斗機(jī)。數(shù)據(jù)也一樣,今天的各類圖片、視頻、結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),都需要有一個“基地”,一個 database。

我們在實踐上觀察到的趨勢是:

第一,數(shù)據(jù)規(guī)模不斷增長。今天,數(shù)據(jù)規(guī)模已達(dá)到 ZB級增長,數(shù)據(jù)還會持續(xù)爆發(fā)式增長。

第二,數(shù)據(jù)日益多樣化。各行各業(yè)正在不斷匯聚更加多樣化的數(shù)據(jù),從趨勢上看,非結(jié)構(gòu)化數(shù)據(jù)占比會越來越高,未來幾年,非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)占比可能會超過80%。

第三,云計算改變數(shù)據(jù)庫競爭格局。云計算的核心就是用虛擬化的技術(shù)將計算資源、存儲資源等資源池化,帶來數(shù)據(jù)庫向云原生系統(tǒng)演進(jìn)的新趨勢。到2023年,全球各行各業(yè)75%的數(shù)據(jù)庫都將以云上部署方式運(yùn)營,全球數(shù)據(jù)庫產(chǎn)業(yè)結(jié)構(gòu)正在加速重構(gòu)。

王建民

清華大學(xué)軟件學(xué)院院長

麥肯錫的報告中曾就哪個行業(yè)的數(shù)據(jù)最多給出過一個判斷:制造業(yè)是各行業(yè)中數(shù)據(jù)量最多的行業(yè)。

在民航領(lǐng)域,波音737一次跨國旅行,通過傳感器采集的數(shù)據(jù)量達(dá)到4TB,首都機(jī)場一年起落幾十萬架次客機(jī),我們可以設(shè)想能有產(chǎn)生多少數(shù)據(jù)。

在風(fēng)電領(lǐng)域,風(fēng)電設(shè)備7×24小時源源不斷地產(chǎn)生數(shù)據(jù)。根據(jù)風(fēng)電的國際標(biāo)準(zhǔn),每秒鐘要采集200多個參數(shù),規(guī)模大概是225k。一臺風(fēng)機(jī)如果一年運(yùn)行8000個小時,積累的數(shù)據(jù)量大概是6TB。

工業(yè)體系中積累了大量的數(shù)據(jù),從數(shù)據(jù)來源上看有兩類來源:一類是傳統(tǒng)信息化系統(tǒng)使用的“慢數(shù)據(jù)”,就是就靠人輸入單據(jù)形成的數(shù)據(jù)。這些數(shù)據(jù)含金量高、但規(guī)模不大,增長相對較慢;另一類是來自物聯(lián)網(wǎng)“快數(shù)據(jù)”,特別是來自工業(yè)物聯(lián)網(wǎng)的數(shù)據(jù),工業(yè)成為工業(yè)大數(shù)據(jù)的主體。

從美Snowflake上市高估值,看數(shù)據(jù)庫的未來

安筱鵬

阿里研究院副院長

2020年9月17日,一家創(chuàng)立于2012年的Snowflake數(shù)據(jù)庫公司在美國上市,2019年Snowflake的銷售不到3億美元,但市值超過750億美元。Snowflake上市是2019年美國IPO融資規(guī)模最大公司,也創(chuàng)造了軟件公司IPO的最高記錄。一向?qū)萍脊綢PO審慎的巴菲特,也參與到項目中。

Snowflake的高估值,反映出了全球數(shù)據(jù)庫產(chǎn)業(yè)的什么趨勢?

李飛飛

阿里達(dá)摩院數(shù)據(jù)庫與存儲實驗室負(fù)責(zé)人

可以看到,Snowflake經(jīng)歷了三個階段:

第一階段,Snowflake最初定位是以計算分析為主的分析型數(shù)據(jù)庫,開發(fā)了一個高并行處理數(shù)據(jù)庫引擎。

第二階段,Snowflake演進(jìn)到云原生的數(shù)據(jù)倉庫。即用云原生技術(shù),推動存儲池化和計算池化,然后實現(xiàn)存儲計算分離,利用云原生技術(shù)構(gòu)建下一代高彈性的云原生數(shù)據(jù)倉庫,主要還是以數(shù)據(jù)分析聚類等功能為主,但具備云原生這一鮮明特點。

云原生帶來的好處是,企業(yè)在決定要上不上云,或者決定上云后使用什么樣的數(shù)據(jù)庫時,極大減少決策成本和使用成本。因為云原生提供了按需按量使用、按需按量付費的新模式。就像今天家里接水電煤,一個老百姓在新房裝修的時候不接自來水,而是要去自己挖井。要自己挖井,那這個決策成本將會非常高。

第三階段,在Snowflake上市前后,開始轉(zhuǎn)型為一個云上的數(shù)據(jù)平臺。

Snowflake希望構(gòu)建一個一站式的數(shù)據(jù)管理全生命周期服務(wù)體系,這個平臺不僅是傳統(tǒng)關(guān)系型數(shù)據(jù)庫的交易服務(wù),以及數(shù)據(jù)倉庫提供的分析能力,而且建立一個從數(shù)據(jù)生產(chǎn)到集成、傳輸?shù)絺浞荨⒔灰椎椒治?、智能化?yīng)用和挖掘的一站式數(shù)據(jù)治理平臺。

正因為是這個理念,讓大家看到了Snowflake可能代表了下一代云原生數(shù)據(jù)庫演進(jìn)的方向,所以才會讓它的估值這么高。我非常認(rèn)可Snowflake提出的這種云上數(shù)據(jù)平臺概念,也認(rèn)為下一代云原生數(shù)據(jù)庫一定是一個一站式的、全生命周期管理服務(wù)平臺。

安筱鵬

阿里研究院副院長

李飛飛把云原生數(shù)據(jù)庫服務(wù)比喻成自來水,還有人把它比喻成“買車”、“租車”或“打車”?!百I車”,就是要自建系統(tǒng),所有數(shù)字化硬件軟件自己來買;“租車”,就是以年、月周期鎖定資源、享受服務(wù),周期比較長。這一商業(yè)模式再向前演進(jìn),資源鎖定的顆粒度更細(xì)、周期更短,就相當(dāng)于“打車”,需要的時候按照小時去租。

從這個角度去看,這相當(dāng)于過去企業(yè)使用軟件是基于license進(jìn)行購買(買車),之后演進(jìn)到SaaS,即按年月采購訂閱服務(wù)(租車),再向前演進(jìn)到DaaS,按照數(shù)據(jù)加工處理使用的數(shù)量實時計費(打車)。

王建民

清華大學(xué)軟件學(xué)院院長

通過自己買車、租車,演變到今天打車,其實就是在提高數(shù)據(jù)資源開發(fā)利用的效率,同時降低成本、降低風(fēng)險。

今天,大家都看到數(shù)字時代到來帶來的好處,但也要看到進(jìn)入數(shù)字時代的成本。數(shù)字時代的技術(shù)不僅讓大家好用,同時還要用得起,這才是真正驅(qū)動數(shù)字化變革的好技術(shù)。這樣的數(shù)字化變革才能從技術(shù)走向經(jīng)濟(jì),走到經(jīng)濟(jì)社會深處。今天的數(shù)字技術(shù)革命,不完全是技術(shù),而是需求牽引技術(shù)持續(xù)迭代。

傳統(tǒng)數(shù)據(jù)庫的挑戰(zhàn)與云原生數(shù)據(jù)庫的價值

李飛飛

阿里達(dá)摩院數(shù)據(jù)庫與存儲實驗室負(fù)責(zé)人

大數(shù)據(jù)時代,傳統(tǒng)數(shù)據(jù)庫面臨兩大挑戰(zhàn)。

一是系統(tǒng)面臨持續(xù)擴(kuò)容的挑戰(zhàn)。傳統(tǒng)數(shù)據(jù)庫是在馮·諾依曼架構(gòu)下發(fā)展而來的,其核心特征是計算、存儲等資源的緊耦合。當(dāng)業(yè)務(wù)需要的資源超過了底層系統(tǒng)所能提供的容量后,就需要對現(xiàn)有系統(tǒng)進(jìn)行不斷擴(kuò)容。

二是系統(tǒng)永遠(yuǎn)存在宕機(jī)的風(fēng)險。業(yè)務(wù)運(yùn)行中由于各種原因會出現(xiàn)錯誤,作為核心支撐在線業(yè)務(wù)的數(shù)據(jù)庫出問題,業(yè)務(wù)系統(tǒng)就無法正常運(yùn)行了。數(shù)據(jù)庫要高可用,要確保如果底層資源發(fā)生任何問題,數(shù)據(jù)庫可以實現(xiàn)切換,實現(xiàn)同機(jī)房不同服務(wù)器、不同虛擬機(jī)之間的切換,保證上層業(yè)務(wù)系統(tǒng)對底層硬件資源的錯誤或者風(fēng)險的無感知。

面對這兩個核心挑戰(zhàn),云原生帶來什么變化?就是用虛擬化的技術(shù)將資源池化。

去年疫情暴發(fā)后,釘釘業(yè)務(wù)量突然爆發(fā),尤其是很多學(xué)校老師學(xué)生利用釘釘在線上課,在線教育的需求對業(yè)務(wù)來說就像一樣突然到來的洪峰。瞬間業(yè)務(wù)洪峰出現(xiàn),現(xiàn)有系統(tǒng)容量如果不能處理,發(fā)生雪崩式的災(zāi)難后果。

云原生數(shù)據(jù)庫系統(tǒng)就是將存儲計算分離,將存儲池化、計算也池化。就像以前每家每戶各打一個水井(相當(dāng)于建立獨立的數(shù)據(jù)庫);現(xiàn)在,把這些水井連起來變成北京市自來水廠(相當(dāng)于存儲資源池、計算資源池)。通過在技術(shù)上把存儲計算分離,獲得彈性的高可用,為業(yè)務(wù)提供不間斷服務(wù)。

去年,我們?yōu)獒斸斂焖贁U(kuò)容了相當(dāng)于幾千臺服務(wù)器的軟硬件資源,但是我們數(shù)據(jù)庫系統(tǒng)并不需要做像傳統(tǒng)數(shù)據(jù)庫那樣進(jìn)行復(fù)雜且耗時的擴(kuò)容部署,而是通過層級分離、彈性解耦的方式來更好地滿足業(yè)務(wù)需要。這樣在“洪峰”過去以后,我們又能夠快速的將資源釋放,大大提升資源使用效率。

在城市大腦里面,需要在云原生能力上構(gòu)建更加智能化的數(shù)據(jù)處理能力。在城市里,數(shù)據(jù)的種類和來源很多,有各種各樣傳感器、攝像頭上搜集的數(shù)據(jù)。一方面,我們要做實時交易,即+1-1記賬式的數(shù)據(jù)處理,要求準(zhǔn)確性、可靠性、穩(wěn)定性、高可用;另一方面,還要做復(fù)雜的計算和分析,比如實時智能化交互式分析、處理非結(jié)構(gòu)化數(shù)據(jù)等。這時,我們從云原生數(shù)據(jù)庫衍生出來云原生數(shù)據(jù)倉庫,面向物聯(lián)網(wǎng)、互聯(lián)網(wǎng)的原生多模數(shù)據(jù)庫等多種形態(tài),來更好支持業(yè)務(wù)做實時數(shù)據(jù)分析決策。

在北京,整個公交系統(tǒng)是由啟迪公交來提供服務(wù),每次乘客上車刷卡,就涉及到實時計費,以及后臺數(shù)據(jù)實時分析處理。北京公交業(yè)務(wù)早晚高峰期間業(yè)務(wù)量很大,其它時間業(yè)務(wù)容量壓力沒那么大。那是不是要按照峰值來設(shè)計你整個系統(tǒng)資源使用呢?當(dāng)然可以,但這樣肯定會帶來很多資源浪費。如使用云原生的技術(shù),實現(xiàn)資源池化、彈性高可用,應(yīng)可以快速匹配業(yè)務(wù)需求,需要多少資源釋放多少資源。

軟硬件解耦對數(shù)據(jù)庫技術(shù)有什么啟示?

安筱鵬

阿里研究院副院長

從傳統(tǒng)數(shù)據(jù)庫到云原生數(shù)據(jù)庫,最大的技術(shù)變革這一是存儲和計算的分離,是技術(shù)的不斷解耦,是技術(shù)的解構(gòu)與重組。

如果看過去IT產(chǎn)業(yè)發(fā)展的60年,從大型機(jī)、小型機(jī)、計算機(jī)、功能手機(jī)、智能手機(jī),到今天的傳統(tǒng)汽車到智能汽車,底層技術(shù)演進(jìn)的一個基本邏輯是,硬件和軟件解耦。過去一個硬件對應(yīng)的一個操作系統(tǒng)、一個軟件,正通過軟硬解耦的方式重構(gòu)技術(shù)和產(chǎn)業(yè)體系。過去60年發(fā)生IT領(lǐng)域的技術(shù)路線,正在向OT(控制技術(shù))、DCS、自動化等領(lǐng)域拓展。

從軟件本身看,數(shù)據(jù)庫也在走同樣的解耦、重構(gòu)的道路和模式。從技術(shù)趨勢來說,計算跟存儲的分離,是云原生數(shù)據(jù)庫技術(shù)變革的重要趨勢。

李飛飛

阿里達(dá)摩院數(shù)據(jù)庫與存儲實驗室負(fù)責(zé)人

解耦是理解今天云原生數(shù)據(jù)庫的關(guān)鍵詞。

作為一家企業(yè)或者用戶,部署一套IT系統(tǒng),就需要部署一個數(shù)據(jù)庫。在傳統(tǒng)架構(gòu)下,企業(yè)要按照可預(yù)知的一段時間業(yè)務(wù)的峰值來設(shè)計系統(tǒng)容量和冗余,進(jìn)行安裝部署。比如中國****或者北京市工商****,一年364天都沒問題,但如果有一天撐不過去,就會發(fā)生了系統(tǒng)性災(zāi)難。這一天的業(yè)務(wù)需求超過系統(tǒng)所能處理的容量,那全年也就只能打0分了。

這一模式帶來的問題和挑戰(zhàn)是高成本和低使用效率,因為大部分時間系統(tǒng)是閑置的、資源是錯配的。技術(shù)解耦很好地解決了這個問題。

比如,我用虛擬化的技術(shù),通過虛擬機(jī)、容器等技術(shù),將資源可以快速部署和調(diào)用。當(dāng)真正需要時,可以迅速把系統(tǒng)處理能力提升到十年一遇、百年一遇的水平。

這有點像洪水來了,快速地堆沙袋;洪水退去,沙袋可以快速去掉。今天,我們在現(xiàn)實中堆沙袋還是很痛苦的,效率很低、成本很高,但在云原生數(shù)據(jù)庫系統(tǒng)里,這是智能自動化的過程,可以快速調(diào)動資源;業(yè)務(wù)峰值過后,可以快速釋放資源,做到了對系統(tǒng)資源最大程度調(diào)動和使用效率。反過來對業(yè)務(wù)系統(tǒng)來講,運(yùn)維的簡易化程度和效率也大大提升。

工業(yè)互聯(lián)網(wǎng)時代:數(shù)據(jù)庫怎么變?

王建民

清華大學(xué)軟件學(xué)院院長

萬物互聯(lián)的確是我們這個時代的主要特征?;ヂ?lián)之后的結(jié)果是連進(jìn)來很多數(shù)據(jù),產(chǎn)生了很多數(shù)據(jù)。

傳統(tǒng)的信息化系統(tǒng)中,人們關(guān)注數(shù)據(jù)存儲、加工、處理,主要在后臺,面臨的挑戰(zhàn)是如何在一個大的蓄水池中解決數(shù)據(jù)問題;當(dāng)物聯(lián)網(wǎng)來了之后,數(shù)據(jù)庫的架構(gòu)體系和業(yè)務(wù)模式變了,面臨的挑戰(zhàn)是在各種“端”中如何處理數(shù)據(jù)問題,需要解決的是前端的涓涓細(xì)流怎么能匯聚,思考的問題是,如何在不同“端”的節(jié)點上,做一些實時處理、優(yōu)化。

物聯(lián)網(wǎng)不僅帶來數(shù)據(jù)庫應(yīng)用場景的變化,最終還將帶來數(shù)據(jù)庫處理技術(shù)的變化。

可以看出,今天驅(qū)動數(shù)據(jù)技術(shù)發(fā)展有兩個原動力,一是需求應(yīng)用,應(yīng)用場景驅(qū)動數(shù)據(jù)庫技術(shù)的發(fā)展,像物聯(lián)網(wǎng)從硬件技術(shù)來推動發(fā)展,會衍生出來新的應(yīng)用;一是技術(shù)進(jìn)步,軟件、硬件、機(jī)器、網(wǎng)絡(luò)供給能力在推動數(shù)據(jù)處理技術(shù)的發(fā)展。

驅(qū)動數(shù)據(jù)庫發(fā)展的動力是什么?

李飛飛

阿里達(dá)摩院數(shù)據(jù)庫與存儲實驗室負(fù)責(zé)人

我在美國大學(xué)當(dāng)教授時候,一直認(rèn)為,技術(shù)變革一直推動人類文明進(jìn)步。進(jìn)入產(chǎn)業(yè)界后,我越來越覺得技術(shù)變革推進(jìn)人類文明進(jìn)步?jīng)]有錯,但有個先決條件,就是商業(yè)需求和進(jìn)步激發(fā)了技術(shù)進(jìn)步,技術(shù)再推進(jìn)人類文明進(jìn)步。有強(qiáng)烈業(yè)務(wù)需求會激發(fā)人類對新技術(shù)進(jìn)步的渴望。

用“買車”、“租車”、“打車”這種使用方式來描述云原生、數(shù)據(jù)庫的演進(jìn)非常有道理,核心是如何優(yōu)化資源配置效率,解決資源閑置或資源配置錯位的問題。

傳統(tǒng)商業(yè)型數(shù)據(jù)庫,按照傳統(tǒng)業(yè)務(wù)規(guī)模來評估需求并進(jìn)行部署,這必然會帶來資源閑置、資源錯位和匹配錯位。使用云原生架構(gòu)以后,企業(yè)基于業(yè)務(wù)需求、經(jīng)濟(jì)發(fā)展的需要,牽引技術(shù)向這個領(lǐng)域去開拓創(chuàng)新,帶來了原生數(shù)據(jù)庫技術(shù)日新月異的發(fā)展。

百度百家:http://navo.top/jyyuQv

新浪財經(jīng):http://navo.top/vu2QZz

每日經(jīng)濟(jì)新聞:http://navo.top/MZBRRf

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉