博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 獨(dú)家對(duì)話阿里云張獻(xiàn)濤:自主最強(qiáng)DPU神龍的秘訣

獨(dú)家對(duì)話阿里云張獻(xiàn)濤:自主最強(qiáng)DPU神龍的秘訣

發(fā)布人:芯東西 時(shí)間:2022-02-08 來(lái)源:工程師 發(fā)布文章
讀懂云計(jì)算,才能看清DPU熱潮。

作者 |  心緣
編輯 |  漠影

如果細(xì)數(shù)最近火爆的科技概念,DPU必然位列其中。

這是英偉達(dá)一手捧紅的新造富故事,是2021年SoC領(lǐng)域最熱火朝天的創(chuàng)業(yè)賽道,也是數(shù)據(jù)中心繼CPU、GPU后的又一大“臺(tái)柱子”。

盡管在云計(jì)算領(lǐng)域已經(jīng)培育多年,但對(duì)于外界來(lái)說(shuō),DPU并不是一個(gè)容易理解的概念,各路玩家的產(chǎn)品定義和結(jié)構(gòu)設(shè)計(jì)也不盡相同。

總體來(lái)說(shuō),DPU是個(gè)軟硬一體的數(shù)據(jù)處理單元,通常以架構(gòu)的形式存在,可以幫CPU“減負(fù)”,解決一些CPU處理數(shù)據(jù)方面的短板問(wèn)題,并提供硬件加速的網(wǎng)絡(luò)、存儲(chǔ)、安全、基礎(chǔ)設(shè)施管理等服務(wù)。 

而追溯DPU的源頭,真正實(shí)現(xiàn)大規(guī)模商用DPU架構(gòu)的,歷數(shù)全球,主要有兩家云計(jì)算巨頭——西方的亞馬遜云AWS,東方的阿里云。

2017年10月,阿里云的神龍架構(gòu)橫空出世;僅1個(gè)月后,AWS的Nitro也走到了歷史臺(tái)前。這兩個(gè)為了解決虛擬化問(wèn)題而相繼問(wèn)世的創(chuàng)新產(chǎn)品,被業(yè)界視作迄今最成功的兩款DPU。

一手促成神龍架構(gòu)誕生的張獻(xiàn)濤,也是國(guó)內(nèi)最懂DPU的人物之一。

如今,第四代阿里云神龍已經(jīng)開(kāi)始支撐阿里云的大規(guī)模云上業(yè)務(wù),并在計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、安全四項(xiàng)關(guān)鍵指標(biāo)達(dá)成業(yè)界最高水平。

近日,芯東西獨(dú)家對(duì)話阿里巴巴集團(tuán)研究員、阿里云彈性計(jì)算產(chǎn)品線負(fù)責(zé)人張獻(xiàn)濤(花名旭卿),聽(tīng)他講述云端業(yè)務(wù)需求變化、持續(xù)創(chuàng)新的研發(fā)心得,以及對(duì)DPU熱潮的獨(dú)到思考。

在他看來(lái),這不是一類(lèi)適合走通用路線的芯片,對(duì)于云廠商而言,DPU是一個(gè)軟硬件技術(shù)棧結(jié)合極其密切的工作,是軟件定義的計(jì)算架構(gòu),DPU必須以自研為主,做到相關(guān)軟硬件技術(shù)棧完全可控,且經(jīng)過(guò)超大規(guī)模驗(yàn)證。而做通用DPU的公司很難滿足云廠商的需求,被收購(gòu)或許是最佳結(jié)局

01.風(fēng)起云計(jì)算


DPU的新風(fēng)口來(lái)得突然。

2020年10月,在NVIDIA GTC 2020大會(huì)上,NVIDIA創(chuàng)始人兼CEO黃仁勛宣布推出一種全新數(shù)據(jù)處理器——DPU。

這顆被稱(chēng)作“未來(lái)計(jì)算三大支柱之一”的處理單元,赫然闖入大眾和資本的視野。

此時(shí),距離阿里云軟硬一體虛擬化架構(gòu)「神龍」的誕生,已經(jīng)過(guò)去整整四年。如今,其被市場(chǎng)視作阿里云的DPU,而這個(gè)頗具開(kāi)創(chuàng)性的創(chuàng)新架構(gòu),當(dāng)初是為解決傳統(tǒng)虛擬化技術(shù)應(yīng)用到云計(jì)算帶來(lái)的成本、性能、服務(wù)質(zhì)量以及安全問(wèn)題而生的。

張獻(xiàn)濤是負(fù)責(zé)阿里云神龍的核心人物,于2014年加入阿里云,彼時(shí)他已經(jīng)從事虛擬化技術(shù)研究約十年,阿里云剛走到第五個(gè)年頭。傳統(tǒng)虛擬化架構(gòu)的種種缺陷,日漸成為掣肘這家云計(jì)算公司降本增效、提升服務(wù)質(zhì)量的頑疾。

虛擬化技術(shù)是云計(jì)算的基礎(chǔ),它將原本不可分割的硬件資源抽象成共享資源池,按需分配和共享計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源。

而管理資源,就需占用掉一些原本用于運(yùn)行業(yè)務(wù)負(fù)載的CPU和內(nèi)存,也就造成了資源損耗。

比如一個(gè)工廠有100位工人,如果他們?nèi)咳チ魉€上干活,那么資源利用率是100%;但如果從中抽出10人負(fù)責(zé)統(tǒng)籌管理,那么余下只有90人在流水線上干活,利用率則降為90%。

隨著云計(jì)算業(yè)務(wù)規(guī)模持續(xù)擴(kuò)大規(guī)模,資源爭(zhēng)搶、算力損失、性能瓶頸等問(wèn)題日益嚴(yán)峻,尋求解局之道已然迫在眉睫。

經(jīng)過(guò)兩年摸索,阿里云的穩(wěn)定性不再是問(wèn)題。2016年,張獻(xiàn)濤開(kāi)始思考下一代虛擬化技術(shù)方案在哪里?什么樣的方案,才能符合阿里云未來(lái)長(zhǎng)期的發(fā)展?

神龍(X-Dragon)應(yīng)運(yùn)而生。

這是團(tuán)隊(duì)頭腦風(fēng)暴的結(jié)果。假如造出一個(gè)專(zhuān)門(mén)負(fù)責(zé)做虛擬化的架構(gòu),那么CPU的算力資源就被釋放出來(lái),能夠更聚焦于運(yùn)行云上業(yè)務(wù)。

第一代神龍正式立項(xiàng)的時(shí)間是2017年4月1日。將問(wèn)題定義出來(lái)后,張獻(xiàn)濤開(kāi)始組建團(tuán)隊(duì),從系統(tǒng)架構(gòu)設(shè)計(jì)到芯片及硬件開(kāi)發(fā),到服務(wù)器開(kāi)發(fā),再到系統(tǒng)軟件的研發(fā)適配,初始團(tuán)隊(duì)總共二十幾個(gè)人干了半年的時(shí)間,成功于2017年10月將神龍上線。

自此以后,作為處理高速數(shù)據(jù)流的高手,神龍架構(gòu)從CPU手頭接過(guò)虛擬化的重任,一路帶飛存儲(chǔ)、網(wǎng)絡(luò)、安全等關(guān)鍵性能

02.從小試牛刀,到大規(guī)模落地


一開(kāi)始,張獻(xiàn)濤其實(shí)不太接受「DPU」這個(gè)命名方式。

DPU的“D”有幾種常見(jiàn)解釋?zhuān)ā皵?shù)據(jù)”、“數(shù)據(jù)中心”、“以數(shù)據(jù)為中心”等??蓢?yán)格意義上來(lái)講,數(shù)據(jù)中心的哪個(gè)主力芯片(如CPU、GPU)不符合這些特征呢?

因此,阿里云對(duì)神龍架構(gòu)的闡述是,真正為云而生的、軟硬一體的技術(shù)架構(gòu)。在他看來(lái),未來(lái)是一個(gè)云的時(shí)代,需要這樣的技術(shù)架構(gòu)來(lái)全面解決成本、性能、安全等問(wèn)題。目前來(lái)看,DPU想做的似乎是類(lèi)似的事情,市場(chǎng)也認(rèn)為阿里云和AWS做的就是DPU。

阿里云和AWS之所以近乎“同步”地推出DPU,最直接的原因是云計(jì)算發(fā)展到一定階段后,研發(fā)人員意識(shí)到,有了這樣的數(shù)據(jù)處理架構(gòu),成本將大幅下降,同時(shí)性能會(huì)大幅提升,再加上云廠商的規(guī)?;瘍?yōu)勢(shì)能為客戶提供更有競(jìng)爭(zhēng)力的高性價(jià)比服務(wù)。

無(wú)論是阿里云的神龍,還是AWS的Nitro,早期都主攻虛擬化的性能損耗、資源損耗問(wèn)題,即成本和性能問(wèn)題。

張獻(xiàn)濤給我們算了一筆賬,那時(shí)阿里云營(yíng)收規(guī)模已經(jīng)達(dá)到上百億元,如果存儲(chǔ)、網(wǎng)絡(luò)占用約10%的CPU資源,則意味著年損失10多億元。無(wú)論從提升性能還是優(yōu)化成本的角度,研發(fā)神龍都勢(shì)在必行。

取得技術(shù)突破只是第一步。神龍上線后,如何大規(guī)模應(yīng)用成為新的挑戰(zhàn)。

阿里云先在內(nèi)部業(yè)務(wù)試水,2017年雙十一期間部署了1000臺(tái)支撐天貓大促業(yè)務(wù),成功驗(yàn)證沒(méi)有問(wèn)題。上汽集團(tuán)是第一家吃螃蟹的外部客戶,提出愿意嘗試這個(gè)新產(chǎn)品,與阿里云共擔(dān)風(fēng)險(xiǎn)。雙方一起磨了近兩個(gè)月,到臨近春節(jié),終于將穩(wěn)定性、性能等問(wèn)題通通解決。

在此類(lèi)種子客戶的支持下,阿里云神龍打磨出大規(guī)模上云的功底,并開(kāi)始成長(zhǎng)為阿里云最核心的競(jìng)爭(zhēng)力之一。

從2019年起,阿里巴巴集團(tuán)的所有業(yè)務(wù)、包括阿里云的計(jì)算類(lèi)服務(wù)全部遷至神龍架構(gòu)。到2021年10月,第四代神龍架構(gòu)問(wèn)世,其存儲(chǔ)IOPS高達(dá)300萬(wàn)、網(wǎng)絡(luò)PPS達(dá)5000萬(wàn)、網(wǎng)絡(luò)延時(shí)最低5微秒等多項(xiàng)指標(biāo)刷新業(yè)界最高水平。

根據(jù)知名國(guó)際市場(chǎng)研究機(jī)構(gòu)Gartner公布的2021年度全球云計(jì)算廠商整體能力評(píng)估報(bào)告,阿里云IaaS基礎(chǔ)設(shè)施能力超越AWS拿下全球第一,并在計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、安全四項(xiàng)核心評(píng)比中獲得最高分

03.云廠商必須自研DPU


云計(jì)算市場(chǎng)正在飛速擴(kuò)容,當(dāng)每臺(tái)云服務(wù)器中都需要一個(gè)DPU,誰(shuí)能躋身頭部,誰(shuí)就可能享受到難以估量的市場(chǎng)紅利。

僅在2021年,獲得新融資的國(guó)內(nèi)DPU企業(yè)就有不少于7家,包括湖州芯啟源、北京大禹智芯、珠海星云智聯(lián)、上海益思芯科技、深圳云豹智能、上海云脈芯聯(lián)、北京中科馭數(shù)等。

其中多數(shù)企業(yè)單筆融資額達(dá)數(shù)億元,且投資方不乏知名科技企業(yè)身影。比如,星云智聯(lián)A輪融資由美團(tuán)獨(dú)家投資,騰訊投資了云豹智能,云脈芯聯(lián)的投資方有字節(jié)跳動(dòng)、壁仞科技……

但資本只看見(jiàn)熱度,未必能看清里面的坑。

在張獻(xiàn)濤看來(lái),DPU不應(yīng)該被視作「智能網(wǎng)卡」的繼任者,智能網(wǎng)卡只解決網(wǎng)絡(luò)加速問(wèn)題,而DPU的功能遠(yuǎn)比智能網(wǎng)卡豐富。

有些DPU創(chuàng)企其實(shí)仍在做智能網(wǎng)卡,也有創(chuàng)企想在智能網(wǎng)卡的基礎(chǔ)上做演進(jìn)。但他認(rèn)為:“在一個(gè)智能網(wǎng)卡上打補(bǔ)丁是解決不了的,因?yàn)楸旧碓O(shè)計(jì)理念是不一致的?!睆募軜?gòu)層面來(lái)講,DPU的架構(gòu)是在DPU系統(tǒng)上插入一臺(tái)服務(wù)器從而解決整臺(tái)服務(wù)器相關(guān)的數(shù)據(jù)處理加速和安全及管控問(wèn)題,而智能網(wǎng)卡架構(gòu)則是在服務(wù)器上插入一個(gè)網(wǎng)卡解決網(wǎng)絡(luò)加速的問(wèn)題,二者有本質(zhì)性的區(qū)別。

形雖差之毫厘,神卻謬以千里。

自2017年推出神龍后,張獻(xiàn)濤印象中,幾乎所有DPU公司的DPU架構(gòu)、接口、功能模塊、能力實(shí)現(xiàn)等,都是仿照神龍已公開(kāi)的架構(gòu)來(lái)設(shè)計(jì)。

可為何仿照神龍?jiān)O(shè)計(jì),仍然很難做好DPU?

核心問(wèn)題出在對(duì)云業(yè)務(wù)的理解。張獻(xiàn)濤說(shuō),第三方廠商通過(guò)跟客戶、工程師溝通,只能得到對(duì)云業(yè)務(wù)需求的片面了解,所以最終做出來(lái)的效果很難滿足客戶需求。

他堅(jiān)信,云廠商必須自研DPU架構(gòu)?!叭绻皇煜ぼ浖軜?gòu)和系統(tǒng)軟件棧,不熟悉自家技術(shù)棧中哪些地方才是瓶頸,很難把它設(shè)計(jì)得很好,而這些都是外部DPU公司很難拿到的技術(shù)信息。”

換個(gè)角度來(lái)看,對(duì)云廠商而言,只有從硬件架構(gòu)到固件到軟件棧都自研,才能做到整個(gè)技術(shù)鏈路的可控,它才能成為一個(gè)負(fù)責(zé)任的云廠商。

近年云計(jì)算廠商的動(dòng)向印證了張獻(xiàn)濤的判斷。京東云研發(fā)基于自研智能芯片的虛擬化架構(gòu)京剛,谷歌云與英特爾合作研發(fā)基礎(chǔ)設(shè)施處理芯片IPU,字節(jié)跳動(dòng)宣布其自研DPU將通過(guò)火山引擎云產(chǎn)品對(duì)外服務(wù)……

“從終局上判斷,今天DPU的創(chuàng)業(yè)公司沒(méi)有太好的出路,最好的出路就是把相關(guān)業(yè)務(wù)出售,賣(mài)給有需要的云計(jì)算公司,通過(guò)被收購(gòu)變現(xiàn)。”張獻(xiàn)濤說(shuō),如果對(duì)云計(jì)算業(yè)務(wù)不夠了解,一味想把DPU做成通用架構(gòu)是很難成功的,做DPU的公司,最終都要和云廠商做產(chǎn)品和技術(shù)的共建合作,這樣成功的可能性才會(huì)提升。

DPU不適合走通用路線


“業(yè)界投資的DPU都想嘗試著做一顆通用的DPU,有的甚至想推配套的軟件技術(shù)棧作為業(yè)界標(biāo)準(zhǔn),其實(shí)出發(fā)點(diǎn)就是有問(wèn)題的。

這是因?yàn)镈PU完全由軟件定義的架構(gòu),由客戶需求或業(yè)務(wù)發(fā)展形態(tài)驅(qū)動(dòng),與客戶整個(gè)后端軟件棧結(jié)合非常緊密,很難做到通用的程度。

在張獻(xiàn)濤看來(lái),真正做出DPU,并且讓客戶規(guī)?;闷饋?lái),其實(shí)比AI芯片還要難。

關(guān)鍵難點(diǎn)在于,它的軟件生態(tài)注定培養(yǎng)不起來(lái),因?yàn)楦骷夜镜能浖夹g(shù)棧都發(fā)展多年,很難廢掉去適配一個(gè)難于自控的外部廠商推薦的技術(shù)棧,所以在三年之后,DPU領(lǐng)域一定會(huì)出現(xiàn)整合,一些公司可能會(huì)消失或者被賣(mài)掉。

DPU的使用者通常是云計(jì)算公司或做虛擬化軟件的公司。如果只是針對(duì)某一個(gè)軟件棧來(lái)做,無(wú)法實(shí)現(xiàn)通用,如果想做得非常通用,“因?yàn)楦骷业能浖6疾灰粯?,整個(gè)安全機(jī)制的設(shè)計(jì)也都不一樣,則很難和云廠商進(jìn)行適配”。

這與GPU+CUDA的邏輯不同。英偉達(dá)花了十多年研發(fā),又遇到深度學(xué)習(xí)爆發(fā)的契機(jī),才將這樣的生態(tài)穩(wěn)固下來(lái),成為業(yè)界的標(biāo)準(zhǔn)。

而在DPU領(lǐng)域,各家公司的軟件棧已經(jīng)存在,互不相同,強(qiáng)行標(biāo)準(zhǔn)化很難實(shí)現(xiàn),并且研發(fā)周期長(zhǎng)、固件很難開(kāi)放、接口的定義不一致等都是不可控的因素。

“如果想做一個(gè)統(tǒng)一的標(biāo)準(zhǔn),放之四海而皆準(zhǔn)的標(biāo)準(zhǔn)或者軟件生態(tài),是非常難的?!睆埆I(xiàn)濤解釋說(shuō),當(dāng)每家軟件棧不一樣時(shí),DPU要處理的數(shù)據(jù)格式也都不同,因此很難將這樣的一個(gè)完全固化、做出統(tǒng)一的東西

05.配合軟件迭代節(jié)奏,升級(jí)安全可信功能


經(jīng)過(guò)四年的歷練,神龍架構(gòu)積累了哪些優(yōu)勢(shì)?又如何取得超越AWS Nitro的性能?

張獻(xiàn)濤首先提到「快速迭代」。

做軟硬融合,需要架構(gòu)隨著軟件迭代而升級(jí)改造。研發(fā)一顆ASIC的周期大概是24個(gè)月起步,這對(duì)于互聯(lián)網(wǎng)軟件迭代的節(jié)奏來(lái)說(shuō),實(shí)在太久了。

因此,阿里云神龍采用FPGA的模式來(lái)做,并且做到了FPGA和配套系統(tǒng)軟件全面在線實(shí)時(shí)熱升級(jí)的能力,以便每周均可升級(jí),通過(guò)靈活地持續(xù)優(yōu)化,最終實(shí)現(xiàn)更極致的性能。

到今天為止,最適合做DPU的還是可編程可升級(jí)的FPGA。”張獻(xiàn)濤亦談到選用FPGA的局限性,隨著將更多功能做到DPU里,F(xiàn)PGA的邏輯單元數(shù)等可能會(huì)制約DPU的發(fā)展,這就更需要技術(shù)人員不浪費(fèi)每一個(gè)邏輯單元把必要功能和性能做到極致。

要做出好的DPU,對(duì)于「軟硬件融合設(shè)計(jì)的理解」也必須到位。這是一個(gè)從軟件、硬件到對(duì)應(yīng)固件和上層系統(tǒng)不斷迭代的過(guò)程。

軟硬件之間的接口甚至寄存器的設(shè)計(jì),都需與軟件充分融合,如果企業(yè)對(duì)自己的軟件掌握程度很高,又對(duì)軟硬件協(xié)同的思路、對(duì)架構(gòu)和相關(guān)協(xié)議理解深刻,才能逐步打磨好性能。

第一代神龍的網(wǎng)絡(luò)轉(zhuǎn)發(fā)做到了每秒600萬(wàn)數(shù)據(jù)包,當(dāng)時(shí)Nitro大約為每秒300萬(wàn);經(jīng)過(guò)更多數(shù)據(jù)鏈路上的任務(wù)改用硬件加速,第三代神龍做到2400萬(wàn),最新一代更是做到了5000萬(wàn)。傳統(tǒng)RDMA組網(wǎng)能力通常為千臺(tái)規(guī)模,而第四代神龍的eRDMA組網(wǎng)能力可至數(shù)10萬(wàn)臺(tái),真正實(shí)現(xiàn)了RDMA能力的通用化和平民化,助力高性能計(jì)算以及當(dāng)前流行的云原生軟件架構(gòu)的發(fā)展需求。

此外,新一代神龍加入了對(duì)「可信計(jì)算與加密計(jì)算」的支持,實(shí)現(xiàn)系統(tǒng)可信防篡改與數(shù)據(jù)可用不可見(jiàn),確保客戶對(duì)「安全」的要求。

后續(xù)阿里云計(jì)劃在所有數(shù)據(jù)鏈路經(jīng)過(guò)神龍架構(gòu)時(shí)做更多預(yù)處理,從而大大提升DPU的計(jì)算效率。原來(lái)計(jì)算1萬(wàn)條數(shù)據(jù),所有數(shù)據(jù)都落到內(nèi)存里挨個(gè)算,現(xiàn)在做預(yù)處理后可能只需要計(jì)算50條,這樣一來(lái),效率就提升了數(shù)倍。

據(jù)張獻(xiàn)濤透露,接下來(lái),除了做到速度更快、帶寬更高、延遲更低、每秒IO次數(shù)更多外,神龍架構(gòu)還將在性能、穩(wěn)定性、安全性方面層層加碼,推動(dòng)神龍作為加密計(jì)算的載體

06.結(jié)語(yǔ):未來(lái)走向,破解內(nèi)存墻難題


隨著DPU一路走俏,云計(jì)算廠商陸續(xù)通過(guò)自研或投資的方式謀篇這一賽道,一些DPU設(shè)計(jì)創(chuàng)企亦開(kāi)始嶄露頭角。

“我們2017年神龍的架構(gòu)就公開(kāi)了,大家都在follow這個(gè)標(biāo)準(zhǔn)來(lái)做,今天發(fā)展到這樣的程度,我們覺(jué)得還是挺欣慰的?!睆埆I(xiàn)濤認(rèn)為,DPU發(fā)展正在走入正軌,更多人意識(shí)到它的重要性對(duì)于業(yè)界是一件好事,它將提升整個(gè)云計(jì)算的效率。

DPU本質(zhì)上是一種基礎(chǔ)軟硬件協(xié)同設(shè)計(jì)的系統(tǒng),從研發(fā)出來(lái)到一些種子用戶去用起來(lái),需要兩三年時(shí)間。他相信,未來(lái)兩到三年內(nèi),DPU的熱度都將持續(xù),但到一定的階段,它會(huì)像今天做AI芯片一樣走向收斂,一些不正確的思路將被逐漸淘汰掉。

面向未來(lái),DPU領(lǐng)域可做的東西還很多。

比如新興的存內(nèi)計(jì)算,本質(zhì)上要解決的問(wèn)題與DPU是一致的,即如何減少數(shù)據(jù)搬移,從而提升計(jì)算效率和降低功耗。所有數(shù)據(jù)經(jīng)過(guò)DPU時(shí)都可以進(jìn)行一次存內(nèi)計(jì)算過(guò)濾,只有有效的數(shù)據(jù)才會(huì)進(jìn)入主CPU內(nèi)存,這樣整個(gè)計(jì)算系統(tǒng)的性能也將會(huì)數(shù)倍的提升。

“縱觀未來(lái),你會(huì)發(fā)現(xiàn)尤其是今天異構(gòu)計(jì)算變成潮流的情況下,幾乎所有DPU努力的方向都是為了解決掉內(nèi)存墻帶來(lái)數(shù)據(jù)處理效率下降的問(wèn)題。”張獻(xiàn)濤相信,未來(lái)DPU的發(fā)展值得期待,并將一定和某種業(yè)務(wù)結(jié)合度越來(lái)越高。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: DFU

技術(shù)專(zhuān)區(qū)

關(guān)閉