中國移動(dòng)發(fā)布了一顆芯片:本土首顆400Gbps DPU
自去年ChatGPT發(fā)布以來,數(shù)據(jù)中心的芯片需求迎來了新一輪的上升周期。當(dāng)中尤其以英偉達(dá)GPU的表現(xiàn)最為亮眼。與此同時(shí),作為芯片最終買家的云廠商也開始以自研或跟芯片廠商合作的方式涉足數(shù)據(jù)中心核心芯片的開發(fā)。
美國的亞馬遜云(AWS)2017年最先實(shí)現(xiàn)了DPU芯片(AWS稱之為Nitro)的商業(yè)化成功部署,AWS在使用自研DPU芯片后,使其實(shí)現(xiàn)了巨大收益;谷歌依托于自身對(duì)業(yè)務(wù)的深刻理解及與Broadcom等芯片公司的緊密合作,成功迭代和推出了多代自研TPU芯片。
近日,國內(nèi)的“云大戶”中國移動(dòng)也帶來自己的DPU芯片“磐石”——本土首顆400Gbps帶寬的DPU ASIC芯片,實(shí)現(xiàn)關(guān)鍵技術(shù)自主可控。考慮到DPU對(duì)數(shù)據(jù)中心和云業(yè)務(wù)的重要性,相信這將為近年來大力發(fā)展云業(yè)務(wù)的中國移動(dòng)打下夯實(shí)基礎(chǔ),并為其帶來獨(dú)特的競爭力。
圖:中國移動(dòng)磐石DPU V4.0
DPU,第三顆主力芯片
所謂DPU(Data Processing Unit),也就是數(shù)據(jù)處理單元。顧名思義,這是一種專門為數(shù)據(jù)處理而設(shè)計(jì)的芯片。作為繼CPU、GPU以外的第三顆主力芯片, DPU成為了幾乎所有云廠商甚至海外芯片巨頭的關(guān)注目標(biāo)。例如英偉達(dá)耗資69億美元收購Mellanox,AMD花費(fèi)19億美元收購Pensando ,就是為了DPU。
由中國移動(dòng)協(xié)同云豹智能和信通院聯(lián)合撰寫的DPU白皮書《云計(jì)算通用可編程DPU發(fā)展白皮書(2023年)》中指出:“隨著人類生產(chǎn)力進(jìn)入算力時(shí)代,傳統(tǒng)以 CPU 為核心的架構(gòu)正在遭受算力瓶頸考驗(yàn),多樣化算力需求亟需軟硬件架構(gòu)全面變革,算力技術(shù)發(fā)展必將遵循‘軟件定義一切,硬件加速一切’的理念,重構(gòu)算力基礎(chǔ)設(shè)施,通用可編程加速單元 DPU 將成為新的算力核心,重新定義算力時(shí)代云計(jì)算技術(shù)新標(biāo)準(zhǔn),構(gòu)建算力時(shí)代新技術(shù)曲線?!?/span>
但其實(shí)在DPU面世以前,這款芯片還是經(jīng)歷了幾代的變遷。
在一開始的時(shí)候,數(shù)據(jù)中心的數(shù)據(jù)處理工作都是由CPU完成,而網(wǎng)絡(luò)傳輸任務(wù)則由專門的傳統(tǒng)基礎(chǔ)網(wǎng)卡NIC(又稱網(wǎng)絡(luò)接口卡)處理。具體工作流程就是NIC將用戶需要傳輸?shù)臄?shù)據(jù)轉(zhuǎn)換為網(wǎng)絡(luò)設(shè)備能夠識(shí)別的格式,然后把數(shù)據(jù)交由CPU處理。
但隨著網(wǎng)絡(luò)規(guī)模的不斷增加和新需求的不斷出現(xiàn),網(wǎng)絡(luò)和存儲(chǔ)的數(shù)據(jù)量不斷增加,進(jìn)而驅(qū)動(dòng)數(shù)據(jù)中心中的網(wǎng)卡端口速率從 10G 快速向 25G、100G甚至200G 及以上演進(jìn),給CPU帶來新的壓力。這個(gè)時(shí)候,一種旨在減輕 CPU 的部分處理負(fù)載,進(jìn)一步提高數(shù)據(jù)中心效率的智能網(wǎng)卡(SmartNIC)就進(jìn)入了大眾的視野。據(jù)了解,智能網(wǎng)卡 SmartNIC 除了具備傳統(tǒng)基礎(chǔ)網(wǎng)卡的網(wǎng)絡(luò)傳輸功能外,還提供一定的硬件卸載和加速能力,釋放主機(jī) CPU的部分計(jì)算資源。
然而,在后續(xù)的發(fā)展中,SmartNIC也捉襟見肘。例如,因?yàn)闆]有包含通用處理器 CPU,意味著仍然需要主機(jī) CPU進(jìn)行控制面管理及網(wǎng)絡(luò)和存儲(chǔ)等協(xié)議的大部分處理,繼續(xù)消耗大量主機(jī)Host資源。而且,隨著數(shù)據(jù)中心網(wǎng)絡(luò)速率向100G及200G甚至更高速率的不斷提高,主機(jī)不但仍會(huì)消耗大量寶貴的通用CPU資源對(duì)流量進(jìn)行分類、跟蹤和控制,而且其性能也已經(jīng)無法滿足更高網(wǎng)絡(luò)速率及存儲(chǔ)帶寬的需求。
于是,如何實(shí)現(xiàn)主機(jī) CPU 的“零消耗”及解鎖數(shù)據(jù)中心向更大規(guī)模及更高帶寬的演進(jìn),成了云廠商下一步的研究方向,DPU也應(yīng)運(yùn)而生。
從設(shè)計(jì)上看,DPU通過在硬件架構(gòu)上增加通用處理單元CPU和豐富的硬件加速單元,從而便于實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)、存儲(chǔ)、安全和管控等通用基礎(chǔ)設(shè)施的加速和全卸載。其產(chǎn)品形態(tài)主要有NP/MP+CPU,F(xiàn)PGA+CPU和單芯片ASIC方案。據(jù)了解,在發(fā)展早期,基于FPGA的可編程性的FPGA+CPU多芯片方案成為了行業(yè)首選。
除了亞馬遜以外,大部分云廠商尤其是國內(nèi)的云廠商,如:阿里、騰訊、百度等,都用的傳統(tǒng)FPGA+CPU方案,其競爭壓力也隨之而至。隨著帶寬流量的進(jìn)一步增加,擁有價(jià)格和性能優(yōu)勢、兼顧專用加速器的優(yōu)異性能和內(nèi)嵌通用處理器的靈活性可編程ASIC單芯片方案成為了行業(yè)的最終選擇,而國內(nèi)的云廠商也正在尋求從FPGA+CPU方案到ASIC方案的演變,這最終驅(qū)使中國移動(dòng)自研了采用ASIC的DPU芯片“磐石”。
磐石,取得重大突破
從產(chǎn)品應(yīng)用角度看,如何才稱得上一顆有競爭優(yōu)勢的DPU?
在我們看來,它首先應(yīng)該能夠支持高速低時(shí)延網(wǎng)絡(luò),因?yàn)檫@是這個(gè)芯片的首要任務(wù);其次,我們還希望這個(gè)DPU能夠引入高性能通用多核CPU、可編程硬件加速器,以期在提供可編程性和通用處理能力的同時(shí),還能滿足人工智能、分析和安全操作等差異化特定任務(wù)的執(zhí)行。
中國移動(dòng)的這顆芯片帶寬為400Gbps,緊密契合了當(dāng)前的數(shù)據(jù)中心高帶寬需求,我們可以肯定地說,中國移動(dòng)“磐石”DPU芯片的成功研發(fā),是我國國產(chǎn)芯片領(lǐng)域取得的重大技術(shù)突破。
熟悉的讀者應(yīng)該清楚地知道,數(shù)據(jù)中心服務(wù)器的集成度越來越高。無論是x86還是Arm等架構(gòu)服務(wù)器的CPU芯片,都在向單芯片幾百個(gè)甚至更多CPU集成,密度都在不斷增加;同時(shí),網(wǎng)絡(luò)存儲(chǔ)也正在向基于低時(shí)延以太網(wǎng)技術(shù)的彈性存儲(chǔ)方向發(fā)展,這增加了對(duì)高帶寬低時(shí)延以太網(wǎng)的需求;再者,私有云應(yīng)用程序和虛擬桌面基礎(chǔ)設(shè)施的增加對(duì)網(wǎng)絡(luò)提出了額外的要求;最后,物聯(lián)網(wǎng)和邊緣的海量數(shù)據(jù)積累正在增加對(duì)網(wǎng)絡(luò)的帶寬要求。
疊加AI帶來的新需求,400Gbps洶涌而至,這也讓磐石DPU的發(fā)布恰逢其時(shí)。據(jù)介紹,磐石DPU的面世,不但將國產(chǎn)DPU芯片的最高傳輸速率提升到一個(gè)新臺(tái)階,也讓國內(nèi)另一運(yùn)營商基于海外FPGA+CPU多芯片方案的DPU等相形見絀。
值得一提的是,隨著該芯片的面世,國產(chǎn)DPU還首次演進(jìn)到世界頂尖水平——該芯片帶寬和全球領(lǐng)先的英偉達(dá)BlueField-3 DPU達(dá)到同一水平。
據(jù)公開資料介紹,磐石DPU芯片擁有400Gbps的數(shù)據(jù)傳輸能力,將國產(chǎn)DPU芯片最高傳輸速率提升一倍,達(dá)到全球頂尖水平。該芯片擁有每秒處理百萬個(gè)數(shù)據(jù)包的存儲(chǔ)能力,遠(yuǎn)程直接存取數(shù)據(jù)(RDMA)的時(shí)延低至5微秒。同時(shí),還具有低功耗、低成本特性,依托該芯片打造的磐石DPU硬件板卡,較上一代硬件板卡功耗下降50%,成本下降50%。中國移動(dòng)推出“磐石”DPU芯片以后,無疑將為其云服務(wù)帶來巨大收益,也將為其客戶帶來更高性價(jià)比的產(chǎn)品方案,這也給國內(nèi)其他云服務(wù)商帶來更大的壓力。
我們認(rèn)為,“磐石”DPU芯片將有力推動(dòng)我國DPU關(guān)鍵技術(shù)自主可控、硬件架構(gòu)持續(xù)優(yōu)化、生態(tài)布局不斷完善。中國移動(dòng)在發(fā)布會(huì)上進(jìn)一步指出,該芯片將廣泛應(yīng)用于中國移動(dòng)數(shù)據(jù)中心建設(shè),支撐通用計(jì)算、智能計(jì)算等業(yè)務(wù)場景,為云計(jì)算、邊緣計(jì)算、大數(shù)據(jù)處理、AI大模型訓(xùn)練等領(lǐng)域提供更安全、可靠、高效的技術(shù)支持,助力我國大數(shù)據(jù)、人工智能、算力網(wǎng)絡(luò)高速發(fā)展。
眾所周知,打造一個(gè)DPU ASIC并不是一件很容易的事情,這也是為何大部分廠商基于FPGA打造相關(guān)解決方案。從目前看來,與ASIC的方案相比,基于FPGA的多芯片方案功耗高、成本高,且對(duì)用戶的研發(fā)要求高、人力投入大,還不能靈活移植各種應(yīng)用。更重要的是,這些方案采用的高性能FPGA芯片及配合的CPU芯片均是由海外廠商提供。
這就讓中國移動(dòng)協(xié)同生態(tài)伙伴自研的這顆400Gbps國產(chǎn)DPU芯片,在國家大力發(fā)展新質(zhì)生產(chǎn)力戰(zhàn)略上顯得更有意義。
寫在最后
作為國內(nèi)領(lǐng)先的運(yùn)營商,中國移動(dòng)在過去幾年頻頻通過旗下的企業(yè)投身芯片自研。
例如在2023年6月,中國移動(dòng)旗下的中移物聯(lián)正式發(fā)布全球首顆RISC-V架構(gòu)的LTE-Cat.1芯片(CM8610 LTE-Cat.1芯片)和中國移動(dòng)首顆量產(chǎn)的蜂窩物聯(lián)網(wǎng)通信芯片(CM6620 NB-IoT芯片;當(dāng)年八月,中國移動(dòng)又發(fā)布了一顆核心自主創(chuàng)新成果“破風(fēng)8676”可重構(gòu)5G射頻收發(fā)芯片。按照中國移動(dòng)的描述,這些芯片不但能夠提升公司產(chǎn)品的性能表現(xiàn),同時(shí)還為國內(nèi)自主可控事業(yè)添磚加瓦。
在“磐石”DPU面世后,中國移動(dòng)的自研芯片業(yè)務(wù)又上了一個(gè)新臺(tái)階。期待他們在未來給我們帶來更多的驚喜。
來源:半導(dǎo)體行業(yè)觀察
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。