行業(yè)首部DPU白皮書出爐！比肩CPU/GPU的數(shù)據(jù)時(shí)代核芯，巨頭紛紛入場(chǎng)

發(fā)布人：傳感器技術(shù) 時(shí)間：2021-11-08 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

DPU，繼CPU和GPU之后的“第三顆主力芯片”。

編輯 | 智東西內(nèi)參

近日，中科院計(jì)算所行業(yè)首次發(fā)布了報(bào)告《專用數(shù)據(jù)處理器 (DPU)白皮書》。DPU（Data Processing Unit）是以數(shù)據(jù)為中心構(gòu)造的專用處理器，采用軟件定義技術(shù)路線支撐基礎(chǔ)設(shè)施層資源虛擬化，支持存儲(chǔ)、安全、服務(wù)質(zhì)量管理等基礎(chǔ)設(shè)施層服務(wù)。

DPU正在開啟一個(gè)巨大的產(chǎn)業(yè)化趨勢(shì)，可以為下一代數(shù)據(jù)中心、5G邊緣計(jì)算、云計(jì)算提供核心組件。2020年NVIDIA公司發(fā)布的DPU產(chǎn)品戰(zhàn)略中將其定位為數(shù)據(jù)中心繼CPU和GPU之后的“第三顆主力芯片”，掀起了一波行業(yè)熱潮。DPU的出現(xiàn)是異構(gòu)計(jì)算的一個(gè)階段性標(biāo)志。

我們推薦中科院計(jì)算所的報(bào)告《專?數(shù)據(jù)處理器 (DPU)白皮書》，重點(diǎn)分析DPU產(chǎn)生的背景、技術(shù)特征和發(fā)展趨勢(shì)

來(lái)源中科院計(jì)算所

原標(biāo)題：

《專?數(shù)據(jù)處理器 (DPU)白皮書》

作者：鄢貴海等

什么是DPU

1、怎么理解DPU的“D”

與GPU的發(fā)展類似，DPU是應(yīng)用驅(qū)動(dòng)的體系結(jié)構(gòu)設(shè)計(jì)的又一典型案例；但與GPU不同的是，DPU面向的應(yīng)用更加底層。DPU要解決的核心問(wèn)題是基礎(chǔ)設(shè)施的“降本增效”，即將“CPU處理效率低下、GPU處理不了”的負(fù)載卸載到專用DPU，提升整個(gè)計(jì)算系統(tǒng)的效率、降低整體系統(tǒng)的總體擁有成本（TCO）。DPU的出現(xiàn)也許是體系結(jié)構(gòu)朝著專用化路線發(fā)展的又一個(gè)里程碑。

DPU中的“D”有三種解釋：（1）Data Processing Unit，即數(shù)據(jù)處理器。這種解釋把“數(shù)據(jù)”放在核心位置，區(qū)別于信號(hào)處理器、基帶處理器等通信相關(guān)的處理器對(duì)應(yīng)的“信號(hào)”，也區(qū)別于GPU對(duì)應(yīng)的圖形圖像類數(shù)據(jù)，這里的“數(shù)據(jù)”主要指數(shù)字化以后的各種信息，特別是各種時(shí)序化、結(jié)構(gòu)化的數(shù)據(jù)，比如大型的結(jié)構(gòu)化表格，網(wǎng)絡(luò)流中的數(shù)據(jù)包，海量的文本等等。DPU就是處理這類數(shù)據(jù)的專用引擎。

（2）Datacenter Processing Unit，即數(shù)據(jù)中心處理器。這種解釋把數(shù)據(jù)中心作為DPU的應(yīng)用場(chǎng)景，特別是隨著WSC（Warehouse-scale Computer）的興起，不同規(guī)模的數(shù)據(jù)中心成為了IT核心基礎(chǔ)設(shè)施。目前來(lái)看，DPU確實(shí)在數(shù)據(jù)中心中使用前景非常廣闊。但是計(jì)算中心的三大部分：計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)，計(jì)算部分是CPU占主導(dǎo)，GPU輔助；網(wǎng)絡(luò)部分是路由器和交換機(jī)，存儲(chǔ)部分是高密度磁盤構(gòu)成的的RAID系統(tǒng)和SSD為代表非易失性存儲(chǔ)系統(tǒng)。在計(jì)算和網(wǎng)絡(luò)中扮演數(shù)據(jù)處理的芯片都可以稱之為Datacenter Processing Unit，所以這種說(shuō)法相對(duì)比較片面。

（3）Data-centric Processing Unit，即以數(shù)據(jù)為中心的處理器。Data-centric，即數(shù)據(jù)為中心，是處理器設(shè)計(jì)的一種理念，相對(duì)于“Control-centric”即控制為中心。經(jīng)典的馮諾依曼體系結(jié)構(gòu)就是典型的控制為中心的結(jié)構(gòu)，在馮諾依曼經(jīng)典計(jì)算模型中有控制器、計(jì)算器、存儲(chǔ)器、輸入和輸出，在指令系統(tǒng)中的表現(xiàn)是具有一系列非常復(fù)雜的條件跳轉(zhuǎn)和尋址指令。

而數(shù)據(jù)為中心的理念與數(shù)據(jù)流（Data Flow）計(jì)算一脈相承，是一種實(shí)現(xiàn)高效計(jì)算的方法。同時(shí)，現(xiàn)在試圖打破訪存墻（Memory Wall）的各種近存（Near-memory）計(jì)算、存內(nèi)（In-memory）計(jì)算、存算一體等技術(shù)路線，也符合數(shù)據(jù)為中心的設(shè)計(jì)理念。

總體來(lái)說(shuō)，DPU有四大應(yīng)用方向，應(yīng)用于網(wǎng)絡(luò)、存儲(chǔ)和安全場(chǎng)景：

（1）、DPU最直接的作用是作為CPU的卸載引擎，接管網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)施層服務(wù)，釋放CPU的算力到上層應(yīng)用；

（2）、DPU可以成為新的數(shù)據(jù)網(wǎng)關(guān)，將安全隱私提升到一個(gè)新的高度。在網(wǎng)絡(luò)環(huán)境下，網(wǎng)絡(luò)接口是理想的隱私的邊界，但是加密、解密算法開銷都很大，例如國(guó)密標(biāo)準(zhǔn)的非對(duì)稱加密算法SM2、哈希算法SM3和對(duì)稱分組密碼算法SM4。

如果用CPU來(lái)處理，就只能做少部分?jǐn)?shù)據(jù)量的加密。在未來(lái)，隨著區(qū)塊鏈承載的業(yè)務(wù)的逐漸成熟，運(yùn)行共識(shí)算法POW，驗(yàn)簽等也會(huì)消耗掉大量的CPU算力。而這些都可以通過(guò)將其固化在DPU中來(lái)實(shí)現(xiàn)，甚至DPU將成為一個(gè)可信根。

（3）、DPU也可以成為存儲(chǔ)的入口，將分布式的存儲(chǔ)和遠(yuǎn)程訪問(wèn)本地化。隨著SSD性價(jià)比逐漸可接受，部分存儲(chǔ)遷移到SSD器件上已經(jīng)成為可能，傳統(tǒng)的面向機(jī)械硬盤的SATA協(xié)議并不適用于SSD存儲(chǔ)，所以，將SSD通過(guò)本地PCIe或高速網(wǎng)絡(luò)接入系統(tǒng)就成為必選的技術(shù)路線。

（4）、DPU還可以成為算法加速的沙盒，成為最靈活的加速器載體。DPU不完全是一顆固化的ASIC，在CXL、CCIX等標(biāo)準(zhǔn)組織所倡導(dǎo)CPU、GPU與DPU等數(shù)據(jù)一致性訪問(wèn)協(xié)議的鋪墊下，將更進(jìn)一步掃清DPU編程障礙，結(jié)合FPGA等可編程器件，可定制硬件將有更大的發(fā)揮空間，“軟件硬件化”將成為常態(tài)，異構(gòu)計(jì)算的潛能將因各種DPU的普及而徹底發(fā)揮出來(lái)。

2、DPU與CPU、GPU的關(guān)系

CPU是整個(gè)IT生態(tài)的定義者，無(wú)論是服務(wù)器端的x86還是移動(dòng)端的ARM，都各自是構(gòu)建了穩(wěn)固的生態(tài)系統(tǒng)，不僅形成技術(shù)生態(tài)圈，還形成了閉合價(jià)值鏈。

GPU是執(zhí)行規(guī)則計(jì)算的主力芯片，如圖形渲染。經(jīng)過(guò)NVIDIA對(duì)通用GPU（GPGPU）和CUDA編程框架的推廣，GPU在數(shù)據(jù)并行的任務(wù)如圖形圖像、深度學(xué)習(xí)、矩陣運(yùn)算等方面成為了主力算力引擎，并且成為了高性能計(jì)算最重要的輔助計(jì)算單元。2021年6月公布的Top500高性能計(jì)算機(jī)（超級(jí)計(jì)算機(jī)）的前10名中，有六臺(tái)（第2、3、5、6、8、9名）都部署有NVIDIA的GPU。

數(shù)據(jù)中心與超極計(jì)算機(jī)不同，后者主要面向科學(xué)計(jì)算，如大飛機(jī)研制，石油勘探、新****物研發(fā)、氣象預(yù)報(bào)、電磁環(huán)境計(jì)算等應(yīng)用，性能是主要指標(biāo)，對(duì)接入帶寬要求不高；但數(shù)據(jù)中心面向云計(jì)算商業(yè)化應(yīng)用，對(duì)接入帶寬，可靠性、災(zāi)備、彈性擴(kuò)展等要求更高，與之相適應(yīng)發(fā)展起來(lái)的虛擬機(jī)、容器云、并行編程框、內(nèi)容分發(fā)網(wǎng)等等技術(shù)，都是為了更好的支撐上層商業(yè)應(yīng)用如電商、支付、視頻流、網(wǎng)盤、辦公OA等。

但是這些IaaS和PaaS層的服務(wù)開銷極大，Amazon曾公布AWS的系統(tǒng)開銷在30%以上。如果需要實(shí)現(xiàn)更好的QoS，在網(wǎng)絡(luò)、存儲(chǔ)、安全等基礎(chǔ)設(shè)施服務(wù)上的開銷還會(huì)更高。

這些基礎(chǔ)層應(yīng)用類型與CPU架構(gòu)匹配程度不高導(dǎo)致計(jì)算效率低下?，F(xiàn)有的CPU的架構(gòu)有兩個(gè)大類：多核架構(gòu)（數(shù)個(gè)或數(shù)十幾個(gè)核）和眾核架構(gòu)（數(shù)百個(gè)核以上），每種架構(gòu)支持唯一的規(guī)范通用指令集之一，如x86、ARM等。以指令集為界，軟件和硬件被劃分開來(lái)分別獨(dú)立發(fā)展，迅速的催生了軟件產(chǎn)業(yè)和微處理器產(chǎn)業(yè)的協(xié)同發(fā)展。

但是，隨著軟件復(fù)雜度的上升，軟件的生產(chǎn) 率（Productivity）得到更多的重視，軟件工程學(xué)科也更加關(guān)注如何高效地構(gòu)建大型軟件系統(tǒng)，而非如何用更少的硬件資源獲得盡可能高的執(zhí)行性能。

業(yè)界有個(gè)被戲稱的“安迪比爾定律”，其內(nèi)容是“What Andy gives, Bill takes away”，安迪（Andy）指英特爾前CEO安迪·格魯夫，比爾（Bill）指微軟前任CEO比爾·蓋茨，意為硬件提高的性能，很快被軟件消耗掉了。

正如CPU在處理圖像處理時(shí)不夠高效一樣，現(xiàn)在有大量的基礎(chǔ)層應(yīng)用CPU處理起來(lái)也比較低效，例如網(wǎng)絡(luò)協(xié)議處理，交換路由計(jì)算，加密解密，數(shù)據(jù)壓縮等這類計(jì)算密集的任務(wù)，還有支持分布式處理的數(shù)據(jù)一致性協(xié)議如RAFT等。

這些數(shù)據(jù)或者通過(guò)從網(wǎng)絡(luò)IO接入系統(tǒng)，或者通過(guò)板級(jí)高速PCIe總線接入系統(tǒng)，再通過(guò)共享主存經(jīng)由DMA機(jī)制將數(shù)據(jù)提供給CPU或GPU來(lái)處理。既要處理大量的上層應(yīng)用，又要維持底層軟件的基礎(chǔ)設(shè)施，還要處理各種特殊的IO類協(xié)議，復(fù)雜的計(jì)算任務(wù)讓CPU不堪重負(fù)。

這些基礎(chǔ)層負(fù)載給“異構(gòu)計(jì)算”提供了一個(gè)廣闊的發(fā)展空間。將這些基礎(chǔ)層負(fù)載從CPU上卸載下來(lái)，短期內(nèi)可以“提質(zhì)增效”，長(zhǎng)遠(yuǎn)來(lái)看還為新的業(yè)務(wù)增長(zhǎng)提供技術(shù)保障。DPU將有望成為承接這些負(fù)載的代表性芯片，與CPU和GPU優(yōu)勢(shì)互補(bǔ)，建立起一個(gè)更加高效的算力平臺(tái)。

可以預(yù)測(cè)，用于數(shù)據(jù)中心的DPU的量將達(dá)到和數(shù)據(jù)中心服務(wù)器等量的級(jí)別，每年千萬(wàn)級(jí)新增，算上存量的替代，估算五年總體的需求量將突破兩億顆，超過(guò)獨(dú)立GPU卡的需求量。每臺(tái)服務(wù)器可能沒有GPU，但必須有DPU，好比每臺(tái)服務(wù)器都必須配網(wǎng)卡一樣。

3、異構(gòu)計(jì)算的階段性標(biāo)志

DPU的出現(xiàn)是異構(gòu)計(jì)算的又一個(gè)階段性標(biāo)志。摩爾定律放緩使得通用CPU性能增長(zhǎng)的邊際成本迅速上升，數(shù)據(jù)表明現(xiàn)在CPU的性能年化增長(zhǎng)（面積歸一化之后）僅有3%左右，但計(jì)算需求卻是爆發(fā)性增長(zhǎng)，這幾乎是所有專用計(jì)算芯片得以發(fā)展的重要背景因素。

摩爾定律的放緩與全球數(shù)據(jù)量的爆發(fā)這個(gè)正在迅速激化的矛盾通常被作為處理器專用化的大背景，正所謂硅的摩爾定律雖然已經(jīng)明顯放緩，但“數(shù)據(jù)摩爾定律”已然到來(lái)。IDC的數(shù)據(jù)顯示，全球數(shù)據(jù)量在過(guò)去10年年均復(fù)合增長(zhǎng)率接近50%，并進(jìn)一步預(yù)測(cè)每四個(gè)月對(duì)于算力的需求就會(huì)翻一倍。

因此必須要找到新的可以比通用處理器帶來(lái)更快算力增長(zhǎng)的計(jì)算芯片，DPU于是應(yīng)運(yùn)而生。這個(gè)大背景雖然有一定的合理性，但是還是過(guò)于模糊，并沒有回答DPU之所以新的原因是什么，是什么“量變”導(dǎo)致了“質(zhì)變”？

從現(xiàn)在已經(jīng)公布的各個(gè)廠商的DPU架構(gòu)來(lái)看，雖然結(jié)構(gòu)有所差異，但都不約而同強(qiáng)調(diào)網(wǎng)絡(luò)處理能力。從這個(gè)角度看，DPU是一個(gè)強(qiáng)IO型的芯片，這也是DPU與CPU最大的區(qū)別。CPU的IO性能主要體現(xiàn)在高速前端總線（在Intel的體系里稱之為FSB，F(xiàn)ront Side Bus），CPU通過(guò)FSB連接北橋芯片組，然后連接到主存系統(tǒng)和其他高速外設(shè)（主要是PCIe設(shè)備）。目前更新的CPU雖然通過(guò)集成存儲(chǔ)控制器等手段弱化了北橋芯片的作用，但本質(zhì)是不變的。

DPU的IO帶寬幾乎可以與網(wǎng)絡(luò)帶寬等同，例如，網(wǎng)絡(luò)支持25G，那么DPU就要支持25G。從這個(gè)意義上看，DPU繼承了網(wǎng)卡芯片的一些特征，但是不同于網(wǎng)卡芯片，DPU不僅僅是為了解析鏈路層的數(shù)據(jù)幀，而是要做直接的數(shù)據(jù)內(nèi)容的處理，進(jìn)行復(fù)雜的計(jì)算。所以，DPU是在支持強(qiáng)IO基礎(chǔ)上的具備強(qiáng)算力的芯片。簡(jiǎn)言之，DPU是一個(gè)IO密集型的芯片；相較而言，DPU還是一個(gè)計(jì)算密集型芯片。

進(jìn)一步地，通過(guò)比較網(wǎng)絡(luò)帶寬的增長(zhǎng)趨勢(shì)和通用CPU性能增長(zhǎng)趨勢(shì)，能發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象：帶寬性能增速比（RBP，Ratio of Bandwidth andPerformance growth rate）失調(diào)。RBP定義為網(wǎng)絡(luò)帶寬的增速比上CPU性能增速，即RBP=BW GR/Perf. GR如下圖所示，以Mellanox的ConnectX系列網(wǎng)卡帶寬作為網(wǎng)絡(luò)IO的案例，以Intel的系列產(chǎn)品性能作為CPU的案例，定義一個(gè)新指標(biāo)“帶寬性能增速比”來(lái)反應(yīng)趨勢(shì)的變化。

2010年前，網(wǎng)絡(luò)的帶寬年化增長(zhǎng)大約是30%，到2015年微增到35%，然后在近年達(dá)到45%。相對(duì)應(yīng)的，CPU的性能增長(zhǎng)從10年前的23%，下降到12%，并在近年直接降低到3%。在這三個(gè)時(shí)間段內(nèi)，RBP指標(biāo)從1附近，上升到3，并在近年超過(guò)了10！如果在網(wǎng)絡(luò)帶寬增速與CPU性能增速近乎持平，RGR～1，IO壓力尚未顯現(xiàn)出來(lái)，那么當(dāng)目前RBP達(dá)到10倍的情形下，CPU幾乎已經(jīng)無(wú)法直接應(yīng)對(duì)網(wǎng)絡(luò)帶寬的增速。RBP指標(biāo)在近幾年劇增也許是DPU終于等到機(jī)會(huì)“橫空出世”的重要原因之一。

4、DPU發(fā)展歷程

隨著云平臺(tái)虛擬化技術(shù)的發(fā)展，智能網(wǎng)卡的發(fā)展基本可以分為三個(gè)階段：

隨著越來(lái)越多的功能加入到智能網(wǎng)卡中，其功率將很難限制在75W之內(nèi)，這樣就需要獨(dú)立的供電系統(tǒng)。所以，未來(lái)的智能網(wǎng)卡形態(tài)可能有三種形態(tài)：

（1）獨(dú)立供電的智能網(wǎng)卡，需要考慮網(wǎng)卡狀態(tài)與計(jì)算服務(wù)之間低層信號(hào)識(shí)別，在計(jì)算系統(tǒng)啟動(dòng)的過(guò)程中或者啟動(dòng)之后，智能網(wǎng)卡是否已經(jīng)是進(jìn)入服務(wù)狀態(tài)，這些都需要探索和解決。

（2）沒有PCIe接口的DPU智能網(wǎng)卡，可以組成DPU資源池，專門負(fù)責(zé)網(wǎng)絡(luò)功能，例如負(fù)載均衡，訪問(wèn)控制，防火墻設(shè)備等。管理軟件可以直接通過(guò)智能網(wǎng)卡管理接口定義對(duì)應(yīng)的網(wǎng)絡(luò)功能，并作為虛擬化網(wǎng)絡(luò)功能集群提供對(duì)應(yīng)網(wǎng)絡(luò)能力，無(wú)需PCIe接口。

（3）多PCIe接口，多網(wǎng)口的DPU芯片。例如Fungible F1芯片，支持16個(gè)雙模PCIe控制器，可以配置為Root Complex模式或Endpoint模式，以及8x100G網(wǎng)絡(luò)接口。通過(guò)PCIe Gen3 x8接口可以支撐8個(gè)Dual-Socket計(jì)算服務(wù)器，網(wǎng)絡(luò)側(cè)提供8x100G帶寬的網(wǎng)口。

DPU作為一種新型的專用處理器，隨著需求側(cè)的變化，必將在未來(lái)計(jì)算系統(tǒng)中成為一個(gè)重要組成部分，對(duì)于支撐下一代數(shù)據(jù)中心起到至關(guān)重要的作用。

5、產(chǎn)業(yè)化機(jī)遇

數(shù)據(jù)中心作為IT基礎(chǔ)設(shè)施最重要的組成部分在過(guò)去10年成為了各大高端芯片廠商關(guān)注的焦點(diǎn)。各大廠商都將原有的產(chǎn)品和技術(shù)，用全新的DPU的理念重新封裝后，推向了市場(chǎng)

NVIDIA收購(gòu)Mellanox后，憑借原有的ConnectX系列高速網(wǎng)卡技術(shù)，推出其BlueField系列DPU，成為DPU賽道的標(biāo)桿。作為算法加速芯片頭部廠商的Xilinx在2018年還將“數(shù)據(jù)中心優(yōu)先（Datacenter First）”作為其全新發(fā)展戰(zhàn)略。發(fā)布了Alveo系列加速卡產(chǎn)品，旨在大幅提升云端和本地?cái)?shù)據(jù)中心服務(wù)器性能。

2019年4月，Xilinx宣布收購(gòu)Solarflare通信公司，將領(lǐng)先的FPGA、MPSoC和ACAP解決方案與 Solarflare 的超低時(shí)延網(wǎng)絡(luò)接口卡（ NIC ）技術(shù)以及應(yīng)用加速軟件相結(jié)合，從而實(shí)現(xiàn)全新的融合SmartNIC解決方案。Intel 2015年底收購(gòu)了Xilinx的競(jìng)爭(zhēng)對(duì)手——Altera，在通用處理器的基礎(chǔ)上，進(jìn)一步完善硬件加速能力。

Intel 2021年6月新發(fā)布的IPU產(chǎn)品（可以被視為Intel版本的DPU），將FPGA與Xeon D系列處理器集成，成為了DPU賽道有力的競(jìng)爭(zhēng)者。IPU是具有強(qiáng)化的加速器和以太網(wǎng)連接的高級(jí)網(wǎng)絡(luò)設(shè)備，它使用緊密耦合、專用的可編程內(nèi)核加速和管理基礎(chǔ)架構(gòu)功能。

IPU提供全面的基礎(chǔ)架構(gòu)分載，并可作為運(yùn)行基礎(chǔ)架構(gòu)應(yīng)用的主機(jī)的控制點(diǎn)，從而提供一層額外防護(hù)。幾乎同一時(shí)間，Marvall發(fā)布了OCTEON 10DPU產(chǎn)品，不僅具備強(qiáng)大的轉(zhuǎn)發(fā)能力，還具有突出的AI處理能力。

在同一時(shí)期，一些傳統(tǒng)并不涉足芯片設(shè)計(jì)的互聯(lián)網(wǎng)廠商，如海外的Google、Amazon，國(guó)內(nèi)的阿里巴巴等巨頭紛紛啟動(dòng)了自研芯片的計(jì)劃，而且研發(fā)重點(diǎn)都是面向數(shù)據(jù)處理器的高性能專用處理器芯片，希望以此改善云端的服務(wù)器的成本結(jié)構(gòu)，提高單位能耗的性能水平。數(shù)據(jù)研究預(yù)測(cè)DPU在云計(jì)算市場(chǎng)的應(yīng)用需求最大，且市場(chǎng)規(guī)模隨著云計(jì)算數(shù)據(jù)中心的迭代而增長(zhǎng)，到2025年單中國(guó)的市場(chǎng)容量都將達(dá)到40億美元的規(guī)模。

業(yè)界產(chǎn)品概要

1、NVIDIA BlueField

NVIDIA推出的BlueField系列DPU，在支持網(wǎng)絡(luò)處理、安全和存儲(chǔ)功能的同時(shí)，實(shí)現(xiàn)網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)施層服務(wù)。BlueField DPU既是一個(gè)承擔(dān)高帶寬（100Gbs/200Gbs/400Gbs）的網(wǎng)絡(luò)處理器，同時(shí)也是一個(gè)獨(dú)立的嵌入式處理器，它管理著眾多加速器引擎，比如加密解密、正則表達(dá)式匹配以及存儲(chǔ)加速等等。BlueField DPU也可以通過(guò)ARM核運(yùn)行嵌入式Linux系統(tǒng)，處理一定控制面的任務(wù)，具有一定的通用能力。

NVIDIA 2020年推出BlueField-2系列 DPU，并計(jì)劃在2022年推出性能更強(qiáng)的BlueField-3 DPU。

▲BlueField 系列DPU

BlueField-2 DPU具有ConnectX-6的網(wǎng)絡(luò)處理功能，可支持高速以太網(wǎng)（200Gb/s）或 InfiniBand兩種接口, 八個(gè)ARM核，高帶寬DRAM和PCIe交換機(jī)，通過(guò)高速M(fèi)esh網(wǎng)絡(luò)連接在一起。包含支持網(wǎng)絡(luò)、存儲(chǔ)、加密、流媒體等計(jì)算的專用加速器，同時(shí)具有面向安全、虛擬化、硬件隔離和遠(yuǎn)程管理的功能。

BlueField-2X DPU相比于BlueField-2 DPU，增加了對(duì)AI功能的支持，融合NVIDIA Ampere 架構(gòu)的GPU并行處理能力與BlueField-2 DPU的數(shù)據(jù)處理能力。BlueField-3 DPU是第三代NVIDIA DPU。與BlueField-2 DPU相比，設(shè)計(jì)支持400Gb/s以太網(wǎng)或NDR InfiniBand網(wǎng)絡(luò)連接，也可以卸載、加速和隔離軟件定義的網(wǎng)絡(luò)、存儲(chǔ)、安全和管理功能，從而提高數(shù)據(jù)中心的性能、效率和安全性。

2、Intel IPU（Mount Evans）

IPU（Infrastructure Processing Unit）是一種具有強(qiáng)化加速和以太網(wǎng)連接的網(wǎng)絡(luò)設(shè)備，可使用緊密耦合的專用可編程內(nèi)核來(lái)加速和管理基礎(chǔ)設(shè)施。IPU提供完整的基礎(chǔ)設(shè)施卸載，并通過(guò)充當(dāng)運(yùn)行基礎(chǔ)設(shè)施應(yīng)用程序的主機(jī)的控制點(diǎn)來(lái)提供額外的安全層。

通過(guò)使用IPU，可以從服務(wù)器卸載與運(yùn)行基礎(chǔ)設(shè)施任務(wù)相關(guān)的開銷。云服務(wù)供應(yīng)商（cloud service provider，CSP）軟件在IPU本身上運(yùn)行，而租戶的應(yīng)用程序在服務(wù)器CPU上運(yùn)行。這不僅釋放了服務(wù)器上的資源，同時(shí)優(yōu)化了整體性能，而且為CSP提供了一個(gè)單獨(dú)且安全的控制點(diǎn)。

IPU將基于硬件的數(shù)據(jù)路徑（包括 FPGA）與處理器內(nèi)核相結(jié)合，使得基礎(chǔ)設(shè)施以硬件的速度處理，能夠跟上不斷提高的網(wǎng)絡(luò)速度和軟件實(shí)現(xiàn)控制平面功能的靈活性。IPU具有以下三個(gè)優(yōu)勢(shì)：基礎(chǔ)設(shè)施功能和租戶工作負(fù)載物理分離允許用戶完控制CPU；供應(yīng)商可以將基礎(chǔ)設(shè)施任務(wù)完全卸載給IPU，有助于提高CPU資源利用率，最大化收益；實(shí)現(xiàn)完全無(wú)磁盤服務(wù)器架構(gòu)的云數(shù)據(jù)中心。

隨著基礎(chǔ)設(shè)施和租戶業(yè)務(wù)的物理分離，通過(guò)加速器可以有效地卸載基礎(chǔ)設(shè)施功能，并將其轉(zhuǎn)移到真正的無(wú)磁盤架構(gòu)。Intel認(rèn)為IPU將成為未來(lái)數(shù)據(jù)中心架構(gòu)的核心組件，在2021年的Intel Architecture Day上，Intel推出了基于FPGA和ASIC的兩種實(shí)現(xiàn)方式的產(chǎn)品。其中，Oak Springs Canyon和Arrow Creek是針對(duì)云和通信的基于FPGA的IPU產(chǎn)品，Mount Evans是基于ASIC的IPU產(chǎn)品。目前，相關(guān)產(chǎn)品的技術(shù)細(xì)節(jié)還未對(duì)外公布。

3、Marvell OCTEON

2021年6月28日Marvell發(fā)布了基于5nm工藝的OCTEON 10系列DPU，搭載了算力強(qiáng)勁的ARM Neoverse N2核，并且配備了多種硬件加速模塊，包括加解密、包處理及人工智能推理加速器。同時(shí)為了提供用戶友好的可編程接口，提高應(yīng)用開發(fā)效率，Marvell配套硬件設(shè)計(jì)了包括DPDK、Marvell ML toolchain等在內(nèi)的軟件開發(fā)平臺(tái)。

▲Marvell OCTEON 10系列DPU

OCTEON 10子產(chǎn)品包括CN103，CN106，CN106S 和DPU 400，不同子產(chǎn)品間的主要區(qū)別在于集成的ARM Neoverse N2核數(shù)，核數(shù)越多，性能越強(qiáng)的同時(shí)功耗也相對(duì)越大(不高于60W)。目前OCTEON 10 系列DPU產(chǎn)品形式主要為芯片及其配套開發(fā)平臺(tái)(如圖5-8)，開發(fā)平臺(tái)預(yù)計(jì)于2021年第四季度面世。四款子產(chǎn)品僅公布了其核心技術(shù)特征，具體產(chǎn)品細(xì)節(jié)及形式尚未披露。

4、Fungible DPU

針對(duì)以數(shù)據(jù)為中心（data-centric）應(yīng)用的處理，F(xiàn)ungible研發(fā)了F1 DPU處理器和TrueFabric互聯(lián)技術(shù)。TrueFabric是由Fungible首先提出的新型大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)互聯(lián)標(biāo)準(zhǔn)，這種Fabric互聯(lián)協(xié)議基于標(biāo)準(zhǔn)的UDP/IP/Ethernet協(xié)議棧構(gòu)建。

RoCEv2是一種當(dāng)前數(shù)據(jù)中心網(wǎng)絡(luò)中主流的互聯(lián)網(wǎng)絡(luò)協(xié)議，該協(xié)議同樣基于UDP/IP/Ethernet搭建，對(duì)終端提供高性能的RDMA Read/Write服務(wù)，而TrueFabric對(duì)接入點(diǎn)提供高性能的Send/Receive服務(wù)。Fungible F1 DPU原生支持TrueFabric，因此F1 DPU可以用于大規(guī)模TrueFabric數(shù)據(jù)中心網(wǎng)絡(luò)，不同類型的服務(wù)器都可以將Fungible DPU作為網(wǎng)絡(luò)接入點(diǎn)。

5、中科馭數(shù) K2 DPU

核處理器（Kernel Processing Unit，KPU）是中科馭數(shù)原創(chuàng)的軟件定義計(jì)算架構(gòu)，專為加速特定領(lǐng)域核心功能計(jì)算而設(shè)計(jì)的一種協(xié)處理器架構(gòu)。KPU以功能核作為基本單元，直接對(duì)應(yīng)用中計(jì)算密集型應(yīng)用進(jìn)行抽象核和高層綜合，實(shí)現(xiàn)以數(shù)據(jù)為中心的架構(gòu)“定制”。KPU具有超強(qiáng)異構(gòu)核集成和調(diào)度能力，一顆KPU根據(jù)需求可以集成數(shù)十至數(shù)百個(gè)功能核。在運(yùn)行機(jī)制上，KPU采用“數(shù)據(jù)驅(qū)動(dòng)并行計(jì)算”的方式，運(yùn)行過(guò)程中通過(guò)數(shù)據(jù)流來(lái)激活不同的功能核進(jìn)行相應(yīng)計(jì)算。

通過(guò)軟件定義的方式用戶可以靈活的建立“功能核”與應(yīng)用層運(yùn)算之間的關(guān)系，從而實(shí)現(xiàn)“功能核”到運(yùn)算需求的“一對(duì)一”服務(wù)，保證計(jì)算效率。且不同于FPGA在電路層的改造的性能犧牲，KPU的核心技術(shù)在功能核層，功能核來(lái)自于對(duì)于計(jì)算模式的抽象，并將其IP化。通過(guò)高層次綜合，既實(shí)現(xiàn)了領(lǐng)域內(nèi)硬件的統(tǒng)一，降低了規(guī)模限制的硬件成本和設(shè)計(jì)周期，又能通過(guò)軟件編程實(shí)現(xiàn)不同功能的計(jì)算；特定需求只需要增刪功能核的種類和數(shù)量即可。在整體計(jì)算效率提升百倍的前提下，仍然具有非常高的可擴(kuò)展性和靈活性。

目前中科馭數(shù)已經(jīng)完成了四類KPU芯片架構(gòu)設(shè)計(jì)，1）KPU-Swift針對(duì)網(wǎng)絡(luò)協(xié)議處理設(shè)計(jì)；2）KPU-Conflux針對(duì)時(shí)間序列/大數(shù)據(jù)分析設(shè)計(jì)；3）KPU-Trusy針對(duì)安全領(lǐng)域處理設(shè)計(jì)，4）KPU-FlexFlow針對(duì)智能計(jì)算設(shè)計(jì)。并在5個(gè)應(yīng)用領(lǐng)域積累了80余類功能核。

中科馭數(shù)在2019年完成第一代KPU芯片K1流片，針對(duì)序列數(shù)據(jù)處理及數(shù)據(jù)庫(kù)/大數(shù)據(jù)分析而設(shè)計(jì)。集成了序列卷積tscov、序列濾波tsfir、序列距離tsdist、序列相似tsdtw等20多類功能核。相比于傳統(tǒng)軟件解決方案，基于馭數(shù)K1的加速方案在數(shù)據(jù)庫(kù)/大數(shù)據(jù)分析，以及時(shí)間序列處理等業(yè)務(wù)場(chǎng)景中可獲得超2個(gè)數(shù)量級(jí)的性能提升。

DPU未來(lái)展望

工業(yè)和信息化部發(fā)布的《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021-2023年)》中明確提出要加快提升算力算效水平，“推動(dòng)CPU、GPU等異構(gòu)算力提升，逐步提高自主研發(fā)算力的部署比例”，“加強(qiáng)專用服務(wù)器等核心技術(shù)研發(fā)”，“樹立基于5G和工業(yè)互聯(lián)網(wǎng)等重點(diǎn)應(yīng)用場(chǎng)景的邊緣數(shù)據(jù)中心應(yīng)用標(biāo)桿”等等。

該行動(dòng)計(jì)劃也部分反映了DPU等新型算力芯片難得的歷史發(fā)展機(jī)遇。雖然國(guó)內(nèi)廠商在芯片產(chǎn)品化的環(huán)節(jié)還相比國(guó)外一線廠商還有差距，但是在DPU架構(gòu)的理解上還是有獨(dú)到的見解的，而且我國(guó)目前在數(shù)據(jù)中心這個(gè)領(lǐng)域，無(wú)論是市場(chǎng)規(guī)模還是增速，特別是用戶數(shù)量，相較于國(guó)外都有巨大的優(yōu)勢(shì)。國(guó)內(nèi)廠商有望充分利用這一“應(yīng)用勢(shì)能”，加快發(fā)展步伐，在DPU這個(gè)賽道與國(guó)外廠商逐鹿中原。

DPU的潛在市場(chǎng)非常巨大，預(yù)測(cè)到2025年僅中國(guó)市場(chǎng)就能達(dá)到每年40億美元的規(guī)模，估計(jì)全球?qū)⒊^(guò)120億美元，但挑戰(zhàn)與機(jī)遇并存。IaaS在國(guó)內(nèi)云服務(wù)市場(chǎng)占比約60%，支撐了目前最重要的PaaS的容器云技術(shù)。未來(lái)幾年，我國(guó)仍將維持IaaS為主的云計(jì)算結(jié)構(gòu)，預(yù)計(jì)市場(chǎng)占比將逐上升到70%。

目前要解決DPU標(biāo)準(zhǔn)化應(yīng)用，還存在一定挑戰(zhàn)。由于數(shù)據(jù)中心本身的復(fù)雜性，各大廠商一方面采用COTS組件來(lái)構(gòu)建系統(tǒng)，追求低成本，一方面又設(shè)法分層服務(wù)化（IaaS，PaaS，SaaS），打造面向不用類型客戶的標(biāo)準(zhǔn)化產(chǎn)品，但除此之外的所有技術(shù)實(shí)現(xiàn)幾乎都是各家“八仙過(guò)海，各顯神通”，如AWS有Nitro，阿里云有MOC。有的廠商強(qiáng)化IO能力、有的關(guān)注路由轉(zhuǎn)發(fā)、有的重視存儲(chǔ)卸載、有的關(guān)注安全加密——不一而足。例如各大公有云廠商、電信運(yùn)營(yíng)商等都有比較完整、也比較封閉的底層架構(gòu)和應(yīng)用生態(tài)。上層負(fù)載不同，必然對(duì)底層架構(gòu)有各異的需求，這也許是目前DPU標(biāo)準(zhǔn)化面臨的最大的挑戰(zhàn)。

DPU作為一類專用處理器，與通用CPU的發(fā)展路徑可能會(huì)有所不同。專用計(jì)算體系結(jié)構(gòu)和通用計(jì)算體系結(jié)構(gòu)的陣地是不同的，專用計(jì)算競(jìng)爭(zhēng)的焦點(diǎn)是數(shù)據(jù)平面，而通用計(jì)算競(jìng)爭(zhēng)的焦點(diǎn)是控制平面。專用計(jì)算好比是造賽車，目標(biāo)就是“快”，重點(diǎn)是根據(jù)賽道的類型來(lái)決定賽車的結(jié)構(gòu)；通用計(jì)算好比是造民用車，目標(biāo)更加的多元化，不僅要兼顧不同路況下的可用性，還要考慮性價(jià)比、代際兼容性等等。

所以，以通用CPU的標(biāo)準(zhǔn)來(lái)看待DPU可能并不合適，甚至?xí)萍s了專用DPU的發(fā)展。一個(gè)有商業(yè)價(jià)值的技術(shù)必須建立在“技術(shù)閉環(huán)”的基礎(chǔ)上：錨定需求、研發(fā)、使用、反饋、再研發(fā)改進(jìn)、再擴(kuò)大使用范圍……，即所謂“先垂直深耕，再水平擴(kuò)展”的發(fā)展戰(zhàn)略可能更適合DPU的發(fā)展。技術(shù)只有投入使用才能體現(xiàn)價(jià)值，有使用價(jià)值才有可能商業(yè)化，才能完成技術(shù)閉環(huán)到商業(yè)閉環(huán)的進(jìn)化。

技術(shù)閉環(huán)的形成需要集中火力打穿到應(yīng)用才能鋪就。碎片化并不是“專用”障礙，反而應(yīng)該是專用技術(shù)路線充分利用的優(yōu)勢(shì)。當(dāng)然，傳統(tǒng)的“one-size-fit-all”的ASIC商業(yè)模式，通過(guò)上量來(lái)攤薄芯片研發(fā)的巨額NRE成本本身還是有效的，所以專用DPU最終也要謀求“水平擴(kuò)展”來(lái)覆蓋更多的場(chǎng)景，還是要盡可能把各異的需求整合起來(lái)，并且適應(yīng)不同廠商的數(shù)據(jù)中心架構(gòu)，但這必將是一個(gè)長(zhǎng)期而艱巨的任務(wù)。

DPU肯定不算是一個(gè)“低垂的果實(shí)”，各個(gè)DPU廠商可能不能寄期望于當(dāng)前“需求各異、體系封閉”的局面自發(fā)地在短期內(nèi)變得“整齊劃一，全面開放”，只能是在競(jìng)爭(zhēng)合作的博弈過(guò)程中，逐漸滿足越來(lái)越多的行業(yè)需求。放棄幻想，步步為營(yíng)，“結(jié)硬寨，打呆仗”，這需要長(zhǎng)期行業(yè)“Knowhow”的整合和持續(xù)的產(chǎn)品迭代。

更需要上下游企業(yè)共同來(lái)構(gòu)建良性、開放的生態(tài)環(huán)境，按照基礎(chǔ)性技術(shù)研發(fā)的規(guī)律來(lái)研發(fā)DPU，面向網(wǎng)絡(luò)、安全、存儲(chǔ)、虛擬化等基礎(chǔ)技術(shù)，劃分好邏輯層次，利用好“軟件定義”的思想，構(gòu)造一個(gè)完整的DPU軟硬件體系。而不是把DPU當(dāng)成普通的算法加速器，只謀求解決一些碎片化的需求。

從目前行業(yè)的關(guān)注度來(lái)看，DPU帶來(lái)的機(jī)遇已經(jīng)基本形成共識(shí)，期待在這一趨勢(shì)的驅(qū)使下，行業(yè)內(nèi)的各個(gè)廠商協(xié)同起來(lái)，將DPU這一創(chuàng)新的產(chǎn)品早日賦能各行各業(yè)，成為新的生產(chǎn)力。

在英偉達(dá)的帶領(lǐng)下，今年DPU的概念非?；鸨@也說(shuō)明了在摩爾定律即將走向終結(jié)的大背景下，通過(guò)工藝提升來(lái)提高芯片性能、成本等的方式已經(jīng)不復(fù)存在。新時(shí)代的信息革命需要?jiǎng)ψ咂h，用新的計(jì)算架構(gòu)來(lái)滿足龐大的運(yùn)算和數(shù)據(jù)的需求。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

行業(yè)首部DPU白皮書出爐！比肩CPU/GPU的數(shù)據(jù)時(shí)代核芯，巨頭紛紛入場(chǎng)

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

行業(yè)首部DPU白皮書出爐！比肩CPU/GPU的數(shù)據(jù)時(shí)代核芯，巨頭紛紛入場(chǎng)

相關(guān)推薦

技術(shù)專區(qū)

行業(yè)首部DPU白皮書出爐！比肩CPU/GPU的數(shù)據(jù)時(shí)代核芯，巨頭紛紛入場(chǎng)