數(shù)據(jù)中心加速芯片需求大爆發(fā)，F(xiàn)PGA正領(lǐng)跑市場(chǎng)

作者：時(shí)間：2022-12-16 來源：Mouser

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

中國(guó)信通院《數(shù)據(jù)中心白皮書2022》報(bào)告顯示，2021年全球數(shù)據(jù)中心市場(chǎng)規(guī)模超過679億美元，較2020年增長(zhǎng)9.8%。隨著數(shù)據(jù)視頻化趨勢(shì)加強(qiáng)，以及遠(yuǎn)程辦公普及程度提高，數(shù)據(jù)中心市場(chǎng)呈現(xiàn)出穩(wěn)健增長(zhǎng)的趨勢(shì)。但這也帶來聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長(zhǎng)，對(duì)數(shù)據(jù)中心的數(shù)據(jù)處理能力提出巨大挑戰(zhàn)。各種加速方案因而成為數(shù)據(jù)中心不可或缺的應(yīng)用。

本文引用地址：http://www.butianyuan.cn/article/202212/441708.htm

數(shù)據(jù)中心加速解決方案

中國(guó)信通院《數(shù)據(jù)中心白皮書2022》報(bào)告顯示，2021年全球數(shù)據(jù)中心市場(chǎng)規(guī)模超過679億美元，較2020年增長(zhǎng)9.8%。隨著數(shù)據(jù)視頻化趨勢(shì)加強(qiáng)，以及遠(yuǎn)程辦公普及程度提高，數(shù)據(jù)中心市場(chǎng)呈現(xiàn)出穩(wěn)健增長(zhǎng)的趨勢(shì)。但這也帶來聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長(zhǎng)，對(duì)數(shù)據(jù)中心的數(shù)據(jù)處理能力提出巨大挑戰(zhàn)。各種加速方案因而成為數(shù)據(jù)中心不可或缺的應(yīng)用。

在數(shù)據(jù)中心里，加速芯片主要應(yīng)用于三個(gè)方面：計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)。其中，傳統(tǒng)的GPU芯片，以及新興的DPU、APU等加速芯片能夠解決一部分需求，剩下很大一部分加速需求都是基于FPGA來解決。

根據(jù)Semico Research在2019年提出的預(yù)測(cè)，2018年-2023年全球數(shù)據(jù)中心加速卡市場(chǎng)規(guī)模將從28.4億美元增長(zhǎng)至211.9億美元，年復(fù)合增長(zhǎng)率高達(dá)49.47%，FPGA是其中增速最快的細(xì)分產(chǎn)品，需求主要來自企業(yè)級(jí)工作負(fù)載加速應(yīng)用。

本文我們就來具體看一下，為什么FPGA能夠在數(shù)據(jù)中心加速領(lǐng)域領(lǐng)跑？具體的優(yōu)勢(shì)有哪些？并為大家推薦貿(mào)澤電子官網(wǎng)在售的可用于數(shù)據(jù)中心加速的FPGA產(chǎn)品。

為何FPGA適合數(shù)據(jù)中心加速

在傳統(tǒng)數(shù)據(jù)中心部署方案中，計(jì)算和數(shù)據(jù)處理都是由CPU完成，存儲(chǔ)和網(wǎng)絡(luò)資源也是圍繞CPU進(jìn)行部署。然而，由于人工智能和物聯(lián)網(wǎng)市場(chǎng)的爆發(fā)，云端數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)，CPU便成為系統(tǒng)規(guī)模和效率提升的瓶頸，GPU、FPGA、ASIC等高性能芯片開始涌入數(shù)據(jù)中心市場(chǎng)，其中FPGA的典型產(chǎn)品形態(tài)就是加速卡。

不過，對(duì)于FPGA產(chǎn)品而言，數(shù)據(jù)中心算是一個(gè)比較新的應(yīng)用領(lǐng)域。比如，已經(jīng)被AMD收購(gòu)的賽靈思在2018年伊始才正式宣布“數(shù)據(jù)中心優(yōu)先”的發(fā)展戰(zhàn)略。但是，憑借著高吞吐和低延遲的天然優(yōu)勢(shì)，再加上部署靈活，F(xiàn)PGA在數(shù)據(jù)中心一經(jīng)采用便迅速成為主流加速方案。

在數(shù)據(jù)中心應(yīng)用里，F(xiàn)PGA能夠全面減輕CPU的任務(wù)負(fù)擔(dān)，包括計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)。傳統(tǒng)數(shù)據(jù)中心的模型是基于CPU集群構(gòu)建，寶貴的CPU內(nèi)核被消耗殆盡，圍繞CPU配備的網(wǎng)絡(luò)接口控制器（NIC）等初步緩解資源也無法解決根本問題?；贔PGA的異構(gòu)計(jì)算體系此時(shí)開始顯現(xiàn)出優(yōu)勢(shì)，根據(jù)微軟Catapult項(xiàng)目公布的數(shù)據(jù)，通過FPGA對(duì)應(yīng)用于必應(yīng)搜索引擎文件排名運(yùn)算的服務(wù)器做加速，獲得了95%的吞吐量提升，處理必應(yīng)的自定義算法速度提高了40倍，加速效果顯著。

圖1：FPGA加速必應(yīng)的搜索排序過程

（圖源：微軟技術(shù)白皮書）

剖析微軟Catapult項(xiàng)目能夠發(fā)現(xiàn)，數(shù)據(jù)中心的硬件加速器需要滿足幾個(gè)條件：

一、需要具備靈活性和可擴(kuò)展性，以云計(jì)算為主要服務(wù)方式的數(shù)據(jù)中心，其需要處理的任務(wù)是不固定的，面向不同的任務(wù)，加速器要全部能夠自如地應(yīng)對(duì)；

二、需要具備硬件資源虛擬化的能力，以完成和現(xiàn)有數(shù)據(jù)中心的同構(gòu)并行，而不需要對(duì)現(xiàn)有架構(gòu)進(jìn)行大刀闊斧的修改；

三、需要具備分析推理的能力，提升較大應(yīng)用模型部署的容錯(cuò)率。

方案商在評(píng)估各種硬件加速器之后發(fā)現(xiàn)，F(xiàn)PGA相較于其他硬件，可以提供更高的性能，更好的實(shí)時(shí)性，以及足夠的靈活性，可以根據(jù)未來算法與需求變更及時(shí)做調(diào)整。并且，F(xiàn)PGA虛擬化的軟件架構(gòu)和接口資源大幅提升了和現(xiàn)有運(yùn)算體系的同構(gòu)屬性，在方案升級(jí)時(shí)具備明顯的成本優(yōu)勢(shì)。

我們?cè)倏匆粋€(gè)具有代表性的例子——亞馬遜AWS F1，基于FPGA對(duì)公有云進(jìn)行加速服務(wù)。AWS F1實(shí)例進(jìn)一步優(yōu)化了FPGA在云服務(wù)加速方面的軟硬件功能，主要原因是公有云的用戶并不像私有云用戶一樣，具備強(qiáng)大的技術(shù)研發(fā)實(shí)力，并能夠得到FPGA廠商的一定支持。因此，在AWS F1項(xiàng)目里，亞馬遜將底層FPGA的邏輯資源抽象化，使得用戶不需要去擔(dān)心接口資源和IP部署等細(xì)節(jié)問題，同時(shí)以完整的FPGA開發(fā)配套工具幫助用戶實(shí)現(xiàn)對(duì)應(yīng)用方案的加速。

亞馬遜AWS F1更好地體現(xiàn)了FPGA的高度定制化，這其實(shí)也是FPGA的天然優(yōu)勢(shì)，這種可編輯的特性也就是上面提到的靈活性，單個(gè)FPGA可以根據(jù)各種不用的應(yīng)用重新配置，無需將特定的硬件變成ASIC，用戶可以在機(jī)器學(xué)習(xí)、網(wǎng)絡(luò)、安全等各個(gè)關(guān)鍵環(huán)節(jié)使用FPGA。

除了國(guó)際廠商，在中國(guó)云服務(wù)市場(chǎng)，F(xiàn)PGA也廣受歡迎。目前，阿里云、騰訊云、百度云等國(guó)內(nèi)云服務(wù)公司都已經(jīng)在硬件加速方面選用FPGA。比如，我們看到騰訊于2017年就曾推出國(guó)內(nèi)首款高性能異構(gòu)計(jì)算基礎(chǔ)設(shè)施FPGA云服務(wù)器，這款采用異構(gòu)計(jì)算架構(gòu)的云服務(wù)器相較于傳統(tǒng)CPU服務(wù)器，性能提升在30倍以上。和亞馬遜的理念類似，通過這種FPGA云服務(wù)器，騰訊將只有大公司才能夠長(zhǎng)期部署的FPGA帶入到大眾市場(chǎng)。目前，在騰訊云的硬件基礎(chǔ)設(shè)施里，F(xiàn)PGA已經(jīng)在計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)三大重要節(jié)點(diǎn)充當(dāng)加速器角色。

主流云服務(wù)大廠對(duì)FPGA的支持使得FPGA在國(guó)內(nèi)數(shù)據(jù)中心市場(chǎng)快速崛起。

根據(jù)Frost&Sullivan數(shù)據(jù)，2020年中國(guó)應(yīng)用于數(shù)據(jù)中心領(lǐng)域的FPGA芯片市場(chǎng)規(guī)模約 16.1億元，占中國(guó)FPGA芯片市場(chǎng)份額的10.7%，預(yù)計(jì)2021年-2025年的年均復(fù)合增速將達(dá)到16.6%。能夠看到，隨著FPGA的加速性能在數(shù)據(jù)中心獲得認(rèn)可，未來該領(lǐng)域的市場(chǎng)增速非?？?。

當(dāng)然，必須要說明的是，在數(shù)據(jù)中心市場(chǎng)，F(xiàn)PGA以及其他所有硬件加速器都不是CPU的“革命者”，而是協(xié)作者。未來隨著數(shù)據(jù)中心計(jì)算體量和復(fù)雜度提升，CPU的精力會(huì)越來越多集中在復(fù)雜任務(wù)的調(diào)度和處理上，重復(fù)性和局部性的任務(wù)將更大規(guī)模地從CPU上轉(zhuǎn)移。而FPGA憑借上述提到的可編程、高吞吐、低延遲的特性，將承擔(dān)更多的加速任務(wù)，為機(jī)器學(xué)習(xí)等典型的人工智能應(yīng)用賦能。

與FPGA靈活性類似的是，貿(mào)澤電子也為工程師提供了靈活多樣的檢索與支付方式，幫助工程師更快地購(gòu)置好產(chǎn)品開發(fā)所需的元器件，從而提升研發(fā)效率。接下來，我們?yōu)榇蠹彝扑]幾款貿(mào)澤電子平臺(tái)在售的FPGA產(chǎn)品，它們都是硬件加速方面的好手。

業(yè)界首款FPGA加速卡支持軟件定義硬件

在數(shù)據(jù)中心領(lǐng)域，F(xiàn)PGA加速卡是一種典型的產(chǎn)品形態(tài)，實(shí)現(xiàn)了基于FPGA的系統(tǒng)集成。和傳統(tǒng)的FPGA開發(fā)板不同，F(xiàn)PGA加速卡是更加完整的系統(tǒng)級(jí)方案。我們?yōu)榇蠹規(guī)淼牡谝豢町a(chǎn)品就是來自制造商AMD的Alveo? SN1000 SmartNIC加速卡，貿(mào)澤電子官網(wǎng)上，該器件的料號(hào)為A-SN1022-P4E-PQ。

圖2：SN1022-P4E-PQ

（圖源：貿(mào)澤電子）

Alveo? SN1000 SmartNIC加速度卡是一款提供軟件定義硬件加速的SmartNIC，在單一解決方案中集成有網(wǎng)絡(luò)連接、計(jì)算和存儲(chǔ)加速功能，實(shí)現(xiàn)面向數(shù)據(jù)中心領(lǐng)域的任務(wù)負(fù)擔(dān)轉(zhuǎn)移。并且，由于FPGA的可編程特性，這款加速卡支持各種廣泛的定制卸載，包括支持客戶構(gòu)建和第三方卸載。

Alveo? SN1000加速卡提供的硬件資源包括：

● PCIe Gen 4 x8或Gen 3 x16

● 100G QSFP28 DA銅纜或光纖收發(fā)器

● 基于XCU26（XCU26-L2VSVA1365E）FPGA，采用Xilinx 16nm UltraScale+架構(gòu)

● 板載CPU：16個(gè)64位Arm Cortex-A72內(nèi)核，頻率為2.0GHz，具有8MB緩存

● 1個(gè)4GB x 72 DDR4-2666（處理器）

● 2個(gè)4GB x 72 DDR4-2666（FPGA）

● 總智能卡負(fù)載：75W

● 70W熱設(shè)計(jì)功耗（TDP）

● 被動(dòng)散熱

在可編程方面，Alveo? SN1000加速卡支持全面協(xié)議級(jí)卸載加速定制、專用數(shù)據(jù)路徑以及便捷的P4高級(jí)語言編程，并提供P4工具套件Vitis Networks，可讓客戶自定義卸載和調(diào)整現(xiàn)有卸載，以處理新協(xié)議和應(yīng)用，而無需更換硬件。這些定制性的硬件加速包括：開放式vSwitch和虛擬化加速（Virtio.net）的網(wǎng)絡(luò)加速；IPsec、kTLS和SSL/TLS安全加速；Virtio.blk、基于TCP的NVMe?、Ceph、壓縮和加密服務(wù)類型的存儲(chǔ)加速。通過這些加速功能，Alveo? SN1000加速卡幫助數(shù)據(jù)中心更好地應(yīng)對(duì)機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、視頻轉(zhuǎn)碼、視頻和圖像處理、基因組學(xué)、安全、金融計(jì)算等方面的加速需求。

高性能和高效率的Alveo? U50加速卡

第二款推薦產(chǎn)品同樣是一款來自AMD的FPGA加速卡——Alveo? U50加速卡，貿(mào)澤電子官網(wǎng)上該器件的料號(hào)為A-U50-P00G-LV-G。

圖3：A-U50-P00G-LV-G

（圖源：貿(mào)澤電子）

Alveo? U50數(shù)據(jù)中心加速器卡基于UltraScale+? 架構(gòu)打造，率先使用半高半長(zhǎng)的外形尺寸和低于75W的低包絡(luò)功耗。該加速卡的產(chǎn)品規(guī)格如下：

● UltraScale+架構(gòu)

● 半高、半長(zhǎng)、單插槽薄型外形尺寸

● 查找表數(shù)量：872,000

● HBM2內(nèi)存：8GB

● HBM2帶寬：316GB/s1

● 網(wǎng)絡(luò)接口：1個(gè)QSFP28（100GbE）

● 時(shí)鐘精度：IEEE 1588

● PCI express：PCIe Gen3 x 16、雙PCIe；Gen4 x 8、CCIX

● 被動(dòng)散熱解決方案

● 功耗（TDP）：75W

Alveo? U50加速卡擁有三大典型的產(chǎn)品優(yōu)勢(shì)：

● 首先是高性能和高效率，8GB HBM2、100GbE網(wǎng)絡(luò)和PCI Express 4.0為這款加速卡帶來了高速度，并通過支持4x10GbE、4x 25GbE或1x 40GbE、1x 100GbE的100G網(wǎng)絡(luò)，實(shí)現(xiàn)了低時(shí)延網(wǎng)絡(luò)功能；

● 其次是靈活應(yīng)變，可全面應(yīng)對(duì)計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)方面的任務(wù)負(fù)載，隨著工作負(fù)載和算法通過可重新配置的架構(gòu)（與固定架構(gòu)不同）不斷發(fā)展，能夠以更大幅度地提高應(yīng)用性能；

● 最后是方便易用，Alveo? U50加速卡經(jīng)過精心構(gòu)建，可為在云端或本地部署（可互換）的解決方案擴(kuò)展架構(gòu)。

借助這三大典型的產(chǎn)品優(yōu)勢(shì)，Alveo? U50加速卡可為金融計(jì)算、機(jī)器學(xué)習(xí)、計(jì)算存儲(chǔ)以及數(shù)據(jù)搜索和分析領(lǐng)域的任務(wù)負(fù)載提供加速支持。

可用于10G至100G網(wǎng)絡(luò)的Virtex?-7 FPGA

隨著流量的不斷激增，各大數(shù)據(jù)中心如何經(jīng)濟(jì)、平滑地提升網(wǎng)絡(luò)帶寬性能，成為產(chǎn)業(yè)關(guān)注的熱門話題，以求在路由、交換、安全等方面實(shí)現(xiàn)全面調(diào)優(yōu)。接下來，我們?yōu)榇蠹彝扑]一款可用于10G至100G網(wǎng)絡(luò)的Virtex?-7 FPGA，同樣是來自制造商AMD，貿(mào)澤電子官網(wǎng)上該器件的料號(hào)為XC7VX485T-1FFG1761C。

Virtex?-7 FPGA是AMD 7系列FPGA中的一個(gè)系列，基于低功耗（HPL）、28nm、高K金屬柵極（HKMG）工藝技術(shù)打造，提供高達(dá)2M邏輯單元，具有出色的功耗性能比架構(gòu)、DSP性能以及I/O帶寬。Virtex?-7 FPGA提供超高端連接帶寬，總串行帶寬高達(dá)2.8TB/s，最多支持96 x 13.1G GT、16 x 28.05G GT、5,335 GMAC、68Mb BRAM、DDR3-1866。

表1：AMD 7系列FPGA產(chǎn)品參數(shù)表

（圖源：AMD）

Virtex?-7 FPGA適合小尺寸、成本敏感、大容量應(yīng)用，比如100GE線路卡。

幫助數(shù)據(jù)中心應(yīng)對(duì)復(fù)雜多變的新場(chǎng)景

隨著數(shù)據(jù)中心里面的數(shù)據(jù)體量越來越大，并且行業(yè)應(yīng)用對(duì)于低時(shí)延的要求越來越苛刻，F(xiàn)PGA通過對(duì)數(shù)據(jù)中心計(jì)算效能的提升，對(duì)通信網(wǎng)絡(luò)的持續(xù)優(yōu)化，推動(dòng)了數(shù)據(jù)中心的智能化升級(jí)，并幫助其應(yīng)對(duì)愈加復(fù)雜的新場(chǎng)景、新AI模型，最終幫助社會(huì)各行業(yè)實(shí)現(xiàn)更深層的數(shù)字化運(yùn)營(yíng)。在貿(mào)澤電子官網(wǎng)上，無論是FPGA產(chǎn)品還是基于FPGA實(shí)現(xiàn)的加速卡，都有豐富的產(chǎn)品選擇，借助這些高性能器件，開發(fā)人員可以為數(shù)據(jù)中心加速再加速。

來源：Mouser