一文了解FPGA蝶變之旅原來它才是英特爾、英偉達(dá)的隱形對(duì)手？

作者：時(shí)間：2018-10-23 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　　Versal的功力

本文引用地址：http://butianyuan.cn/article/201810/393229.htm

　　被寄與厚望的Versal平臺(tái)究竟有何“功力”擔(dān)當(dāng)重任?

　　先來看其硬件。賽靈思產(chǎn)品及技術(shù)營(yíng)銷高級(jí)技術(shù)總監(jiān)Kirk Saban指出，異構(gòu)計(jì)算平臺(tái)必須要有多個(gè)不同類型的處理引擎，以應(yīng)對(duì)不同的工作負(fù)載。Versal平臺(tái)整合了三種類型的可編程處理器即標(biāo)量引擎雙Arm Cortex-A72和Cortex-R5處理器、自適應(yīng)引擎PL、智能引擎即AI引擎和DSP引擎，以及前沿的存儲(chǔ)器、高速收發(fā)器和多種接口技術(shù)等。

　　這些引擎形成一個(gè)緊密集成的異構(gòu)計(jì)算平臺(tái)，并且各司其職。Kirk Saban介紹，Arm處理器通常用于控制應(yīng)用、操作系統(tǒng)、通信接口等;PL執(zhí)行數(shù)據(jù)操作和傳輸、非基于向量的計(jì)算和連接;AI引擎為基于向量的算法提供了高達(dá)五倍的計(jì)算密度。同時(shí)，這一切與片上網(wǎng)絡(luò) (NoC) 連通，提供對(duì)所有三種處理單元類型的存儲(chǔ)器映射訪問，從而比任何一種單獨(dú)架構(gòu)都支持更高的定制和性能提升。

　　值得一提的是，賽靈思獨(dú)創(chuàng)的AI引擎是一種新型硬件模塊，包括用于定點(diǎn)和浮點(diǎn)運(yùn)算的向量處理器、標(biāo)量處理器、專用程序和數(shù)據(jù)存儲(chǔ)器、專用AXI 數(shù)據(jù)移動(dòng)通道以及 DMA 和鎖止。它針對(duì)計(jì)算和DSP進(jìn)行了優(yōu)化，可滿足高吞吐量和高性能計(jì)算要求。相對(duì)于業(yè)界領(lǐng)先的GPU，AI 推斷性能預(yù)計(jì)能提升3-8倍，功耗降低 50%。

　　在軟件層面，Kirk Saban提到，Versal平臺(tái)引入革新性的軟件堆棧即NoC平臺(tái)管理控制器，提供了無縫連接的功能，可直接通過軟件進(jìn)行編程和配置。同時(shí)，符合業(yè)界標(biāo)準(zhǔn)設(shè)計(jì)流程的一系列工具、軟件、庫(kù)、IP等助力，使得Versal ACAP 的硬件和軟件均可由開發(fā)者進(jìn)行編程和優(yōu)化，而這在賽靈思的歷史上也是絕無僅有的。

　　由此，硬件和軟件的共同創(chuàng)新成就了Versal ACAP 這一顛覆性的異構(gòu)計(jì)算平臺(tái)，實(shí)現(xiàn)了顯著的性能提升。Kirk Saban舉出了具體數(shù)字，其速度超過當(dāng)前最高速的FPGA 20倍、比當(dāng)今最快的CPU快100倍，同時(shí)可實(shí)現(xiàn)低于2ms的時(shí)延，相信數(shù)據(jù)中心、有線網(wǎng)絡(luò)、5G無線和ADAS等應(yīng)用將樂見其成。

　　據(jù)悉，Versal平臺(tái)組合包括Versal基礎(chǔ)系列(Versal Prime)、Versal旗艦系列(Versal Premium)和HBM系列，提供不同的性能、連接性、帶寬和集成功能。此外，還包括Versal AI系列，包括AI核心(AI Core)系列、AI邊緣系列和AI射頻系列。Versal Prime 系列和AI Core 系列將于2019年下半年上市。前者具廣泛的適用性，用于在線加速和各種工作負(fù)載;后者提供高計(jì)算性能和最低時(shí)延，實(shí)現(xiàn)突破性的 AI 推斷吞吐量和性能。

　　同時(shí)，賽靈思還公布了發(fā)展路線圖，2020年將推出Premium和AI邊緣系列，下半年將上市AI射頻系列，而HBM將于2021年下半年面世。

　　其他架構(gòu)自求多福?

　　Versal橫空出世，其它選手如CPU、ASIC等如何應(yīng)對(duì)?

　　畢竟它們各有“苦衷”。Kirk Saban認(rèn)為，標(biāo)量處理單元(例如 CPU)在具有不同決策樹和廣泛庫(kù)的復(fù)雜算法中非常有效，但在性能擴(kuò)展方面受到限制。而在先進(jìn)制程后摩爾定律已經(jīng)不再有效，CPU已無法適應(yīng)最先進(jìn)的應(yīng)用了。

　　而矢量處理單元(如GPU)在并行計(jì)算上效率更高,但由于存儲(chǔ)器層級(jí)結(jié)構(gòu)不靈活，它們會(huì)受時(shí)延和效率的影響。它們可能在某一個(gè)功能領(lǐng)域的加速性能不錯(cuò)，但靈活度不夠，無法適應(yīng)創(chuàng)新的速度。

　　并且，通用AI芯片不是正確的方向。Kirk Saban分析說，ASIC針對(duì)某個(gè)CNN、DNN來優(yōu)化形成固定功能，一旦有新的算法或者框架就需要重新設(shè)計(jì)，在目前發(fā)展態(tài)勢(shì)下對(duì)于變量少的行業(yè)ASIC相對(duì)適用，如果變化快ASIC很快就會(huì)過時(shí)，實(shí)際上連谷歌的TPU也概莫能外。

　　雖然GPU等有著相對(duì)完善的生態(tài)系統(tǒng)，但Versal作為新興勢(shì)力，在生態(tài)的構(gòu)建上也在大張旗鼓，一方面Versal可軟硬件編輯，開發(fā)便利;另一方面，在著力與合作伙伴一起互惠共贏。 “Versal不會(huì)取代所有的GPU，但肯定會(huì)有越來越多的應(yīng)用采用靈活應(yīng)變的平臺(tái)?！边@是Victor Peng的判斷也是寄望。

　　為何著重AI推斷?

　　需要指出的是，Versal看重的是AI推斷市場(chǎng)。

　　Salil Raje指出，AI有訓(xùn)練和推斷兩大階段。對(duì)于訓(xùn)練來說海量數(shù)據(jù)非常重要，但延遲和功耗都不那么重要。而無論是在邊緣端還是云端的推斷，數(shù)據(jù)量很少，實(shí)時(shí)響應(yīng)的性能非常重要，對(duì)延遲要求極高，而且對(duì)功耗也極為看重。

　　“AI訓(xùn)練和推斷的要求是不一的，不能把訓(xùn)練的解決方案直接應(yīng)用到推斷上。在過去幾年，全球關(guān)注的主要是AI訓(xùn)練，這是因?yàn)楸姸嘈碌腁I應(yīng)用需要應(yīng)用AI模型，但今后AI模型將大量應(yīng)用在云端和邊緣端，因而未來的模式更多的是AI推斷，而不是訓(xùn)練。”

　　由此亦帶來了新的挑戰(zhàn)。Salil Raje指出，挑戰(zhàn)在于一是AI創(chuàng)新的速度，就像要追隨移動(dòng)的靶子一樣。二是需要低時(shí)延、高帶寬和高性能，最大的挑戰(zhàn)是功耗。三是要實(shí)現(xiàn)整體的應(yīng)用加速，而不僅是機(jī)器學(xué)習(xí)的加速。

　　當(dāng)然，AI訓(xùn)練也是非常重要的市場(chǎng)。Salil Raje表示，賽靈思也在研發(fā)訓(xùn)練用FPGA方案，不排除進(jìn)入這一市場(chǎng)的可能性。

　　中國(guó)AI初創(chuàng)企業(yè)不應(yīng)熱衷于造芯

　　Versal平臺(tái)染指AI應(yīng)用，也預(yù)示著賽靈思要直面國(guó)內(nèi)火爆的AI造芯廠商的競(jìng)爭(zhēng)，對(duì)于這一點(diǎn)，賽靈思也有自己的見解。

　　“中國(guó)有大量AI初創(chuàng)企業(yè)，也有很多廠商在投入造芯，但賽靈思認(rèn)為他們其實(shí)不一定要熱衷于造芯。因?yàn)樵O(shè)計(jì)AI芯片目前要采用16納米甚至7納米的工藝，所需的投入是巨大的，風(fēng)險(xiǎn)也很大?！?Victor Peng提出了建議，“其實(shí)他們可在算法和框架方面深入研究，從這些層面來創(chuàng)造更多的價(jià)值;或者采用Versal平臺(tái)開發(fā)具體應(yīng)用，而不是投資幾億元去做芯片?！?/p>

　　“就像深鑒科技，兩年前就基于賽靈思產(chǎn)品做AI方面的開發(fā)，因此在被收購(gòu)后其成果可迅速應(yīng)用到Versal平臺(tái)上，深鑒科技最為核心的就是DPU及神經(jīng)網(wǎng)絡(luò)壓縮編譯技術(shù)，應(yīng)用此技術(shù)的Versal平臺(tái)可適應(yīng)不同精度不同位寬，并且時(shí)延大幅降低。”Salil Raje提及。

　　而對(duì)于華為、阿里都在打造屬于自有AI芯片的情形，Victor Peng表示，這表明目前正處于AI革命的早期，大家都在尋找不同的解決方案，這帶來了眾多機(jī)遇?？赡苡幸恍╊I(lǐng)域是適用于固定功能的芯片，但絕大多數(shù)應(yīng)用還將使用靈活平臺(tái)作為解決方案。

　　為何還要推出加速器卡?

　　除了打造Versal平臺(tái)之外，賽靈思也意識(shí)到在云端和數(shù)據(jù)中心的服務(wù)器中，FPGA作為一種服務(wù)即FaaS的部署正在加快。Victor Peng介紹說，F(xiàn)aaS最初是從亞馬遜開始部署，現(xiàn)已有8個(gè)國(guó)家在采用，今年賽靈思已培訓(xùn)超過14000名的開發(fā)者，實(shí)現(xiàn)了36個(gè)應(yīng)用。在XDF大會(huì)上，亞馬遜就面向中國(guó)開發(fā)者宣布AWS F1覆蓋區(qū)域數(shù)量翻番，并正式落地中國(guó)。

　　與之相呼應(yīng)的是，據(jù)分析，全球加速器卡的市場(chǎng)將達(dá)到120億美元，而中國(guó)市場(chǎng)占據(jù)半壁江山。

　　為此，賽靈思還推出了功能強(qiáng)大的加速器卡——Alveo，它的優(yōu)勢(shì)在于客戶可對(duì)硬件進(jìn)行重配置，針對(duì)工作負(fù)載、新標(biāo)準(zhǔn)和新算法進(jìn)行調(diào)整和優(yōu)化，并且更加易用，同時(shí)性能更加出色。

　　就機(jī)器學(xué)習(xí)而言，Alveo U250實(shí)時(shí)推斷吞吐量比高端 CPU高出20 倍，相對(duì)于高端GPU等，能讓2毫秒以下的低時(shí)延應(yīng)用性能提升4倍以上，堪稱全球最快的數(shù)據(jù)中心加速卡。

　　而且，目前Alveo得到了合作伙伴和 OEM 廠商生態(tài)系統(tǒng)的廣泛支持，有14 家合作伙伴開發(fā)完成的應(yīng)用可立即投入部署，國(guó)內(nèi)如華為、阿里云、浪潮等都已在合作，推出基于賽靈思的加速方案。此外，部分OEM芯片廠商將和賽靈思進(jìn)入更深入合作，認(rèn)證采用Alveo加速器卡的多個(gè)服務(wù)器SKU，包括Dell EMC、Fujitsu和IBM等。這些關(guān)鍵應(yīng)用涵蓋AI/ML、視頻轉(zhuǎn)碼、數(shù)據(jù)分析、金融風(fēng)險(xiǎn)建模、安全和基因組學(xué)等。

　　阿里云FPGA異構(gòu)計(jì)算研發(fā)總監(jiān)張振祥宣稱，阿里集團(tuán)采用Faas提升發(fā)效率，節(jié)省了成本，阿里集團(tuán)X項(xiàng)目每千片F(xiàn)PGA三年節(jié)約TCO成本40%。華為IT智能計(jì)算產(chǎn)品線副總裁張小華也提到，華為云與賽靈思緊密合作，實(shí)現(xiàn)了線上線下協(xié)同的FPGA加速解決方案，以視頻編解碼為例，在在線視頻廣播業(yè)務(wù)場(chǎng)景下可節(jié)約40%的帶寬和存儲(chǔ)空間，為客戶帶來了極大的價(jià)值。