AI用FPGA發(fā)展快,帶來架構(gòu)新變革
1 AI用FPGA將越來越多 FPGA是AI/ML運(yùn)算的主要芯片之一。據(jù)市場(chǎng)調(diào)查公司Semico Research的2019年5月數(shù)據(jù),2018年用于AI的FPGA市值約10億美元,預(yù)計(jì)2019年為18億美元左右。到2023年的未來四年中,AI用FPGA將增長(zhǎng)約3倍,達(dá)到52億美元(如下圖)。
本文引用地址:http://butianyuan.cn/article/201905/400806.htm這個(gè)增長(zhǎng)是驚人的,因?yàn)檫^去多年來,F(xiàn)PGA業(yè)的年均增長(zhǎng)率只有8%~9%。
目前,25%的商業(yè)已經(jīng)實(shí)現(xiàn)了AI/機(jī)器學(xué)習(xí)(ML),未來兩年內(nèi)將達(dá)72%。帶來的好處是在核心功能方面帶來商業(yè)的洞察力,諸如市場(chǎng)營(yíng)銷、銷售、定價(jià)、物流、合規(guī)和欺詐檢測(cè)。
不過,這也為FPGA的傳統(tǒng)架構(gòu)帶來了不小的挑戰(zhàn)。因?yàn)槭忻嫔嫌懈鞣NAI算法(如下圖),基本上底層是矩陣層,用高精度浮點(diǎn)運(yùn)算,但是算法的變化趨勢(shì)是:精度/位數(shù)降低,從浮點(diǎn)改為定點(diǎn),原因是為了把運(yùn)算的復(fù)雜度降低,從而降低功耗。
數(shù)據(jù)加速有其特點(diǎn),通常要有三要素:高算力,高效、豐富的存儲(chǔ)緩存能力,高效、大帶寬的數(shù)據(jù)運(yùn)送能力。為此,F(xiàn)PGA芯片需要改進(jìn)架構(gòu),以滿足數(shù)據(jù)加速的需要。
2 Achronix的7納米FPGA架構(gòu)
近日,Achronix宣布推出突破性FPGA——Speedster7t,采用7納米工藝、TSMC流片,主要針對(duì)AI/ML(機(jī)器學(xué)習(xí))和高帶寬網(wǎng)絡(luò)應(yīng)用。為此,公司總裁兼CEO(首席執(zhí)行官)Robert Blake向電子產(chǎn)品世界等介紹了新架構(gòu)。
據(jù)悉,Speedster7t研發(fā)了三年。該公司至今已有十余年歷史,此前,已推出了三代FPGA。不過,為了應(yīng)對(duì)AI挑戰(zhàn),Speedster7t芯片的設(shè)計(jì)團(tuán)隊(duì)重新設(shè)計(jì)架構(gòu),提出了兼具FPGA靈活性和ASIC高性能的新一代FPGA(如下圖)。
亮點(diǎn)如下。
*新的NOC(片上網(wǎng)絡(luò))路由架構(gòu);
*新的機(jī)器學(xué)習(xí)處理器(MLP);
*最高速度接口,例如最新的第五代PCIe和400 Gbps以太網(wǎng);
*是第一家內(nèi)嵌GDDR6高帶寬內(nèi)存單元的FPGA公司。
2.1 MLP
AI/ML需要矢量矩陣乘法,而傳統(tǒng)的帶DSP塊的FPGA的性能有限(如下圖左),新的MLP可帶來更高的性能(如下圖右)。
另外,傳統(tǒng)FPGA的數(shù)字濾波器也不適合(如下圖左),新的Speedster7t采用了矢量矩陣乘法。
再有,新一代的Speedster7t MLP采用了專為AI/ML優(yōu)化的數(shù)學(xué)塊(Math Block)(如下圖)。具有四個(gè)特點(diǎn),①高密度乘陣列:每個(gè)MAC( 乘累加)支持最多32個(gè)乘法器,驅(qū)動(dòng)可變精度的加法和累加器,有浮點(diǎn)MAC和整點(diǎn)MAC。②緊密相鄰的緩存塊:大塊RAM為72Kbits,寄存器文件是2Kbits。③通過運(yùn)算和內(nèi)存級(jí)聯(lián)功能,可以實(shí)現(xiàn)更復(fù)雜的算法,而無(wú)需使用FPGA布線資源。④支持多數(shù)字格式,包括浮點(diǎn)、整點(diǎn)和自定義格式。
2.2 內(nèi)存層次結(jié)構(gòu)和帶寬
內(nèi)存在FPGA fabric(邏輯功能塊)中:每6個(gè)輸入LUT(查找表)中有2個(gè)寄存器,每個(gè)塊RAM中有72 Kbits。
率先采用GDDR6。
具有DDR4/5接口。
2.3 更高速率接口
采用1~112 Gbps SerDes(串行收發(fā)器),有固化的以太網(wǎng)結(jié)構(gòu),硬化的第五代PCIe。
2.4 創(chuàng)新的二維片上網(wǎng)絡(luò)(NOC)
像疊加在FPGA互聯(lián)城市街道系統(tǒng)上的高速公路一樣,NoC支持片上處理引擎之間的高帶寬通信。例如,有的做圖像處理,有的做數(shù)據(jù)庫(kù)交流等,有了NOC,可以有效地做起來。
那么,一家友商的高端FPGA中也有高速公路架構(gòu),NOC的特點(diǎn)是什么?Robert稱速度更快,是市面上產(chǎn)品的十倍。
值得指出的是,NOC的外圍(如下圖的大黃框)是購(gòu)買的IP,但是內(nèi)部的構(gòu)造是Achronix自己設(shè)計(jì)的。
如何為400G以太網(wǎng)傳輸提供所需的頻率?通常采用打包方式。傳送速度需要足夠快,以確保來得及裝包。不過,包有大有小,例如視頻包較大,大包會(huì)降低效率,使得包之間有空的空間。
因此,傳統(tǒng)FPGA不能在任何400G以太網(wǎng)總線帶寬下運(yùn)行得足夠快(如下圖)。
Speedster7t采用了分成多路傳輸方法(如下圖)。
3 Speedster7t產(chǎn)品家族
此次發(fā)布的新芯片,預(yù)計(jì)2019年第四季度會(huì)提供樣片和加速卡,2020年量產(chǎn)。不過,相關(guān)的ACE軟件工具有很多創(chuàng)新,現(xiàn)在就可獲得。
4 創(chuàng)新性的商業(yè)模式
眾所周知,F(xiàn)PGA業(yè)有兩大巨擎,都有35年左右的歷史,專利和產(chǎn)品遍布。Achronix作為一家只有十余年歷史的公司,必須要另辟蹊徑。為此該公司定位于高端FPGA,主要應(yīng)用領(lǐng)域是高性能數(shù)據(jù)加速,諸如高性能計(jì)算和網(wǎng)絡(luò)處理加速等。
不僅是上述的技術(shù)創(chuàng)新,該公司還有獨(dú)特的商業(yè)模式:既提供FPGA芯片,也有FPGA IP授權(quán)等業(yè)務(wù),其IP產(chǎn)品——Speedcore eFPGA IP已于2016年推向市場(chǎng),并于去年底推出了最新的第四代Speedcore。
Robert十分看好FPGA IP授權(quán)的前景,認(rèn)為未來可能越來越多地用于ASIC,例如RF芯片是否也可以變成FPGA?這看起來似乎不可思議,但就像CPU界,二三十年前,沒人把CPU放進(jìn)SoC中,而現(xiàn)在很常見。
現(xiàn)在FPGA芯片的營(yíng)收占公司的比例最大,但I(xiàn)P授權(quán)發(fā)展速度最快。
5 評(píng)論——?jiǎng)?chuàng)新對(duì)小公司更加重要
Achronix公司的第一代FPGA產(chǎn)品是與Intel達(dá)成了協(xié)議,采用當(dāng)時(shí)Intel最先進(jìn)的工藝——22nm生產(chǎn),型號(hào)為Speedster22i,意味著22nm、Intel流片。當(dāng)時(shí)震動(dòng)了業(yè)界,一方面人們不相信FPGA業(yè)最新工藝產(chǎn)品將被一家小公司做出,同時(shí)也發(fā)現(xiàn)Intel要涉足代工業(yè)務(wù)。
當(dāng)時(shí)很多客戶雖然喜歡這家小公司的前沿產(chǎn)品,但不太放心,Achronix安慰說:“你可以不相信我,但你總不會(huì)不相信Intel??!只要有Intel在,Intel就可以給客戶流片?!?/p>
沒想到幾年后,F(xiàn)PGA巨頭——Altera被Intel收為旗下。Achronix又轉(zhuǎn)到TSMC去流片。第四代產(chǎn)品叫Speedster7t,意味著7nm、TSMC流片。
而且Achronix還開辟的了新業(yè)務(wù)——IP授權(quán)模式,發(fā)展良好。
這讓大家再一次領(lǐng)略到初創(chuàng)公司在夾縫中生存時(shí),創(chuàng)新的重要性。
此次FPGA架構(gòu)的創(chuàng)新令人眼界大開,例如有些功能友商已有,Achronix的性能更高;有些架構(gòu)和功能是Achronix首創(chuàng)的,專為AI/ML和高帶寬應(yīng)用打造。
6 Achronix官方新聞稿如下
Achronix推出突破性的FPGA系列產(chǎn)品,以面向高帶寬數(shù)據(jù)加速應(yīng)用的靈活性而將性能提升到全新高度
· 全新Speedster7t系列產(chǎn)品專為機(jī)器學(xué)習(xí)市場(chǎng)和高帶寬網(wǎng)絡(luò)應(yīng)用而進(jìn)行了優(yōu)化
· 創(chuàng)新架構(gòu)和ACE軟件工具為要求更高性能和更短設(shè)計(jì)周期的設(shè)計(jì)提供了全新范式
· Speedster7t器件采用臺(tái)積電(TSMC)的7nm FinFET工藝制造
美國(guó)加州圣克拉拉市, 2019年 5月 21日—基于現(xiàn)場(chǎng)可編程門陣列(FPGA)的硬件加速器件和高性能嵌入式FPGA(eFPGA)半導(dǎo)體知識(shí)產(chǎn)權(quán)(IP)領(lǐng)導(dǎo)性企業(yè)Achronix半導(dǎo)體公司(Achronix Semiconductor Corporation)今日宣布:推出創(chuàng)新性的、全新的FPGA系列產(chǎn)品,以滿足人工智能/機(jī)器學(xué)習(xí)(AI/ML)和高帶寬數(shù)據(jù)加速應(yīng)用日益增長(zhǎng)的需求。Achronix的Speedster?7t系列基于一種高度優(yōu)化的全新架構(gòu),以其所具有的如同ASIC一樣的性能、可簡(jiǎn)化設(shè)計(jì)的FPGA靈活性和增強(qiáng)功能,從而遠(yuǎn)遠(yuǎn)超越傳統(tǒng)的FPGA解決方案。
Speedster7t FPGA系列產(chǎn)品是專為高帶寬應(yīng)用進(jìn)行設(shè)計(jì),具有一個(gè)革命性的全新二維片上網(wǎng)絡(luò)(2D NoC),以及一個(gè)高密度全新機(jī)器學(xué)習(xí)處理器(MLP)模塊陣列。通過將FPGA的可編程性與ASIC的布線結(jié)構(gòu)和計(jì)算引擎完美地結(jié)合在一起,Speedster7t系列產(chǎn)品創(chuàng)造了一類全新的“FPGA +”技術(shù)。
隨著人工智能/機(jī)器學(xué)習(xí)的應(yīng)用場(chǎng)景快速發(fā)展演進(jìn),新的解決方案都要去應(yīng)對(duì)在高性能、靈活和上市時(shí)間等方面的不同需求。根據(jù)市場(chǎng)調(diào)研公司Semico Research的預(yù)測(cè),人工智能應(yīng)用中FPGA的市場(chǎng)規(guī)模將在未來4年內(nèi)增長(zhǎng)3倍,達(dá)到52億美元。
“我們正處于智能化、自學(xué)習(xí)計(jì)算的高增長(zhǎng)階段的早期,這種計(jì)算將廣泛影響我們?nèi)盏某I睢!?span style="font-family:Arial">Achronix Semiconductor總裁兼首席執(zhí)行官Robert Blake表示:“Speedster7t是Achronix歷史上最令人激動(dòng)的發(fā)布,代表了建立在四個(gè)架構(gòu)代系的硬件和軟件開發(fā)基礎(chǔ)上的創(chuàng)新和積淀,以及與我們領(lǐng)先客戶之間的密切合作。Speedster7t是靈活的FPGA技術(shù)與ASIC核心效率的融合,從而提供了一個(gè)全新的‘FPGA+’芯片品類,它們可以將高性能技術(shù)的極限大大提升?!?/span>
在開發(fā)Speedster7t系列FPGA的產(chǎn)品過程中,Achronix的工程團(tuán)隊(duì)完全重新構(gòu)想了整個(gè)FPGA架構(gòu),以平衡片上處理、互連和外部輸入輸出接口(I / O),以實(shí)現(xiàn)數(shù)據(jù)密集型應(yīng)用吞吐量的最大化,這些應(yīng)用場(chǎng)景可見于那些基于邊緣和基于服務(wù)器的AI / ML應(yīng)用、網(wǎng)絡(luò)處理和存儲(chǔ)。
Speedster7t器件采用了TSMC的7nm FinFET工藝制造,是專為接收來自多個(gè)高速來源的大量數(shù)據(jù)而設(shè)計(jì),同時(shí)還需要將那些數(shù)據(jù)分發(fā)到可編程片上算法性和處理性單元中,然后以盡可能低的延遲來提供那些結(jié)果。Speedster7t系列產(chǎn)品包括高帶寬GDDR6接口、400G以太網(wǎng)端口和PCI Express Gen5等接口,所有這一切單元都互相連接以提供ASIC級(jí)帶寬,同時(shí)保留FPGA的完全可編程性。
“Achronix全新的Speedster7t FPGA系列產(chǎn)品是創(chuàng)新性芯片架構(gòu)實(shí)現(xiàn)爆發(fā)的一個(gè)卓越案例,創(chuàng)造該架構(gòu)的目的是直接面向AI應(yīng)用處理大量的數(shù)據(jù),” Semico Research公司ASIC和SoC首席市場(chǎng)分析師Rich Wawrzyniak說道。“通過將數(shù)學(xué)函數(shù)、存儲(chǔ)器和可編程性整合到其機(jī)器學(xué)習(xí)處理器中,再結(jié)合交叉芯片、二維NoC結(jié)構(gòu),從而形成了消除瓶頸和確保整個(gè)器件中數(shù)據(jù)自由流動(dòng)的絕佳方法。在AI / ML應(yīng)用中,內(nèi)存帶寬就是一切,Achronix的Speedster7t在這一領(lǐng)域提供了令人印象深刻的性能指標(biāo)。”
為計(jì)算性能進(jìn)行了高度的優(yōu)化
Speedster7t FPGA的核心是其全新機(jī)器學(xué)習(xí)處理器(MLP)中大規(guī)模的可編程計(jì)算單元平行陣列,它們可提供業(yè)界最高的、基于FPGA的計(jì)算密度。MLP是高度可配置的、計(jì)算密集型的單元模塊,可支持4到24位的整點(diǎn)格式和高效的浮點(diǎn)模式,包括對(duì)TensorFlow的16位格式的支持,以及可使每個(gè)MLP的計(jì)算引擎加倍的增壓塊浮點(diǎn)格式的直接支持。
MLP與嵌入式存儲(chǔ)器模塊緊密相鄰,通過消除傳統(tǒng)設(shè)計(jì)中與FPGA布線相關(guān)的延遲,來確保以750 MHz的最高性能將數(shù)據(jù)傳送到MLP。這種高密度計(jì)算和高性能數(shù)據(jù)傳輸?shù)慕Y(jié)合使得處理器邏輯陣列能夠提供基于FPGA的最高可用計(jì)算能力以每秒萬(wàn)億次運(yùn)算數(shù)量為單位(TOPS,Tera-Operations Per Second)。
世界級(jí)的帶寬
高性能計(jì)算和機(jī)器學(xué)習(xí)系統(tǒng)的關(guān)鍵之處是高片外存儲(chǔ)器帶寬,從而為多個(gè)數(shù)據(jù)流提供存儲(chǔ)源和緩沖。 Speedster7t器件是唯一支持GDDR6存儲(chǔ)器的FPGA,該類存儲(chǔ)器是具有最高帶寬的外部存儲(chǔ)器件。每個(gè)GDDR6存儲(chǔ)控制器都能夠支持512 Gbps的帶寬,Speedster7t器件中有多達(dá)8個(gè)GDDR6控制器,可以支持4 Tbps的GDDR6累加帶寬,并且以很小的成本就可提供與基于HBM的FPGA等效存儲(chǔ)帶寬。
“美光(Micron)樂于攜手Achronix去實(shí)現(xiàn)全球第一個(gè)面向高帶寬存儲(chǔ)需求而直接加載了GDDR6的FPGA產(chǎn)品,”美光計(jì)算與聯(lián)網(wǎng)業(yè)務(wù)部營(yíng)銷副總裁Mal Humphrey。“像這樣的創(chuàng)新的和可擴(kuò)展的解決方案將推動(dòng)人工智能領(lǐng)域內(nèi)的差異化,其中異構(gòu)計(jì)算可選方案與高性能的存儲(chǔ)是加速獲得數(shù)據(jù)內(nèi)涵的必需部分。”
除了這種非凡的存儲(chǔ)帶寬,Speedster7t器件還包括業(yè)界最高性能的接口端口,以支持極高帶寬的數(shù)據(jù)流。Speedster7t器件擁有多達(dá)72個(gè)業(yè)界最高性能的SerDes,可以達(dá)到1到112 Gbps的速度。還有帶有前向糾錯(cuò)(FEC)的硬件400G以太網(wǎng)MAC,支持4x 100G和8x 50G的配置,以及每個(gè)控制器有8個(gè)或16個(gè)通道的硬件PCI Express Gen5控制器。
超高效率的數(shù)據(jù)移動(dòng)
來自Speedster7t高速I / O和存儲(chǔ)器端口的數(shù)萬(wàn)兆比特?cái)?shù)據(jù)很容易淹沒傳統(tǒng)FPGA面向比特位的可編程互連邏輯陣列的路由容量,而Speedster7t架構(gòu)包含一個(gè)可橫跨和垂直跨越FPGA邏輯陣列的創(chuàng)新性的、高帶寬的二維片上網(wǎng)絡(luò)(NOC),它們連接到所有FPGA的高速數(shù)據(jù)和存儲(chǔ)器接口。它們就像疊加在FPGA互連這個(gè)城市街道系統(tǒng)上的空中高速公路網(wǎng)絡(luò)一樣,Speedster7t的NoC支持片上處理引擎之間所需的高帶寬通信。NoC中的每一行或每一列都可作為兩個(gè)256位實(shí)現(xiàn),單向的、行業(yè)標(biāo)準(zhǔn)的AXI通道,工作頻率為2Ghz,同時(shí)可為每個(gè)方向提供512 Gbps的數(shù)據(jù)流量。
通過在Speedster中實(shí)現(xiàn)專用二維 NoC, 極大地簡(jiǎn)化了高速數(shù)據(jù)移動(dòng),并確保數(shù)據(jù)流可以輕松地定向到整個(gè)FPGA結(jié)構(gòu)中的任何自定義處理引擎。最重要的是,NOC消除了傳統(tǒng)FPGA使用可編程路由和邏輯查找表資源在整個(gè)FPGA中移動(dòng)數(shù)據(jù)流中出現(xiàn)的擁塞和性能瓶頸。這種高性能網(wǎng)絡(luò)不僅可以提高Speedster7t FPGA的總帶寬容量,還可以在降低功耗的同時(shí)提高有效LUT容量。
針對(duì)安全性至上和硬件確保應(yīng)用的安全防護(hù)功能
Speedster7t FPGA系列產(chǎn)品在面臨第三方攻擊的威脅時(shí),可用最先進(jìn)的比特流安全保護(hù)功能應(yīng)對(duì),它們具有的多層防御能力可保護(hù)比特流的保密性和完整性。密鑰是基于防篡改物理不可克隆技術(shù)(PUF)進(jìn)行加密,比特流由256位的AES-GCM加密算法進(jìn)行加密和驗(yàn)證。為了防止來自旁側(cè)信道的攻擊,比特流被分段,每個(gè)數(shù)據(jù)段使用單獨(dú)導(dǎo)出的密鑰,且解密硬件采用差分功率分析(DPA)計(jì)數(shù)器措施。 此外,2048位RSA公鑰認(rèn)證協(xié)議被用來激活解密和認(rèn)證硬件。用戶可以確信的是當(dāng)他們加載其安全比特流時(shí),它是預(yù)期的配置,這是因?yàn)樗淹ㄟ^RSA公鑰、AES-GCM私鑰和CRC校驗(yàn)進(jìn)行了身份驗(yàn)證。
經(jīng)驗(yàn)證的、可向低成本ASIC轉(zhuǎn)換的途徑,用以滿足大批量需求
Achronix是唯一一家既提供獨(dú)立FPGA芯片又提供Speedcore?嵌入式FPGA(eFPGA)半導(dǎo)體知識(shí)產(chǎn)權(quán)( IP)的公司。Achronix在Speedcore eFPGA IP中采用了與Speedster7t FPGA中使用的同一種技術(shù),可支持從Speedster7t FPGA到ASIC的無(wú)縫轉(zhuǎn)換。FPGA應(yīng)用通常具有必須保持可編程性的功能,而其他固定功能則是專用于特定的系統(tǒng)應(yīng)用。對(duì)于ASIC的轉(zhuǎn)換而言,固定功能可以被固化進(jìn)ASIC結(jié)構(gòu)中,從而減小芯片面積、成本和功耗。當(dāng)使用Speedcore eFPGA IP將Speedster7t FPGA轉(zhuǎn)換為ASIC時(shí),客戶有望節(jié)省高達(dá)50%的功耗并降低90%的成本。
供貨
Speedster7t FPGA器件的大小范圍為從363K至2.6M 的6輸入查找表(LUT)。支持所有Achronix產(chǎn)品的ACE設(shè)計(jì)工具現(xiàn)已可提供,可支持包括Speedcore eFPGA和Speedchip?FPGA多晶粒封裝芯片(Chiplet)。
第一批用于評(píng)估的器件和開發(fā)板將于2019年第四季度提供。
關(guān)于Achronix半導(dǎo)體公司
Achronix半導(dǎo)體公司是一家私有的、采用無(wú)晶圓廠模式的半導(dǎo)體公司,總部位于美國(guó)加利福尼亞州圣克拉拉市,同時(shí)提供高性能FPGA和嵌入式FPGA(EFPGA)解決方案。Achronix歷來都是高性能FPGA市場(chǎng)向前發(fā)展的推動(dòng)者之一。Achronix提供的產(chǎn)品包括可編程的FPGA結(jié)構(gòu)、具有硬連線系統(tǒng)級(jí)模塊的分立式高性能和高密度FPGA、數(shù)據(jù)中心和HPC硬件加速器板,以及支持所有Achronix產(chǎn)品的一流EDA軟件。公司在美國(guó)、歐洲和中國(guó)都設(shè)有銷售辦公室和代表處,在印度班加羅爾設(shè)有一間研發(fā)和設(shè)計(jì)辦公室。更多信息,請(qǐng)?jiān)L問:http://www.achronix.com。
評(píng)論