異構(gòu)將成超算主流,Habana的AI專(zhuān)用芯片顯威力
近日,Habana Labs宣布美國(guó)圣地亞哥超算中心為Voyager研究計(jì)劃選擇了Habana Lab AI 加速器。后者是典型的ASIC(專(zhuān)用芯片),但是可與英偉達(dá)的GPU在AI訓(xùn)練市場(chǎng)一比高低。為何Habana Lab AI 加速器有如此強(qiáng)大的威力?未來(lái)的超算架構(gòu)會(huì)青睞哪種AI芯片?值此機(jī)會(huì),電子產(chǎn)品世界記者采訪了Habana Labs中國(guó)區(qū)總經(jīng)理于明揚(yáng)先生。
1 用于Voyager研究計(jì)劃的Habana Lab AI 加速器
據(jù)悉,超微 (Supermicro)提供內(nèi)置Habana? Gaudi? AI訓(xùn)練和Goya? AI推理加速器的高性能計(jì)算系統(tǒng),將用于加州大學(xué)圣地亞哥分校圣地亞哥超級(jí)計(jì)算機(jī)中心(SDSC)的Voyager超級(jí)計(jì)算機(jī),以提供高性能的AI計(jì)算能力,計(jì)劃于2021年秋季投入使用。
Voyager將致力于推進(jìn)跨學(xué)科和工程領(lǐng)域的人工智能研究。其采用了Habana獨(dú)特的互聯(lián)技術(shù),用336片Gaudi加速器有效地提升了AI訓(xùn)練能力,這種架構(gòu)很好地?cái)U(kuò)展了大型超級(jí)計(jì)算機(jī)的訓(xùn)練應(yīng)用。Gaudi是目前業(yè)界唯一內(nèi)置集成10個(gè)支持RoCE v2(RDMA over Converged Ethernet)100G以太網(wǎng)端口的AI處理器,可以有效提升擴(kuò)展的靈活性,避免擴(kuò)展能力受限于吞吐量。Voyager系統(tǒng)還采用了16片Habana Goya處理器用于AI推理模型。
之所以采用Habana的芯片,因?yàn)樾士梢源鬄樘嵘?。例如Habana與AWS合作時(shí),AWS稱(chēng)在AWS EC2實(shí)例上,8卡的Gaudi 解決方案可以在TensorFlow上每秒處理1.2萬(wàn)張圖像訓(xùn)練ResNet-50模型。
2 GPU、FPGA、ASIC各有所長(zhǎng),異構(gòu)將成超算主流
在整個(gè)AI業(yè)務(wù)中,GPU、FPGA和現(xiàn)在Habana ASIC架構(gòu)各有各的優(yōu)勢(shì),不能互相替代。
·GPU表現(xiàn)的是靈活性,在靈活性的基礎(chǔ)上同時(shí)具有性能的優(yōu)勢(shì)。
·FPGA擅長(zhǎng)整形與定制化。首先在整形表現(xiàn)了很好的性能,另外在靈活性與定制化之間選擇了一個(gè)平衡。但是,F(xiàn)PGA有較大的應(yīng)用門(mén)檻——如果客戶(hù)想通過(guò)FPGA深度定制化實(shí)現(xiàn)加速,可能要對(duì)于FPGA的Verilog、VHDL語(yǔ)言有深入的了解。
·以Habana為代表的ASIC路線。ASIC在模型加速過(guò)程中可以實(shí)現(xiàn)很好的定制化加速;同時(shí)因?yàn)镠abana對(duì)于計(jì)算架構(gòu)有深入的理解,又最大限度地保持了靈活性。另外,在很多應(yīng)用場(chǎng)景下更接近于GPU的使用習(xí)慣,但性能又要比GPU有很大的提升。
因此,在未來(lái)在異構(gòu)的場(chǎng)景中,GPU、FPGA和ASIC會(huì)承擔(dān)不同的角色,很可能在一個(gè)大型的計(jì)算集群中承擔(dān)不同的功能。
例如,在一些要求高精度的科學(xué)計(jì)算中,GPU會(huì)發(fā)揮其優(yōu)勢(shì)。FPGA的64位浮點(diǎn)計(jì)算的能力很強(qiáng),在整形計(jì)算中的能力以及對(duì)于某些計(jì)算中的一些定制化的功能,有可能幫助其在流媒體的預(yù)處理、一些格式的轉(zhuǎn)換中表現(xiàn)出一定的優(yōu)勢(shì)。而對(duì)于典型的AI應(yīng)用,ASIC架構(gòu)方案有望實(shí)現(xiàn)更高效的性能,以幫助客戶(hù)降低訓(xùn)練的成本,提升效率。
因此可以預(yù)言,在超算中,異構(gòu)是未來(lái)的一個(gè)趨勢(shì)。超算中很可能會(huì)選擇X86的架構(gòu)作為整個(gè)計(jì)算、業(yè)務(wù)的調(diào)度和管理,所以X86架構(gòu)會(huì)存在。同時(shí)GPU會(huì)在科學(xué)運(yùn)算、高精度浮點(diǎn)運(yùn)算中起到重要的角色。再有,超算對(duì)于未來(lái)AI應(yīng)用有非常強(qiáng)的需求,這種應(yīng)用中有可能會(huì)使用ASIC解決方案,諸如Habana ASIC解決架構(gòu)方案,這樣的組合給客戶(hù)帶來(lái)最大的靈活性,同時(shí)也可以助力超算最大限度地提升性能,而且降低其運(yùn)營(yíng)成本。
異構(gòu)架構(gòu)的應(yīng)用挑戰(zhàn)是如何在不同架構(gòu)上部署自己和客戶(hù)的業(yè)務(wù)。因此,如何提供這種融合的管理平臺(tái),幫助客戶(hù)能自動(dòng)地把其需求部署到不同的架構(gòu)中,可能是一大關(guān)鍵。
3 Habana與英偉達(dá)是AI訓(xùn)練的雙雄
在訓(xùn)練市場(chǎng),目前能提供產(chǎn)品的廠商不多。雖然在國(guó)內(nèi)現(xiàn)在已經(jīng)出現(xiàn)了一些新的用GPU架構(gòu),但是這些廠家的產(chǎn)品還處在早期的研發(fā)階段?,F(xiàn)在市場(chǎng)上成熟的,能夠給客戶(hù)提供真正訓(xùn)練體驗(yàn)的產(chǎn)品只有英偉達(dá)GPU和Habana的Gaudi。
目前,其它廠家的產(chǎn)品處在整個(gè)生態(tài)完善過(guò)程中,在推廣中主要遇到兩大挑戰(zhàn):①目前只能用于特定的場(chǎng)景,②應(yīng)用跟自身品牌的訓(xùn)練芯片匹配,才可能體現(xiàn)出更好的效果。
4 Habana在中國(guó)的策略
Habana在華策略跟全球策略基本上保持一致。首先,Habana會(huì)跟選定的主流云廠商進(jìn)行深入合作,因?yàn)樵茝S商一方面給客戶(hù)提供更廣泛的服務(wù),同時(shí)自身也有很多業(yè)務(wù)需求,因此可以給Habana帶來(lái)更多用戶(hù)的信息和市場(chǎng)的需求,幫助Habana打磨、完善自身的產(chǎn)品,以便在最短時(shí)間內(nèi)能建立起一整套自己的生態(tài)體系,來(lái)滿(mǎn)足未來(lái)用戶(hù)的需求。
值得一提的是,Habana開(kāi)始并不會(huì)把市場(chǎng)鋪得太廣,因?yàn)楫吘笻abana產(chǎn)品剛剛進(jìn)入市場(chǎng),還有很多不完善的地方,需要投入資源去不斷改善。在完善之后,會(huì)把產(chǎn)品推廣到更多企業(yè)級(jí)的用戶(hù)和專(zhuān)業(yè)的用戶(hù)上。
5 未來(lái)產(chǎn)品規(guī)劃
Habana正在開(kāi)發(fā)下一代7納米的芯片,代碼叫Gaudi2。該芯片大致的時(shí)間沒(méi)有最后的確認(rèn),很可能是在2022年上半年。預(yù)計(jì)相對(duì)于Gaudi,會(huì)有2倍以上的性能提升。
這兩倍以上的性能提升,一是在絕對(duì)性能上,包含對(duì)一些典型模型的支撐的性能。同時(shí)也會(huì)提供更好的軟件生態(tài),包括對(duì)框架更好的支持,以及對(duì)一些新興的模型和已有的模型有更好的匹配,并給客戶(hù)提供更好的工具鏈,幫助客戶(hù)把他們的傳統(tǒng)工具能夠部署到新的Habana訓(xùn)練平臺(tái)上。再有,新的訓(xùn)練平臺(tái)中也會(huì)提供一些更新的功能,例如一些預(yù)處理的功能,以減少對(duì)CPU計(jì)算資源的消耗等。
6 被英特爾收購(gòu)之后的變化
Habana Labs于2016年成立,2019年被英特爾收購(gòu),成為英特爾數(shù)據(jù)產(chǎn)品集團(tuán)獨(dú)立運(yùn)營(yíng)的業(yè)務(wù)部門(mén)。被英特爾收購(gòu)后,Habana在英特爾內(nèi)是獨(dú)立運(yùn)營(yíng)的,這保證了Habana產(chǎn)品獨(dú)立性,以及能快速響應(yīng)客戶(hù)需求,并保持產(chǎn)品一貫的連續(xù)。另外,英特爾又可以幫助Habana做產(chǎn)品背書(shū),讓客戶(hù)更有信心與Habana合作。
7 Habana的訓(xùn)練和推理芯片是否要搭配
通過(guò)端到端的解決方案,肯定效率會(huì)有所提高。但是應(yīng)該強(qiáng)調(diào)的是,Habana的Gaudi(訓(xùn)練)和Goya(推理)都是面向訓(xùn)練和推理預(yù)測(cè)的通用ASIC架構(gòu)的處理器,因此并沒(méi)有一對(duì)一的特殊要求。
但在某些場(chǎng)景下,Gaudi和Goya的配合確實(shí)能發(fā)揮一定的作用。Gaudi和Goya兩類(lèi)芯片中比較典型的技術(shù)積累在于整形處理方面的能力,這是Habana專(zhuān)有的IP技術(shù)。通過(guò)整形的技術(shù)既保證了性能的提升,同時(shí)又保證了整個(gè)模型訓(xùn)練和推理之后的準(zhǔn)確性。因此,如果把兩個(gè)芯片能配合在一塊使用,可以在整形應(yīng)用上給客戶(hù)帶來(lái)更好的性能體驗(yàn)。
評(píng)論