新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 高端訪談 > 決勝AI云端:“芯火”燎原看燧原

決勝AI云端:“芯火”燎原看燧原

作者:《電子產(chǎn)品世界》編委鄭小龍 時(shí)間:2020-10-22 來(lái)源:電子產(chǎn)品世界 收藏
編者按:AI云端芯片是產(chǎn)業(yè)的支撐力,該領(lǐng)域壟斷局面不利于市場(chǎng)的發(fā)展和應(yīng)用落地。燧原科技作為中國(guó)本土AI云端芯片的提供者,創(chuàng)建自主開發(fā)且超越通常GPU體系的AI芯片架構(gòu),推出“邃思”AI芯片和“云燧T10”加速卡,顯示出本土企業(yè)在云端訓(xùn)練水準(zhǔn)達(dá)到了新的高度。其所開發(fā)“馭算”軟件開發(fā)平臺(tái)以及生態(tài)支持系統(tǒng),可以更大限度地滿足AI應(yīng)用的算力需求,使智能數(shù)據(jù)中心全面國(guó)產(chǎn)化成為可能,并將推進(jìn)AI引領(lǐng)下各個(gè)新興領(lǐng)域應(yīng)用的創(chuàng)新。


本文引用地址:http://butianyuan.cn/article/202010/419511.htm

1   云端烽火燃起

)毫無(wú)疑問(wèn)是當(dāng)今一個(gè)炙手可熱的詞匯,當(dāng)智能化在各行各業(yè)被津津樂(lè)道之時(shí),就成為其核心創(chuàng)新技術(shù)的體現(xiàn),其中AI芯片更是“集萬(wàn)千寵愛(ài)于一身”。本欄目曾經(jīng)對(duì)用戶端的AI芯片及其落地應(yīng)用做過(guò)介紹[1],主要為語(yǔ)音識(shí)別和智能圖像處理,在這里要一直看到AI云端,這里同樣風(fēng)光獨(dú)好。

對(duì)于日益豐富的AI應(yīng)用場(chǎng)景不斷提高的算力需求是驅(qū)動(dòng)AI云端芯片發(fā)展的動(dòng)力,其所蘊(yùn)藏的商機(jī)巨大。據(jù)權(quán)威機(jī)構(gòu)統(tǒng)計(jì),AI算力需求每3個(gè)半月翻1倍,市場(chǎng)幾年內(nèi)將會(huì)從數(shù)十億變?yōu)閿?shù)百億美元。然而云端AI芯片由國(guó)際巨頭所獨(dú)占的壁壘已經(jīng)成為束縛整個(gè)產(chǎn)業(yè)健康發(fā)展的問(wèn)題。這塊堅(jiān)冰已在松動(dòng),如火如荼的爭(zhēng)鋒來(lái)臨在即,由AI“”點(diǎn)起火焰已經(jīng)開始燃燒。升騰的烈火中浮現(xiàn)著不少本土公司的身影,其中上海燧原科技有限公司(Enflame)以紅色的火焰為企業(yè)形象標(biāo)志,其云端AI芯片格外令人矚目。筆者對(duì)燧原科技作為國(guó)產(chǎn)AI云端芯片新銳充滿好奇,特別是僅用與“摩爾定律”周期契合的18個(gè)月就取得豐碩成果而成為業(yè)內(nèi)佼佼者,于是前往上海張江,在張潤(rùn)大廈與創(chuàng)始人兼CEO趙立東進(jìn)行訪談。

趙立東首先談到AI芯片的3個(gè)分層:技術(shù)門檻最高的是最上層的云端訓(xùn)練,中間是云端,最下層是終端推理。針對(duì)不同AI應(yīng)用場(chǎng)景的模型訓(xùn)練只能在云端進(jìn)行。目前,云端訓(xùn)練的市場(chǎng)規(guī)模大于云端。隨著AI技術(shù)的大面積落地,云端的市場(chǎng)規(guī)模會(huì)逐漸超過(guò)云端訓(xùn)練。這也意味著訓(xùn)練效果越來(lái)越好,AI模型越來(lái)越成熟,應(yīng)用落地越來(lái)越廣泛。

在云端AI訓(xùn)練芯片被壟斷的局面下,下游的云端推斷和終端應(yīng)用的發(fā)展必然受到阻礙。價(jià)格高企、本土技術(shù)支持不夠,以及生態(tài)不開放等因素禁錮著訓(xùn)練端,使其下游推斷的落地受阻,限制了更多AI創(chuàng)新的涌現(xiàn)。

燧原科技所致力的目標(biāo)就是努力打破國(guó)外壟斷,實(shí)現(xiàn)國(guó)產(chǎn)替代,使這個(gè)市場(chǎng)和產(chǎn)業(yè)良性發(fā)展。因此,燧原科技于2019年12月11日發(fā)布了首款“邃思”云端訓(xùn)練芯片和“云邃”AI訓(xùn)練加速卡及“馭算”計(jì)算及編程平臺(tái),如圖1所示。

1603344908967764.png

圖1 國(guó)產(chǎn)AI云端訓(xùn)練芯片和加速卡及開發(fā)平臺(tái)

2   邃思“芯”火升騰的奧秘

后來(lái)者居上是需要有硬實(shí)力的,對(duì)此趙立東指出,GPU或CPU芯片的架構(gòu)原本就不是為AI而設(shè)計(jì)的,只有專為AI設(shè)計(jì)的架構(gòu)才有機(jī)會(huì)打破壟斷贏得市場(chǎng),滿足AI爆發(fā)式增長(zhǎng)的數(shù)據(jù)和算法模型帶來(lái)的算力需求?!板渌肌贬槍?duì)以深度學(xué)習(xí)為代表的神經(jīng)網(wǎng)絡(luò)算法和模型,其主芯片DTU單元計(jì)算核心采用32個(gè)通用可擴(kuò)展(SIP)進(jìn)行高速并行處理,其中每8個(gè)SIP組合成1個(gè)可擴(kuò)展智能計(jì)算群(SIC)。SIC之間通過(guò)HBM實(shí)現(xiàn)高速互聯(lián),再利用片上調(diào)度算法,數(shù)據(jù)在搬遷中完成計(jì)算,實(shí)現(xiàn)SIP利用率最大化。SIP基于可重構(gòu)芯片設(shè)計(jì)理念,不僅具有高度并行化的特點(diǎn),也可通過(guò)可編程的指令集適配現(xiàn)有及未來(lái)可能的AI算法。

邃思采用12 nm FinFET工藝和2.5D高級(jí)封裝技術(shù),集成了141億個(gè)晶體管。邃思芯片組成如圖2所示,其中,中間層用于布下密集的連線,采用的是自研的Interposer技術(shù)。

邃思DTU云端訓(xùn)練芯片具有開放、通用、高性能特性,表現(xiàn)為如下4個(gè)方面。

1)世界領(lǐng)先的高精度算力:原生支持 FP32 精度的標(biāo)量、向量、矩陣和卷積計(jì)算;FP32 最大算力20TFLOPS;這是業(yè)內(nèi)唯一支持 BF16的 芯片,算力達(dá)到80TFLOPS。

2)支持E級(jí)數(shù)據(jù)中心互聯(lián):200 GB/s 高速片間互聯(lián)總線;單節(jié)點(diǎn)最大 16 顆芯片互聯(lián);支持多節(jié)點(diǎn)擴(kuò)展和分布式訓(xùn)練平臺(tái);支持 PCIe 4.0。

3)可定制化算子庫(kù):支持深度學(xué)習(xí)常用算子、多種超越函數(shù);底層開放、按需定制。

4)支持模型深度優(yōu)化:支持混合精度、BF16 數(shù)據(jù)格式;模型遷移成本低。

1603345079618229.png

圖2 邃思芯片組成圖

3   云燧加速卡打造“火的戰(zhàn)車

圖3為云燧T10加速卡組成圖,底層為裝有邃思AI芯片的主板及背板,上面為ESL片間互聯(lián)層?;阱渌夹酒脑旗軹10訓(xùn)練加速卡具有高算力、低功耗、強(qiáng)互聯(lián)等特色。完全自主研發(fā)的ESL互聯(lián)技術(shù),支持集群化的訓(xùn)練,且無(wú)需專門的連接器和轉(zhuǎn)換器,從而有效降低成本,其創(chuàng)新的拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)可提供更加靈活的連接方式。

云燧T10加速卡是一個(gè)PCIe插卡,但包著厚實(shí)的金屬外殼,就像能超高速運(yùn)行的AI“火的戰(zhàn)車”,適用包括FP32/FP16/BF16/Int8/Int16/Int32等豐富的數(shù)據(jù)類型,支持CNN、RNN、LSTM、BERT等常用訓(xùn)練模型,也適合于圖像、數(shù)據(jù)流、語(yǔ)音等各種訓(xùn)練場(chǎng)景的應(yīng)用,使其出眾的性能躍然于全球云端AI芯片強(qiáng)手之林。

1604024263468858.png

圖3 云燧T10加速卡組成圖

4   傳播AI之火的“馭算”生態(tài)平臺(tái)

從AI云端訓(xùn)練邃思芯片之“火”,到云燧加速卡“火的戰(zhàn)車”,其疊加組合的分布式集群就可視為“火的列車”。由ESL互聯(lián)的創(chuàng)新背板互聯(lián)方案,可形成支持超級(jí)的AI體系。首先是PCIe單卡,4個(gè)1組通過(guò)ESL背板互聯(lián);然后是單服務(wù)器8卡ESL背板互聯(lián)的單機(jī)柜通過(guò)ESL線纜互聯(lián);再來(lái)則是通過(guò)標(biāo)準(zhǔn)RDMA跨RACK組建E級(jí)計(jì)算數(shù)據(jù)中心?;谠旗菁铀倏ǖ某?jí)組成如圖4所示。

為駕馭AI超級(jí)立體化“火的列車”,需要打造軟件平臺(tái)——“馭算”計(jì)算及編程平臺(tái),與硬件產(chǎn)品配套,實(shí)現(xiàn)軟硬件的一體化解決方案。在AI芯片領(lǐng)域里,軟件與硬件地位同等重要,“馭算”既兼容TensorFlow和PyTorch等主流AI框架,也支持ResNet、Yolo、BERT等多種主流AI模型,可通過(guò)SDK提供深度定制。正在開發(fā)的編程語(yǔ)言模型,在對(duì)開發(fā)者有相對(duì)友好的語(yǔ)義的同時(shí),也能給開發(fā)者提供途徑來(lái)實(shí)現(xiàn)靈活操控,更好地發(fā)揮硬件性能。同時(shí)針對(duì)國(guó)產(chǎn)AI框架的適配和支持工作正在進(jìn)行中。

5   中國(guó)AI本土化之火正在燎原

趙立東談到燧原科技的創(chuàng)業(yè)初心就是 “做大芯片,拼硬科技”,目前已經(jīng)取得了階段性成果,第一代通用AI訓(xùn)練芯片“邃思”成功發(fā)布并量產(chǎn)。對(duì)于未來(lái)的發(fā)展,他強(qiáng)調(diào)要“志存高遠(yuǎn),腳踏實(shí)地”。一方面,加速產(chǎn)品迭代和技術(shù)創(chuàng)新,持續(xù)軟件優(yōu)化并完善生態(tài)系統(tǒng);另一方面,堅(jiān)持業(yè)務(wù)落地、規(guī)模化并實(shí)現(xiàn)盈利。唯有雙輪驅(qū)動(dòng),形成正向循環(huán),企業(yè)才有可持續(xù)發(fā)展的動(dòng)力。

2020年3月國(guó)家提出加快新型基礎(chǔ)設(shè)施建設(shè)的戰(zhàn)略,5G和AI成為重點(diǎn)發(fā)展領(lǐng)域;7月國(guó)家又頒布了《新時(shí)期促進(jìn)集成電路產(chǎn)業(yè)和軟件產(chǎn)業(yè)高質(zhì)量發(fā)展的若干政策》。對(duì)于像燧原科技這樣的本土企業(yè)而言是極大的鼓舞,希望與政府和上下游商業(yè)伙伴一起攜手,密切合作,打破壟斷實(shí)現(xiàn)國(guó)產(chǎn)替代。就在拜訪之后的9月22日,燧原科技正式宣布第一代AI訓(xùn)練加速卡“云燧T10”及其組成的多卡分布式訓(xùn)練集群已在云數(shù)據(jù)中心落地,這是該產(chǎn)品和系統(tǒng)進(jìn)入商用化階段的里程碑,標(biāo)志著燧原躍升為業(yè)內(nèi)領(lǐng)先的以高性能AI訓(xùn)練產(chǎn)品成功切入數(shù)據(jù)中心市場(chǎng)的“”公司,展現(xiàn)出AI本土化之火已呈現(xiàn)燎原之勢(shì)。

參考文獻(xiàn):[1] 鄭小龍.探境科技之得“芯”應(yīng)手[J].電子產(chǎn)品世界,2020(8):12-13.

注:本文來(lái)源于科技期刊《電子產(chǎn)品世界》2020年第10期,歡迎您寫論文時(shí)引用,并注明出處。



評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉