自主造芯新突破：256TOPS算力刷新國產(chǎn)性能榜，功耗低至35W，首個(gè)存算一體智駕芯片兩年交卷

發(fā)布人：傳感器技術(shù) 時(shí)間：2023-05-13 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

發(fā)布文章

金磊發(fā)自量子位

中國芯片，再添一股新勢(shì)力——

國內(nèi)首款存算一體智駕芯片，正式發(fā)布！

這款12nm芯片名叫鴻途?H30，從性能表現(xiàn)上來看，在功耗僅為35W的情況下，最高物理算力可達(dá)256TOPS。

概括來說，就是芯片性能提升了2倍以上，但功耗卻減少了超50%。

這一點(diǎn)，以Resnet50性能功耗為例，與國際芯片巨頭英偉達(dá)主流產(chǎn)品做對(duì)比即可一目了然。

不過有一說一，除了“國內(nèi)首款存算一體智駕芯片”之外，圍繞鴻途?H30所體現(xiàn)的“業(yè)界第一”還不僅于此。

它的問世也成為了存算一體大算力芯片在國內(nèi)的首次工程化落地。

而打造鴻途?H30背后的公司后摩智能（下文簡稱后摩），其自身也擁有著一個(gè)“業(yè)界第一”的標(biāo)簽——

國內(nèi)首家存算一體大算力AI芯片公司。

更重要的是，以上種種的成績，后摩是從自2020年底成立至今，僅僅花費(fèi)2年多的時(shí)間“解鎖”。

如此速度和效能之下，也令活動(dòng)現(xiàn)場(chǎng)掌聲不斷。

不只是一顆芯片這么簡單

我們進(jìn)一步再來深入了解一下這款存算一體架構(gòu)芯片。

許多了解芯片的小伙伴在看到“256TOPS”時(shí)，就會(huì)產(chǎn)生疑問：市面上不是已經(jīng)有很多能夠達(dá)到這個(gè)算力值的芯片了嗎？

我們需要注意的是，鴻途?H30亮出來的是物理算力，并非是市面上常說的稀疏虛擬算力。

這也就意味著它一舉成為了國產(chǎn)智駕芯片里物理算力最大的那一個(gè)。

更難能可貴的是，在拿下最大算力的同時(shí)，功耗正如我們剛才提到的，僅為35W。

如此看下來，芯片的能效比便是幾倍于同類的產(chǎn)品了。

除此之外，在活動(dòng)現(xiàn)場(chǎng)，后摩對(duì)鴻途?H30更多的細(xì)節(jié)參數(shù)做了展示：

12nm工藝
支持外擴(kuò)Memory，寬帶達(dá)128GB/s
支持16路FHD Encoder/Decoder
支持PCIe 4.0，x8，x4，x2，RC&EP mode
……

性能指標(biāo)方面，鴻途?H30與英偉達(dá)產(chǎn)品相比，在Resnet50 Batch=1和Batch=8上，分別達(dá)到了5.7倍和2.3倍。

計(jì)算效率方面，鴻途?H30更是拿下了11.3倍和4.6倍的成績！

那么具備如此高性能存算IP，如何能將其利用到位，便涉及到AI處理器架構(gòu)和設(shè)計(jì)的問題了。

而在活動(dòng)現(xiàn)場(chǎng)，后摩也是將其背后的架構(gòu)設(shè)計(jì)毫無保留地展示了出來——IPU（Intelligence Processing Unit）。

從整體來看，后摩在架構(gòu)設(shè)計(jì)上的規(guī)劃采用了“三步走”的策略。

首先便是第一代IPU天樞架構(gòu)，這是專門為自動(dòng)駕駛所打造的IPU，而剛才我們提到的鴻途?H30正是基于此。

談到這個(gè)架構(gòu)是如何設(shè)計(jì)出來的，就不得不先提一下以往芯片的設(shè)計(jì)架構(gòu)。

例如特斯拉FSD的集中式計(jì)算，就是非常典型的通過堆積大量計(jì)算資源來提高性能。

它就像是一個(gè)四合院，院子里啥都有，主人們?cè)谠鹤永锟梢员M情溝通交流，但問題也非常明顯，就是四合院的面積就只有那么大，居住者數(shù)量就是有限的。

后來也有人提出了分布式計(jì)算的方法，把算力很大的核拆分成若干個(gè)小核；這些小核可以獨(dú)立完成小任務(wù)，也可以共同完成大任務(wù)。

這種方式像是現(xiàn)代高層公寓，每層樓都有獨(dú)立的基礎(chǔ)生活功能，也可以方便復(fù)制和擴(kuò)展；但問題是每層樓之間的溝通比較困難。

因此，后摩智能的天樞架構(gòu)所采用的便是二合一的思路——結(jié)合古典中式建筑和現(xiàn)代高層建筑。

簡單來說，每個(gè)芯片都包含4個(gè)IPU核；每個(gè)IPU核又有4個(gè)Tile；而每個(gè)Tile內(nèi)部還有CPU、張量引擎、特殊功能單元、矢量處理器和多通道DMA等。

這樣的架構(gòu)使得AI計(jì)算不但不用在多個(gè)處理器（例如CPU，GPU，DSP）之間分配任務(wù)，甚至不用出AI核，就可以高效的完成全部端到端的計(jì)算。

這種架構(gòu)還可以說是像一個(gè)綜合辦事大樓，走進(jìn)去，一站式完成各種業(yè)務(wù)，大幅提高了效率。

總結(jié)來說，天樞架構(gòu)的特點(diǎn)之一就是多核/多硬件線程實(shí)現(xiàn)計(jì)算效率與算力靈活擴(kuò)展的平衡。

除此之外，它還可以擺脫系統(tǒng)總線的桎梏，其雙環(huán)拓?fù)鋵Ｓ每偩€可以實(shí)現(xiàn)靈活的數(shù)據(jù)直傳。

就像在多層空中四合院之間，建了個(gè)直接入戶的電梯，可以快速做到傳輸。

至于后摩在未來要進(jìn)一步研發(fā)的天璇架構(gòu)和天璣架構(gòu)，則將聚焦在擴(kuò)大模型應(yīng)用邊界和通用人工智能。

在現(xiàn)場(chǎng)，后摩也展示了搭載鴻途?H30后無人小車上路的實(shí)測(cè)。

但如果你覺得后摩僅僅是拿出來了一塊芯片，那就有點(diǎn)too simple了些。

在如此短促的研發(fā)時(shí)間里，它還一口氣發(fā)布了力馭?域控制器和后摩大道?軟件平臺(tái)。

力馭是后摩面向智能駕駛市場(chǎng)的大算力域控制器產(chǎn)品，據(jù)悉，只需要搭載單顆鴻途?H30，便可以滿足智能駕駛多種傳感器、從L2到L4所有AI計(jì)算的需求。

最后，還有一個(gè)后摩大道?軟件平臺(tái)，是為鴻途?H30芯片產(chǎn)品開發(fā)的AI軟件開發(fā)平臺(tái)。

它的作用便是可以讓客戶在使用后摩存算一體架構(gòu)產(chǎn)品時(shí)，能夠?qū)㈤_發(fā)、調(diào)試和部署應(yīng)用的效率大幅提高。

△注：后摩智能BEV模型實(shí)測(cè)

以上便是后摩第一次正式亮相所給出的主要“作業(yè)”了。

通過各種數(shù)據(jù)和效果的對(duì)比展示，其在大算力國產(chǎn)智駕芯片的實(shí)力可見一斑。

但更令人驚嘆的，還應(yīng)當(dāng)屬“后摩速度”——一切都在2年多時(shí)間完成。

如何在2年時(shí)間“煉”成的？

不同于美國創(chuàng)業(yè)公司從車庫、大學(xué)宿舍開始的那般浪漫與理想，后摩的創(chuàng)業(yè)起點(diǎn)非常出乎人們的意料——沙縣小吃。

沒錯(cuò)，正是在這種享受餛飩與熱湯之際，幾個(gè)人一拍即合，決定創(chuàng)業(yè)搞AI芯片。

不過賽道鎖定在芯片，除了大環(huán)境的因素之外，也與小伙伴們每個(gè)人都向往“萬物智能”的生活相關(guān)。

例如有人家住得特別遠(yuǎn)，若是自動(dòng)駕駛成熟了，便可以邊通勤邊辦公；還有人非常顧家，希望有個(gè)機(jī)器人把家務(wù)全包了……

那么問題來了，到底什么樣的芯片才能做到無處不在、讓萬物實(shí)現(xiàn)智能？

極致的效率，毋庸置疑是非常關(guān)鍵的因素之一。

然而當(dāng)時(shí)后摩的初創(chuàng)團(tuán)隊(duì)從科技發(fā)展歷史看清的一個(gè)事實(shí)是，每1000倍的效率提升將造就一個(gè)計(jì)算時(shí)代。

若是想要達(dá)到他們理想的萬物智能世界，那么算力起碼也得是現(xiàn)今芯片計(jì)算效能的1000倍。

加之摩爾定律的逐步失效，他們便將目光聚焦到了另一種打法——換架構(gòu)，搞存算一體。

團(tuán)隊(duì)堅(jiān)定認(rèn)為，這就是后摩爾時(shí)代下的破局之道：

算力得大，功耗要低，面積要小，成本還得廉。

以至于CEO吳強(qiáng)在現(xiàn)場(chǎng)這般回憶道：

我們太喜歡這個(gè)方向了，連公司名字都是從這而來——后摩智能。

（雖然也有人會(huì)打電話問是不是做摩托車的……）

不過講真，存算一體這個(gè)技術(shù)在兩三年前并沒有像現(xiàn)在這般火爆。

可以說后摩成為了最早一批嘗到紅利的公司，也順理成章地使其成了國內(nèi)第一個(gè)搞存算一體大算力AI芯片的公司。

而之所以會(huì)將第一個(gè)落地場(chǎng)景放到自動(dòng)駕駛，用吳強(qiáng)的話來說就是，“自動(dòng)駕駛是萬物智能美好生活的重要組成部分，人們幾乎在花1/8清醒時(shí)間在開車”。

并且自動(dòng)駕駛作為“集AI技術(shù)大成者”的領(lǐng)域，能啃下這塊硬骨頭，那么再拓展到其它領(lǐng)域也就會(huì)輕松很多。

賽道、方向、技術(shù)，在創(chuàng)業(yè)初期三大最重要的關(guān)鍵因素定下來之后，接下來就是進(jìn)入更煎熬的研發(fā)階段了。

雖說是煎熬階段，但有一說一，對(duì)于后摩團(tuán)隊(duì)來說，或許都已經(jīng)是駕輕就熟的事情，因?yàn)楣揪奂艘粠托酒袄鲜帧薄?/p>

例如創(chuàng)始人吳強(qiáng)，博士畢業(yè)于普林斯頓大學(xué)計(jì)算機(jī)博士學(xué)位，研究方向正是高能效比計(jì)算芯片及編譯器。

畢業(yè)之后，他還先后工作于Intel、AMD、Facebook等國外知名企業(yè)；值得一提的是，在AMD期間曾擔(dān)任GPGPU/OpenCL創(chuàng)始團(tuán)隊(duì)核心成員。

吳強(qiáng)不僅擁有國外的工作經(jīng)驗(yàn)，在2017年回國之后，也是在國內(nèi)AI知名獨(dú)角獸企業(yè)擔(dān)任技術(shù)副總裁和CTO等職務(wù)。

在學(xué)術(shù)方面，吳強(qiáng)曾獲第38屆計(jì)算機(jī)體系架構(gòu)頂會(huì)MICRO-38 唯一的一個(gè)最佳論文獎(jiǎng)；科研成果被美國業(yè)內(nèi)雜志IEEE Micro 評(píng)選為年度最有影響的12 個(gè)科技成果之一。

△后摩智能創(chuàng)始人兼CEO，吳強(qiáng)

再如后摩智能聯(lián)合創(chuàng)始人、芯片研發(fā)副總裁陳亮，本碩博畢業(yè)于清華大學(xué)，曾任海思CPU芯片資深架構(gòu)師、地平線AI芯片首席架構(gòu)師。

在做產(chǎn)品上，后摩聯(lián)合創(chuàng)始人、產(chǎn)品副總裁信曉旭，具有15年以上計(jì)算芯片產(chǎn)品、市場(chǎng)和銷售經(jīng)驗(yàn)，曾任海思計(jì)算芯片產(chǎn)品總監(jiān)。

△左：陳亮；右：信曉旭

而從后摩整體研發(fā)團(tuán)隊(duì)構(gòu)成來看，碩、博士占比70%以上；核心成員均主導(dǎo)過多顆世界級(jí)芯片的設(shè)計(jì)量產(chǎn)，類別涵蓋GPU、CPU、高性能車規(guī)級(jí)AI芯片等。

更重要的是，用吳強(qiáng)自己的話來說，后摩的研發(fā)團(tuán)隊(duì)人員都是非常純粹的人，肯吃苦、夠努力。

如此來看，也就不難理解為什么能夠在2年多的時(shí)間里，將存算一體芯片從0到1開花結(jié)果了。

芯片的“后摩時(shí)刻”已至

雖然芯片產(chǎn)品已經(jīng)發(fā)布、量產(chǎn)，但最后我們還需要對(duì)一個(gè)問題做深入的探討——存算一體，是否真的是正確的方向。

要回答這個(gè)問題，我們還需先得知道芯片算力的發(fā)展出了什么問題。

無論是計(jì)算機(jī)、手機(jī)，還是智能手環(huán)等產(chǎn)品，它們內(nèi)部程序運(yùn)行機(jī)制都繞不開一個(gè)著名的計(jì)算體系，馮·諾依曼體系結(jié)構(gòu)。

它的一個(gè)特點(diǎn)，就是計(jì)算和存儲(chǔ)是分離的。

若是通俗一點(diǎn)理解，我們可以將這個(gè)過程視為在廚房炒菜：

存儲(chǔ)器：相當(dāng)于廚房里的冰箱；
數(shù)據(jù)：相當(dāng)于冰箱里的菜；
計(jì)算器：相當(dāng)于洗菜、切菜和炒菜。

那么要完成一道菜，就需要先從冰箱里把菜取出來，再去廚房里洗、切、炒。

那么問題來了，這些菜需要在存儲(chǔ)器和計(jì)算器之間瘋狂地做搬運(yùn)工作，這就無形之間產(chǎn)生了巨大的時(shí)間開銷，

若是對(duì)于較低的計(jì)算量來說，馮·諾依曼體系結(jié)構(gòu)尚且還可處理，但誰能想到，在信息數(shù)據(jù)量爆炸的當(dāng)下，人們對(duì)算力的需求會(huì)變得如此之大。

舉個(gè)例子，若是用全卷積網(wǎng)絡(luò)處理一張分辨率為224x224大約5萬像素的圖片，需要的計(jì)算量為5x10⁹次的計(jì)算。

這個(gè)任務(wù)若是放在一個(gè)CPU核心上處理，需要足足3秒鐘的時(shí)間，慢，著實(shí)太慢！

單單是這么簡單的任務(wù)尚是如此，近年來隨著AIGC熱潮的到來，大模型成為了產(chǎn)學(xué)界的香餑餑，而動(dòng)輒需要對(duì)上千億參數(shù)做訓(xùn)練推理，需要的算力之大可見一斑。

即便現(xiàn)代很多芯片開始設(shè)計(jì)更復(fù)雜的多級(jí)存儲(chǔ)結(jié)構(gòu)，例如把SRAM（靜態(tài)隨機(jī)存儲(chǔ)器）作為距離計(jì)算單元最近的緩存，保證最高的讀寫速度，但容量還是非常的有限。

例如在下圖英偉達(dá)GA102 GPU中，藍(lán)色方塊區(qū)域便是緩存區(qū)域，即便看上去占了不少空間，但其實(shí)容量也就6MB而已。

這在當(dāng)今主流AI任務(wù)面前，簡直是大巫見小巫了。

這，就是當(dāng)下算力發(fā)展所遇到的致命瓶頸。

而且就過去二十年的發(fā)展來看，處理器性能以每年大約55%的速度提升，但內(nèi)存性能的提升速度每年只有10%左右。

存儲(chǔ)速度長期滯后于計(jì)算速度，因此就導(dǎo)致了芯片性能難以滿足AI需求的情況。

不僅如此，近年來“摩爾定律即將失效”的聲音也是此起彼伏，很多人認(rèn)為傳統(tǒng)的芯片無法再勝任新的大算力任務(wù)了。

雖然業(yè)界在后來提出了GPU、多核CPU等解決方案，但依舊是無法繞開馮·諾依曼體系結(jié)構(gòu)最為致命的瓶頸問題。

在如此情況之下，業(yè)界便提出了更為大膽的想法——干脆把冰箱和廚房搞到一起，讓取菜、洗菜、切菜和炒菜都在一個(gè)空間里完成——即，存算一體。

對(duì)應(yīng)到芯片設(shè)計(jì)，就意味著把分開的計(jì)算單元和SRAM單元重新設(shè)計(jì)，把乘加單元打散并插入到SRAM陣列當(dāng)中，以此形成新的存算單元。

如此一來，每個(gè)存算單元既保留了SRAM本身的規(guī)則性，便于高速讀寫；又?jǐn)U充了并行計(jì)算功能，實(shí)現(xiàn)高能效計(jì)算。

以后摩發(fā)布的鴻途?H30為例，在存算一體架構(gòu)之下，便可以在每秒計(jì)算超過4x10¹²次。

和其它AI芯片相比，后摩存算一體的宏單元在同樣能耗下提供的算力，可以直接飆升10倍！

但其實(shí)存算一體技術(shù)早在2011年就引起學(xué)術(shù)界關(guān)注，而后在2016-2017年成為學(xué)術(shù)界熱議的話題。

到2019年逐漸開始受到工業(yè)界和資本的關(guān)注，彼時(shí)大家的討論主要集中在這項(xiàng)技術(shù)的可靠性上。

從2020年開始，越來越多的玩家進(jìn)入這個(gè)市場(chǎng)，并且大公司都開始在存內(nèi)計(jì)算上發(fā)力，此時(shí)的存內(nèi)計(jì)算已成為產(chǎn)業(yè)界“不得不跟進(jìn)”的技術(shù)之一，大家的討論聚焦在存內(nèi)計(jì)算未來的市場(chǎng)空間上。

再從市場(chǎng)規(guī)模角度來看，量子位在《存算一體芯片深度產(chǎn)業(yè)報(bào)告》中曾經(jīng)預(yù)測(cè)：

2030年，基于存算一體技術(shù)的大算力芯片市場(chǎng)規(guī)模約為67億人民幣。

由此可見，不論是從技術(shù)亦或是市場(chǎng)的發(fā)展和預(yù)測(cè)來看，存算一體確實(shí)是解決算力瓶頸的一大利器。

而作為率先入局的后摩智能，也給出了自己的觀點(diǎn)：

存算一體的價(jià)值在于，它是一種比傳統(tǒng)架構(gòu)更接近人腦的計(jì)算方式，能達(dá)到遠(yuǎn)超傳統(tǒng)方式的高計(jì)算效率，和智能駕駛終局的需求天然吻合。
2023年，會(huì)是存算一體商業(yè)落地的元年。

至此，對(duì)于芯片算力的瓶頸，后摩智能已經(jīng)給出了自己的一套打法，并且已經(jīng)交出了一份高分作業(yè)。

站在現(xiàn)今后摩爾時(shí)代的當(dāng)下，或許芯片的“后摩時(shí)刻”已經(jīng)到來。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

自主造芯新突破：256TOPS算力刷新國產(chǎn)性能榜，功耗低至35W，首個(gè)存算一體智駕芯片兩年交卷

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

自主造芯新突破：256TOPS算力刷新國產(chǎn)性能榜，功耗低至35W，首個(gè)存算一體智駕芯片兩年交卷

相關(guān)推薦

技術(shù)專區(qū)

自主造芯新突破：256TOPS算力刷新國產(chǎn)性能榜，功耗低至35W，首個(gè)存算一體智駕芯片兩年交卷