博客專欄

EEPW首頁 > 博客 > 北極雄芯馬愷聲:全國產(chǎn)Chiplet封裝鏈路跑通,Chiplet架構(gòu)正在重塑大算力芯片丨GACS 2023

北極雄芯馬愷聲:全國產(chǎn)Chiplet封裝鏈路跑通,Chiplet架構(gòu)正在重塑大算力芯片丨GACS 2023

發(fā)布人:芯東西 時間:2023-10-01 來源:工程師 發(fā)布文章

圖片

Chiplet助攻大算力芯片破局。編輯 |  GACS

芯東西9月28日報道,9月14日~15日,2023全球AI芯片峰會(GACS 2023)在深圳南山圓滿舉行。在首日開幕式上,清華大學(xué)交叉信息研究院助理教授、北極雄芯創(chuàng)始人馬愷聲分享了主題為《Chiplet架構(gòu)在AI芯片中的商業(yè)價值》的主題演講。

今年2月,北極雄芯發(fā)布了國內(nèi)首款基于異構(gòu)Chiplet集成的智能處理芯片“啟明930”。該芯片由11塊Chiplets通過高速接口拼接而成,采用12nm工藝、2.5D封裝、全國產(chǎn)基板材料,可獨立用于AI加速卡,亦可通過D2D擴展多種功能型Side Die進行集成。

Chiplet是后摩爾時代提升芯片性能的有效路徑,能將多異構(gòu)集成的模塊拆分用不同制程制造。

以下為馬愷聲的演講實錄:

各位領(lǐng)導(dǎo)、各位專家、各位嘉賓:大家中午好!

我來自清華大學(xué),也是北極雄芯的創(chuàng)始人,跟各位匯報一下我們這幾年的一些工作和想法。我的題目是《Chiplet架構(gòu)在AI芯片中的商業(yè)價值》,我會講一些技術(shù)部分以及Chiplet的好處,包含四個部分:從歷史到價值,再到愿景和我們的想法實踐。


01.摩爾定律走向黃昏同構(gòu)互連、異構(gòu)拆分成解法?


說起Chiplet,早在1969年摩爾老先生的論文里就提到過。2018年我注意到這句話,然后去論文中扒下這句話:It may prove to be more economical to build large systems out of smaller functions,which are separately packaged and interconnected(用較小的功能構(gòu)建大型系統(tǒng)可能更經(jīng)濟,這些功能是單獨封裝和互聯(lián)的)。這是論文里某一段的第一句。

進入到商業(yè)層面,我們很早就意識到一個問題,光刻機的尺寸為26mm×33mm,更先進的光刻機尺寸更小。摩爾定律到了盡頭之后,我們沒有辦法做小芯片,只能把面積撐大,但光照的面積就這么大,所有良率只能這樣。第一個解決方法,就是整個同構(gòu)互聯(lián)起來,這是為了解決光照最大尺寸的問題,二是解決省錢,異構(gòu)的拆分通過復(fù)用可以更好地解決這件事情。

其中Wafer to Wafer(晶圓至晶圓)、Chip to Wafer(芯片對晶圓)的集成等工程問題,通過在座各位封裝專家的努力就可以實現(xiàn)。

這里面真正有挑戰(zhàn)的是散熱,把多個晶圓堆到一起,中間的那片晶圓的熱量導(dǎo)不出來。一旦熱導(dǎo)不出來就會降頻,需要控制它散熱防止溫度越來越高。所以解決散熱最簡單的方案,就是做架構(gòu)拆分,比如這一塊是熱的,下一塊晶圓就不應(yīng)該讓它熱,這樣交叉起來,但這個事情非常考驗架構(gòu)設(shè)計人的能力。

還有野路子,我們可以通過打更多的TSV把熱導(dǎo)出來。但這個路子的問題在于,因為TSV是在硅上面穿孔,這會導(dǎo)致孔打多的話,熱應(yīng)力系數(shù)不一樣,使得很脆的硅一不小心就會爆掉。

還有可能的方案是把微流道進芯片。


02.助推大芯片、先進制程發(fā)展實現(xiàn)低成本、高良率、高能效比……


Chiplet真正帶來的好處,我前面已經(jīng)稍微提到了。

從1965年開始到2005年一直在提升芯片頻率,可以看圖中綠色的線(如圖),到2005年頻率提升不上去了。很快,2000年初,我上學(xué)的時候第一款手機是聯(lián)發(fā)科的八核手機,當(dāng)時還不理解手機為什么要上八核。

圖片

到2005年起,核的數(shù)量越來越多,2020年之后,摩爾定律基本上發(fā)展到黃昏。我們發(fā)現(xiàn)另外一些問題,摩爾定律即將走到盡頭我們面臨的問題是什么?

5nm、3nm、1nm只有二十幾個原子,但晶圓代工廠給出的報價很高,其中,量產(chǎn)的價格5nm一片晶圓要2萬多美金左右,12nm差不多六七千美金,價格翻了一倍,性能只漲了百分之幾十。所以這件事情不劃算。

另外還有一些問題,大芯片有大芯片的問題,大芯片面積大了之后良率很糟糕,因為上面只要落一個點,這塊芯片就要扔掉,所以良率自然很糟。

另外還有一個問題,芯片是方的,晶圓是圓的,所以邊上會浪費一圈。但芯片小的話,浪費這部分相對就少很多,所以小芯片有天然的優(yōu)勢。

因此,我們就在想,什么樣的形式能做這件事情?有一個大約的參考值,這些值都是相對比較準的。如果600平方毫米是33%良率,100平方毫米良率在80%左右,那么這是一個巨大的差異。并且國內(nèi)晶圓代工廠的水平還有差距,所以將33%的良率提到80%,成本變成原來的一半以下,這件事情有非常大的好處,所以我們希望把整個東西拆散。

另外Chiplet還有一些好處,我們以前都是找晶圓代工廠、自己做庫、買IP,最后把東西堆出來。如果市場上有一些東西,我們是不是可以從供應(yīng)商ABC處采購一些半成品,比如億鑄科技的ReRAM,然后集成上去得到很好的能效比,類似這樣的方式其實可以做很多異構(gòu)的集成。

此外,I/O真的有必要上3nm嗎?為什么不用7nm、14nm搞定?因為模擬電路在這部分能取得的性能非常有限,甚至漏電更差。

還有一些訴求,CPU每年迭代嗎?但性能提升僅在10%-15%之間,NPU也每年迭代,這樣的話,我們每一次迭代都要把所有東西全部重做的壓力很大,所以,為什么不能把NPU獨立出來?然后將其每年迭代,但其它I/O的部分就不動了。

Chiplet還有一個非常大的好處,就是Scalability(可擴展性)特別好,通過增減HUB的數(shù)量就可以做出不同系列的產(chǎn)品,以前這件事情需要做高中低檔次多塊芯片來實現(xiàn)。

當(dāng)然,Chiplet的好處主要還是集中在大芯片、先進制程方面,(如下圖)橫坐標左邊第一個是SoC、MCM、InFO、2.5D,縱向看是5nm、7nm、14nm,上方橫坐標是兩個Chiplet、三個Chiplet、五個Chiplet。你會看到,越往右下角,先進封裝的東西對比最左邊的條,能省的錢越來越多,最右下角能省到50%。

圖片

但這里面也要看芯片的面積,先不說100平方毫米,但三四百平方毫米之后越大越劃算。做一個小耳機的產(chǎn)品,從錢的角度來講可能不劃算,但它如果有體積小等其他的訴求就可以適用。


03.始于為清華交叉院做芯片要降低行業(yè)專用計算投入


我在清華交叉院,我的院長是姚期智先生,“姚班”是國內(nèi)AI研究的高地,也是AI理論、量子、AI+的高地。

從2018年開始,我在做的事情就是給院里的老師做芯片。我進來第一件事就發(fā)現(xiàn),清華交叉院有30個老師,基本上每個老師把持一個方向。所以我就在想,如果三年做一塊芯片,我現(xiàn)在30歲出頭,我發(fā)現(xiàn)我的人生路線很清晰。

所以我一直在琢磨,怎么能快速地給這些老師做芯片?能收斂出來的東西就是:我能不能把它抽象成異構(gòu)的集成形式,把一些共用的部分(C)放中間,然后把不同的東西(X、Y)每換一個行業(yè)就單獨做一小塊,再結(jié)合起來(如下圖)。

圖片

用這種形式,不管是IP、掩膜還是人力的投入都可以得到巨量的節(jié)省。這是我的一篇文章,這里面把到底能省多少錢的帳算得清清楚楚,大家可以去搜索瀏覽。

另外我們自己開發(fā)接口,此前我想的很簡單,市場有很多Die to Die的接口,可以根據(jù)需求購買。但我后來發(fā)現(xiàn),有一個問題是,沒有一個接口適用所有的封裝,2D或2.5D封裝的產(chǎn)業(yè)鏈都差異巨大。所以我們自己做接口,然后將兩個連起來,這解決的是面積問題。

但我們真正感興趣的是右邊這種形式(如圖),我們希望中間的I/O或者HUB的形式是通用的,能滿足大家基礎(chǔ)需求。比如AI、隱私計算、制藥等應(yīng)用,企業(yè)可以自己做一部分,然后我們提供整套解決方案或者接口、封裝,大家可以自己選擇。

圖片

我們的整體目標就是希望降低整個行業(yè)在做專用計算時候的投入和需求。我們自己把它做出來,這個接口已經(jīng)做得很完備。中間的圖是FF corner,我們所有corner全部都做,真正做溫箱從-40度拉到125度,因為產(chǎn)品的應(yīng)用在汽車上。

圖片

接口整個采用高通道高速SerDes的方案,12nm工藝、大約面積為2.8平方毫米、支持2D和2.5D封裝,并且整個封裝采用全國產(chǎn)的產(chǎn)業(yè)鏈。

然后我就請姚期智先生一起,將這個接口以聯(lián)盟和團標的形式發(fā)布出來。值得注意的是,這個產(chǎn)業(yè)聯(lián)盟(中國Chiplet產(chǎn)業(yè)聯(lián)盟)在2020年9月成立,2022年3月,UCIe成立Chiplet這件事情變火,所以我們其實早于它。

我們意識到這件事情之后,就把整個芯?;ヂ?lián)的接口標準以及車規(guī)的互聯(lián)標準都開放出來,然后和制車廠一起把這些東西跑通。

我的目標就是創(chuàng)造高性能計算的新范式。


04.全國產(chǎn)供應(yīng)鏈跑通已為最終客戶送樣


北極雄芯在這里面偏商業(yè)化一點,我們從2018年開始一點點做,直到2020年9月,我們和封裝廠耦合了一段時間后才把整個東西搞清楚,2021年成立公司?,F(xiàn)在,我們有量產(chǎn)的產(chǎn)品、能實現(xiàn)收入、把“930”發(fā)布出來,這就是整個公司發(fā)展的簡單回顧。

真正的架構(gòu)長這樣(如下圖),我們稱作通用型HUB Chiplet、Functional Chiplet方案。

圖片

在HUB里面,我們放了大家能想到的高端通用IP,如PCIe 5.0、LPDDR5這樣的IP,我的目標是HUB使用時長能達到五年。

除了HUB,我們還限定了功能模塊面積不超過100平方毫米,因為我們發(fā)現(xiàn)面積超過100平方毫米,良率會往下掉得非常嚴重。大家算一算,如果一個HUB差不多一兩百平方毫米,F(xiàn)unctional Die拼四個,實際上能拼8到16個,比如拼8個加起來有800平方毫米,甚至1000平方毫米,其算力實際上很大。

用這種形式,我們就可以把專用和通用拆分出來,客戶有訴求可以選我們的接口,也可以選其它接口,然后將其連起來。還有其他客戶的東西,我們也可以幫忙導(dǎo)入。

所以從解決方案到接口到封裝,我們可以提供全套的解決方案,也可以根據(jù)大家的需求來做,所以我們能真正把這款芯片做出來。

這是我第一次在公開場合把這張圖(如下圖)拋出來,它非常復(fù)雜,由11塊Chiplet拼在一起,采用2.5D封裝,純國產(chǎn)工藝。

圖片

這件事情我做了三年,從2019年開始一直在和封裝廠耦合。不瞞大家說,國內(nèi)的封裝在一些基板技術(shù)上有差距,中國臺灣的技術(shù)能做到30層基板,國內(nèi)能量產(chǎn)的水平差不多在8到10層。

這是為什么?因為其是一層膜,做完一層鋪一層膜,一層良率99%的話,做30層就是0.99的30次冪。因此,我們選擇自己做,將11塊拼在一起,左右可以是NPU,上下可以自己定義,用這種形式可以將其做起來。北極雄芯真正的Know-How就是用更復(fù)雜的接口換取了對更差封裝的容忍。

給大家舉個例子,底下藍色的叫基板,如果有30層布線隨便布,但我們現(xiàn)在僅有6到8層基板,扣去兩層電源和ID就剩4到6層,所以沒有足夠的位置布足夠的線。

所以我們只能把提升單根線的速度,這就遇到另外一個問題,單根線的速度上來之后,一個接口只有38根線,一共380根線,對比蘋果10萬根線是巨大的數(shù)量級的差距。

單根線的速度頻率比較高,但這個解決方案的問題是什么?用高速串口,可以想象成射頻領(lǐng)域,射頻對基板的要求很高,需要防止毛刺、差損、回損對接口產(chǎn)生影響。

因為普通的并口200兆只需要連接就可以,高頻率就會對封裝有要求。所以我們真正做的事情就是跟國內(nèi)所有封裝廠做封裝,把參數(shù)提取出來,再看國內(nèi)團隊有沒有能力把這個接口做完去適應(yīng)這套封裝,把其中的差距補回來。

當(dāng)然這套方案也存在問題,例如高速串口的帶寬可以支撐,但串口的延遲相比于并口延遲會更大。

這種方案好處在于:首先,其基本上能用國產(chǎn)的供應(yīng)鏈,采用CoWos先進封裝僅20%-30%的成本,做出同樣性能的芯片。

二是這些東西要跑通,還要看最后的系統(tǒng)利用率,如Die to Die能拉多少?算力可拓展嗎?以及將整個供應(yīng)鏈都跑通后真正給最終用戶送樣。

北極雄芯的主要客戶很多是主機廠和板卡供應(yīng)商,所以這些網(wǎng)絡(luò)都是他們提出來的。我們真正將廠商的軟件棧跑齊、驗證后發(fā)現(xiàn)整個利潤率差不多在60%左右。

我們有一套軟件工具,這套工具跟前面大廠提的看起來好像一樣,但實際上有50%的東西是完全不同的。

它們不一樣的地方在于,我們的方案中間是一個HUB,邊上掛了10個Chiplet。這樣就有一個問題,從硬件封裝的角度來說好像只要連接上就可以,但如果從軟件或者算法的角度看,假設(shè)每一個小的東西里面都是一個Mesh,比如每個都是小的計算單元NPU,從上往下看就是一個巨大的Mesh,但是在畫虛線的地方是Die to Die的接口,這里面的傳輸功耗相對比較小,一旦越過Die to Die,就會有延遲,且有功耗代價。

因此,我們發(fā)現(xiàn)它會把這件事情切得很小,原來我想得很簡單,以這個為例(如下圖),這是一個ResNet 18的網(wǎng)絡(luò),我將其一層層擺下來后發(fā)現(xiàn)這種形式不行,因為它越過這層線功耗就會變大,比SoC糟糕3倍。所以我就意識到第二個問題,能不能“之字型”繞起來,這也是一種解決方案,但我后來發(fā)現(xiàn)這個方法也不行。

實際上現(xiàn)在北極雄芯內(nèi)部,真正的另外一個Know-How就是在編譯層面,這個策略有AI的方法,也有暴力的辦法。

我舉一個例子,以這張4×4的圖為例(如下圖),我想在里面盡可能做到復(fù)用,排出來的最好形式就是第二張圖,第三張圖是機器搜出來的最好方式,這個東西剛開始我無法理解。其中,第0層、第1層等是散的。當(dāng)我們回頭測算時發(fā)現(xiàn),用這種形式其網(wǎng)絡(luò)內(nèi)部復(fù)用是最好的,沒有跨Die或者跨Die的數(shù)量搬運很少,用這種形式基本上能跟SoC的功耗拉齊。

圖片

因為這里面有很多事情要做,比如鑒定這塊復(fù)用、如何做數(shù)據(jù)交換、這個角的數(shù)據(jù)最好不要跟那個角的數(shù)據(jù)交換等,用這種形式我們就可以把整個功耗壓到相當(dāng)?shù)?。Chiplet帶來的芯粒稅問題,包括接口帶來的問題,用編譯的角度能將其影響降到最低。

北極雄芯正在做的就是把整個東西打散,按照不同的模塊再規(guī)劃起來,重新梳理數(shù)據(jù)流,采用國產(chǎn)供應(yīng)鏈全部封裝起來,做成板卡把芯片跑起來,給最終的客戶送樣,并且能在芯片上把多個網(wǎng)絡(luò)實時并行跑通,這件事情是過去北極雄芯在過去四年做的事情。

我的演講就到這里,謝謝大家!

以上是馬愷聲演講內(nèi)容的完整整理。

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: 馬愷聲

技術(shù)專區(qū)

關(guān)閉