解讀AI大模型推理“芯”機(jī)會(huì),RISC-V、一致性總線、WoW的架構(gòu)創(chuàng)新大有可為。作者 | GACS9月14日~15日,2023全球AI芯片峰會(huì)(GACS 2023)在深圳市南山區(qū)圓滿舉行。在9月14日AI芯片架構(gòu)創(chuàng)新專場(chǎng)上,芯至科技聯(lián)合創(chuàng)始人、首席芯片架構(gòu)師兼副總裁尹文分享了主題為《AI計(jì)算新時(shí)代催生芯片架構(gòu)走向“算力統(tǒng)一場(chǎng)”》的主題演講。尹文認(rèn)為,進(jìn)入AI新時(shí)代,算力創(chuàng)新不再僅僅是單個(gè)處理器微架構(gòu)和芯片工藝的創(chuàng)新,而需要軟硬件全棧的系統(tǒng)架構(gòu)全面創(chuàng)新,未來(lái)的創(chuàng)新機(jī)會(huì)來(lái)自以下方面:開(kāi)放的通用指令架構(gòu),高效的融合加速器,異構(gòu)互聯(lián)總線和芯片工程,開(kāi)源算子庫(kù)、工具鏈和軟件。1、AI大模型落地到推理側(cè)的新機(jī)會(huì)與RISC-V架構(gòu)創(chuàng)新不謀而合,RISC-V不僅可以做標(biāo)量通用計(jì)算,也可以做線程級(jí)并行的AI計(jì)算。Scaler小標(biāo)量+SIMT大算力的指令集/微架構(gòu)融合將是未來(lái)RISC-V發(fā)力的重點(diǎn),能以相對(duì)低的成本,為AI推理側(cè)應(yīng)用提供高效支持。2、SoC芯片系統(tǒng)的有效算力依賴于計(jì)算核心或計(jì)算Die之間的高效互聯(lián),通用算力和異構(gòu)算力需要在整個(gè)系統(tǒng)的內(nèi)存從邏輯上可以被統(tǒng)一為一個(gè)更大的具有一致性的空間。低時(shí)延大帶寬的一致性總線互聯(lián)可以讓異構(gòu)計(jì)算芯片更好更緊密的協(xié)同,從而提高整個(gè)系統(tǒng)的性能和能效。3、WoW (Wafer on Wafer)混合鍵合在新型芯片工程技術(shù)領(lǐng)域有重大價(jià)值。在他看來(lái),WoW可將AI Die和Memory Die垂直堆疊,以低于HBM一個(gè)量級(jí)的成本提供數(shù)倍于HBM的帶寬;對(duì)于大模型推理來(lái)說(shuō),4~6GB的Memory Die完全滿足Transformer一層網(wǎng)絡(luò)權(quán)重的存儲(chǔ)和層內(nèi)高帶寬需求。基于此,芯至科技圍繞RISC-V開(kāi)源指令架構(gòu)、自研一致性總線、WoW 3DIC的架構(gòu)創(chuàng)新,可以帶來(lái)10倍性價(jià)比的大模型AI推理芯片。展望更長(zhǎng)期的未來(lái),尹文相信基于RISC-V開(kāi)源指令同構(gòu)和微架構(gòu)異構(gòu),開(kāi)源軟件工具鏈及自主一致性總線和芯片工程創(chuàng)新,未來(lái)有機(jī)會(huì)推進(jìn)到算力統(tǒng)一場(chǎng)。算力統(tǒng)一場(chǎng)將更利于形成更大的自主可控軟件新生態(tài),并符合計(jì)算架構(gòu)的原始特征,助力我國(guó)在計(jì)算體系方面換道超車。以下為尹文的演講實(shí)錄:首先謝謝主辦方的邀請(qǐng),還有各位同行、各位嘉賓的參與。自從今年上半年大模型層出不窮,從芯片架構(gòu)領(lǐng)域,各位同行都在一起討論,未來(lái)芯片在AI領(lǐng)域的架構(gòu)怎么做、未來(lái)新的機(jī)會(huì)在哪里。今天我給大家?guī)?lái)的演講就是我們團(tuán)隊(duì)在這一方面的思考。
01.AI新時(shí)代對(duì)算力發(fā)展提出新要求:軟硬件全棧的系統(tǒng)架構(gòu)全面創(chuàng)新
進(jìn)入AI計(jì)算的新時(shí)代,怎么催生芯片架構(gòu)不停地往前推?推向一個(gè)什么樣的地方?我們提出了一個(gè)“算力統(tǒng)一場(chǎng)”的概念。首先看芯片架構(gòu)的創(chuàng)新,摩爾定律的一個(gè)根本特征就是單位性能的成本在線性下降,但最近幾年,單純憑工藝,到5nm、3nm之后,成本下降并不是線性的。我們?cè)趺礃尤パ永m(xù)這個(gè)線性的性價(jià)比的降低?更多地是要靠軟硬件重構(gòu)。重構(gòu)的一個(gè)頂層思想其實(shí)是來(lái)自第一性原理,要把原來(lái)的架構(gòu)不停地分解,再不停地重構(gòu)。從芯片架構(gòu)的角度來(lái)看,我們看到了幾個(gè)機(jī)會(huì):第一個(gè)是開(kāi)放的通用指令架構(gòu),上個(gè)月(8月份)在北京的RISC-V峰會(huì),各位同行有很多的討論,RISC-V就是開(kāi)源開(kāi)放架構(gòu)的典型代表。第二個(gè)是怎樣做一個(gè)高效融合的加速器。大模型應(yīng)用需要底層適應(yīng)這些模型的算力架構(gòu),算力架構(gòu)怎樣融合在通用指令架構(gòu)上,這是我們所面臨的機(jī)會(huì),也是一個(gè)技術(shù)難題。另外,現(xiàn)在處理器核越來(lái)越多,多Die互聯(lián)、異構(gòu)互聯(lián)、存儲(chǔ)的連接越來(lái)越復(fù)雜,怎樣有一個(gè)異構(gòu)互聯(lián)的高效總線,還有高效互聯(lián)的I/O設(shè)備的一個(gè)新架構(gòu),是未來(lái)AI芯片架構(gòu)的一個(gè)新方向。最后,芯片的晶圓和Die越來(lái)越大,功耗越來(lái)越大,在提升它的性價(jià)比、能效上需要一個(gè)非常強(qiáng)大的、可演進(jìn)的一個(gè)芯片工程的支持,以及整個(gè)算子庫(kù)、工具鏈和軟件的發(fā)展。
02.AI大模型推理新機(jī)會(huì),與RISC-V架構(gòu)創(chuàng)新不謀而合
大模型和RISC-V在最近幾年有很好的結(jié)合,算法、算力、數(shù)據(jù)三架馬車要齊步往上推,我們看到,在微架構(gòu)和模型方面是同步發(fā)展的。左邊的圖是大模型在快速發(fā)展,云端訓(xùn)練的大模型有點(diǎn)類似于一個(gè)人,首先從0到1,經(jīng)過(guò)九年義務(wù)教育,形成完整的世界觀。未來(lái)這些大模型要在各行各業(yè)去應(yīng)用,就好比大家上了大學(xué),選定一個(gè)專業(yè),進(jìn)入到一個(gè)行業(yè)。有句話叫“學(xué)好數(shù)理化”,數(shù)理化就是基礎(chǔ),未來(lái)模型要不停地增加行業(yè)知識(shí),那是一個(gè)fine-tuning(微調(diào))階段,意味著更多的機(jī)會(huì),大模型在各個(gè)行業(yè)能夠不停部署,產(chǎn)生真正的市場(chǎng)價(jià)值。從右邊的圖可以看到,RISC-V的Scaler部分,有一個(gè)通用開(kāi)源的超標(biāo)量架構(gòu),可以幫助我們打造在處理器主機(jī)端的軟硬件棧的基礎(chǔ)。另外基于RISC-V的BSD協(xié)議,它有非常廣闊的指令擴(kuò)展空間。在上面綠色和紫色的部分,我們可以自定義Vector(向量)、Tensor Core(張量核)這些單元,這是RISC-V的指令框架所允許的。然后我們可以在這個(gè)擴(kuò)展指令框架下,去實(shí)現(xiàn)各種各樣的微架構(gòu),微架構(gòu)就是芯片架構(gòu)所具體實(shí)現(xiàn)的電路,包括矩陣乘、卷積等電路。RISC-V所帶來(lái)的一個(gè)很大價(jià)值是上游性價(jià)比的急劇提升。舉個(gè)例子,大家可能不知道對(duì)OpenAI的Triton是否熟悉,現(xiàn)在有很多年輕的朋友正在利用Triton這個(gè)工具來(lái)做AI算子自動(dòng)化的開(kāi)發(fā)。Triton有全開(kāi)源的優(yōu)勢(shì),另外它可以通過(guò)自動(dòng)化的生成工具,來(lái)生成特定的一些算子,比如說(shuō)浮點(diǎn)的卷積或者是矩陣乘?;旧纤男屎褪謱?xiě)的算子庫(kù)效率是相當(dāng)?shù)模热缯f(shuō)一個(gè)FP16的矩陣乘,一個(gè)Python的代碼可能就20多行,大家可以在網(wǎng)上找到很多例子。它支持像Python這樣的高級(jí)語(yǔ)言,可以極大降低通過(guò)自定義指令學(xué)習(xí)類似CUDA這樣編程框架的成本。按照現(xiàn)在Triton的發(fā)展,相比CUDA,它在自動(dòng)化算子生成、內(nèi)存優(yōu)化、SM核心的scheduling等方面有很好的效果。Triton目前是和整個(gè)RISC-V的生態(tài)圈、全球大的趨勢(shì)同步發(fā)展,發(fā)展速度非??臁A硗馑部梢员苊獠患嫒莸闹噶?,因?yàn)镽ISC-V整個(gè)行業(yè)在推進(jìn),在生態(tài)建設(shè)上是齊頭并進(jìn)。我們基于傳統(tǒng)的GPGPU方案會(huì)有大量自定義的算子,并且要開(kāi)發(fā)自己的編譯器。作為一個(gè)芯片公司,其實(shí)我們?cè)谲浖耐度肷戏炊鴷?huì)更大,包括在工具鏈、算子庫(kù)的開(kāi)發(fā),很多軟件開(kāi)發(fā)團(tuán)隊(duì)可能高達(dá)70%~80%的規(guī)模。如果采用開(kāi)源指令和開(kāi)源工具鏈這樣的技術(shù)路線,首先RISC-V可以復(fù)用整個(gè)編譯器的開(kāi)放成果,另外在客戶支持、算子開(kāi)發(fā)這方面,有類似于像Triton,還有未來(lái)會(huì)發(fā)展更多的開(kāi)源工具,可以自動(dòng)化地生成第三方算子,極大降低軟件開(kāi)發(fā)的人力成本。
03.一致性總線使通用和異構(gòu)算力緊密耦合,大幅提升有效算力
算力效率方面,我們提到了“有效算力”概念,跟芯片效率是非常相近的概念?,F(xiàn)在我們做芯片架構(gòu)的時(shí)候,在關(guān)注單核的算力、主頻、流水線的能力。并且我們還要看在一張晶圓上可以做多少Chiplet的Die,Chiplet集成得越多,算力、核數(shù)也會(huì)越多越大。但大家可能忽略了一點(diǎn),就是我們的SoC,把那么多核互聯(lián)起來(lái),包括die-to-die的Chiplet互聯(lián),還有CPU和GPU這樣類似于NVLink、CXL這樣的異構(gòu)互聯(lián),它的效率問(wèn)題。我們要關(guān)注這么幾個(gè)指標(biāo),包括總線的時(shí)延、帶寬、一致性的能力??赡艽蠹覍?duì)一致性的理解不是特別多,它就好比部門(mén)越來(lái)越多,雖然團(tuán)隊(duì)的實(shí)力和規(guī)模越來(lái)越大,但是并不代表這么多團(tuán)隊(duì)產(chǎn)生的有效績(jī)效能夠越來(lái)越強(qiáng),需要各部門(mén)的互聯(lián)互通、能夠目標(biāo)一致。這個(gè)一致性也是一樣的,我們有那么多的CPU核、AI核,包括同構(gòu)、異構(gòu)的核,怎么保證處理任務(wù)的一致性。最后是功耗,它的能效也非常重要。當(dāng)前業(yè)界在總線方面的發(fā)展,包括Die內(nèi)的Ring/Crossbar總線架構(gòu),還包括最近英偉達(dá)在Grace芯片里自研開(kāi)發(fā)的Scalable Coherency Fabric,都是在總線上面的一些技術(shù)探索。剛才很多同行也介紹了die-to-die(D2D)、Chiplet、并行、UCIe等各種D2D互聯(lián)總線,怎么樣提高它的效率,以及我們?cè)谝粋€(gè)大的集群里面怎么樣把異構(gòu)的芯片通過(guò)Switch互聯(lián)起來(lái),這更多是一個(gè)系統(tǒng)上的概念。一致性總線最終的目的是為了通用和異構(gòu),就是各種算力能夠有效互聯(lián),來(lái)提高它的有效算力。
04.芯片工程新技術(shù)突破內(nèi)存墻瓶頸,極大降低帶寬成本
說(shuō)完互聯(lián)墻,接下來(lái)就是大家談?wù)摫容^多的內(nèi)存墻。在AI芯片,我們當(dāng)前的方案更加依賴于HBM這種大帶寬的內(nèi)存。HBM跟CoWoS相結(jié)合,在擴(kuò)展帶寬的時(shí)候,線性擴(kuò)展帶來(lái)成本的極大增長(zhǎng)。怎么樣把AI的邏輯Die跟內(nèi)存Die有更緊密的連接,把帶寬成本降下來(lái)?現(xiàn)在我們可以看到,Hybrid Bonding異構(gòu)鍵合技術(shù)在快速發(fā)展?;贖ybrid Bonding技術(shù),我們可以實(shí)現(xiàn)Wafer-on-Wafer(WoW)的垂直互聯(lián),就像從三樓到四樓可以有上萬(wàn)部電梯,這樣我們會(huì)場(chǎng)這么多人,吞吐率就會(huì)非常大。我們芯至科技和合作伙伴一起,現(xiàn)在已經(jīng)可以做到在兩個(gè)Die有70000多個(gè)pins互聯(lián),相當(dāng)于有這么多部電梯互聯(lián)互通,容量可以做到6GB,相當(dāng)于我的AI邏輯Die和內(nèi)存Die可以實(shí)現(xiàn)非常短距的、大帶寬的互聯(lián)互通。由于我們可以不用那么大的die,我們可以極大降低WoW這樣一個(gè)內(nèi)存架構(gòu)的成本,從計(jì)算效率來(lái)看,雖然HBM的容量比較大,但實(shí)際上在大模型Transformer方面,網(wǎng)絡(luò)是分層的。可以看右邊的表格,剛才提到大模型未來(lái)進(jìn)入行業(yè)部署更多是微調(diào),它的模型參數(shù)并沒(méi)有像ChatGPT或者GPT-4、5未來(lái)指數(shù)級(jí)的增長(zhǎng),單層參數(shù)量可以放在WoW這樣一個(gè)DRAM存儲(chǔ)空間上。在容量夠的情況下,實(shí)際上就可以體現(xiàn)WoW這樣一個(gè)大帶寬的巨大優(yōu)勢(shì)。
05.圍繞三大方向構(gòu)建創(chuàng)新架構(gòu),打造約10倍性價(jià)比優(yōu)勢(shì)的大模型推理芯片
小結(jié)一下,在AI架構(gòu)創(chuàng)新方面,作為芯片架構(gòu)師,我們還有很多事情可以做:一方面,開(kāi)放的指令架構(gòu)。我們可以重新來(lái)認(rèn)識(shí)一下RISC-V,它可以做CPU,大家可能熟知的是x86指令、Arm指令,RISC-V就是下一代新生的CPU指令架構(gòu)。但我們基于RISC-V也可以做SIMT的架構(gòu),實(shí)現(xiàn)GPGPU的功能。在通過(guò)RISC-V做GPGPU的過(guò)程中,我們可以最大地復(fù)用RISC-V這個(gè)開(kāi)源指令,包括它的開(kāi)源工具、整個(gè)軟件復(fù)用度,就可以極大降低在做自定義芯片的情況下,我們要有大量的人力成本。第二,高效的異構(gòu)互聯(lián),在自研一致性總線方面,我們更多要有一個(gè)系統(tǒng)框架,怎么樣把Die內(nèi)的互聯(lián)、D2D Fabric、整個(gè)Chip-to-Chip的互聯(lián)納入到一個(gè)完整的一致性框架下,并且在物理上、在芯片工程上降低時(shí)延,提升帶寬,這是我們要發(fā)力的重點(diǎn)。第三,新型的芯片工程,在內(nèi)存墻方面,我們?cè)趺礃影袮I Die通過(guò)WoW、Hybrid Bonding這樣的技術(shù),把帶寬做上去,未來(lái)是能夠替代HBM、CoWoS封裝等高成本方式的最佳途徑。所以我們團(tuán)隊(duì)現(xiàn)在在考慮,在當(dāng)前的大模型推理芯片架構(gòu)上,在軟硬件結(jié)合還有芯片工程上的創(chuàng)新,來(lái)打造具有10倍性價(jià)比以上的創(chuàng)新芯片。
06.結(jié)語(yǔ):重構(gòu)計(jì)算體系結(jié)構(gòu),打造算力統(tǒng)一場(chǎng),發(fā)展軟件大生態(tài)
中長(zhǎng)期愿景,算力統(tǒng)一場(chǎng)。首先可以看到中間這個(gè)圖,在整個(gè)RISC-V指令規(guī)劃基礎(chǔ)下,我們?cè)谶@個(gè)圓圈的內(nèi)部可以做很多事情。我們的DSA和通用架構(gòu),實(shí)際上是一個(gè)循環(huán),在80年代的時(shí)候,當(dāng)時(shí)一個(gè)叫牧村的日本人提出的“牧村定律”,就是從專用到通用這個(gè)循環(huán)的規(guī)律。RISC-V的整體指令架構(gòu)是統(tǒng)一或同構(gòu)的,但我們可以在微架構(gòu)做很多事情,包括SIMT、DSP、DSA的核心等,來(lái)發(fā)揮RISC-V在整個(gè)開(kāi)放指令上的優(yōu)勢(shì)。另外一點(diǎn),開(kāi)源工具鏈,就像我剛才給大家介紹的OpenAI所做的Triton的例子,大家可以多去看看,Triton在整個(gè)社區(qū)非?;钴S。未來(lái)會(huì)有更多像Triton這樣的開(kāi)源工具發(fā)展,結(jié)合RISC-V微觀指令的發(fā)展,在整個(gè)指令、自定義算子、編譯器方面,有很大的性價(jià)比提升。從微架構(gòu)異構(gòu)和指令集同構(gòu)、開(kāi)源工具鏈、在SoC層面的一致性總線還有芯片工程方面,我們有機(jī)會(huì)在未來(lái)打造一個(gè)軟硬件同構(gòu)的新生態(tài)。這個(gè)新生態(tài)更加有利于在國(guó)內(nèi)形成一個(gè)更大的、自主可控的軟件生態(tài),并且在芯片架構(gòu)領(lǐng)域更加符合計(jì)算架構(gòu)本身原生態(tài)的架構(gòu),有助于在計(jì)算領(lǐng)域幫助我國(guó)在計(jì)算體系方面做到換道超車。大家知道當(dāng)前的CPU、GPU的計(jì)算架構(gòu)和生態(tài)是建立和發(fā)展主要在國(guó)外,國(guó)外特別是硅谷有很多行業(yè)前輩奠定了在傳統(tǒng)計(jì)算架構(gòu)上面的基礎(chǔ)。在未來(lái)算力統(tǒng)一場(chǎng)的新方向,我們可以做很多自主可控的架構(gòu)創(chuàng)新。在AI新時(shí)代新機(jī)遇的引領(lǐng)下,希望我們團(tuán)隊(duì)和整個(gè)芯片行業(yè)同仁一起,能夠把算力同一場(chǎng)的愿景不斷地做好、做遠(yuǎn),共同實(shí)現(xiàn)計(jì)算新生態(tài)。謝謝大家!以上是尹文演講內(nèi)容的完整整理。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。