億鑄科技熊大鵬：大模型時代，AI大算力芯片急需破除“存儲墻”丨GACS 2023

發(fā)布人：芯東西時間：2023-10-25 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

存算一體超異構(gòu)，實現(xiàn)更大的AI算力和更高的能效比。編輯 | GACS
9月14日~15日，2023全球AI芯片峰會（GACS 2023）在深圳南山圓滿舉行。在首日開幕式上，億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬分享了題為《存算一體超異構(gòu)AI大算力芯片破局大模型時代“芯”挑戰(zhàn)》的主題演講。熊大鵬提出，大模型時代下的“芯”挑戰(zhàn)，比起算力如何增長，更大的問題在于數(shù)據(jù)搬運能力的剪刀差越來越大。數(shù)據(jù)顯示，計算能力與數(shù)據(jù)搬運之間的鴻溝，大概以每年50%的速率擴大。大模型出現(xiàn)后，數(shù)據(jù)訪存在整個計算周期里的占比，達(dá)到了95%以上甚至更高。億鑄科技認(rèn)為，隨著AI應(yīng)用進入到2.0時代，要解決AI計算芯片面臨的諸多挑戰(zhàn)，關(guān)鍵在于回歸阿姆達(dá)爾定律并成功破除“存儲墻”。據(jù)悉，億鑄科技原型技術(shù)驗證（POC）芯片已回片，并成功點亮。該POC是首顆基于ReRAM的面向數(shù)據(jù)中心、云計算、自動駕駛等場景的存算一體矩陣POC，能效比超過預(yù)期表現(xiàn)，進一步驗證了公司的技術(shù)實力和市場潛力。以下為熊大鵬的演講實錄：大家好！我去年也參加了AI芯片峰會，但今年情況不一樣，因為今年大模型的火爆給人工智能芯片等各方面都帶來了巨大的變化。下面我將介紹億鑄科技存算一體超異構(gòu)AI大算力芯片怎么去應(yīng)對大模型時代的“芯”挑戰(zhàn)。
01.數(shù)據(jù)搬運，大模型時代的“芯”挑戰(zhàn)

大模型的參數(shù)規(guī)模，像GPT-3目前是1750億，未來可能將會迎來幾倍、幾十倍、上百倍的增長。這樣的增長帶來的好處是，大模型的容量、智能等各方面將會超過人的大腦。但與此同時，大模型時代也對我們提出了很多挑戰(zhàn)跟需求。第一，算力如何提升。目前來說，人們針對大模型的芯片制造工藝或是其他各方面投入基本都已經(jīng)到了極限。第二，大模型對計算能耗的需求非常大。AMD CEO蘇姿豐說過，如果沒有新的技術(shù)出現(xiàn)，按照目前的計算效率，12年以后，也就是2035年，每一臺Zetta級別的超級計算機所需要的能耗將會相當(dāng)于半個核電站。從算力的角度來說，支撐底層算力的摩爾定律現(xiàn)在幾近終結(jié)。但是我們的模型越來越大，算法越來越復(fù)雜，對算力的要求也越來越高，這將是一個很大的挑戰(zhàn)。AI芯片，或者說大算力AI芯片，將來的路該怎么走？除了算力以外還有一個更大的問題——數(shù)據(jù)搬運能力的剪刀差越來越大。

基于摩爾定律，算力每年大概以60%-70%的速率提升。但是對于數(shù)據(jù)搬運，無論是從外部的存儲器搬運到芯片內(nèi)部，還是芯片內(nèi)部的數(shù)據(jù)總線，其物理線速度的提升基本是每年10%以內(nèi)。這就導(dǎo)致計算能力與數(shù)據(jù)搬運之間的鴻溝，大概以每年50%的速率擴大。在過去十年，單位計算力所需要和所能獲取的數(shù)據(jù)搬運帶寬，差距擴大了3倍。對大模型來說，其實問題的根源就在于，怎么把數(shù)據(jù)不被堵塞地從外部搬到內(nèi)部。下圖這個模型，我已經(jīng)在很多地方講過。這里的F值，指的是數(shù)據(jù)訪存在整個計算周期里的占比。

在過去存算分離的馮·諾伊曼架構(gòu)下，做AI芯片或是跟AI芯片相關(guān)的應(yīng)用時，F(xiàn)值就已經(jīng)達(dá)到80%-90%。這意味著大量的能耗是卡在數(shù)據(jù)搬運訪存上的，造成了性能瓶頸。在大模型的時代背景下，F(xiàn)值更是能達(dá)到95%。這意味著如果數(shù)據(jù)搬運的速度不提升，即使我們將來用更好的工藝去獲取更高的算力，對實際性能提升的百分比其實非常有限，可能只有10%-20%。這也是為什么到今天，更多的公司開始把注意力集中在解決數(shù)據(jù)搬運的問題上，比方說大量地采用HBM、 3D RAM封裝技術(shù)等等。這些解決方案會帶來更好的片間互連、板間互連，能夠比較有效地去解決數(shù)據(jù)搬運問題，從而非常有效地提升實際性能。
02.數(shù)據(jù)搬運的根本解決方案在于存算一體

這些傳統(tǒng)的解決方案的確有效。我們看F值就知道，如果把數(shù)據(jù)搬運效率提升1倍，不需要用5納米、3納米、1納米工藝，實際計算性能也能提升1倍。但是要真正解決這個問題，我們認(rèn)為根本的解決方案是存算一體。存算一體相當(dāng)于在存儲單元的基礎(chǔ)上，把計算的部分加上去，模型的參數(shù)搬運環(huán)節(jié)基本上就免掉了。比方說1750億參數(shù)的GPT-3模型，每一次推理計算的時候都要把350Gbyte的數(shù)據(jù)搬到芯片上，才能做一次推理、算一次Token。如果是訓(xùn)練，這個數(shù)據(jù)量會更大。但如果這個數(shù)據(jù)不需要搬運，就意味著數(shù)據(jù)搬運的瓶頸根本不存在，計算的效率會高很多。存算一體的技術(shù)現(xiàn)在也慢慢被大廠所接受，比如AMD已經(jīng)宣布他們將會以存算一體作為核心，結(jié)合異構(gòu)的方式，實現(xiàn)既兼顧通用性，又能夠有非常強的計算能力的芯片。還例如特斯拉，最近宣布其基于近存儲計算的超級計算機Dojo1已經(jīng)準(zhǔn)備好了，業(yè)界對此評價非常高。摩根士丹利說，光是芯片就有可能給特斯拉帶來5000億美元市值的增量。三星也宣布將基于DRAM做存算一體，他們認(rèn)為在不久的將來，存儲器在AI服務(wù)器中的重要性將超過英偉達(dá)GPU的重要性。三星預(yù)計到2028年發(fā)布以存儲器為中心的超級計算機。言下之意就是要做基于存算一體的超級計算機。億鑄科技近期成功點亮大模型時代存算一體AI大算力原型技術(shù)驗證芯片（POC）。該POC芯片基于成熟工藝制程，在100W以內(nèi)，單卡算力可以突破P級，也就是1000T。另外，該POC芯片的能效比已經(jīng)遠(yuǎn)超英偉達(dá)5納米工藝制程的H100系列4T/W左右的能效比。面對ChatGPT等大模型帶來的AI算力挑戰(zhàn)，億鑄科技在年初提出“存算一體超異構(gòu)”，以存算一體（CIM）AI加速計算單元為核心，以統(tǒng)一ISA指令集和架構(gòu)將不同的計算單元進行異構(gòu)集成和系統(tǒng)優(yōu)化，既能實現(xiàn)更大的AI算力以及更高的能效比，還可以提供更好的可編程性和更為通用的應(yīng)用生態(tài)。

通過前面講到的CMOS工藝、新型存儲器、存算一體的架構(gòu)、Chiplet、先進封裝，我們能夠?qū)⑿酒行懔ψ龅礁?，參?shù)能放置更多，支持更大規(guī)模的模型，能效比更高，軟件的兼容性和可編程性更好。另外很關(guān)鍵的一點，就是芯片的發(fā)展空間非常大。目前該POC芯片采用了傳統(tǒng)工藝制程，未來，不管是容量還是性能，比較保守地說，至少擁有幾倍或者十倍以上的成長空間，這是可以預(yù)期的。

03.AI應(yīng)用進入2.0時代，存算一體成為AI大模型算力發(fā)展“靈丹妙藥”

在強AI的大模型時代，一定范圍內(nèi)，大模型會替代傳統(tǒng)的小模型。由于大模型突出的泛化性，將會低成本地催生新的AI應(yīng)用場景，并且在各個垂直領(lǐng)域能夠快速地落地和推廣。另外，我們認(rèn)為大模型將來有可能會以IAAS（Intelligence As A Service，智能即服務(wù)）的產(chǎn)品形式賦能各個行業(yè)。此外，極高的AI研發(fā)投入帶來的副作用，是“通用智能寡頭”的格局。但出于大模型的泛化性，在具體的垂直行業(yè)、垂直領(lǐng)域反而有利于通用人工智能落地。將來在各個領(lǐng)域，我們認(rèn)為會出現(xiàn)“百花齊放”的格局。總的來說，AI應(yīng)用已經(jīng)進入到了新的2.0時代。目前最突出的問題，就是大模型導(dǎo)致的巨量數(shù)據(jù)搬運問題，這個問題的根源來自于存儲墻。現(xiàn)在性能最好的H100芯片，如果用在參數(shù)總量為350Gbyte的GPT-3模型上做推理計算，數(shù)據(jù)搬運每秒只能搬6次左右。這就意味著用H100，1秒大概只能算6個或10個Token。但從計算能力上來說，這樣的數(shù)據(jù)搬運其實只占用H100計算能力中很少的百分比，大部分算力是空余的。如果把這個存儲墻問題解決，H100的實際效能可能至少提升10倍以上。我們認(rèn)為在大模型時代，AI大算力芯片的競爭核心會逐步轉(zhuǎn)向破除“存儲墻”。這部分誰解決得好，誰就會在未來AI芯片競爭格局里占優(yōu)勢，Amdahl Law阿姆達(dá)爾定律早已揭示了這點。在大模型時代，數(shù)據(jù)搬運已經(jīng)占據(jù)整個計算周期90%以上。這意味著算力本身對于實際算力來說，重要性反而不是那么高，更重要的是解決數(shù)據(jù)的搬運。由此出發(fā)，我們認(rèn)為存算一體超異構(gòu)的AI芯片架構(gòu)，天然地適合AI的并行計算。換句話說，存算一體是為AI大模型而生的計算架構(gòu)，它的核心就是解決存儲墻，從而解決能耗跟實際算力瓶頸的問題。今天就介紹這些，謝謝大家！以上是熊大鵬演講內(nèi)容的完整整理。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

億鑄科技熊大鵬：大模型時代，AI大算力芯片急需破除“存儲墻”丨GACS 2023

相關(guān)推薦

技術(shù)專區(qū)