博客專欄

EEPW首頁 > 博客 > 億鑄科技熊大鵬:大模型時代,AI大算力芯片急需破除“存儲墻”丨GACS 2023

億鑄科技熊大鵬:大模型時代,AI大算力芯片急需破除“存儲墻”丨GACS 2023

發(fā)布人:芯東西 時間:2023-10-25 來源:工程師 發(fā)布文章

存算一體超異構,實現更大的AI算力和更高的能效比。編輯 |  GACS
9月14日~15日,2023全球AI芯片峰會(GACS 2023)在深圳南山圓滿舉行。在首日開幕式上,億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬分享了題為《存算一體超異構AI大算力芯片破局大模型時代“芯”挑戰(zhàn)》的主題演講。熊大鵬提出,大模型時代下的“芯”挑戰(zhàn),比起算力如何增長,更大的問題在于數據搬運能力的剪刀差越來越大。數據顯示,計算能力與數據搬運之間的鴻溝,大概以每年50%的速率擴大。大模型出現后,數據訪存在整個計算周期里的占比,達到了95%以上甚至更高。億鑄科技認為,隨著AI應用進入到2.0時代,要解決AI計算芯片面臨的諸多挑戰(zhàn),關鍵在于回歸阿姆達爾定律并成功破除“存儲墻”。據悉,億鑄科技原型技術驗證(POC)芯片已回片,并成功點亮。該POC是首顆基于ReRAM的面向數據中心、云計算、自動駕駛等場景的存算一體矩陣POC,能效比超過預期表現,進一步驗證了公司的技術實力和市場潛力。以下為熊大鵬的演講實錄:大家好!我去年也參加了AI芯片峰會,但今年情況不一樣,因為今年大模型的火爆給人工智能芯片等各方面都帶來了巨大的變化。下面我將介紹億鑄科技存算一體超異構AI大算力芯片怎么去應對大模型時代的“芯”挑戰(zhàn)。
01.數據搬運,大模型時代的“芯”挑戰(zhàn)


大模型的參數規(guī)模,像GPT-3目前是1750億,未來可能將會迎來幾倍、幾十倍、上百倍的增長。這樣的增長帶來的好處是,大模型的容量、智能等各方面將會超過人的大腦。但與此同時,大模型時代也對我們提出了很多挑戰(zhàn)跟需求。第一,算力如何提升。目前來說,人們針對大模型的芯片制造工藝或是其他各方面投入基本都已經到了極限。第二,大模型對計算能耗的需求非常大。AMD CEO蘇姿豐說過,如果沒有新的技術出現,按照目前的計算效率,12年以后,也就是2035年,每一臺Zetta級別的超級計算機所需要的能耗將會相當于半個核電站。從算力的角度來說,支撐底層算力的摩爾定律現在幾近終結。但是我們的模型越來越大,算法越來越復雜,對算力的要求也越來越高,這將是一個很大的挑戰(zhàn)。AI芯片,或者說大算力AI芯片,將來的路該怎么走?除了算力以外還有一個更大的問題——數據搬運能力的剪刀差越來越大。

基于摩爾定律,算力每年大概以60%-70%的速率提升。但是對于數據搬運,無論是從外部的存儲器搬運到芯片內部,還是芯片內部的數據總線,其物理線速度的提升基本是每年10%以內。這就導致計算能力與數據搬運之間的鴻溝,大概以每年50%的速率擴大。在過去十年,單位計算力所需要和所能獲取的數據搬運帶寬,差距擴大了3倍。對大模型來說,其實問題的根源就在于,怎么把數據不被堵塞地從外部搬到內部。下圖這個模型,我已經在很多地方講過。這里的F值,指的是數據訪存在整個計算周期里的占比。

在過去存算分離的馮·諾伊曼架構下,做AI芯片或是跟AI芯片相關的應用時,F值就已經達到80%-90%。這意味著大量的能耗是卡在數據搬運訪存上的,造成了性能瓶頸。在大模型的時代背景下,F值更是能達到95%這意味著如果數據搬運的速度不提升,即使我們將來用更好的工藝去獲取更高的算力,對實際性能提升的百分比其實非常有限,可能只有10%-20%。這也是為什么到今天,更多的公司開始把注意力集中在解決數據搬運的問題上,比方說大量地采用HBM、 3D RAM封裝技術等等。這些解決方案會帶來更好的片間互連、板間互連,能夠比較有效地去解決數據搬運問題,從而非常有效地提升實際性能。
02.數據搬運的根本解決方案在于存算一體


這些傳統(tǒng)的解決方案的確有效。我們看F值就知道,如果把數據搬運效率提升1倍,不需要用5納米、3納米、1納米工藝,實際計算性能也能提升1倍。但是要真正解決這個問題,我們認為根本的解決方案是存算一體。存算一體相當于在存儲單元的基礎上,把計算的部分加上去,模型的參數搬運環(huán)節(jié)基本上就免掉了。比方說1750億參數的GPT-3模型,每一次推理計算的時候都要把350Gbyte的數據搬到芯片上,才能做一次推理、算一次Token。如果是訓練,這個數據量會更大。但如果這個數據不需要搬運,就意味著數據搬運的瓶頸根本不存在,計算的效率會高很多。存算一體的技術現在也慢慢被大廠所接受,比如AMD已經宣布他們將會以存算一體作為核心,結合異構的方式,實現既兼顧通用性,又能夠有非常強的計算能力的芯片。還例如特斯拉,最近宣布其基于近存儲計算的超級計算機Dojo1已經準備好了,業(yè)界對此評價非常高。摩根士丹利說,光是芯片就有可能給特斯拉帶來5000億美元市值的增量。三星也宣布將基于DRAM做存算一體,他們認為在不久的將來,存儲器在AI服務器中的重要性將超過英偉達GPU的重要性。三星預計到2028年發(fā)布以存儲器為中心的超級計算機。言下之意就是要做基于存算一體的超級計算機。億鑄科技近期成功點亮大模型時代存算一體AI大算力原型技術驗證芯片(POC)。該POC芯片基于成熟工藝制程,在100W以內,單卡算力可以突破P級,也就是1000T。另外,該POC芯片的能效比已經遠超英偉達5納米工藝制程的H100系列4T/W左右的能效比面對ChatGPT等大模型帶來的AI算力挑戰(zhàn),億鑄科技在年初提出“存算一體超異構”,以存算一體(CIM)AI加速計算單元為核心,以統(tǒng)一ISA指令集和架構將不同的計算單元進行異構集成和系統(tǒng)優(yōu)化,既能實現更大的AI算力以及更高的能效比,還可以提供更好的可編程性和更為通用的應用生態(tài)。

通過前面講到的CMOS工藝、新型存儲器、存算一體的架構、Chiplet、先進封裝,我們能夠將芯片有效算力做到更大,參數能放置更多,支持更大規(guī)模的模型,能效比更高,軟件的兼容性和可編程性更好。另外很關鍵的一點,就是芯片的發(fā)展空間非常大。目前該POC芯片采用了傳統(tǒng)工藝制程,未來,不管是容量還是性能,比較保守地說,至少擁有幾倍或者十倍以上的成長空間,這是可以預期的。


03.AI應用進入2.0時代,存算一體成為AI大模型算力發(fā)展“靈丹妙藥”


在強AI的大模型時代,一定范圍內,大模型會替代傳統(tǒng)的小模型。由于大模型突出的泛化性,將會低成本地催生新的AI應用場景,并且在各個垂直領域能夠快速地落地和推廣。另外,我們認為大模型將來有可能會以IAAS(Intelligence As A Service,智能即服務)的產品形式賦能各個行業(yè)。此外,極高的AI研發(fā)投入帶來的副作用,是“通用智能寡頭”的格局。但出于大模型的泛化性,在具體的垂直行業(yè)、垂直領域反而有利于通用人工智能落地。將來在各個領域,我們認為會出現“百花齊放”的格局。總的來說,AI應用已經進入到了新的2.0時代。目前最突出的問題,就是大模型導致的巨量數據搬運問題,這個問題的根源來自于存儲墻。現在性能最好的H100芯片,如果用在參數總量為350Gbyte的GPT-3模型上做推理計算,數據搬運每秒只能搬6次左右。這就意味著用H100,1秒大概只能算6個或10個Token。但從計算能力上來說,這樣的數據搬運其實只占用H100計算能力中很少的百分比,大部分算力是空余的。如果把這個存儲墻問題解決,H100的實際效能可能至少提升10倍以上。我們認為在大模型時代,AI大算力芯片的競爭核心會逐步轉向破除“存儲墻”。這部分誰解決得好,誰就會在未來AI芯片競爭格局里占優(yōu)勢,Amdahl Law阿姆達爾定律早已揭示了這點。在大模型時代,數據搬運已經占據整個計算周期90%以上。這意味著算力本身對于實際算力來說,重要性反而不是那么高,更重要的是解決數據的搬運。由此出發(fā),我們認為存算一體超異構的AI芯片架構,天然地適合AI的并行計算。換句話說,存算一體是為AI大模型而生的計算架構,它的核心就是解決存儲墻,從而解決能耗跟實際算力瓶頸的問題。今天就介紹這些,謝謝大家!以上是熊大鵬演講內容的完整整理。


*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: 大模型

相關推薦

技術專區(qū)

關閉