存內(nèi)計算,不確定的未來
最近,Semiengineering發(fā)布了一篇專家討論文章,分享了他們關(guān)于AI和SRAM的不確定未來。
首先,在問到人們是否會致力于縮小 SRAM 的尺寸嗎?考慮到物理定律,這是否可能?
Alphawave Semi首席技術(shù)官 Tony Chan Carusone表示,人們一直承諾會有改進(jìn),但趨勢是 SRAM 的擴展速度比邏輯慢。這意味著要么架構(gòu)發(fā)生變化,要么 SRAM 消耗給定芯片的比例越來越大。我們可能會看到兩者。您可以更改層次結(jié)構(gòu)、更改位置、更改用于防止瓶頸的內(nèi)存類型。這是一種解決方案。但將會有大量的技術(shù)研發(fā),比如自下而上的壓縮 SRAM 的解決方案。
Quadric首席營銷官Steve Roddy也認(rèn)同,通過改變核心技術(shù)你能做的只有這么多。在標(biāo)準(zhǔn) SoC 中,它是經(jīng)典的 6T SRAM,這種情況已經(jīng)存在 30 到 40 年了。人們已經(jīng)嘗試過各種類似 3T cell的東西,但存在可靠性、可制造性和可設(shè)計性問題,例如如何使用它進(jìn)行測試。某些市場,例如汽車市場,當(dāng)您獲得更容易出錯或?qū)Π柗W用舾械腸ell時,就會感到恐慌。也許你無法在汽車中安裝巨型推理機,因為汽車存在可靠性和功能安全問題。所有這些事情都必須考慮在內(nèi)。各種內(nèi)存層成為架構(gòu)師需要使用的工具包。
在問到為什么 SRAM 的縮小速度比邏輯慢時?
西門子 EDA的內(nèi)存技術(shù)專家Jongsin Yun說, SRAM 的微縮滯后于邏輯收縮,主要是由于最新技術(shù)中嚴(yán)格的設(shè)計規(guī)則。過去,我們對 SRAM 有單獨的設(shè)計規(guī)則,這使我們能夠比基于邏輯晶體管的設(shè)計縮小更多尺寸。然而,當(dāng)我們轉(zhuǎn)向更小尺寸的節(jié)點時,保持這種區(qū)別變得越來越具有挑戰(zhàn)性?,F(xiàn)在,SRAM 正在遵循越來越多的邏輯設(shè)計規(guī)則,并且與基于邏輯晶體管的設(shè)計相比,進(jìn)一步縮小存儲器的優(yōu)勢并不明顯。
除此之外,存儲器的大小也很重要,因為這種設(shè)計在芯片上重復(fù)了數(shù)百萬次,從而影響了芯片的成本。然而,當(dāng)我們近年來從較低的技術(shù)遷移時,好處被稀釋了,因為我們最終會花更多的錢遷移到較低的技術(shù)節(jié)點,而不是縮小 SRAM 內(nèi)存大小的好處。這是我們在努力提高 AI 芯片中 SRAM 密度時面臨的主要挑戰(zhàn)。
而在問到縮小晶體管尺寸會導(dǎo)致漏電流,人們又將如何應(yīng)對時?
Jongsin Yun接著說,技術(shù)遷移的主要漏電優(yōu)勢來自降低 VDD 電平和采用新材料,例如晶體管氧化物中的高 k 材料,以改善柵極漏電,從而提高功率效率。然而,VDD 縮放已在 0.7 至 0.8 電壓范圍附近達(dá)到飽和點,這意味著我們不再能夠從電壓降低中獲得額外的好處,并且其他泄漏水平也保持相對不變。如果我們繼續(xù)增加 SRAM 的密度并繼續(xù)采用更新的技術(shù)以在芯片中添加更多晶體管,我們就需要更多的電量來支持芯片運行。
例如,AMD首席執(zhí)行官蘇姿豐(Lisa Su)預(yù)測,到2035年,我們將使用核電站一半的能源來運行一臺超級計算機。這是一個巨大的能源,我們正朝著不可持續(xù)的方向前進(jìn)。需要采取一些措施來提高芯片的能耗。最近的 AMD 芯片減少了邏輯面積并填充了更多核心,同時保持內(nèi)存密度相同。這可以通過減小邏輯面積來降低邏輯操作頻率。然而,它還允許系統(tǒng)通過將內(nèi)核數(shù)量加倍而獲得額外的吞吐量來完成類似的工作負(fù)載,從而實現(xiàn)適度的權(quán)衡,但能效方面獲得顯著提升。
眾所周知,最近存內(nèi)計算很熱,當(dāng)中SRAM是其中的重點之一。那么在近內(nèi)存計算或內(nèi)存計算中,SRAM將發(fā)揮什么作用?我們會在商業(yè)市場上看到內(nèi)存計算嗎?
Steve Roddy回應(yīng)道,芯片初創(chuàng)公司已經(jīng)多次嘗試將模擬內(nèi)存計算商業(yè)化,特別是乘法函數(shù)。在機器學(xué)習(xí)中,有大量的矩陣乘法和卷積。通過談?wù)搱D像很容易概念化。3 x 3 卷積正在圍繞三個最近的鄰居進(jìn)行計算。因此,使用 1 x 1、3 x 3、9 x 9,您可以擴大要計算的范圍。它非常適合您可以在存儲單元中完成此操作的想法。通過模擬,您可以即時訪問并且可以集成電壓等。但實際上,這些東西都沒有實現(xiàn)。大量風(fēng)險資金(數(shù)億美元)投入到了從未見過世面的解決方案中,主要是因為它成為了一個分區(qū)問題。
如果你說,“我將在內(nèi)存本身中構(gòu)建某種奇怪的非數(shù)字計算”,根據(jù)定義,你已經(jīng)說過,“我將用單獨的技術(shù)開發(fā)出一個單獨的芯片,而我的一般計算引擎將運行純數(shù)字芯片,而其他一些引擎將在該存儲芯片中運行?,F(xiàn)在你對算法進(jìn)行了非常嚴(yán)格的劃分,這造成了很大的限制。您必須擁有這個Goldilocks網(wǎng)絡(luò),其中計算可以保留在模擬芯片本地,然后才必須返回到主要代碼完成執(zhí)行的通用芯片。
如果您的手機配備高通應(yīng)用處理器(與其他公司不同的芯片),并且您想在 Zoom 通話期間實時運行面部美化算法,您該怎么做?如何同步軟件的執(zhí)行?算法每年都變得更加復(fù)雜,而數(shù)據(jù)科學(xué)家并沒有放慢他們的創(chuàng)新速度。Transformer 是新事物,就像 ChatGPT 的視覺 Transformer 一樣,由于來回傳輸量非常復(fù)雜。假設(shè)您已經(jīng)部署了一些用于卷積的內(nèi)存計算。你永遠(yuǎn)不會將視覺轉(zhuǎn)換器映射到它,因為你會花掉等待數(shù)據(jù)在兩種不同類型的芯片之間來回傳輸?shù)臅r間。那么,SRAM 中的純內(nèi)存計算有什么不同的、深奧的和分區(qū)的嗎?那永遠(yuǎn)不會發(fā)生。
如果您可以將其構(gòu)建為可在 SoC 上的已編譯 SRAM,那么現(xiàn)在您所說的是不同的東西,但現(xiàn)在您必須擁有一個 6T 模擬單元,并內(nèi)置某種其他模擬設(shè)備。它必須是與放置在其旁邊的大型 GPU 著色器引擎產(chǎn)生的噪音隔離開來,因此這也成為一個問題。如何構(gòu)建芯片,使得這里的 10,000 個 MAC 不會將噪聲注入到您嘗試編譯的敏感模擬電路中?這似乎是一個站不住腳的問題。大約 3 億美元的風(fēng)險投資已經(jīng)付諸東流,而且還沒有人能夠?qū)崿F(xiàn)量產(chǎn)。
Chan Carusone也表示,由于 Steve 所描述的限制,大多數(shù)理性興趣都集中在將這種技術(shù)用于某些低功耗或利基邊緣推理類型的應(yīng)用。我毫不懷疑潛在的影響。但現(xiàn)在的關(guān)鍵是為這項技術(shù)找到一個有足夠數(shù)量、足夠市場潛力的應(yīng)用,以證明這種專門為其量身定制的硬件解決方案是合理的。這就是為什么我們看到這個想法已經(jīng)存在了很長時間,但仍在等待它產(chǎn)生重大影響的機會。
Yun對這種觀點表示贊同,他指出,很多新技術(shù)如果沒有市場的大量需求就不會得到發(fā)展。即使我們已經(jīng)準(zhǔn)備好部署一項有前途的技術(shù),但在我們解決了所有風(fēng)險并收到使用它來創(chuàng)收的需求之前,它也不會付諸實踐。在內(nèi)存計算(CiM)的情況下,我們可以減少數(shù)據(jù)傳輸,因為所有計算都發(fā)生在同一位置。這意味著數(shù)據(jù)將保留在那里并進(jìn)行計算,而無需任何數(shù)據(jù)傳輸。這意味著更快的處理速度和能源效率。
然而,為了實現(xiàn)這一目標(biāo),我們需要對周圍系統(tǒng)進(jìn)行各種調(diào)整,以適應(yīng)這些新的數(shù)據(jù)處理方式。為了證明投資此類變革的合理性,必須有強勁的需求。此外,不應(yīng)該存在風(fēng)險較低的替代解決方案,因此我們可以放心地開始研究它。
朝著這個方向邁出一步的一個例子是利用 DRAM。當(dāng)我們的AI芯片中有很多核心并行連接時,我們需要為處理器帶來寬帶寬的數(shù)據(jù)以提高效率。因此設(shè)計人員添加了大量連接到AI芯片的DRAM來傳輸海量數(shù)據(jù)。選擇 DRAM 是因為將數(shù)據(jù)存儲在 DRAM 中比 SRAM 更具成本效益。因此,每當(dāng)核心數(shù)量增加時,就需要增加 DRAM 的通道數(shù)量。現(xiàn)在我們的一些人工智能芯片有數(shù)千個核心。它需要越來越多的 DRAM 通道,很容易達(dá)到數(shù)百個引腳,盡管物理上不可能將太多通道連接到一個芯片中。我們必須解決這個瓶頸。
三星建議在 DRAM 本身內(nèi)執(zhí)行近內(nèi)存計算。他們在 DRAM 中添加了一個 MAC 單元來執(zhí)行初始計算。之后,將數(shù)據(jù)發(fā)送至AI芯片進(jìn)行后續(xù)處理。這種方法距離近內(nèi)存計算又近了一步。如果人們看到死胡同,就會找到新的解決方案。如果有辦法緩解現(xiàn)有配置的問題,人們傾向于保留現(xiàn)有設(shè)置以避免轉(zhuǎn)向新方法的風(fēng)險。
Chan Carusone則表示,DRAM 內(nèi)存瓶頸是需要解決的關(guān)鍵挑戰(zhàn),這就是 HBM 重要性日益增加的原因。HBM 有一個良好的路線圖,可以提供更高帶寬的內(nèi)存接口。人們還討論了本質(zhì)上使用某種類型的小芯片(即 HBM 到 DDR 轉(zhuǎn)換器)的潛力。這可能會在內(nèi)存中引入另一個層次,其中有一些 HBM,也許還有一些稍微遠(yuǎn)一點的 DDR。人們正在考慮以各種不同的方式解決這個內(nèi)存瓶頸問題。
Roddy則說道,人們甚至試圖在數(shù)據(jù)科學(xué)層面上以數(shù)字方式解決內(nèi)存瓶頸問題。訓(xùn)練顯然是非常昂貴的,如果你想訓(xùn)練你的 1000 億參數(shù)的聊天機器人,這需要在你最喜歡的云服務(wù)上花費數(shù)百萬美元的計算時間。人們已經(jīng)嘗試過,如果他們在訓(xùn)練中的計算是浮點32(fp32),他們可以存儲到DDR和其他格式嗎?你有 bfloat、fp8 以及他們嘗試弄清楚的各種東西。幾年前對我來說最簡單的是 bfloat。你確實需要一個 fp32 數(shù)字,截掉尾數(shù)的 16 位以下,然后把它扔掉,說:“我真的不需要它。” 當(dāng)我下次帶它回來訓(xùn)練時,我會把它拿回來。很簡單,就像“如何將 DDR 流量減少一半并加快整體訓(xùn)練問題的速度?” 這已經(jīng)演變成一大堆其他類型的數(shù)字問題,比如具有各種深奧格式的 fp8。他們都在努力應(yīng)對大量數(shù)據(jù)的挑戰(zhàn)——用于全自動駕駛或語言樣本的無數(shù)圖像,或者無論它是什么,都必須從計算轉(zhuǎn)移到內(nèi)存,從內(nèi)存轉(zhuǎn)移到計算。這是內(nèi)存瓶頸和內(nèi)存層次結(jié)構(gòu)問題,目前不是計算問題。
來源:半導(dǎo)體行業(yè)觀察
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。