對(duì)內(nèi)存的重新思考
Semiconductor Engineering 與 Cadence 產(chǎn)品管理部門集團(tuán)總監(jiān) Frank Ferro 討論了日益異構(gòu)的系統(tǒng)中內(nèi)存的發(fā)展之路。參與討論的還有:Rambus 的研究員和杰出發(fā)明家 Steven Woo;西門子 EDA 的內(nèi)存技術(shù)專家 Jongsin Yun;是德科技內(nèi)存解決方案項(xiàng)目經(jīng)理 Randy White;以及 Arteris 解決方案和業(yè)務(wù)發(fā)展副總裁 Frank Schirrmeister。以下是這次談話的摘錄。
本文引用地址:http://butianyuan.cn/article/202402/455474.htmSE:在我們努力處理 AI/ML 和能源需求時(shí),哪些配置需要重新思考?我們是否會(huì)看到從馮諾依曼結(jié)構(gòu)向其他結(jié)構(gòu)的轉(zhuǎn)變?
Woo:關(guān)于系統(tǒng)架構(gòu),業(yè)界正在發(fā)生分歧。我們?cè)诨?x86 的服務(wù)器上運(yùn)行的傳統(tǒng)應(yīng)用程序負(fù)載著主要的工作,還不會(huì)消失。已經(jīng)建立和發(fā)展了幾十年的軟件依賴于該架構(gòu)才能發(fā)揮良好的性能。相比之下,AI/ML 屬于一個(gè)新的類別。人們已經(jīng)重新思考了架構(gòu),并構(gòu)建了非常特定于領(lǐng)域的處理器。我們看到大約三分之二的能量用于處理器與 HBM(High Bandwidth Memory,高帶寬存儲(chǔ)器)之間移動(dòng)數(shù)據(jù),而僅有約三分之一的能量消耗在實(shí)際訪問 DRAM 核心的數(shù)據(jù)位上。如今,數(shù)據(jù)遷移變得更具挑戰(zhàn)性且成本更高。我們不會(huì)擺脫內(nèi)存。隨著數(shù)據(jù)集的不斷擴(kuò)大,我們需要內(nèi)存。因此,問題是,「未來正確的發(fā)展方向是什么?」關(guān)于堆疊有很多討論。如果我們將存儲(chǔ)器直接放在處理器的頂部,它會(huì)完成兩件事。首先,今天的帶寬受限于芯片外圍或邊緣,那是 I/O(輸入輸出)的位置。但是,如果將存儲(chǔ)器直接堆疊在處理器頂部,現(xiàn)在您可以將芯片的整個(gè)區(qū)域用于分布式互連,并且可以獲得更多存儲(chǔ)器本身的帶寬,它可以直接輸入到處理器中,鏈路變得更短了,功率效率可能提高 5 倍至 6 倍。其次,由于更多區(qū)域陣列互連到存儲(chǔ)器,可獲得的帶寬也會(huì)提高數(shù)倍。將這兩者結(jié)合起來可以提供更多帶寬并提高功率效率。行業(yè)的發(fā)展需要滿足各種需求,這肯定是未來我們會(huì)看到存儲(chǔ)系統(tǒng)開始發(fā)展的方式之一,以使其變得更節(jié)能并提供更多帶寬。
Ferro:當(dāng)我大約在 2016 年開始研究 HBM 時(shí),一些思想先進(jìn)的客戶詢問是否可以將其堆疊。他們已經(jīng)研究了一段時(shí)間如何在頂部堆疊 DRAM,因?yàn)檫@樣具有明顯的優(yōu)勢(shì)。從物理層來看,PHY 基本上可以忽略不計(jì),這可以節(jié)省大量的能源和效率。但是現(xiàn)在,在頂部有存儲(chǔ)器的處理器功率已經(jīng)達(dá)到幾百瓦。存儲(chǔ)器無法承受熱量。它可能是熱鏈中最薄弱的環(huán)節(jié),這又帶來了另一個(gè)挑戰(zhàn)。雖然有一定的好處,但仍然需要找出如何處理熱量的問題。現(xiàn)在有更多動(dòng)力推動(dòng)這種新架構(gòu)的發(fā)展,因?yàn)樗谛阅芎凸姆矫娲_實(shí)節(jié)省了總體成本,并提高了計(jì)算效率。但是還有一些物理設(shè)計(jì)挑戰(zhàn)需要解決。正如 Steve 所說,「我們看到了各種各樣的新架構(gòu)」。我完全同意 GPU/CPU 架構(gòu)不會(huì)消失,并且仍將占據(jù)主導(dǎo)地位。與此同時(shí),全球每個(gè)公司都試圖為他們的 AI 找到更好的方案。我們看到了片上 SRAM 和 HBM 的組合。如今,LPDDR 在數(shù)據(jù)中心中的應(yīng)用日漸增多,原因是功耗問題。我們甚至看到 GDDR 被用于一些 AI 推理應(yīng)用,以及其他所有的舊內(nèi)存系統(tǒng)?,F(xiàn)在他們?cè)噲D盡可能在一個(gè)指定面積內(nèi)擠壓 DDR5。我已經(jīng)看過你能想到的所有架構(gòu),無論是 DDR、HBM、GDDR 還是其他架構(gòu)。這取決于你的處理器核心,你的整體附加值是多少,然后如何突破你特定的架構(gòu)。與之相關(guān)的內(nèi)存系統(tǒng),這樣你就可以根據(jù)可用的內(nèi)容設(shè)計(jì)出 CPU 和存儲(chǔ)器架構(gòu)。
Yun:另一個(gè)問題是非易失性。例如,如果 AI 必須處理物聯(lián)網(wǎng)(IoT)基礎(chǔ)設(shè)施中運(yùn)行的 AI 的電力間隔問題,那么我們就需要不斷地關(guān)閉和啟動(dòng)電源,所有這些用于 AI 訓(xùn)練的信息都需要反復(fù)傳輸。如果我們有某種解決方案可以將這些權(quán)重?cái)?shù)據(jù)存儲(chǔ)到芯片中,我們就不必總是為相同的權(quán)重進(jìn)行來回調(diào)整,那么它將為特別是基于物聯(lián)網(wǎng)的 AI 節(jié)省大量的電力。還會(huì)有其他解決方案來幫助滿足這些電力需求。
Schirrmeister:從 NoC(片上網(wǎng)絡(luò))的角度來看,我覺得非常有趣的是,你必須優(yōu)化從處理器通過 NoC 訪問存儲(chǔ)器接口的路徑,處理器可能通過 UCIe 將一個(gè)小芯片傳遞給另一個(gè)小芯片,這個(gè)小芯片中包含存儲(chǔ)器。馮諾依曼架構(gòu)并非已經(jīng)消失。但現(xiàn)在有很多不同的變體,取決于你想計(jì)算的工作負(fù)載。它們需要在內(nèi)存的背景下進(jìn)行考慮,而這只是一個(gè)方面。數(shù)據(jù)在 DRAM 中如何安排?我們正在處理所有這些問題,比如存儲(chǔ)器的性能分析,然后優(yōu)化系統(tǒng)架構(gòu)。這激發(fā)了很多新架構(gòu)的創(chuàng)新,這是我在大學(xué)學(xué)習(xí)馮諾依曼架構(gòu)時(shí)從未想過的。在另一端的極端,你會(huì)看到類似于網(wǎng)格的東西?,F(xiàn)在有更多的架構(gòu)需要在其中進(jìn)行考慮,這是由存儲(chǔ)器帶寬、計(jì)算能力等不以相同速度增長(zhǎng)所驅(qū)動(dòng)的。
White:有一種趨勢(shì)涉及到分解計(jì)算或分布式計(jì)算,這意味著架構(gòu)師需要具備更多的工具。內(nèi)存層次結(jié)構(gòu)已經(jīng)擴(kuò)展了,語義也被納入考慮,還有 CXL(Compute Express Link)和不同的混合存儲(chǔ)器,這些混合存儲(chǔ)器可用于閃存和 DRAM 中。數(shù)據(jù)中心的一個(gè)并行應(yīng)用是汽車行業(yè)。汽車一直具有傳感器計(jì)算和 ECU(電子控制單元)。我對(duì)它是如何演變到數(shù)據(jù)中心感到非常好奇。快進(jìn)到今天,我們有分布式計(jì)算節(jié)點(diǎn),稱為域控制器。這與以往相同。它試圖解決這樣一個(gè)問題,即由于計(jì)算機(jī)的規(guī)模沒有那么大,功率可能不是一個(gè)大問題,但延遲對(duì)于汽車來說肯定是一個(gè)大問題。ADAS(高級(jí)駕駛輔助系統(tǒng))需要超高帶寬,你會(huì)遇到不同的需要權(quán)衡的問題。你會(huì)有更多的機(jī)械傳感器,但在數(shù)據(jù)中心有類似的限制。你可以擁有不需要低延遲的冷存儲(chǔ),還有其他高帶寬應(yīng)用??吹郊軜?gòu)師的工具和選擇是如何發(fā)展的,這確實(shí)令人著迷。行業(yè)在應(yīng)對(duì)這些問題方面做得非常好,我們所有人都提供各種解決方案以滿足市場(chǎng)需求。
SE:內(nèi)存設(shè)計(jì)工具是如何發(fā)展的?
Schirrmeister:當(dāng)我在 90 年代開始做我的第一批芯片時(shí),最常用的系統(tǒng)工具是 Excel。從那時(shí)開始,我一直希望它能在某一點(diǎn)上系統(tǒng)級(jí)、內(nèi)存、帶寬分析等方面有所突破。這對(duì)我的團(tuán)隊(duì)影響很大。那時(shí)候這是非常先進(jìn)的東西。但是,正如 Randy 所說,現(xiàn)在某些復(fù)雜的事物需要以之前在計(jì)算機(jī)上不可能實(shí)現(xiàn)的保真度進(jìn)行模擬。舉一個(gè)例子,DRAM 訪問的某個(gè)延遲可能導(dǎo)致錯(cuò)誤的架構(gòu)決策,并可能錯(cuò)誤地設(shè)計(jì)片上數(shù)據(jù)傳輸架構(gòu)。從另一方面看也是這樣的。如果你總是假設(shè)最壞的情況,那么你將過度設(shè)計(jì)架構(gòu)。讓工具執(zhí)行 DRAM 和性能分析,并為控制器提供合適的模型,可以讓架構(gòu)師模擬所有這些,這是一個(gè)令人著迷的環(huán)境。我從 90 年代就希望 Excel 作為一個(gè)系統(tǒng)級(jí)工具在某一天會(huì)失效,這個(gè)夢(mèng)想可能會(huì)成真,因?yàn)槟承﹦?dòng)態(tài)效果你無法再在 Excel 中實(shí)現(xiàn),你需要模擬它們,特別是當(dāng)您引入具有 PHY 特性的芯片間接口時(shí),以及其他鏈路層特性,比如檢查數(shù)據(jù)是否都正確并可能重新發(fā)送數(shù)據(jù)。不進(jìn)行這些模擬將導(dǎo)致次優(yōu)的架構(gòu)。
Ferro:我們進(jìn)行的大多數(shù)評(píng)估的第一步是提供內(nèi)存測(cè)試臺(tái),讓他們開始檢查 DRAM 的效率。即使是執(zhí)行像運(yùn)行本地工具進(jìn)行 DRAM 仿真的簡(jiǎn)單操作(但接下來會(huì)進(jìn)入全面的仿真模擬),這也是一個(gè)巨大的步驟。我們發(fā)現(xiàn)越來越多的客戶要求進(jìn)行這種類型的仿真。確保 DRAM 效率保持在 90% 以上是任何評(píng)估的非常重要的第一步。
Woo:全系統(tǒng)仿真工具興起的部分原因是,DRAM 變得越來越復(fù)雜?,F(xiàn)在,使用 Excel 等簡(jiǎn)單工具處理一些復(fù)雜的工作負(fù)載非常困難。如果你回顧 90 年代 DRAM 的數(shù)據(jù)表,可以發(fā)現(xiàn)那些數(shù)據(jù)表只有 40 頁左右?,F(xiàn)在,它們有數(shù)百頁。這說明了為了獲得高帶寬輸出,設(shè)備的復(fù)雜性急劇上升。再加上內(nèi)存在系統(tǒng)成本方面是驅(qū)動(dòng)力,以及與處理器性能相關(guān)的帶寬和延遲。內(nèi)存也是功耗的一個(gè)重要驅(qū)動(dòng)因素,因此現(xiàn)在你需要進(jìn)行更詳細(xì)的仿真模擬。在工具流方面,系統(tǒng)架構(gòu)師了解內(nèi)存是一個(gè)巨大的驅(qū)動(dòng)力。因此,工具需要更加復(fù)雜,并且需要與其他工具很好地配合,以便系統(tǒng)架構(gòu)師能夠獲得最佳全局視角,了解正在發(fā)生的情況——特別是內(nèi)存如何影響系統(tǒng)。
Yun:隨著我們進(jìn)入 AI 時(shí)代,使用了很多多核系統(tǒng),但我們不知道哪些數(shù)據(jù)放在哪里。芯片也越來越與其并行。內(nèi)存的大小要大得多。如果我們使用 ChatGPT 類型的 AI,那么模型的數(shù)據(jù)處理需要大約 350MB 的數(shù)據(jù),僅作為權(quán)重就是大量的數(shù)據(jù),實(shí)際的輸入/輸出則更大得多。所需數(shù)據(jù)量的增加意味著有很多我們以前沒見過的概率效應(yīng)。觀察與這大量?jī)?nèi)存相關(guān)的所有錯(cuò)誤是一項(xiàng)極具挑戰(zhàn)性的測(cè)試。ECC(糾錯(cuò)碼)已廣泛應(yīng)用,甚至在 SRAM(靜態(tài)隨機(jī)存取存儲(chǔ)器)中也應(yīng)用了 ECC,盡管傳統(tǒng)上 SRAM 并未使用 ECC,但現(xiàn)在在大型系統(tǒng)中非常常見。測(cè)試所有這些非常具有挑戰(zhàn)性,并需要由 EDA 解決方案提供支持,以測(cè)試所有這些不同的條件。
SE:工程團(tuán)隊(duì)日常面臨哪些挑戰(zhàn)?
White:在任何一天,你都會(huì)發(fā)現(xiàn)我在實(shí)驗(yàn)室。我卷起袖子,弄臟雙手,戳線,焊接等等。我經(jīng)常思考關(guān)于硅后驗(yàn)證的問題。我們討論了早期模擬和片上工具——BiST(內(nèi)建自檢)等。歸根結(jié)底,在出貨前,我們要進(jìn)行某種形式的系統(tǒng)驗(yàn)證或設(shè)備級(jí)測(cè)試。我們討論如何克服內(nèi)存墻。我們將內(nèi)存、HBM 等進(jìn)行了共同定位。回顧封裝技術(shù)的演變,我們從鉛封裝開始。它們不能很好地保證信號(hào)完整性。幾十年后,我們轉(zhuǎn)向優(yōu)化信號(hào)完整性,如球柵陣列(BGAs)。但我們無法訪問它,這意味著無法對(duì)其進(jìn)行測(cè)試。因此,我們提出了一種稱為設(shè)備中介層(BGA 中介層)的概念,并允許我們?cè)谔厥鈯A具之間進(jìn)行信號(hào)的層疊和外接。然后我們可以將其連接到測(cè)試設(shè)備。快進(jìn)到今天,現(xiàn)在我們有了 HBM 和芯片。對(duì)于硅中介層之間的夾具,該如何層疊安裝?我們無法做到,這確實(shí)是一個(gè)難題。這是一個(gè)讓我徹夜難眠的挑戰(zhàn)。當(dāng) OEM 或系統(tǒng)客戶不能獲得 90% 的效率時(shí),如何在現(xiàn)場(chǎng)進(jìn)行故障分析?鏈路中存在更多的錯(cuò)誤,它們無法正確初始化,訓(xùn)練無法正常進(jìn)行。這是系統(tǒng)完整性問題嗎?
Schirrmeister:與其去實(shí)驗(yàn)室,你難道不更愿意在家使用虛擬界面完成這些工作嗎?解決方案難道不是將更多分析技術(shù)構(gòu)建到芯片中嗎?通過芯片,我們將所有組件進(jìn)一步集成在一起。將焊接鐵放在這個(gè)地方并不現(xiàn)實(shí),因此需要一種片上分析的方法。我們?cè)?NoC 上也面臨著同樣的問題。人們查看 NoC,你發(fā)送數(shù)據(jù)后它們就消失了。我們需要將分析添加到其中,以便人們可以進(jìn)行調(diào)試,并將這種分析擴(kuò)展到制造水平,這樣你最終就可以在家中通過芯片分析方法完成所有工作。
Ferro:尤其是在有高帶寬存儲(chǔ)器的情況下,你無法從物理上進(jìn)入其中。當(dāng)我們授權(quán) PHY 時(shí),我們還會(huì)提供一個(gè)與之搭配的產(chǎn)品,以便你可以關(guān)注其中的每一位數(shù)據(jù)(共 1024 位)。你可以用該工具開始讀取和寫入 DRAM,而無需在物理上進(jìn)入其中。我喜歡中介層的想法。在測(cè)試過程中,我們確實(shí)從中介層中引出了一些引腳,但在系統(tǒng)中無法實(shí)現(xiàn)。進(jìn)入這些 3D 系統(tǒng)確實(shí)具有挑戰(zhàn)性。即使從設(shè)計(jì)工具流程的角度來看,似乎大多數(shù)公司都在很多 2.5D 工具上進(jìn)行自己?jiǎn)为?dú)的流程。我們正在開始用一種更標(biāo)準(zhǔn)化的方式來構(gòu)建一個(gè) 2.5D 系統(tǒng),從信號(hào)完整性、功率到整個(gè)流程。
White:隨著事物進(jìn)入芯片內(nèi)部,我希望我們?nèi)阅鼙3滞瑯拥燃?jí)的準(zhǔn)確性。我是 UCIe 格式合規(guī)小組的成員。我正在研究如何刻畫一個(gè)可靠的優(yōu)質(zhì)芯片。最終,這需要更多的時(shí)間,但我們將在測(cè)試所需的性能和準(zhǔn)確性以及固有的靈活性之間找到一個(gè)平衡點(diǎn)。
Schirrmeister:如果我考慮小芯片及其在更開放的生產(chǎn)環(huán)境中的應(yīng)用,測(cè)試是使其正常工作的最大挑戰(zhàn)之一。如果我有一家大公司并且我可以控制所有方面,那么我可以適當(dāng)限制事物以使測(cè)試等變得可行。如果我想要遵循 UCIe 的口號(hào),即 UCI 距離 PCI 只有一個(gè)字母之遙,我可以設(shè)想,從制造角度看,未來 UCIe 組件將變得像今天 PC 上的 PCI 插槽一樣,那么測(cè)試方面確實(shí)具有很大的挑戰(zhàn)性。我們需要找到解決方案。我們還有很多工作要做。
評(píng)論