對(duì)內(nèi)存的重新思考

作者：Semiconductor Engineering 時(shí)間：2024-02-19 來(lái)源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

Semiconductor Engineering 與 Cadence 產(chǎn)品管理部門(mén)集團(tuán)總監(jiān) Frank Ferro 討論了日益異構(gòu)的系統(tǒng)中內(nèi)存的發(fā)展之路。參與討論的還有：Rambus 的研究員和杰出發(fā)明家 Steven Woo；西門(mén)子 EDA 的內(nèi)存技術(shù)專(zhuān)家 Jongsin Yun；是德科技內(nèi)存解決方案項(xiàng)目經(jīng)理 Randy White；以及 Arteris 解決方案和業(yè)務(wù)發(fā)展副總裁 Frank Schirrmeister。以下是這次談話(huà)的摘錄。

本文引用地址：http://www.butianyuan.cn/article/202402/455474.htm

SE：在我們努力處理 AI/ML 和能源需求時(shí)，哪些配置需要重新思考？我們是否會(huì)看到從馮諾依曼結(jié)構(gòu)向其他結(jié)構(gòu)的轉(zhuǎn)變？

Woo：關(guān)于系統(tǒng)架構(gòu)，業(yè)界正在發(fā)生分歧。我們?cè)诨?x86 的服務(wù)器上運(yùn)行的傳統(tǒng)應(yīng)用程序負(fù)載著主要的工作，還不會(huì)消失。已經(jīng)建立和發(fā)展了幾十年的軟件依賴(lài)于該架構(gòu)才能發(fā)揮良好的性能。相比之下，AI/ML 屬于一個(gè)新的類(lèi)別。人們已經(jīng)重新思考了架構(gòu)，并構(gòu)建了非常特定于領(lǐng)域的處理器。我們看到大約三分之二的能量用于處理器與 HBM（High Bandwidth Memory，高帶寬存儲(chǔ)器）之間移動(dòng)數(shù)據(jù)，而僅有約三分之一的能量消耗在實(shí)際訪(fǎng)問(wèn) DRAM 核心的數(shù)據(jù)位上。如今，數(shù)據(jù)遷移變得更具挑戰(zhàn)性且成本更高。我們不會(huì)擺脫內(nèi)存。隨著數(shù)據(jù)集的不斷擴(kuò)大，我們需要內(nèi)存。因此，問(wèn)題是，「未來(lái)正確的發(fā)展方向是什么？」關(guān)于堆疊有很多討論。如果我們將存儲(chǔ)器直接放在處理器的頂部，它會(huì)完成兩件事。首先，今天的帶寬受限于芯片外圍或邊緣，那是 I/O（輸入輸出）的位置。但是，如果將存儲(chǔ)器直接堆疊在處理器頂部，現(xiàn)在您可以將芯片的整個(gè)區(qū)域用于分布式互連，并且可以獲得更多存儲(chǔ)器本身的帶寬，它可以直接輸入到處理器中，鏈路變得更短了，功率效率可能提高 5 倍至 6 倍。其次，由于更多區(qū)域陣列互連到存儲(chǔ)器，可獲得的帶寬也會(huì)提高數(shù)倍。將這兩者結(jié)合起來(lái)可以提供更多帶寬并提高功率效率。行業(yè)的發(fā)展需要滿(mǎn)足各種需求，這肯定是未來(lái)我們會(huì)看到存儲(chǔ)系統(tǒng)開(kāi)始發(fā)展的方式之一，以使其變得更節(jié)能并提供更多帶寬。

Ferro：當(dāng)我大約在 2016 年開(kāi)始研究 HBM 時(shí)，一些思想先進(jìn)的客戶(hù)詢(xún)問(wèn)是否可以將其堆疊。他們已經(jīng)研究了一段時(shí)間如何在頂部堆疊 DRAM，因?yàn)檫@樣具有明顯的優(yōu)勢(shì)。從物理層來(lái)看，PHY 基本上可以忽略不計(jì)，這可以節(jié)省大量的能源和效率。但是現(xiàn)在，在頂部有存儲(chǔ)器的處理器功率已經(jīng)達(dá)到幾百瓦。存儲(chǔ)器無(wú)法承受熱量。它可能是熱鏈中最薄弱的環(huán)節(jié)，這又帶來(lái)了另一個(gè)挑戰(zhàn)。雖然有一定的好處，但仍然需要找出如何處理熱量的問(wèn)題。現(xiàn)在有更多動(dòng)力推動(dòng)這種新架構(gòu)的發(fā)展，因?yàn)樗谛阅芎凸姆矫娲_實(shí)節(jié)省了總體成本，并提高了計(jì)算效率。但是還有一些物理設(shè)計(jì)挑戰(zhàn)需要解決。正如 Steve 所說(shuō)，「我們看到了各種各樣的新架構(gòu)」。我完全同意 GPU/CPU 架構(gòu)不會(huì)消失，并且仍將占據(jù)主導(dǎo)地位。與此同時(shí)，全球每個(gè)公司都試圖為他們的 AI 找到更好的方案。我們看到了片上 SRAM 和 HBM 的組合。如今，LPDDR 在數(shù)據(jù)中心中的應(yīng)用日漸增多，原因是功耗問(wèn)題。我們甚至看到 GDDR 被用于一些 AI 推理應(yīng)用，以及其他所有的舊內(nèi)存系統(tǒng)?，F(xiàn)在他們?cè)噲D盡可能在一個(gè)指定面積內(nèi)擠壓 DDR5。我已經(jīng)看過(guò)你能想到的所有架構(gòu)，無(wú)論是 DDR、HBM、GDDR 還是其他架構(gòu)。這取決于你的處理器核心，你的整體附加值是多少，然后如何突破你特定的架構(gòu)。與之相關(guān)的內(nèi)存系統(tǒng)，這樣你就可以根據(jù)可用的內(nèi)容設(shè)計(jì)出 CPU 和存儲(chǔ)器架構(gòu)。

Yun：另一個(gè)問(wèn)題是非易失性。例如，如果 AI 必須處理物聯(lián)網(wǎng)（IoT）基礎(chǔ)設(shè)施中運(yùn)行的 AI 的電力間隔問(wèn)題，那么我們就需要不斷地關(guān)閉和啟動(dòng)電源，所有這些用于 AI 訓(xùn)練的信息都需要反復(fù)傳輸。如果我們有某種解決方案可以將這些權(quán)重?cái)?shù)據(jù)存儲(chǔ)到芯片中，我們就不必總是為相同的權(quán)重進(jìn)行來(lái)回調(diào)整，那么它將為特別是基于物聯(lián)網(wǎng)的 AI 節(jié)省大量的電力。還會(huì)有其他解決方案來(lái)幫助滿(mǎn)足這些電力需求。

Schirrmeister：從 NoC（片上網(wǎng)絡(luò)）的角度來(lái)看，我覺(jué)得非常有趣的是，你必須優(yōu)化從處理器通過(guò) NoC 訪(fǎng)問(wèn)存儲(chǔ)器接口的路徑，處理器可能通過(guò) UCIe 將一個(gè)小芯片傳遞給另一個(gè)小芯片，這個(gè)小芯片中包含存儲(chǔ)器。馮諾依曼架構(gòu)并非已經(jīng)消失。但現(xiàn)在有很多不同的變體，取決于你想計(jì)算的工作負(fù)載。它們需要在內(nèi)存的背景下進(jìn)行考慮，而這只是一個(gè)方面。數(shù)據(jù)在 DRAM 中如何安排？我們正在處理所有這些問(wèn)題，比如存儲(chǔ)器的性能分析，然后優(yōu)化系統(tǒng)架構(gòu)。這激發(fā)了很多新架構(gòu)的創(chuàng)新，這是我在大學(xué)學(xué)習(xí)馮諾依曼架構(gòu)時(shí)從未想過(guò)的。在另一端的極端，你會(huì)看到類(lèi)似于網(wǎng)格的東西?，F(xiàn)在有更多的架構(gòu)需要在其中進(jìn)行考慮，這是由存儲(chǔ)器帶寬、計(jì)算能力等不以相同速度增長(zhǎng)所驅(qū)動(dòng)的。

White：有一種趨勢(shì)涉及到分解計(jì)算或分布式計(jì)算，這意味著架構(gòu)師需要具備更多的工具。內(nèi)存層次結(jié)構(gòu)已經(jīng)擴(kuò)展了，語(yǔ)義也被納入考慮，還有 CXL（Compute Express Link）和不同的混合存儲(chǔ)器，這些混合存儲(chǔ)器可用于閃存和 DRAM 中。數(shù)據(jù)中心的一個(gè)并行應(yīng)用是汽車(chē)行業(yè)。汽車(chē)一直具有傳感器計(jì)算和 ECU（電子控制單元）。我對(duì)它是如何演變到數(shù)據(jù)中心感到非常好奇。快進(jìn)到今天，我們有分布式計(jì)算節(jié)點(diǎn)，稱(chēng)為域控制器。這與以往相同。它試圖解決這樣一個(gè)問(wèn)題，即由于計(jì)算機(jī)的規(guī)模沒(méi)有那么大，功率可能不是一個(gè)大問(wèn)題，但延遲對(duì)于汽車(chē)來(lái)說(shuō)肯定是一個(gè)大問(wèn)題。ADAS（高級(jí)駕駛輔助系統(tǒng)）需要超高帶寬，你會(huì)遇到不同的需要權(quán)衡的問(wèn)題。你會(huì)有更多的機(jī)械傳感器，但在數(shù)據(jù)中心有類(lèi)似的限制。你可以擁有不需要低延遲的冷存儲(chǔ)，還有其他高帶寬應(yīng)用。看到架構(gòu)師的工具和選擇是如何發(fā)展的，這確實(shí)令人著迷。行業(yè)在應(yīng)對(duì)這些問(wèn)題方面做得非常好，我們所有人都提供各種解決方案以滿(mǎn)足市場(chǎng)需求。

SE：內(nèi)存設(shè)計(jì)工具是如何發(fā)展的？

Schirrmeister：當(dāng)我在 90 年代開(kāi)始做我的第一批芯片時(shí)，最常用的系統(tǒng)工具是 Excel。從那時(shí)開(kāi)始，我一直希望它能在某一點(diǎn)上系統(tǒng)級(jí)、內(nèi)存、帶寬分析等方面有所突破。這對(duì)我的團(tuán)隊(duì)影響很大。那時(shí)候這是非常先進(jìn)的東西。但是，正如 Randy 所說(shuō)，現(xiàn)在某些復(fù)雜的事物需要以之前在計(jì)算機(jī)上不可能實(shí)現(xiàn)的保真度進(jìn)行模擬。舉一個(gè)例子，DRAM 訪(fǎng)問(wèn)的某個(gè)延遲可能導(dǎo)致錯(cuò)誤的架構(gòu)決策，并可能錯(cuò)誤地設(shè)計(jì)片上數(shù)據(jù)傳輸架構(gòu)。從另一方面看也是這樣的。如果你總是假設(shè)最壞的情況，那么你將過(guò)度設(shè)計(jì)架構(gòu)。讓工具執(zhí)行 DRAM 和性能分析，并為控制器提供合適的模型，可以讓架構(gòu)師模擬所有這些，這是一個(gè)令人著迷的環(huán)境。我從 90 年代就希望 Excel 作為一個(gè)系統(tǒng)級(jí)工具在某一天會(huì)失效，這個(gè)夢(mèng)想可能會(huì)成真，因?yàn)槟承﹦?dòng)態(tài)效果你無(wú)法再在 Excel 中實(shí)現(xiàn)，你需要模擬它們，特別是當(dāng)您引入具有 PHY 特性的芯片間接口時(shí)，以及其他鏈路層特性，比如檢查數(shù)據(jù)是否都正確并可能重新發(fā)送數(shù)據(jù)。不進(jìn)行這些模擬將導(dǎo)致次優(yōu)的架構(gòu)。

Ferro：我們進(jìn)行的大多數(shù)評(píng)估的第一步是提供內(nèi)存測(cè)試臺(tái)，讓他們開(kāi)始檢查 DRAM 的效率。即使是執(zhí)行像運(yùn)行本地工具進(jìn)行 DRAM 仿真的簡(jiǎn)單操作（但接下來(lái)會(huì)進(jìn)入全面的仿真模擬），這也是一個(gè)巨大的步驟。我們發(fā)現(xiàn)越來(lái)越多的客戶(hù)要求進(jìn)行這種類(lèi)型的仿真。確保 DRAM 效率保持在 90% 以上是任何評(píng)估的非常重要的第一步。

Woo：全系統(tǒng)仿真工具興起的部分原因是，DRAM 變得越來(lái)越復(fù)雜。現(xiàn)在，使用 Excel 等簡(jiǎn)單工具處理一些復(fù)雜的工作負(fù)載非常困難。如果你回顧 90 年代 DRAM 的數(shù)據(jù)表，可以發(fā)現(xiàn)那些數(shù)據(jù)表只有 40 頁(yè)左右?，F(xiàn)在，它們有數(shù)百頁(yè)。這說(shuō)明了為了獲得高帶寬輸出，設(shè)備的復(fù)雜性急劇上升。再加上內(nèi)存在系統(tǒng)成本方面是驅(qū)動(dòng)力，以及與處理器性能相關(guān)的帶寬和延遲。內(nèi)存也是功耗的一個(gè)重要驅(qū)動(dòng)因素，因此現(xiàn)在你需要進(jìn)行更詳細(xì)的仿真模擬。在工具流方面，系統(tǒng)架構(gòu)師了解內(nèi)存是一個(gè)巨大的驅(qū)動(dòng)力。因此，工具需要更加復(fù)雜，并且需要與其他工具很好地配合，以便系統(tǒng)架構(gòu)師能夠獲得最佳全局視角，了解正在發(fā)生的情況——特別是內(nèi)存如何影響系統(tǒng)。

Yun：隨著我們進(jìn)入 AI 時(shí)代，使用了很多多核系統(tǒng)，但我們不知道哪些數(shù)據(jù)放在哪里。芯片也越來(lái)越與其并行。內(nèi)存的大小要大得多。如果我們使用 ChatGPT 類(lèi)型的 AI，那么模型的數(shù)據(jù)處理需要大約 350MB 的數(shù)據(jù)，僅作為權(quán)重就是大量的數(shù)據(jù)，實(shí)際的輸入/輸出則更大得多。所需數(shù)據(jù)量的增加意味著有很多我們以前沒(méi)見(jiàn)過(guò)的概率效應(yīng)。觀察與這大量?jī)?nèi)存相關(guān)的所有錯(cuò)誤是一項(xiàng)極具挑戰(zhàn)性的測(cè)試。ECC（糾錯(cuò)碼）已廣泛應(yīng)用，甚至在 SRAM（靜態(tài)隨機(jī)存取存儲(chǔ)器）中也應(yīng)用了 ECC，盡管傳統(tǒng)上 SRAM 并未使用 ECC，但現(xiàn)在在大型系統(tǒng)中非常常見(jiàn)。測(cè)試所有這些非常具有挑戰(zhàn)性，并需要由 EDA 解決方案提供支持，以測(cè)試所有這些不同的條件。

SE：工程團(tuán)隊(duì)日常面臨哪些挑戰(zhàn)？

White：在任何一天，你都會(huì)發(fā)現(xiàn)我在實(shí)驗(yàn)室。我卷起袖子，弄臟雙手，戳線(xiàn)，焊接等等。我經(jīng)常思考關(guān)于硅后驗(yàn)證的問(wèn)題。我們討論了早期模擬和片上工具——BiST（內(nèi)建自檢）等。歸根結(jié)底，在出貨前，我們要進(jìn)行某種形式的系統(tǒng)驗(yàn)證或設(shè)備級(jí)測(cè)試。我們討論如何克服內(nèi)存墻。我們將內(nèi)存、HBM 等進(jìn)行了共同定位。回顧封裝技術(shù)的演變，我們從鉛封裝開(kāi)始。它們不能很好地保證信號(hào)完整性。幾十年后，我們轉(zhuǎn)向優(yōu)化信號(hào)完整性，如球柵陣列（BGAs）。但我們無(wú)法訪(fǎng)問(wèn)它，這意味著無(wú)法對(duì)其進(jìn)行測(cè)試。因此，我們提出了一種稱(chēng)為設(shè)備中介層（BGA 中介層）的概念，并允許我們?cè)谔厥鈯A具之間進(jìn)行信號(hào)的層疊和外接。然后我們可以將其連接到測(cè)試設(shè)備。快進(jìn)到今天，現(xiàn)在我們有了 HBM 和芯片。對(duì)于硅中介層之間的夾具，該如何層疊安裝？我們無(wú)法做到，這確實(shí)是一個(gè)難題。這是一個(gè)讓我徹夜難眠的挑戰(zhàn)。當(dāng) OEM 或系統(tǒng)客戶(hù)不能獲得 90% 的效率時(shí)，如何在現(xiàn)場(chǎng)進(jìn)行故障分析？鏈路中存在更多的錯(cuò)誤，它們無(wú)法正確初始化，訓(xùn)練無(wú)法正常進(jìn)行。這是系統(tǒng)完整性問(wèn)題嗎？

Schirrmeister：與其去實(shí)驗(yàn)室，你難道不更愿意在家使用虛擬界面完成這些工作嗎？解決方案難道不是將更多分析技術(shù)構(gòu)建到芯片中嗎？通過(guò)芯片，我們將所有組件進(jìn)一步集成在一起。將焊接鐵放在這個(gè)地方并不現(xiàn)實(shí)，因此需要一種片上分析的方法。我們?cè)?NoC 上也面臨著同樣的問(wèn)題。人們查看 NoC，你發(fā)送數(shù)據(jù)后它們就消失了。我們需要將分析添加到其中，以便人們可以進(jìn)行調(diào)試，并將這種分析擴(kuò)展到制造水平，這樣你最終就可以在家中通過(guò)芯片分析方法完成所有工作。

Ferro：尤其是在有高帶寬存儲(chǔ)器的情況下，你無(wú)法從物理上進(jìn)入其中。當(dāng)我們授權(quán) PHY 時(shí)，我們還會(huì)提供一個(gè)與之搭配的產(chǎn)品，以便你可以關(guān)注其中的每一位數(shù)據(jù)（共 1024 位）。你可以用該工具開(kāi)始讀取和寫(xiě)入 DRAM，而無(wú)需在物理上進(jìn)入其中。我喜歡中介層的想法。在測(cè)試過(guò)程中，我們確實(shí)從中介層中引出了一些引腳，但在系統(tǒng)中無(wú)法實(shí)現(xiàn)。進(jìn)入這些 3D 系統(tǒng)確實(shí)具有挑戰(zhàn)性。即使從設(shè)計(jì)工具流程的角度來(lái)看，似乎大多數(shù)公司都在很多 2.5D 工具上進(jìn)行自己?jiǎn)为?dú)的流程。我們正在開(kāi)始用一種更標(biāo)準(zhǔn)化的方式來(lái)構(gòu)建一個(gè) 2.5D 系統(tǒng)，從信號(hào)完整性、功率到整個(gè)流程。

White：隨著事物進(jìn)入芯片內(nèi)部，我希望我們?nèi)阅鼙３滞瑯拥燃?jí)的準(zhǔn)確性。我是 UCIe 格式合規(guī)小組的成員。我正在研究如何刻畫(huà)一個(gè)可靠的優(yōu)質(zhì)芯片。最終，這需要更多的時(shí)間，但我們將在測(cè)試所需的性能和準(zhǔn)確性以及固有的靈活性之間找到一個(gè)平衡點(diǎn)。

Schirrmeister：如果我考慮小芯片及其在更開(kāi)放的生產(chǎn)環(huán)境中的應(yīng)用，測(cè)試是使其正常工作的最大挑戰(zhàn)之一。如果我有一家大公司并且我可以控制所有方面，那么我可以適當(dāng)限制事物以使測(cè)試等變得可行。如果我想要遵循 UCIe 的口號(hào)，即 UCI 距離 PCI 只有一個(gè)字母之遙，我可以設(shè)想，從制造角度看，未來(lái) UCIe 組件將變得像今天 PC 上的 PCI 插槽一樣，那么測(cè)試方面確實(shí)具有很大的挑戰(zhàn)性。我們需要找到解決方案。我們還有很多工作要做。

新聞中心

對(duì)內(nèi)存的重新思考

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)