如何獲得足夠的HBM,并將其堆疊的足夠高?
業(yè)界可通過多種方式擴展計算引擎的內(nèi)存容量與帶寬,以更好地驅(qū)動人工智能(AI)和高性能計算(HPC)工作負載,但目前所能做到的仍有不足。
本文引用地址:http://butianyuan.cn/article/202411/464434.htm如近期與 Microsoft Azure、AMD、Cerebras Systems 和 Ayar Labs 的專家共同舉辦的網(wǎng)絡(luò)研討會上所提及,任何新的內(nèi)存方法(當前有諸多有趣的光學 I/O 選項)都必須具備可制造性與成本效益,方能被采用。
此乃當前 HBM 瓶頸之緣由。少數(shù)昂貴的 HPC 和 AI 工作負載受限于內(nèi)存帶寬,將大量并行 HBM 內(nèi)存堆棧置于極靠近計算引擎之處。HBM 無法同時提升內(nèi)存容量與帶寬,僅能二者擇其一。
HBM 內(nèi)存較常規(guī) DRAM 及 GDDR(對于帶寬關(guān)鍵的計算引擎而言)更為優(yōu)越,但即便美光科技加入 SK 海力士與三星的 HBM 陣營,全球亦無法生產(chǎn)足量產(chǎn)品以滿足需求。這導(dǎo)致高端計算引擎(及所需的中介層封裝)短缺,使市場扭曲,造成原始計算與內(nèi)存容量、帶寬間的效率低下與不平衡。
此前已有諸多文章詳細探討此問題,在此不再贅述。當前及不久將來推出的 GPU 和定制 AI 處理器可輕松擁有 2 倍、3 倍甚至 4 倍的 HBM 內(nèi)存容量與帶寬,以更好地平衡其巨大計算量。同一 GPU 內(nèi)存翻倍時,AI 工作負載性能幾近提升 2 倍,內(nèi)存即為問題所在,或許所需并非更快的 GPU,而是更多內(nèi)存以滿足其需求。
鑒于此,考量 SK 海力士近期兩份公告。SK 海力士為全球 HBM 出貨領(lǐng)先者,亦是 Nvidia 和 AMD 數(shù)據(jù)中心計算引擎的主要供應(yīng)商。本周,SK 海力士首席執(zhí)行官 Kwak Noh-Jung 在韓國首爾舉行的 SK AI 峰會上展示即將推出的 HBM3E 內(nèi)存一種,該內(nèi)存已于過去一年在各種產(chǎn)品中批量生產(chǎn)。此 HBM3E 內(nèi)存的亮點在于,內(nèi)存堆棧高達 16 個芯片。這意味著每個存儲體的 DRAM 芯片堆棧高度為當前許多設(shè)備中使用的 HBM3E 堆棧的兩倍,24 Gbit 內(nèi)存芯片可提供每個堆棧 48 GB 容量。
與使用 16 Gbit 內(nèi)存芯片的八高 HBM3 和 HBM3E 堆棧(最高容量為每堆棧 24 GB)及使用 24 Gbit 內(nèi)存芯片的十二高堆棧(最高容量為 36 GB)相比,容量大幅提升。
在興奮之前需知,16 位高堆棧正在使用 HBM3E 內(nèi)存進行采樣,但 Kwak 表示,16 位高內(nèi)存將「從 HBM4 代開始啟用」,且正在創(chuàng)建更高的 HBM3E 堆?!敢源_保技術(shù)穩(wěn)定性」,并將于明年初向客戶提供樣品。
可以確定的是,Nvidia、AMD 和其他加速器制造商均期望盡快將此技術(shù)納入其路線圖。拭目以待。
SK 海力士表示,正使用先進的大規(guī)模回流成型底部填充(MR-MUF)技術(shù),該技術(shù)可熔化 DRAM 芯片間的凸塊,并用粘性物質(zhì)填充其間空間,以更好地為芯片堆棧散熱的方式將它們連接在一起。自 2019 年隨 HBM2E 推出以來,MR-MUF 一直是 SK 海力士 HBM 設(shè)計的標志。2013 年的 HBM1 內(nèi)存和 2016 年的 HBM2 內(nèi)存使用了一種稱為非導(dǎo)電薄膜熱壓縮或 TC-NCF 的技術(shù),三星當時亦使用此技術(shù),且至今仍是其首選的堆棧連接方式。三星認為,TC-NCF 混合鍵合對于 16 高堆棧是必要的。
但 Kawk 表示,SK Hynix 正在開發(fā)一種用于 16 高 HBM3E 和 HBM4 內(nèi)存的混合鍵合技術(shù),以防更高堆棧的產(chǎn)量未達預(yù)期。從某種意義上說,這表明 SK Hynix 略有擔憂。推測此為 TC-NCF 工藝的變體,該公司在 HBM1 和 HBM2 內(nèi)存方面早有此工藝經(jīng)驗。
Kawk 還透露了部分性能信息,稱 16 高 HBM3E 堆棧將使 AI 訓練性能提高 18%,AI 推理性能提高 32%(具體指標未知)。
HBM 路線圖回顧之旅
綜合上述情況及幾周前 SK 海力士在 OCP 峰會上的演講,此時審視 HBM 內(nèi)存的發(fā)展路線圖以及 SK 海力士及其競爭對手在將該技術(shù)推向極限時所面臨的挑戰(zhàn),可使計算引擎制造商避免如過去十年般使用光學 I/O 將 HBM 連接至電機。
當前有一系列 SK Hynix HBM 路線圖流傳,各有不同內(nèi)容。
回顧過往,HBM1 于 2014 年推出,2015 年小批量生產(chǎn),因是提升計算引擎主內(nèi)存帶寬的全新技術(shù),產(chǎn)量較低。SK Hynix 最初的 HBM1 內(nèi)存基于 2 Gb 內(nèi)存芯片,堆疊四層,容量為 1 GB 內(nèi)存,帶寬為 128 GB / 秒,使用 1 Gb / 秒 I/O 通道。
HBM2 于 2016 年推出,2018 年商業(yè)化,此時設(shè)備線速提升至 2.4 Gb / 秒,為 HBM1 的 2.4 倍,每個堆??商峁?307 GB / 秒帶寬。HBM2 堆棧最初有四個 DRAM 芯片高,后增至八個芯片堆棧。HBM2 中使用的 DRAM 芯片容量為 8 Gb,故四高堆棧最高可達 4 GB,八高堆棧為其兩倍,即 8 GB。
2020 年 HBM2E 發(fā)布,情況更趨有趣。DRAM 芯片密度翻倍至 16 Gbit,主內(nèi)存容量翻倍至 4 層塔式機箱的 8 GB 和 8 層塔式機箱的 16 GB。DRAM 線速提高 50%,達 3.6 Gb / 秒,每堆棧帶寬高達 460 GB / 秒。有四個堆棧時,設(shè)備總內(nèi)存帶寬可達 1.8 TB / 秒,遠高于傳統(tǒng) CPU 的四或六個 DDR4 通道所能提供的帶寬。
2022 年 HBM3E 發(fā)布,Nvidia 推出「Hopper」H100 GPU 加速器且商業(yè) GenAI 熱潮興起,一切變得瘋狂。連接 DRAM 和 CPU 或 GPU 的線路速度提高 1.8 倍,達 6.4 Gb / 秒,每個堆棧可提供 819 GB / 秒帶寬,堆棧以八高為基礎(chǔ),十二高選項使用 16 Gbit DRAM。八高堆棧為 16 GB,十二高堆棧為 24 GB。令人遺憾的是,HBM3 未實現(xiàn)十六高堆棧。且每次增加新高度都不只是難度的增加。
HBM3E 于 2023 年 5 月由 SK Hynix 推出,DRAM 上的引腳速度提升至 8 Gb / 秒,比 HBM3 內(nèi)存提高 25%,使其每堆棧高達 1 TB / 秒。HBM3E 的 DRAM 芯片為 24 Gbit,八高堆棧容量為 24 GB,十二高堆棧容量為 36 GB。由于其更快的 9.2 Gb / 秒信號傳輸速率,美光科技的 HBM3E 被選為 Hopper H200 GPU 加速器(每堆棧 1.2 TB / 秒),而速度較慢的 SK Hynix 芯片則被選為 Grace-Hopper 超級芯片中使用的 H100 和 Nvidia 的 H100-NVL2 推理引擎的第二次更新。
SK Hynix DRAM 技術(shù)規(guī)劃負責人 Younsoo Kim 介紹了公司的 HBM 路線圖,并討論了轉(zhuǎn)向 HBM4 內(nèi)存所需的具體挑戰(zhàn),HBM4 內(nèi)存仍是一個不斷發(fā)展的標準,預(yù)計將于 2026 年在 Nvidia 的下一代「Rubin」R100 和 R200 GPU 中首次亮相,采用八高堆棧,并于 2027 年在 R300 中首次亮相,采用十二高堆棧。
「Blackwell」B100 和 B200 GPU 預(yù)計將使用 8 層 HBM3E 高堆棧,最大容量為 192 GB,而明年即將推出的后續(xù)產(chǎn)品「Blackwell Ultra」(若傳言屬實,可能稱為 B300)將使用 12 層 HBM3E 高堆棧,最大容量為 288 GB。
一直以來猜測 HBM4 會采用 16 個高堆棧,而 SK Hynix 實際正在為 HBM3E 構(gòu)建如此高的 DRAM 堆棧以供測試。只要良率不高,AI 計算引擎肯定可提前利用內(nèi)存容量和帶寬提升。
正如 Kim 在 OCP 演講中所解釋,在實現(xiàn)目標之前,仍有諸多問題需解決。首先,計算引擎制造商敦促所有三家 HBM 內(nèi)存制造商提高帶寬至高于最初約定規(guī)格,同時要求降低功耗。
隨著計算引擎制造商為獲取更高性能而使設(shè)備升溫速度快于性能提升速度,降低功耗變得更加困難。由此,2013 年末 Nvidia 的「Kepler」K40 GPU 加速器的功耗從 240 瓦提高到全口徑 Blackwell B200 加速器的預(yù)期 1200 瓦。B100 和 B200 由兩個 Blackwell 芯片組成,每個芯片有四個 HBM3E 堆棧,總共八個堆棧,每個堆棧有八個內(nèi)存芯片高。192 GB 的內(nèi)存可提供 8 TB / 秒的總帶寬。需知,整個擁有數(shù)千個節(jié)點的超級計算機集群擁有驚人的 8 TB / 秒總內(nèi)存帶寬。
若實現(xiàn),使用 B300 中的 Micron HBM3E 內(nèi)存可將帶寬提高到 9.6 TB / 秒。
遺憾的是,由于內(nèi)存堆棧增長至 16 層高,HBM4 內(nèi)存密度在 2026 年不會增加。或許內(nèi)存制造商會帶來驚喜,推出容量更大的 32 Gbit 的 HBM4E 內(nèi)存,而非堅持使用 Kim 演示文稿中的圖表所示的 24 Gbit 芯片。
HBM 內(nèi)存中薄晶圓的處理及將 DRAM 粘合成堆棧的 MR-MUF 工藝會影響良率。散熱問題亦是一大挑戰(zhàn)。內(nèi)存對熱量敏感,尤其是當大量內(nèi)存如摩天大樓般堆疊,旁邊是大型、發(fā)熱量大的 GPU 計算引擎,且兩者需保持不到 2 毫米距離以保證信號傳輸正常。
這些即為推進計算引擎 HBM 內(nèi)存所面臨的挑戰(zhàn)。SK Hynix 可采取措施應(yīng)對:使產(chǎn)品更寬,并更好地結(jié)合。HBM3E 具有 1024 位寬通道,HBM4 將其加倍至 2048 位。24 Gbit 和 32 Gbit DRAM 芯片或?qū)⒅С?HBM4(可能后者用于 HBM4E,但不確定)。帶有 32 Gbit 芯片的 16 高堆棧將產(chǎn)生每堆棧 64 GB 內(nèi)存,對于 Blackwell 封裝上的每個 Nvidia 芯片為 256 GB,或每個插槽 512 GB。若 Rubin 保持兩個芯片且僅為架構(gòu)增強則甚佳。但 Rubin 可能是三個甚至四個 GPU 互連,HBM 沿側(cè)面運行。
想象一下,一個 Nvidia R300 套件包含四個 GPU,以及十六個堆棧,每個堆棧包含十六個高 32 Gbit 內(nèi)存,每個計算引擎總共 1 TB。添加一些 RISC-V 核心以運行 Linux,加上 NVLink 端口和一個以 1.6 Tb / 秒速度運行的 UEC 以太網(wǎng)端口,即可稱為服務(wù)器。
除更寬總線外,Kim 還建議將內(nèi)存尋址邏輯集成到 HBM 堆棧的基礎(chǔ)芯片中,而非集成到 HBM 控制器中介層中的單獨芯片,以降低在計算與內(nèi)存間鏈路上進行內(nèi)存控制所需的功率。
此方法還可獨立于完成的 AI 計算引擎對 HBM 堆棧進行完整測試??色@取已知良好的堆疊芯片,在確定后(而非之前)將其焊接到計算引擎插槽上。
總而言之,HBM4 預(yù)計將提供超過 1.4 倍的帶寬、1.3 倍的每個內(nèi)存芯片的容量、1.3 倍的更高堆棧容量,并且功耗僅為 HBM3/HBM3E 的 70%。
雖然上述內(nèi)容皆為良好的發(fā)展方向,但顯而易見的是,當前便需對 2026 年與 2027 年將實現(xiàn)的內(nèi)存作出承諾。由于內(nèi)存與計算間的不平衡,客戶在設(shè)備上投入大量資金,然而因 HBM 內(nèi)存的帶寬與容量瓶頸,該設(shè)備無法接近其峰值性能。因此要么盡早需要 HBM4E 內(nèi)存,要么如今年 3 月在介紹 Eliyan 的同步雙向 NuLink PHY 時所提及那般,需要一種方法將更多的 HBM3E 內(nèi)存連接至當前設(shè)備。
更優(yōu)的選擇是,將堆棧數(shù)量加倍,并為 Nvidia Blackwell 和 AMD Antares GPU 獲取 HBM4E。
評論