如何獲得足夠的HBM,并將其堆疊的足夠高?
業(yè)界可通過(guò)多種方式擴(kuò)展計(jì)算引擎的內(nèi)存容量與帶寬,以更好地驅(qū)動(dòng)人工智能(AI)和高性能計(jì)算(HPC)工作負(fù)載,但目前所能做到的仍有不足。
本文引用地址:http://butianyuan.cn/article/202411/464434.htm如近期與 Microsoft Azure、AMD、Cerebras Systems 和 Ayar Labs 的專(zhuān)家共同舉辦的網(wǎng)絡(luò)研討會(huì)上所提及,任何新的內(nèi)存方法(當(dāng)前有諸多有趣的光學(xué) I/O 選項(xiàng))都必須具備可制造性與成本效益,方能被采用。
此乃當(dāng)前 HBM 瓶頸之緣由。少數(shù)昂貴的 HPC 和 AI 工作負(fù)載受限于內(nèi)存帶寬,將大量并行 HBM 內(nèi)存堆棧置于極靠近計(jì)算引擎之處。HBM 無(wú)法同時(shí)提升內(nèi)存容量與帶寬,僅能二者擇其一。
HBM 內(nèi)存較常規(guī) DRAM 及 GDDR(對(duì)于帶寬關(guān)鍵的計(jì)算引擎而言)更為優(yōu)越,但即便美光科技加入 SK 海力士與三星的 HBM 陣營(yíng),全球亦無(wú)法生產(chǎn)足量產(chǎn)品以滿足需求。這導(dǎo)致高端計(jì)算引擎(及所需的中介層封裝)短缺,使市場(chǎng)扭曲,造成原始計(jì)算與內(nèi)存容量、帶寬間的效率低下與不平衡。
此前已有諸多文章詳細(xì)探討此問(wèn)題,在此不再贅述。當(dāng)前及不久將來(lái)推出的 GPU 和定制 AI 處理器可輕松擁有 2 倍、3 倍甚至 4 倍的 HBM 內(nèi)存容量與帶寬,以更好地平衡其巨大計(jì)算量。同一 GPU 內(nèi)存翻倍時(shí),AI 工作負(fù)載性能幾近提升 2 倍,內(nèi)存即為問(wèn)題所在,或許所需并非更快的 GPU,而是更多內(nèi)存以滿足其需求。
鑒于此,考量 SK 海力士近期兩份公告。SK 海力士為全球 HBM 出貨領(lǐng)先者,亦是 Nvidia 和 AMD 數(shù)據(jù)中心計(jì)算引擎的主要供應(yīng)商。本周,SK 海力士首席執(zhí)行官 Kwak Noh-Jung 在韓國(guó)首爾舉行的 SK AI 峰會(huì)上展示即將推出的 HBM3E 內(nèi)存一種,該內(nèi)存已于過(guò)去一年在各種產(chǎn)品中批量生產(chǎn)。此 HBM3E 內(nèi)存的亮點(diǎn)在于,內(nèi)存堆棧高達(dá) 16 個(gè)芯片。這意味著每個(gè)存儲(chǔ)體的 DRAM 芯片堆棧高度為當(dāng)前許多設(shè)備中使用的 HBM3E 堆棧的兩倍,24 Gbit 內(nèi)存芯片可提供每個(gè)堆棧 48 GB 容量。
與使用 16 Gbit 內(nèi)存芯片的八高 HBM3 和 HBM3E 堆棧(最高容量為每堆棧 24 GB)及使用 24 Gbit 內(nèi)存芯片的十二高堆棧(最高容量為 36 GB)相比,容量大幅提升。
在興奮之前需知,16 位高堆棧正在使用 HBM3E 內(nèi)存進(jìn)行采樣,但 Kwak 表示,16 位高內(nèi)存將「從 HBM4 代開(kāi)始啟用」,且正在創(chuàng)建更高的 HBM3E 堆?!敢源_保技術(shù)穩(wěn)定性」,并將于明年初向客戶提供樣品。
可以確定的是,Nvidia、AMD 和其他加速器制造商均期望盡快將此技術(shù)納入其路線圖。拭目以待。
SK 海力士表示,正使用先進(jìn)的大規(guī)?;亓鞒尚偷撞刻畛洌∕R-MUF)技術(shù),該技術(shù)可熔化 DRAM 芯片間的凸塊,并用粘性物質(zhì)填充其間空間,以更好地為芯片堆棧散熱的方式將它們連接在一起。自 2019 年隨 HBM2E 推出以來(lái),MR-MUF 一直是 SK 海力士 HBM 設(shè)計(jì)的標(biāo)志。2013 年的 HBM1 內(nèi)存和 2016 年的 HBM2 內(nèi)存使用了一種稱(chēng)為非導(dǎo)電薄膜熱壓縮或 TC-NCF 的技術(shù),三星當(dāng)時(shí)亦使用此技術(shù),且至今仍是其首選的堆棧連接方式。三星認(rèn)為,TC-NCF 混合鍵合對(duì)于 16 高堆棧是必要的。
但 Kawk 表示,SK Hynix 正在開(kāi)發(fā)一種用于 16 高 HBM3E 和 HBM4 內(nèi)存的混合鍵合技術(shù),以防更高堆棧的產(chǎn)量未達(dá)預(yù)期。從某種意義上說(shuō),這表明 SK Hynix 略有擔(dān)憂。推測(cè)此為 TC-NCF 工藝的變體,該公司在 HBM1 和 HBM2 內(nèi)存方面早有此工藝經(jīng)驗(yàn)。
Kawk 還透露了部分性能信息,稱(chēng) 16 高 HBM3E 堆棧將使 AI 訓(xùn)練性能提高 18%,AI 推理性能提高 32%(具體指標(biāo)未知)。
HBM 路線圖回顧之旅
綜合上述情況及幾周前 SK 海力士在 OCP 峰會(huì)上的演講,此時(shí)審視 HBM 內(nèi)存的發(fā)展路線圖以及 SK 海力士及其競(jìng)爭(zhēng)對(duì)手在將該技術(shù)推向極限時(shí)所面臨的挑戰(zhàn),可使計(jì)算引擎制造商避免如過(guò)去十年般使用光學(xué) I/O 將 HBM 連接至電機(jī)。
當(dāng)前有一系列 SK Hynix HBM 路線圖流傳,各有不同內(nèi)容。
回顧過(guò)往,HBM1 于 2014 年推出,2015 年小批量生產(chǎn),因是提升計(jì)算引擎主內(nèi)存帶寬的全新技術(shù),產(chǎn)量較低。SK Hynix 最初的 HBM1 內(nèi)存基于 2 Gb 內(nèi)存芯片,堆疊四層,容量為 1 GB 內(nèi)存,帶寬為 128 GB / 秒,使用 1 Gb / 秒 I/O 通道。
HBM2 于 2016 年推出,2018 年商業(yè)化,此時(shí)設(shè)備線速提升至 2.4 Gb / 秒,為 HBM1 的 2.4 倍,每個(gè)堆??商峁?307 GB / 秒帶寬。HBM2 堆棧最初有四個(gè) DRAM 芯片高,后增至八個(gè)芯片堆棧。HBM2 中使用的 DRAM 芯片容量為 8 Gb,故四高堆棧最高可達(dá) 4 GB,八高堆棧為其兩倍,即 8 GB。
2020 年 HBM2E 發(fā)布,情況更趨有趣。DRAM 芯片密度翻倍至 16 Gbit,主內(nèi)存容量翻倍至 4 層塔式機(jī)箱的 8 GB 和 8 層塔式機(jī)箱的 16 GB。DRAM 線速提高 50%,達(dá) 3.6 Gb / 秒,每堆棧帶寬高達(dá) 460 GB / 秒。有四個(gè)堆棧時(shí),設(shè)備總內(nèi)存帶寬可達(dá) 1.8 TB / 秒,遠(yuǎn)高于傳統(tǒng) CPU 的四或六個(gè) DDR4 通道所能提供的帶寬。
2022 年 HBM3E 發(fā)布,Nvidia 推出「Hopper」H100 GPU 加速器且商業(yè) GenAI 熱潮興起,一切變得瘋狂。連接 DRAM 和 CPU 或 GPU 的線路速度提高 1.8 倍,達(dá) 6.4 Gb / 秒,每個(gè)堆棧可提供 819 GB / 秒帶寬,堆棧以八高為基礎(chǔ),十二高選項(xiàng)使用 16 Gbit DRAM。八高堆棧為 16 GB,十二高堆棧為 24 GB。令人遺憾的是,HBM3 未實(shí)現(xiàn)十六高堆棧。且每次增加新高度都不只是難度的增加。
HBM3E 于 2023 年 5 月由 SK Hynix 推出,DRAM 上的引腳速度提升至 8 Gb / 秒,比 HBM3 內(nèi)存提高 25%,使其每堆棧高達(dá) 1 TB / 秒。HBM3E 的 DRAM 芯片為 24 Gbit,八高堆棧容量為 24 GB,十二高堆棧容量為 36 GB。由于其更快的 9.2 Gb / 秒信號(hào)傳輸速率,美光科技的 HBM3E 被選為 Hopper H200 GPU 加速器(每堆棧 1.2 TB / 秒),而速度較慢的 SK Hynix 芯片則被選為 Grace-Hopper 超級(jí)芯片中使用的 H100 和 Nvidia 的 H100-NVL2 推理引擎的第二次更新。
SK Hynix DRAM 技術(shù)規(guī)劃負(fù)責(zé)人 Younsoo Kim 介紹了公司的 HBM 路線圖,并討論了轉(zhuǎn)向 HBM4 內(nèi)存所需的具體挑戰(zhàn),HBM4 內(nèi)存仍是一個(gè)不斷發(fā)展的標(biāo)準(zhǔn),預(yù)計(jì)將于 2026 年在 Nvidia 的下一代「Rubin」R100 和 R200 GPU 中首次亮相,采用八高堆棧,并于 2027 年在 R300 中首次亮相,采用十二高堆棧。
「Blackwell」B100 和 B200 GPU 預(yù)計(jì)將使用 8 層 HBM3E 高堆棧,最大容量為 192 GB,而明年即將推出的后續(xù)產(chǎn)品「Blackwell Ultra」(若傳言屬實(shí),可能稱(chēng)為 B300)將使用 12 層 HBM3E 高堆棧,最大容量為 288 GB。
一直以來(lái)猜測(cè) HBM4 會(huì)采用 16 個(gè)高堆棧,而 SK Hynix 實(shí)際正在為 HBM3E 構(gòu)建如此高的 DRAM 堆棧以供測(cè)試。只要良率不高,AI 計(jì)算引擎肯定可提前利用內(nèi)存容量和帶寬提升。
正如 Kim 在 OCP 演講中所解釋?zhuān)趯?shí)現(xiàn)目標(biāo)之前,仍有諸多問(wèn)題需解決。首先,計(jì)算引擎制造商敦促所有三家 HBM 內(nèi)存制造商提高帶寬至高于最初約定規(guī)格,同時(shí)要求降低功耗。
隨著計(jì)算引擎制造商為獲取更高性能而使設(shè)備升溫速度快于性能提升速度,降低功耗變得更加困難。由此,2013 年末 Nvidia 的「Kepler」K40 GPU 加速器的功耗從 240 瓦提高到全口徑 Blackwell B200 加速器的預(yù)期 1200 瓦。B100 和 B200 由兩個(gè) Blackwell 芯片組成,每個(gè)芯片有四個(gè) HBM3E 堆棧,總共八個(gè)堆棧,每個(gè)堆棧有八個(gè)內(nèi)存芯片高。192 GB 的內(nèi)存可提供 8 TB / 秒的總帶寬。需知,整個(gè)擁有數(shù)千個(gè)節(jié)點(diǎn)的超級(jí)計(jì)算機(jī)集群擁有驚人的 8 TB / 秒總內(nèi)存帶寬。
若實(shí)現(xiàn),使用 B300 中的 Micron HBM3E 內(nèi)存可將帶寬提高到 9.6 TB / 秒。
遺憾的是,由于內(nèi)存堆棧增長(zhǎng)至 16 層高,HBM4 內(nèi)存密度在 2026 年不會(huì)增加?;蛟S內(nèi)存制造商會(huì)帶來(lái)驚喜,推出容量更大的 32 Gbit 的 HBM4E 內(nèi)存,而非堅(jiān)持使用 Kim 演示文稿中的圖表所示的 24 Gbit 芯片。
HBM 內(nèi)存中薄晶圓的處理及將 DRAM 粘合成堆棧的 MR-MUF 工藝會(huì)影響良率。散熱問(wèn)題亦是一大挑戰(zhàn)。內(nèi)存對(duì)熱量敏感,尤其是當(dāng)大量?jī)?nèi)存如摩天大樓般堆疊,旁邊是大型、發(fā)熱量大的 GPU 計(jì)算引擎,且兩者需保持不到 2 毫米距離以保證信號(hào)傳輸正常。
這些即為推進(jìn)計(jì)算引擎 HBM 內(nèi)存所面臨的挑戰(zhàn)。SK Hynix 可采取措施應(yīng)對(duì):使產(chǎn)品更寬,并更好地結(jié)合。HBM3E 具有 1024 位寬通道,HBM4 將其加倍至 2048 位。24 Gbit 和 32 Gbit DRAM 芯片或?qū)⒅С?HBM4(可能后者用于 HBM4E,但不確定)。帶有 32 Gbit 芯片的 16 高堆棧將產(chǎn)生每堆棧 64 GB 內(nèi)存,對(duì)于 Blackwell 封裝上的每個(gè) Nvidia 芯片為 256 GB,或每個(gè)插槽 512 GB。若 Rubin 保持兩個(gè)芯片且僅為架構(gòu)增強(qiáng)則甚佳。但 Rubin 可能是三個(gè)甚至四個(gè) GPU 互連,HBM 沿側(cè)面運(yùn)行。
想象一下,一個(gè) Nvidia R300 套件包含四個(gè) GPU,以及十六個(gè)堆棧,每個(gè)堆棧包含十六個(gè)高 32 Gbit 內(nèi)存,每個(gè)計(jì)算引擎總共 1 TB。添加一些 RISC-V 核心以運(yùn)行 Linux,加上 NVLink 端口和一個(gè)以 1.6 Tb / 秒速度運(yùn)行的 UEC 以太網(wǎng)端口,即可稱(chēng)為服務(wù)器。
除更寬總線外,Kim 還建議將內(nèi)存尋址邏輯集成到 HBM 堆棧的基礎(chǔ)芯片中,而非集成到 HBM 控制器中介層中的單獨(dú)芯片,以降低在計(jì)算與內(nèi)存間鏈路上進(jìn)行內(nèi)存控制所需的功率。
此方法還可獨(dú)立于完成的 AI 計(jì)算引擎對(duì) HBM 堆棧進(jìn)行完整測(cè)試??色@取已知良好的堆疊芯片,在確定后(而非之前)將其焊接到計(jì)算引擎插槽上。
總而言之,HBM4 預(yù)計(jì)將提供超過(guò) 1.4 倍的帶寬、1.3 倍的每個(gè)內(nèi)存芯片的容量、1.3 倍的更高堆棧容量,并且功耗僅為 HBM3/HBM3E 的 70%。
雖然上述內(nèi)容皆為良好的發(fā)展方向,但顯而易見(jiàn)的是,當(dāng)前便需對(duì) 2026 年與 2027 年將實(shí)現(xiàn)的內(nèi)存作出承諾。由于內(nèi)存與計(jì)算間的不平衡,客戶在設(shè)備上投入大量資金,然而因 HBM 內(nèi)存的帶寬與容量瓶頸,該設(shè)備無(wú)法接近其峰值性能。因此要么盡早需要 HBM4E 內(nèi)存,要么如今年 3 月在介紹 Eliyan 的同步雙向 NuLink PHY 時(shí)所提及那般,需要一種方法將更多的 HBM3E 內(nèi)存連接至當(dāng)前設(shè)備。
更優(yōu)的選擇是,將堆棧數(shù)量加倍,并為 Nvidia Blackwell 和 AMD Antares GPU 獲取 HBM4E。
評(píng)論