顛覆性的HBM4

作者：時(shí)間：2023-12-14 來(lái)源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

一位業(yè)內(nèi)人士表示，「『半導(dǎo)體游戲規(guī)則』可能在 10 年內(nèi)改變，區(qū)別存儲(chǔ)半導(dǎo)體和邏輯半導(dǎo)體可能變得毫無(wú)意義」。

本文引用地址：http://butianyuan.cn/article/202312/453899.htm

HBM4，魅力為何如此？

技術(shù)的突破

2023 年，在 AI 技術(shù)應(yīng)用的推動(dòng)下，數(shù)據(jù)呈現(xiàn)出爆炸式的增長(zhǎng)，大幅度推升了算力需求。據(jù)悉，在 AI 大模型領(lǐng)域，未來(lái) AI 服務(wù)器的主要需求將從訓(xùn)練側(cè)向推理側(cè)傾斜。而根據(jù) IDC 的預(yù)測(cè)，到 2026 年，AIGC 的算力 62.2% 將作用于模型推理。同時(shí)，預(yù)計(jì)到 2025 年，智能算力需求將達(dá)到當(dāng)前的 100 倍。

據(jù)悉，自 2015 年以來(lái)，從 HBM1 到 HBM3e 各種更新和改進(jìn)中，HBM 在所有迭代中都保留了相同的 1024 位 (每個(gè)堆棧) 接口，即具有以相對(duì)適中的時(shí)鐘速度運(yùn)行的超寬接口。然而，隨著內(nèi)存?zhèn)鬏斔俾室蟛粩嗵岣?，尤其是?DRAM 單元的基礎(chǔ)物理原理沒(méi)有改變的情況下，這一速度將無(wú)法滿足未來(lái) AI 場(chǎng)景下的數(shù)據(jù)傳輸要求。為此，下一代 HBM4 需要對(duì)高帶寬內(nèi)存技術(shù)進(jìn)行更實(shí)質(zhì)性的改變，即從更寬的 2048 位內(nèi)存接口開(kāi)始。

接口寬度從每堆棧 1024 位增加到每堆棧 2048 位，將使得 HBM4 具備的變革意義。

當(dāng)前，生成式人工智能已經(jīng)成為推動(dòng) DRAM 市場(chǎng)增長(zhǎng)的關(guān)鍵因素，與處理器一起處理數(shù)據(jù)的 HBM 的需求也必將增長(zhǎng)。未來(lái)，隨著 AI 技術(shù)不斷演進(jìn)，HBM 將成為數(shù)據(jù)中心的標(biāo)準(zhǔn)配置，而以企業(yè)應(yīng)用為重點(diǎn)場(chǎng)景的存儲(chǔ)卡供應(yīng)商期望提供更快的接口。

根據(jù) DigiTimes 援引 Seoul Economy 的消息：下一代 HBM4 內(nèi)存堆棧將采用 2048 位內(nèi)存接口。

將接口寬度從每堆棧 1024 位增加到每堆棧 2048 位將是 HBM 內(nèi)存技術(shù)所見(jiàn)過(guò)的最大變化。自 2015 年以來(lái)，從 HBM1 到 HBM3e 各種更新和改進(jìn)中，HBM 在所有迭代中都保留了相同的 1024 位 (每個(gè)堆棧) 接口。

采用 2048 位內(nèi)存接口，理論上也可以使傳輸速度再次翻倍。例如，英偉達(dá)的旗艦 Hopper H100 GPU，搭配的六顆 HBM3 達(dá)到 6144-bit 位寬。如果內(nèi)存接口翻倍到 2048 位，英偉達(dá)理論上可以將芯片數(shù)量減半到三個(gè)，并獲得相同的性能。

回顧 HBM 發(fā)展歷史，由于物理限制，使用 HBM1 的顯卡的內(nèi)存上限為 4GB。然而，隨著時(shí)間的推移，SK 海力士和三星等 HBM 制造商已經(jīng)改進(jìn)了 HBM 的缺點(diǎn)。

HBM2 將潛在速度提高了一倍，達(dá)到每個(gè)堆棧 256GB/s，最大容量達(dá)到 8GB。2018 年，HBM2 進(jìn)行了一次名為 HBM2E 的小更新，進(jìn)一步將容量限制提高到 24GB，并帶來(lái)了另一次速度提升，最終達(dá)到峰值時(shí)的每芯片 460GB/s。

當(dāng) HBM3 推出時(shí)，速度又翻了一番，允許每個(gè)堆棧最大 819GB/s。更令人印象深刻的是，容量增加了近三倍，從 24GB 增加到 64GB。和 HBM2E 一樣，HBM3 看到了另一個(gè)中期升級(jí)，HBM3E，它將理論速度提高到每堆棧 1.2 TB/s。

在此過(guò)程中，HBM 在消費(fèi)級(jí)顯卡中逐漸被更便宜的 GDDR 內(nèi)存所取代。HBM 越發(fā)成為成為數(shù)據(jù)中心的標(biāo)準(zhǔn)配置，以企業(yè)應(yīng)用為重點(diǎn)場(chǎng)景的存儲(chǔ)卡供應(yīng)商們期望提供更快的接口。

有機(jī)遇就有挑戰(zhàn)

目前，HBM 主要是放置 CPU/GPU 的中介層上，并使用 1024bit 接口連接到邏輯芯片。SK 海力士目標(biāo)是將 HBM4 直接堆疊在邏輯芯片上，完全消除中介層。HBM4 很可能與現(xiàn)有半導(dǎo)體完全不同，散熱問(wèn)題也隨之而來(lái)。因此，要想為邏輯+存儲(chǔ)這一集成體散熱，可能需要非常復(fù)雜的方法，液冷和浸沒(méi)式散熱或是解決方案。

HBM 主要是通過(guò)硅通孔技術(shù)進(jìn)行芯片堆疊，以增加吞吐量并克服單一封裝內(nèi)帶寬的限制，將數(shù)個(gè) DRAM 裸片像樓層一樣垂直堆疊。在 HBM4 技術(shù)實(shí)現(xiàn)上，一個(gè)模塊中堆疊更多的內(nèi)存芯片的技術(shù)復(fù)雜性必然將進(jìn)一步提高，主要難題在于需要增加硅通孔數(shù)量并縮小凸塊間距。

例如為了生產(chǎn) HBM4 內(nèi)存堆棧（包括 16-Hi 堆棧），三星需要完善 SangJoon Hwang 提到的幾項(xiàng)新技術(shù)。其中一項(xiàng)技術(shù)稱為 NCF（非導(dǎo)電薄膜），是一種聚合物層，可保護(hù) TSV 的焊接點(diǎn)免受絕緣和機(jī)械沖擊。另一種是 HCB（混合銅鍵合），這是一種鍵合技術(shù)，使用銅導(dǎo)體和氧化膜絕緣體代替?zhèn)鹘y(tǒng)焊料，以最大限度地減少 DRAM 器件之間的距離，并實(shí)現(xiàn) 2048 位接口所需的更小的凸塊。這不是一項(xiàng)簡(jiǎn)單的工作。

入局

三星電子的技術(shù)團(tuán)隊(duì)執(zhí)行副總裁兼 DRAM 產(chǎn)品主管 SangJoon Hwang 在公司博客文章中寫道「展望未來(lái)，HBM4 預(yù)計(jì)將于 2025 年推出，其技術(shù)針對(duì)正在開(kāi)發(fā)的高熱性能進(jìn)行了優(yōu)化，例如非導(dǎo)電薄膜 (NCF) 組裝和混合銅接合 (HCB)，」。

盡管三星預(yù)計(jì) HBM4 將于 2025 年推出，但其生產(chǎn)可能會(huì)在 2025-2026 年開(kāi)始，因?yàn)闃I(yè)界需要為該技術(shù)做大量準(zhǔn)備。與此同時(shí)，三星將為客戶提供數(shù)據(jù)傳輸速率為 9.8 GT/s 的 HBM3E 內(nèi)存堆棧，每個(gè)堆棧的帶寬為 1.25 TB/s。

在封裝技術(shù)方面，三星采用了無(wú)凸點(diǎn)鍵合技術(shù)。無(wú)凸點(diǎn)鍵合是一種先進(jìn)的封裝技術(shù)，它將芯片與芯片之間直接進(jìn)行連接，無(wú)需使用傳統(tǒng)的微凸點(diǎn)鍵合。這種技術(shù)可以顯著提高內(nèi)存的 I/O 速度和可靠性，同時(shí)降低了制造成本。

三星在無(wú)凸點(diǎn)鍵合技術(shù)上的突破得益于其在封裝領(lǐng)域的深厚積累和技術(shù)積累。通過(guò)不斷研發(fā)和創(chuàng)新，三星成功地將無(wú)凸點(diǎn)鍵合技術(shù)應(yīng)用到 HBM4 內(nèi)存的生產(chǎn)中，實(shí)現(xiàn)了銅層與銅層之間的直接互連。這種直接互連的方式可以大幅度提高內(nèi)存的傳輸速度和穩(wěn)定性，同時(shí)降低了功耗。

三星在 HBM4 內(nèi)存技術(shù)的發(fā)展中展現(xiàn)了強(qiáng)大的研發(fā)實(shí)力和技術(shù)創(chuàng)新能力。通過(guò)工藝學(xué)習(xí)和封裝技術(shù)的創(chuàng)新，三星成功地將 FinFET 立體晶體管和無(wú)凸點(diǎn)鍵合技術(shù)應(yīng)用到 HBM4 內(nèi)存的生產(chǎn)中。這些新技術(shù)的應(yīng)用使得 HBM4 內(nèi)存具有更高的性能、更低的功耗和更低的制造成本。

今年早些時(shí)候，美光透露「HBMNext」內(nèi)存將于 2026 年左右出現(xiàn)，提供 32GB 至 64GB 之間的每堆棧容量以及每堆棧 2 TB/s 或更高的峰值帶寬，較 HBM3E 的每堆棧 1.2 TB/s 顯著增加。要構(gòu)建 64GB 堆棧，需要具有 32GB 內(nèi)存設(shè)備的 16-Hi 堆棧。盡管 HBM3 規(guī)范也支持 16-Hi 堆棧，但到目前為止還沒(méi)有人宣布此類產(chǎn)品，而且看起來(lái)如此密集的堆棧只會(huì)通過(guò) HBM4 進(jìn)入市場(chǎng)。

11 月，據(jù)韓媒中央日?qǐng)?bào)（Joongang.co.kr）報(bào)道，韓國(guó)內(nèi)存芯片大廠 SK 海力士正計(jì)劃攜手英偉達(dá)（NVIDIA）開(kāi)發(fā)全新的 GPU，擬將其新一代的高帶寬內(nèi)存（HBM4）與邏輯芯片堆疊在一起，這也將是業(yè)界首創(chuàng)。SK 海力士已與英偉達(dá)等半導(dǎo)體公司針對(duì)該項(xiàng)目進(jìn)行合作，據(jù)報(bào)道當(dāng)中的先進(jìn)封裝技術(shù)有望委托臺(tái)積電，作為首選代工廠。

SK 海力士目標(biāo)是將未來(lái)的 HBM4 以 3D 堆疊的形式堆疊在英偉達(dá)、AMD 等公司的邏輯芯片上，預(yù)計(jì)該 HBM4 內(nèi)存堆棧將采用 2048 位接口。

圖：SK 海力士 HBM4 計(jì)劃連接方式（來(lái)源：韓國(guó)中央日?qǐng)?bào)）

外媒 Tom』s Hardware 指出，這種設(shè)計(jì)與 AMD V-Cache 類似，后者將一小塊 L3 緩存（cache）直接放在 CPU 頂部，新技術(shù)則是則將 GPU 所有 HBM 內(nèi)存放在 GPU 頂部或幾個(gè)芯片的頂部。

這種技術(shù)優(yōu)點(diǎn)是縮小封裝尺寸、提高容量和性能，但散熱將是最大問(wèn)題。比如采用 V-Cache 的 AMD CPU，必須降低 TDP 和主頻，以補(bǔ)償 3D cache 產(chǎn)生的額外熱量，像英偉達(dá) H100 這種數(shù)據(jù)中心 GPU，需要 80-96GB 的 HBM，在容量和熱量與 V-cache 完全難比擬?，F(xiàn)在一塊計(jì)算中心計(jì)算卡的功耗可能是幾百瓦，即便只是 HBM 部分也相當(dāng)耗電，要做好散熱可能需要非常復(fù)雜的方式。

另外，選擇這種集成方法也將改變芯片的設(shè)計(jì)和制造方式，存儲(chǔ)器與邏輯芯片將采用相同的工藝技術(shù)，而且會(huì)在同一間晶圓廠生產(chǎn)，確保最終的性能。如果僅考慮 DRAM 的成本，那么確實(shí)會(huì)有較大幅度的增長(zhǎng)，所以各方都還沒(méi)有真正認(rèn)真考慮這一方案。

據(jù)了解，SK 海力士正在與包括英偉達(dá)在內(nèi)的芯片設(shè)計(jì)公司討論 HBM4 集成設(shè)計(jì)方案。SK 海力士和英偉達(dá)可能從一開(kāi)始就進(jìn)行了合作，而且會(huì)選擇在臺(tái)積電生產(chǎn)，將使用晶圓鍵合技術(shù)將 SK 海力士的 HBM4 堆疊在邏輯芯片上。

此前，SK 海力士的一位負(fù)責(zé)人曾強(qiáng)調(diào)，「最關(guān)鍵的作用是制造工廠（FAB）和封裝部門之間的緊密溝通，因?yàn)?HBM 需要在后處理方面進(jìn)行先發(fā)制人的投資?！顾a(bǔ)充道：「SK 海力士已經(jīng)能夠開(kāi)發(fā)出與競(jìng)爭(zhēng)對(duì)手不同的封裝技術(shù)，并從合作伙伴那里獲得長(zhǎng)期獨(dú)家的關(guān)鍵材料。」

面對(duì)三星的競(jìng)爭(zhēng)，SK 海力士并不擔(dān)心。「雖然三星電子可以通過(guò)同時(shí)提供存儲(chǔ)器和邏輯芯片工藝來(lái)引領(lǐng) HBM 領(lǐng)域?！沟?SK 海力士的一位負(fù)責(zé)人表示，「客戶不希望一家公司占據(jù)主導(dǎo)地位，他們目前重視英偉達(dá)、臺(tái)積電和 SK 海力士之間的合作?！?/p>

新聞中心

顛覆性的HBM4

技術(shù)的突破

入局

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)