HBM，生死局?

發(fā)布人：旺材芯片時(shí)間：2024-02-28 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

隨著chatGPT的爆火和AGI的繁榮，英偉達(dá)正在以前所未見的速度發(fā)展，這不但造就了GPU的繁榮，同時(shí)還讓扮演關(guān)鍵角色HBM熱度高居不下。

繼美光和SK Hynix在日前表示，今年的HBM產(chǎn)能自己售罄以后。美光和三星在近日也帶來了HBM新品，以期在這個(gè)蓬勃發(fā)展的市場(chǎng)占有一席之地。其中，前者帶來了將用在英偉達(dá)GH200的之余，還表示將在2024 年 3 月帶來36 GB 12-Hi HBM3E 產(chǎn)品，后者則表示，公司發(fā)布的HBM3E 12H將性能和容量提高了 50% 以上。

由此可見，HBM的競(jìng)爭(zhēng)愈演愈烈，HBM也成為了決定AI芯片命運(yùn)的關(guān)鍵。這也就是為何Timothy Prickett Morgan認(rèn)為，誰掌控了HBM，就掌握了AI訓(xùn)練。

以下為Timothy Prickett Morgan的分享正文：

2024 年推動(dòng) Nvidia 數(shù)據(jù)中心 GPU 加速器發(fā)展的最重要因素是什么？

是即將推出的“Blackwell”B100 架構(gòu)嗎？我們確信該架構(gòu)將比當(dāng)前的“Hopper”H100 及其胖內(nèi)存弟弟 H200 提供性能飛躍？不。

是該公司有能力從代工合作伙伴臺(tái)積電那里拿回?cái)?shù)百萬顆 H100 和 B100 GPU 芯片嗎？不，它不是。

是Nvidia AI Enterprise 軟件堆棧及其 CUDA 編程模型和數(shù)百個(gè)庫(kù)嗎？事實(shí)上，至少其中一些軟件（如果不是全部）是 AI 訓(xùn)練和推理的事實(shí)上的標(biāo)準(zhǔn)。不過，又沒有。

雖然所有這些無疑都是巨大的優(yōu)勢(shì)，并且是許多競(jìng)爭(zhēng)對(duì)手都集中精力的優(yōu)勢(shì)，但 Nvidia 在 2024 年推動(dòng)其業(yè)務(wù)的最重要因素與金錢有關(guān)。具體來說：英偉達(dá)在 1 月份結(jié)束了 2024 財(cái)年，現(xiàn)金和銀行投資略低于 260 億美元，如果本財(cái)年按預(yù)期進(jìn)行，收入將突破 1000 億美元，其中約占 50% 以上如果以凈利潤(rùn)的形式體現(xiàn)出來，那么即使在支付了稅款、龐大的研發(fā)業(yè)務(wù)以及公司的正常運(yùn)營(yíng)費(fèi)用之后，它將為其金庫(kù)增加約 500 億美元。

你可以用 750 億美元或更多的資金做很多事情，其中之一就是不必太擔(dān)心為數(shù)據(jù)中心級(jí) GPU 購(gòu)買 HBM 堆棧 DRAM 內(nèi)存所需的巨額資金。這種內(nèi)存正在以相當(dāng)好的速度變得更快、更密集（就每芯片千兆位而言）和更胖（FAT，就兆字節(jié)帶寬和千兆字節(jié)容量而言），但其改進(jìn)速度并沒有達(dá)到人工智能加速器所需的速度。

隨著美光科技 (Micron Technology) 加入 SK 海力士 (SK Hynix) 和三星 (Samsung) 的供應(yīng)商行列，HBM 的供應(yīng)量有所改善，并且進(jìn)給量和速度也隨之改善。我們強(qiáng)烈懷疑供應(yīng)將無法滿足需求，HBM 內(nèi)存的價(jià)格將隨著 HBM 在一定程度上推動(dòng)的 GPU 加速器價(jià)格而繼續(xù)攀升。

AMD 擁有 57.8 億美元的現(xiàn)金和投資，沒有那么多閑置資金，盡管英特爾的銀行存款略高于 250 億美元，但它必須建立代工廠，這確實(shí)非常昂貴（按順序如今每次流行 150 億至 200 億美元）。因此，它也確實(shí)不能在 HBM 內(nèi)存上揮霍。

對(duì) Nvidia GPU 加速器業(yè)務(wù)有利的另一個(gè)因素是，在 GenAI 繁榮時(shí)期，客戶愿意為數(shù)百、數(shù)千甚至數(shù)萬個(gè)數(shù)據(jù)中心 GPU 支付幾乎任何費(fèi)用。我們認(rèn)為，2022 年 3 月宣布的原始“Hopper”H100 GPU的價(jià)格，特別是在 SXM 配置中，對(duì)于具有 80 GB HBM3 內(nèi)存、速度為 3.35 TB/秒的單個(gè) H100，其價(jià)格超過 30,000 美元，我們不知道具有 96 GB 內(nèi)存，速度為 3.9 TB/秒的H100的費(fèi)用，但我們能推測(cè) Nvidia 對(duì)具有 141 GB HBM3E 內(nèi)存、運(yùn)行速度為 4.8 TB/秒的 H200 設(shè)備的收費(fèi)。H200 基于與 H100 完全相同的“Hopper”GPU，將內(nèi)存容量提高了 76.3%，內(nèi)存帶寬提高了 43.3%，H100 芯片的性能提高了 1.6 倍到 1.9 倍?？紤]到額外的容量意味著需要更少的 GPU 并消耗更少的電量來針對(duì)靜態(tài)數(shù)據(jù)集訓(xùn)練給定模型，我們認(rèn)為與原始 H100 相比，Nvidia 可以輕松地為 H200 收取 1.6 倍到 1.9 倍的費(fèi)用。

黃金法則：擁有黃金的人制定規(guī)則

我們并不是說 H200 在第二季度開始發(fā)貨時(shí)就會(huì)發(fā)生這種情況。（我們認(rèn)為英偉達(dá)除了財(cái)務(wù)數(shù)據(jù)外還談?wù)撊諝v季度。）我們只是說這樣的舉動(dòng)是有邏輯的。很大程度上取決于 AMD 對(duì)“Antares” Instinct MI300X GPU 加速器的收費(fèi)，該加速器具有 192 GB 的 HBM3，運(yùn)行速度為 5.2 TB/秒。MI300X 具有更多的原始浮點(diǎn)和整數(shù)能力，HBM 容量比 Nvidia 的 H200 高 36.2%，帶寬比 H200 高 10.4%。

你可以用 Elon Musk 的最后一塊錢打賭，AMD 沒有心情做任何事，除了對(duì) MI300X 收取盡可能多的費(fèi)用，甚至有建議稱該公司正在努力升級(jí)到更胖、更快的 HBM3E內(nèi)存領(lǐng)域，以保持對(duì)Nvidia的競(jìng)爭(zhēng)。MI300 使用具有八高 DRAM 堆棧的 HBM3，MI300 中的內(nèi)存控制器具有信號(hào)和帶寬容量，可以替換為時(shí)鐘速度更快的十二高堆棧HBM3E 。這意味著容量增加了 50%，帶寬也可能增加了 25%。也就是說，每個(gè) MI300X 具有 288 GB 的 HBM3E 容量和 6.5 TB/秒的帶寬。

據(jù)推測(cè)，這樣一個(gè)經(jīng)過精心設(shè)計(jì)的 MI350X 芯片（我們可能會(huì)這樣稱呼它）在其峰值失敗次數(shù)中執(zhí)行了相當(dāng)大的實(shí)際工作量，甚至更多，就像 Nvidia 從 H100 跳躍到 H200 時(shí)所發(fā)生的那樣。

正是在這樣的背景下，我們想談?wù)?HBM 領(lǐng)域發(fā)生的事情。我們將從 SK Hynix 開始，該公司展示了 16 個(gè)芯片高的 HBM3E 堆棧，每個(gè)堆棧提供 48 GB 的容量和 1.25 TB/秒的帶寬。MI300X 配備 8 個(gè)內(nèi)存控制器，可實(shí)現(xiàn) 384 GB 內(nèi)存和 9.6 TB/秒帶寬。

有了這些數(shù)字，您就不必將 CPU 作為擴(kuò)展內(nèi)存控制器來處理大量工作負(fù)載。。。。

我們還沒有看到關(guān)于SK海力士十六高HBM3E內(nèi)存的介紹，也不知道它什么時(shí)候上市。去年 8 月，SK 海力士展示了第五代 HBM 內(nèi)存和第一代 HBM3E 內(nèi)存，據(jù)稱每個(gè)堆?？商峁?1.15 TB/秒的帶寬。正如下面由 Trendforce 創(chuàng)建的 HBM 路線圖所示，我們的預(yù)期是提供 24 GB 和 36 GB 容量，這意味著 8 高堆棧和 12 高堆棧。

去年 8 月，Nvidia 顯然將成為這些芯片的大客戶，并且有傳言稱 SK Hynix 的這款 24 GB HBM3E 內(nèi)存將用于即將推出的“Blackwell”B100 GPU 加速器。如果是這樣，那么 Blackwell GPU 小芯片上的六個(gè)內(nèi)存控制器將產(chǎn)生 144 GB 的容量，如果 B100 封裝按預(yù)期具有兩個(gè) GPU 小芯片，則意味著最大容量為 288 GB，帶寬為 13.8 TB/秒。很難說收益率如何，可能只有 5/6 可用。也有可能 - 但我們希望不是 - B100 看起來不像一個(gè) GPU，而是系統(tǒng)軟件的兩個(gè) GPU（就像兩個(gè)芯片組 AMD“Arcturus”MI250X 所做的那樣，而不像 MI300X 那樣，后者有 8 個(gè)較小的 GPU 芯片組這加起來會(huì)帶來更多的魅力，看起來就像一個(gè) GPU 到系統(tǒng)軟件）。我們將看看那里會(huì)發(fā)生什么。

美光科技 (Micron Technology) 進(jìn)入 HBM 領(lǐng)域較晚，但鑒于供應(yīng)短缺和需求旺盛，該公司無疑在該領(lǐng)域最受歡迎，該公司今天表示，它正在開始生產(chǎn)其首款 HBM3E 內(nèi)存，這是一種八高堆棧容量為 24 GB，并補(bǔ)充說該內(nèi)存是 H200 GPU 的一部分。我們?nèi)ツ?7 月介紹過的Micron HBM3E 變體的引腳運(yùn)行速度為 9.2 Gb/秒，每個(gè)堆棧提供 1.2 TB/秒的內(nèi)存。美光還聲稱，其 HBM3E 內(nèi)存的消耗量比“競(jìng)爭(zhēng)產(chǎn)品”少 30%，想必它正在談?wù)搰?yán)格的 HBM3E 比較。

美光還表示，它已開始對(duì)其 12 高 36 GB HBM3E 變體進(jìn)行送樣，其運(yùn)行速度將超過 1.2 TB/秒。美光沒有透露比 1.2 TB/秒快多少。

今天晚些時(shí)候，三星推出了十二高堆棧 HBM3E，這也是其第五代產(chǎn)品，該公司代號(hào)為“Shinebolt”。

Shinebolt 取代了去年推出的“Icebolt”HBM3 內(nèi)存。Icebolt 堆棧式 DRAM 內(nèi)存為容量為 24 GB 的十二層堆棧提供 819 GB/秒的帶寬。Shinebolt HBM3E 在 36 GB 堆棧中提供 1.25 TB/秒的帶寬，就像 SK Hynix HBM3E 十二高堆棧一樣。

三星在公告中補(bǔ)充道：“用于AI應(yīng)用時(shí)，預(yù)計(jì)與采用HBM3 8H相比，AI訓(xùn)練的平均速度可提高34%，同時(shí)推理服務(wù)的并發(fā)用戶數(shù)可提升34%?！睌U(kuò)大11.5倍以上。” 三星指出，這是基于內(nèi)部模擬，而不是實(shí)際的人工智能基準(zhǔn)。

三星的 Shinebolt HBM3E 12H 現(xiàn)已提供樣品，預(yù)計(jì)在 6 月底前全面投產(chǎn)。

這些 12 高和 16 高的 HBM3E 堆棧幾乎是我們?cè)?2026 年 HBM4 發(fā)布之前所擁有的。人們可能希望 HBM4 會(huì)在 2025 年出現(xiàn)，毫無疑問，我們面臨著推動(dòng)路線圖升級(jí)的壓力，但這似乎不太可能。據(jù)猜測(cè)，HBM4 的內(nèi)存接口將增加一倍，達(dá)到 2,048 位。HBM1 到 HBM3E 使用了 1,024 位內(nèi)存接口，信號(hào)傳輸速度從 AMD 與 SK Hynix 設(shè)計(jì)并于 2013 年交付的初始 HBM 內(nèi)存相比，已經(jīng)從 1 Gb/秒增加到 9.2 Gb/秒。接口加倍將允許兩倍的速度。需要大量?jī)?nèi)存來掛起接口，并以一半的時(shí)鐘速度提供給定量的帶寬，并且隨著時(shí)鐘速度再次提升，帶寬會(huì)逐漸增加。或者。它們從一開始就以每引腳 9.2 Gb/秒的速度推出，我們只需支付以瓦為單位的價(jià)格。

美光路線圖表示，HBM4 將提供 36 GB 和 64 GB 的容量，驅(qū)動(dòng)速度為 1.5 TB/秒到 2 TB/秒，因此看起來會(huì)是寬速和慢速、寬速和更快的混合，但在發(fā)布時(shí)不會(huì)完全滿足需求。談到帶寬?？雌饋恚瑢挾燃颖稁缀蹩梢允谷萘亢蛶捈颖?。預(yù)計(jì) HBM4 將具有十六層 DRAM 堆疊，僅此而已。

在 2026 年另一個(gè)宇宙的夢(mèng)想世界中，HBM4 將擁有 2,048 位接口，類似于引腳上的 11.6 Gb/秒信號(hào)傳輸，具有 24 個(gè)高 DRAM 堆疊，具有 33.3% 密度的 DRAM 內(nèi)存（4 GB 而不是 3 GB），因此，每個(gè)堆棧的速度約為 3.15 TB/秒，每個(gè)堆棧的速度約為 96 GB。哦，那我們就瘋狂吧。假設(shè)一個(gè) GPU 復(fù)合體有十幾個(gè)小芯片，每個(gè)小芯片都有自己的 HBM4 內(nèi)存控制器。這將為每個(gè) GPU 設(shè)備提供 37.8 TB/秒的聚合內(nèi)存帶寬，以及每個(gè)設(shè)備 1,152 GB 的容量。

從這個(gè)角度來看，根據(jù) Nvidia 的說法，一個(gè) 1750 億個(gè)參數(shù)的 GPT-3 模型需要 175 GB 的容量來進(jìn)行推理，因此我們正在討論的理論 GPU 上的內(nèi)存大小大概能夠處理 1.15 萬億個(gè)參數(shù)推理。對(duì)于 GPT-3 訓(xùn)練，需要 2.5 TB 內(nèi)存來加載數(shù)據(jù)語料庫(kù)。如果您的 Hoppers 具有 80 GB HBM3 內(nèi)存，則需要 32 個(gè) Hopper 才能完成這項(xiàng)工作。但我們的 32 臺(tái)設(shè)備的容量將增加 14.4 倍，因此能夠加載相應(yīng)更大的數(shù)據(jù)量。我們假設(shè)的設(shè)備上的帶寬也高出 11.3 倍。

請(qǐng)注意，我們沒有提及這十幾個(gè) GPU 小芯片的失敗情況？在大多數(shù)情況下，以超過 80% 的利用率運(yùn)行任何東西都非常棘手，特別是當(dāng)它可能以不同的精度執(zhí)行不同的操作時(shí)。我們想要的是讓觸發(fā)器與比特/秒的比率恢復(fù)正常。我們想要制造一臺(tái) 12 缸發(fā)動(dòng)機(jī)，它有足夠的噴油器來實(shí)際喂養(yǎng)野獸。

我們的猜測(cè)是，80 GB 的 H100 的 HBM3 內(nèi)存約為理想值的三分之一，帶寬也約為理想值的三分之一。這是一種最大化 GPU 芯片銷售和收入的方法，正如 Nvidia 已經(jīng)清楚地證明的那樣，但這并不是構(gòu)建平衡的計(jì)算引擎的方法 - 就像英特爾在其 X86 芯片上放置一半的 DRAM 內(nèi)存控制器并將其全部賣給我們一樣——兩個(gè)帶有中間倉(cāng)部件的插座一直是數(shù)據(jù)中心通用計(jì)算的正確答案。我們還需要更多的內(nèi)存容量和帶寬。

因此，如果使用這個(gè)概念性 Beast GPU 加速器將帶寬增加 11.3 倍，那么與原始 H100 相比，計(jì)算量可能只會(huì)增加 4 倍。在張量核心上，H100 在 FP64 精度下的額定速度為 67 teraflops，在 FP8 精度（未使用稀疏性）下的額定速度為 1.98 petaflops。因此，這個(gè) TP100 GPU 復(fù)合體在 FP64 下的額定速度為 268 teraflops，在 FP8 下的額定速度為 7.92 petaflops，每個(gè) GPU 小芯片的性能將是 H100 芯片性能的三分之一，并且可能是其大小的四分之一到五分之一，具體取決于使用的工藝技術(shù)。假設(shè)它是 TSMC 2N 或 Intel 14A 與真正的 H100 上使用的 TSMC 4N。畢竟，這是我們談?wù)摰?2026 年。

這就是我們想要寫的那種野獸，如果我們銀行里有 260 億美元，并且未來還有 500 億美元以上的前景，這就是我們會(huì)做的。但是大量的 HBM 內(nèi)存和計(jì)算引擎都塞滿了它。

很難說這會(huì)花費(fèi)多少錢。你不可能打電話給 Fry's Electronics 詢問 2026 年 HBM4 內(nèi)存的市場(chǎng)價(jià)格是多少。一方面，F(xiàn)ry's 已經(jīng)死了。另一方面，我們現(xiàn)在甚至無法很好地了解 GPU 和其他矩陣引擎制造商為 HBM2e、HBM3 和 HBM3e 內(nèi)存支付的費(fèi)用。每個(gè)人都知道（或者認(rèn)為他們知道），HBM 內(nèi)存和用于將內(nèi)存鏈接到設(shè)備的任何中介層是現(xiàn)代人工智能訓(xùn)練和推理引擎的兩個(gè)主要成本。（當(dāng)然，混合使用片上 SRAM 和普通 DRAM 的人除外。）

在市場(chǎng)上，用于服務(wù)器的最大、最厚、最快的 256 GB DDR5 內(nèi)存模塊在 4.8 GHz 下運(yùn)行的價(jià)格約為 18,000 美元，每 GB 約為 70 美元。但僅可擴(kuò)展至 32 GB 的更薄模塊每 GB 成本僅為 35 美元。因此，HBM2e 的價(jià)格約為每 GB 110 美元，“超過 3 倍”，如上面的 Nvidia 圖表所示。96 GB 的價(jià)格約為 10,600 美元。很難說 HBM3 和 HBM3E 的提升在該設(shè)備的“市場(chǎng)價(jià)格”上可能值多少錢，但如果達(dá)到 HBM3 僅提升 25%，那么 H100 的市場(chǎng)價(jià)格約為 30,000 美元80 GB 容量，HBM3 的價(jià)格為 8,800 美元。轉(zhuǎn)向 96 GB HBM3E 可能會(huì)將內(nèi)存成本提高到“市場(chǎng)價(jià)格”至 16,500 美元，因?yàn)榧夹g(shù)成本又增加了 25%，而且額外的 16 GB 內(nèi)存和 H100 96 GB 的市場(chǎng)價(jià)格應(yīng)約為 37,700 美元。

聽到有關(guān)具有 141 GB 容量（由于某種原因不是 144 GB）的 H200 的價(jià)格的傳言將會(huì)很有趣。但如果這種內(nèi)存價(jià)格分層成立——我們意識(shí)到這些都是瘋狂的估計(jì)——那么 141 GB 的 HBM3E 本身價(jià)值約為 25,000 美元。但按照這樣的價(jià)格，H200 的“市場(chǎng)價(jià)格”約為 41,000 美元。（注意：這不是我們認(rèn)為 Nvidia 為 HBM3 和 HBM3E 內(nèi)存支付的費(fèi)用——這不是物料清單成本——而是分配給最終用戶的價(jià)格。）

我們認(rèn)為漲幅不會(huì)超過 25% 左右，因?yàn)閮?nèi)存升級(jí)到 HBM3，然后再升級(jí)到 HBM3E 將推高內(nèi)存價(jià)格，使其高于市場(chǎng)上傳聞的 Nvidia GPU 價(jià)格。

請(qǐng)記住，這只是一個(gè)思想實(shí)驗(yàn)，旨在展示 HBM 內(nèi)存定價(jià)如何控制 Nvidia 和 AMD 可以投入該領(lǐng)域的 GPU 數(shù)量，而不是相反。內(nèi)存尾巴正在搖晃 GPU 的狗。內(nèi)存容量和帶寬與 H200 的配合越來越緊密，如果 Nvidia 僅對(duì)額外的內(nèi)存及其額外的速度收取象征性的費(fèi)用，那么不僅設(shè)備的實(shí)際效率會(huì)提高，而且性價(jià)比也會(huì)提高。但如果 Nvidia 只是對(duì)這些更強(qiáng)大的 H100 和 H200 進(jìn)行定價(jià)，以便性能增益和內(nèi)存增益達(dá)到平衡，那么花的錢就會(huì)少得多，而要花的錢就會(huì)多得多。

老實(shí)說，我們不知道 Nvidia 會(huì)做什么，也不知道 AMD 在 MI300 獲得 HBM3E 升級(jí)后會(huì)做什么。現(xiàn)在美光進(jìn)入該領(lǐng)域的 HBM 供應(yīng)商增加了 50%，而且 SK Hynix 和三星將產(chǎn)量提高了 2 倍，這是一個(gè)很大的數(shù)字，但相對(duì)于 GPU 和 GPU 的需求，市場(chǎng)上的 HBM 內(nèi)存仍然只增加了 3 倍。他們的內(nèi)存更大，可以說大于 3 倍。這不是一個(gè)可以降價(jià)的環(huán)境。在這種環(huán)境下，人們會(huì)提高更先進(jìn)的計(jì)算引擎及其內(nèi)存的價(jià)格，并繼續(xù)盡可能薄地?cái)U(kuò)展 HBM 內(nèi)存。

這就是為什么只要 Nvidia 平臺(tái)繼續(xù)成為首選，能夠支付高價(jià)購(gòu)買 HBM 內(nèi)存的人（即 Nvidia 聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛）就可以設(shè)定人工智能訓(xùn)練的步伐和價(jià)格。

換而言之，對(duì)于GPU和HBM來說，他們面對(duì)的都是生死局。

來源：半導(dǎo)體行業(yè)觀察

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

HBM，生死局?

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

HBM，生死局?

相關(guān)推薦

技術(shù)專區(qū)

HBM，生死局?