博客專欄

EEPW首頁 > 博客 > HBM,生死局?

HBM,生死局?

發(fā)布人:旺材芯片 時(shí)間:2024-02-28 來源:工程師 發(fā)布文章

隨著chatGPT的爆火和AGI的繁榮,英偉達(dá)正在以前所未見的速度發(fā)展,這不但造就了GPU的繁榮,同時(shí)還讓扮演關(guān)鍵角色HBM熱度高居不下。


繼美光和SK Hynix在日前表示,今年的HBM產(chǎn)能自己售罄以后。美光和三星在近日也帶來了HBM新品,以期在這個(gè)蓬勃發(fā)展的市場(chǎng)占有一席之地。其中,前者帶來了將用在英偉達(dá)GH200的之余,還表示將在2024 年 3 月帶來36 GB 12-Hi HBM3E 產(chǎn)品,后者則表示,公司發(fā)布的HBM3E 12H將性能和容量提高了 50% 以上。


由此可見,HBM的競(jìng)爭(zhēng)愈演愈烈,HBM也成為了決定AI芯片命運(yùn)的關(guān)鍵。這也就是為何Timothy Prickett Morgan認(rèn)為,誰掌控了HBM,就掌握了AI訓(xùn)練。


以下為Timothy Prickett Morgan的分享正文:


2024 年推動(dòng) Nvidia 數(shù)據(jù)中心 GPU 加速器發(fā)展的最重要因素是什么?


是即將推出的“Blackwell”B100 架構(gòu)嗎?我們確信該架構(gòu)將比當(dāng)前的“Hopper”H100 及其胖內(nèi)存弟弟 H200 提供性能飛躍?不。


是該公司有能力從代工合作伙伴臺(tái)積電那里拿回?cái)?shù)百萬顆 H100 和 B100 GPU 芯片嗎?不,它不是。


是Nvidia AI Enterprise 軟件堆棧及其 CUDA 編程模型和數(shù)百個(gè)庫(kù)嗎?事實(shí)上,至少其中一些軟件(如果不是全部)是 AI 訓(xùn)練和推理的事實(shí)上的標(biāo)準(zhǔn)。不過,又沒有。


雖然所有這些無疑都是巨大的優(yōu)勢(shì),并且是許多競(jìng)爭(zhēng)對(duì)手都集中精力的優(yōu)勢(shì),但 Nvidia 在 2024 年推動(dòng)其業(yè)務(wù)的最重要因素與金錢有關(guān)。具體來說:英偉達(dá)在 1 月份結(jié)束了 2024 財(cái)年,現(xiàn)金和銀行投資略低于 260 億美元,如果本財(cái)年按預(yù)期進(jìn)行,收入將突破 1000 億美元,其中約占 50% 以上如果以凈利潤(rùn)的形式體現(xiàn)出來,那么即使在支付了稅款、龐大的研發(fā)業(yè)務(wù)以及公司的正常運(yùn)營(yíng)費(fèi)用之后,它將為其金庫(kù)增加約 500 億美元。


你可以用 750 億美元或更多的資金做很多事情,其中之一就是不必太擔(dān)心為數(shù)據(jù)中心級(jí) GPU 購(gòu)買 HBM 堆棧 DRAM 內(nèi)存所需的巨額資金。這種內(nèi)存正在以相當(dāng)好的速度變得更快、更密集(就每芯片千兆位而言)和更胖(FAT,就兆字節(jié)帶寬和千兆字節(jié)容量而言),但其改進(jìn)速度并沒有達(dá)到人工智能加速器所需的速度。


隨著美光科技 (Micron Technology) 加入 SK 海力士 (SK Hynix) 和三星 (Samsung) 的供應(yīng)商行列,HBM 的供應(yīng)量有所改善,并且進(jìn)給量和速度也隨之改善。我們強(qiáng)烈懷疑供應(yīng)將無法滿足需求,HBM 內(nèi)存的價(jià)格將隨著 HBM 在一定程度上推動(dòng)的 GPU 加速器價(jià)格而繼續(xù)攀升。


AMD 擁有 57.8 億美元的現(xiàn)金和投資,沒有那么多閑置資金,盡管英特爾的銀行存款略高于 250 億美元,但它必須建立代工廠,這確實(shí)非常昂貴(按順序如今每次流行 150 億至 200 億美元)。因此,它也確實(shí)不能在 HBM 內(nèi)存上揮霍。


對(duì) Nvidia GPU 加速器業(yè)務(wù)有利的另一個(gè)因素是,在 GenAI 繁榮時(shí)期,客戶愿意為數(shù)百、數(shù)千甚至數(shù)萬個(gè)數(shù)據(jù)中心 GPU 支付幾乎任何費(fèi)用。我們認(rèn)為,2022 年 3 月宣布的原始“Hopper”H100 GPU的價(jià)格,特別是在 SXM 配置中,對(duì)于具有 80 GB HBM3 內(nèi)存、速度為 3.35 TB/秒的單個(gè) H100,其價(jià)格超過 30,000 美元,我們不知道具有 96 GB 內(nèi)存,速度為 3.9 TB/秒的H100的費(fèi)用,但我們能推測(cè) Nvidia 對(duì)具有 141 GB HBM3E 內(nèi)存、運(yùn)行速度為 4.8 TB/秒的 H200 設(shè)備的收費(fèi)。H200 基于與 H100 完全相同的“Hopper”GPU,將內(nèi)存容量提高了 76.3%,內(nèi)存帶寬提高了 43.3%,H100 芯片的性能提高了 1.6 倍到 1.9 倍??紤]到額外的容量意味著需要更少的 GPU 并消耗更少的電量來針對(duì)靜態(tài)數(shù)據(jù)集訓(xùn)練給定模型,我們認(rèn)為與原始 H100 相比,Nvidia 可以輕松地為 H200 收取 1.6 倍到 1.9 倍的費(fèi)用。


黃金法則:擁有黃金的人制定規(guī)則


我們并不是說 H200 在第二季度開始發(fā)貨時(shí)就會(huì)發(fā)生這種情況。(我們認(rèn)為英偉達(dá)除了財(cái)務(wù)數(shù)據(jù)外還談?wù)撊諝v季度。)我們只是說這樣的舉動(dòng)是有邏輯的。很大程度上取決于 AMD 對(duì)“Antares” Instinct MI300X GPU 加速器的收費(fèi),該加速器具有 192 GB 的 HBM3,運(yùn)行速度為 5.2 TB/秒。MI300X 具有更多的原始浮點(diǎn)和整數(shù)能力,HBM 容量比 Nvidia 的 H200 高 36.2%,帶寬比 H200 高 10.4%。


你可以用 Elon Musk 的最后一塊錢打賭,AMD 沒有心情做任何事,除了對(duì) MI300X 收取盡可能多的費(fèi)用,甚至有建議稱該公司正在努力升級(jí)到更胖、更快的 HBM3E內(nèi)存領(lǐng)域,以保持對(duì)Nvidia的競(jìng)爭(zhēng)。MI300 使用具有八高 DRAM 堆棧的 HBM3,MI300 中的內(nèi)存控制器具有信號(hào)和帶寬容量,可以替換為時(shí)鐘速度更快的十二高堆棧HBM3E 。這意味著容量增加了 50%,帶寬也可能增加了 25%。也就是說,每個(gè) MI300X 具有 288 GB 的 HBM3E 容量和 6.5 TB/秒的帶寬。


據(jù)推測(cè),這樣一個(gè)經(jīng)過精心設(shè)計(jì)的 MI350X 芯片(我們可能會(huì)這樣稱呼它)在其峰值失敗次數(shù)中執(zhí)行了相當(dāng)大的實(shí)際工作量,甚至更多,就像 Nvidia 從 H100 跳躍到 H200 時(shí)所發(fā)生的那樣。


正是在這樣的背景下,我們想談?wù)?HBM 領(lǐng)域發(fā)生的事情。我們將從 SK Hynix 開始,該公司展示了 16 個(gè)芯片高的 HBM3E 堆棧,每個(gè)堆棧提供 48 GB 的容量和 1.25 TB/秒的帶寬。MI300X 配備 8 個(gè)內(nèi)存控制器,可實(shí)現(xiàn) 384 GB 內(nèi)存和 9.6 TB/秒帶寬。


有了這些數(shù)字,您就不必將 CPU 作為擴(kuò)展內(nèi)存控制器來處理大量工作負(fù)載。。。。


我們還沒有看到關(guān)于SK海力士十六高HBM3E內(nèi)存的介紹,也不知道它什么時(shí)候上市。去年 8 月,SK 海力士展示了第五代 HBM 內(nèi)存和第一代 HBM3E 內(nèi)存,據(jù)稱每個(gè)堆??商峁?1.15 TB/秒的帶寬。正如下面由 Trendforce 創(chuàng)建的 HBM 路線圖所示,我們的預(yù)期是提供 24 GB 和 36 GB 容量,這意味著 8 高堆棧和 12 高堆棧。


圖片


去年 8 月,Nvidia 顯然將成為這些芯片的大客戶,并且有傳言稱 SK Hynix 的這款 24 GB HBM3E 內(nèi)存將用于即將推出的“Blackwell”B100 GPU 加速器。如果是這樣,那么 Blackwell GPU 小芯片上的六個(gè)內(nèi)存控制器將產(chǎn)生 144 GB 的容量,如果 B100 封裝按預(yù)期具有兩個(gè) GPU 小芯片,則意味著最大容量為 288 GB,帶寬為 13.8 TB/秒。很難說收益率如何,可能只有 5/6 可用。也有可能 - 但我們希望不是 - B100 看起來不像一個(gè) GPU,而是系統(tǒng)軟件的兩個(gè) GPU(就像兩個(gè)芯片組 AMD“Arcturus”MI250X 所做的那樣,而不像 MI300X 那樣,后者有 8 個(gè)較小的 GPU 芯片組這加起來會(huì)帶來更多的魅力,看起來就像一個(gè) GPU 到系統(tǒng)軟件)。我們將看看那里會(huì)發(fā)生什么。


美光科技 (Micron Technology) 進(jìn)入 HBM 領(lǐng)域較晚,但鑒于供應(yīng)短缺和需求旺盛,該公司無疑在該領(lǐng)域最受歡迎,該公司今天表示,它正在開始生產(chǎn)其首款 HBM3E 內(nèi)存,這是一種八高堆棧容量為 24 GB,并補(bǔ)充說該內(nèi)存是 H200 GPU 的一部分。我們?nèi)ツ?7 月介紹過的Micron HBM3E 變體的引腳運(yùn)行速度為 9.2 Gb/秒,每個(gè)堆棧提供 1.2 TB/秒的內(nèi)存。美光還聲稱,其 HBM3E 內(nèi)存的消耗量比“競(jìng)爭(zhēng)產(chǎn)品”少 30%,想必它正在談?wù)搰?yán)格的 HBM3E 比較。


美光還表示,它已開始對(duì)其 12 高 36 GB HBM3E 變體進(jìn)行送樣,其運(yùn)行速度將超過 1.2 TB/秒。美光沒有透露比 1.2 TB/秒快多少。


圖片


今天晚些時(shí)候,三星推出了十二高堆棧 HBM3E,這也是其第五代產(chǎn)品,該公司代號(hào)為“Shinebolt”。


Shinebolt 取代了去年推出的“Icebolt”HBM3 內(nèi)存。Icebolt 堆棧式 DRAM 內(nèi)存為容量為 24 GB 的十二層堆棧提供 819 GB/秒的帶寬。Shinebolt HBM3E 在 36 GB 堆棧中提供 1.25 TB/秒的帶寬,就像 SK Hynix HBM3E 十二高堆棧一樣。


三星在公告中補(bǔ)充道:“用于AI應(yīng)用時(shí),預(yù)計(jì)與采用HBM3 8H相比,AI訓(xùn)練的平均速度可提高34%,同時(shí)推理服務(wù)的并發(fā)用戶數(shù)可提升34%?!睌U(kuò)大11.5倍以上。” 三星指出,這是基于內(nèi)部模擬,而不是實(shí)際的人工智能基準(zhǔn)。


圖片


三星的 Shinebolt HBM3E 12H 現(xiàn)已提供樣品,預(yù)計(jì)在 6 月底前全面投產(chǎn)。


這些 12 高和 16 高的 HBM3E 堆棧幾乎是我們?cè)?2026 年 HBM4 發(fā)布之前所擁有的。人們可能希望 HBM4 會(huì)在 2025 年出現(xiàn),毫無疑問,我們面臨著推動(dòng)路線圖升級(jí)的壓力,但這似乎不太可能。據(jù)猜測(cè),HBM4 的內(nèi)存接口將增加一倍,達(dá)到 2,048 位。HBM1 到 HBM3E 使用了 1,024 位內(nèi)存接口,信號(hào)傳輸速度從 AMD 與 SK Hynix 設(shè)計(jì)并于 2013 年交付的初始 HBM 內(nèi)存相比,已經(jīng)從 1 Gb/秒增加到 9.2 Gb/秒。接口加倍將允許兩倍的速度。需要大量?jī)?nèi)存來掛起接口,并以一半的時(shí)鐘速度提供給定量的帶寬,并且隨著時(shí)鐘速度再次提升,帶寬會(huì)逐漸增加。或者。它們從一開始就以每引腳 9.2 Gb/秒的速度推出,我們只需支付以瓦為單位的價(jià)格。


美光路線圖表示,HBM4 將提供 36 GB 和 64 GB 的容量,驅(qū)動(dòng)速度為 1.5 TB/秒到 2 TB/秒,因此看起來會(huì)是寬速和慢速、寬速和更快的混合,但在發(fā)布時(shí)不會(huì)完全滿足需求。談到帶寬??雌饋恚瑢挾燃颖稁缀蹩梢允谷萘亢蛶捈颖?。預(yù)計(jì) HBM4 將具有十六層 DRAM 堆疊,僅此而已。


在 2026 年另一個(gè)宇宙的夢(mèng)想世界中,HBM4 將擁有 2,048 位接口,類似于引腳上的 11.6 Gb/秒信號(hào)傳輸,具有 24 個(gè)高 DRAM 堆疊,具有 33.3% 密度的 DRAM 內(nèi)存(4 GB 而不是 3 GB),因此,每個(gè)堆棧的速度約為 3.15 TB/秒,每個(gè)堆棧的速度約為 96 GB。哦,那我們就瘋狂吧。假設(shè)一個(gè) GPU 復(fù)合體有十幾個(gè)小芯片,每個(gè)小芯片都有自己的 HBM4 內(nèi)存控制器。這將為每個(gè) GPU 設(shè)備提供 37.8 TB/秒的聚合內(nèi)存帶寬,以及每個(gè)設(shè)備 1,152 GB 的容量。


從這個(gè)角度來看,根據(jù) Nvidia 的說法,一個(gè) 1750 億個(gè)參數(shù)的 GPT-3 模型需要 175 GB 的容量來進(jìn)行推理,因此我們正在討論的理論 GPU 上的內(nèi)存大小大概能夠處理 1.15 萬億個(gè)參數(shù)推理。對(duì)于 GPT-3 訓(xùn)練,需要 2.5 TB 內(nèi)存來加載數(shù)據(jù)語料庫(kù)。如果您的 Hoppers 具有 80 GB HBM3 內(nèi)存,則需要 32 個(gè) Hopper 才能完成這項(xiàng)工作。但我們的 32 臺(tái)設(shè)備的容量將增加 14.4 倍,因此能夠加載相應(yīng)更大的數(shù)據(jù)量。我們假設(shè)的設(shè)備上的帶寬也高出 11.3 倍。


請(qǐng)注意,我們沒有提及這十幾個(gè) GPU 小芯片的失敗情況?在大多數(shù)情況下,以超過 80% 的利用率運(yùn)行任何東西都非常棘手,特別是當(dāng)它可能以不同的精度執(zhí)行不同的操作時(shí)。我們想要的是讓觸發(fā)器與比特/秒的比率恢復(fù)正常。我們想要制造一臺(tái) 12 缸發(fā)動(dòng)機(jī),它有足夠的噴油器來實(shí)際喂養(yǎng)野獸。


我們的猜測(cè)是,80 GB 的 H100 的 HBM3 內(nèi)存約為理想值的三分之一,帶寬也約為理想值的三分之一。這是一種最大化 GPU 芯片銷售和收入的方法,正如 Nvidia 已經(jīng)清楚地證明的那樣,但這并不是構(gòu)建平衡的計(jì)算引擎的方法 - 就像英特爾在其 X86 芯片上放置一半的 DRAM 內(nèi)存控制器并將其全部賣給我們一樣——兩個(gè)帶有中間倉(cāng)部件的插座一直是數(shù)據(jù)中心通用計(jì)算的正確答案。我們還需要更多的內(nèi)存容量和帶寬。


因此,如果使用這個(gè)概念性 Beast GPU 加速器將帶寬增加 11.3 倍,那么與原始 H100 相比,計(jì)算量可能只會(huì)增加 4 倍。在張量核心上,H100 在 FP64 精度下的額定速度為 67 teraflops,在 FP8 精度(未使用稀疏性)下的額定速度為 1.98 petaflops。因此,這個(gè) TP100 GPU 復(fù)合體在 FP64 下的額定速度為 268 teraflops,在 FP8 下的額定速度為 7.92 petaflops,每個(gè) GPU 小芯片的性能將是 H100 芯片性能的三分之一,并且可能是其大小的四分之一到五分之一,具體取決于使用的工藝技術(shù)。假設(shè)它是 TSMC 2N 或 Intel 14A 與真正的 H100 上使用的 TSMC 4N。畢竟,這是我們談?wù)摰?2026 年。


這就是我們想要寫的那種野獸,如果我們銀行里有 260 億美元,并且未來還有 500 億美元以上的前景,這就是我們會(huì)做的。但是大量的 HBM 內(nèi)存和計(jì)算引擎都塞滿了它。


很難說這會(huì)花費(fèi)多少錢。你不可能打電話給 Fry's Electronics 詢問 2026 年 HBM4 內(nèi)存的市場(chǎng)價(jià)格是多少。一方面,F(xiàn)ry's 已經(jīng)死了。另一方面,我們現(xiàn)在甚至無法很好地了解 GPU 和其他矩陣引擎制造商為 HBM2e、HBM3 和 HBM3e 內(nèi)存支付的費(fèi)用。每個(gè)人都知道(或者認(rèn)為他們知道),HBM 內(nèi)存和用于將內(nèi)存鏈接到設(shè)備的任何中介層是現(xiàn)代人工智能訓(xùn)練和推理引擎的兩個(gè)主要成本。(當(dāng)然,混合使用片上 SRAM 和普通 DRAM 的人除外。)


圖片


在市場(chǎng)上,用于服務(wù)器的最大、最厚、最快的 256 GB DDR5 內(nèi)存模塊在 4.8 GHz 下運(yùn)行的價(jià)格約為 18,000 美元,每 GB 約為 70 美元。但僅可擴(kuò)展至 32 GB 的更薄模塊每 GB 成本僅為 35 美元。因此,HBM2e 的價(jià)格約為每 GB 110 美元,“超過 3 倍”,如上面的 Nvidia 圖表所示。96 GB 的價(jià)格約為 10,600 美元。很難說 HBM3 和 HBM3E 的提升在該設(shè)備的“市場(chǎng)價(jià)格”上可能值多少錢,但如果達(dá)到 HBM3 僅提升 25%,那么 H100 的市場(chǎng)價(jià)格約為 30,000 美元80 GB 容量,HBM3 的價(jià)格為 8,800 美元。轉(zhuǎn)向 96 GB HBM3E 可能會(huì)將內(nèi)存成本提高到“市場(chǎng)價(jià)格”至 16,500 美元,因?yàn)榧夹g(shù)成本又增加了 25%,而且額外的 16 GB 內(nèi)存和 H100 96 GB 的市場(chǎng)價(jià)格應(yīng)約為 37,700 美元。


聽到有關(guān)具有 141 GB 容量(由于某種原因不是 144 GB)的 H200 的價(jià)格的傳言將會(huì)很有趣。但如果這種內(nèi)存價(jià)格分層成立——我們意識(shí)到這些都是瘋狂的估計(jì)——那么 141 GB 的 HBM3E 本身價(jià)值約為 25,000 美元。但按照這樣的價(jià)格,H200 的“市場(chǎng)價(jià)格”約為 41,000 美元。(注意:這不是我們認(rèn)為 Nvidia 為 HBM3 和 HBM3E 內(nèi)存支付的費(fèi)用——這不是物料清單成本——而是分配給最終用戶的價(jià)格。)


我們認(rèn)為漲幅不會(huì)超過 25% 左右,因?yàn)閮?nèi)存升級(jí)到 HBM3,然后再升級(jí)到 HBM3E 將推高內(nèi)存價(jià)格,使其高于市場(chǎng)上傳聞的 Nvidia GPU 價(jià)格。


請(qǐng)記住,這只是一個(gè)思想實(shí)驗(yàn),旨在展示 HBM 內(nèi)存定價(jià)如何控制 Nvidia 和 AMD 可以投入該領(lǐng)域的 GPU 數(shù)量,而不是相反。內(nèi)存尾巴正在搖晃 GPU 的狗。內(nèi)存容量和帶寬與 H200 的配合越來越緊密,如果 Nvidia 僅對(duì)額外的內(nèi)存及其額外的速度收取象征性的費(fèi)用,那么不僅設(shè)備的實(shí)際效率會(huì)提高,而且性價(jià)比也會(huì)提高。但如果 Nvidia 只是對(duì)這些更強(qiáng)大的 H100 和 H200 進(jìn)行定價(jià),以便性能增益和內(nèi)存增益達(dá)到平衡,那么花的錢就會(huì)少得多,而要花的錢就會(huì)多得多。


老實(shí)說,我們不知道 Nvidia 會(huì)做什么,也不知道 AMD 在 MI300 獲得 HBM3E 升級(jí)后會(huì)做什么。現(xiàn)在美光進(jìn)入該領(lǐng)域的 HBM 供應(yīng)商增加了 50%,而且 SK Hynix 和三星將產(chǎn)量提高了 2 倍,這是一個(gè)很大的數(shù)字,但相對(duì)于 GPU 和 GPU 的需求,市場(chǎng)上的 HBM 內(nèi)存仍然只增加了 3 倍。他們的內(nèi)存更大,可以說大于 3 倍。這不是一個(gè)可以降價(jià)的環(huán)境。在這種環(huán)境下,人們會(huì)提高更先進(jìn)的計(jì)算引擎及其內(nèi)存的價(jià)格,并繼續(xù)盡可能薄地?cái)U(kuò)展 HBM 內(nèi)存。


這就是為什么只要 Nvidia 平臺(tái)繼續(xù)成為首選,能夠支付高價(jià)購(gòu)買 HBM 內(nèi)存的人(即 Nvidia 聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛)就可以設(shè)定人工智能訓(xùn)練的步伐和價(jià)格。


換而言之,對(duì)于GPU和HBM來說,他們面對(duì)的都是生死局。




來源:半導(dǎo)體行業(yè)觀察



*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: HBM

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉