兩個技術(shù)，困住英偉達(dá)GPU生產(chǎn)

發(fā)布人：旺材芯片時間：2023-07-09 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

來源：本文由半導(dǎo)體產(chǎn)業(yè)縱橫（ID：ICVIEWS）編譯自semianalysis

盡管Nvidia試圖大幅增加產(chǎn)量，最高端的Nvidia GPU H100將一直售罄到明年第一季度。

生成人工智能即將到來，它將改變世界。自從ChatGPT 風(fēng)靡全球并抓住了我們對 AI 可能性的想象力以來，我們看到各種各樣的公司急于訓(xùn)練 AI 模型并將生成式 AI 部署到內(nèi)部工作流程或面向客戶的應(yīng)用程序中。不僅僅是大型科技公司和初創(chuàng)公司，許多非科技財富5000強(qiáng)公司正在研究如何部署基于LLM的解決方案。

當(dāng)然，這將需要大量的 GPU計算。GPU銷量像火箭一樣上升，供應(yīng)鏈一直在努力跟上對GPU的需求。公司正在爭先恐后地獲得GPU或云實例。

即使是OpenAI也無法獲得足夠的GPU，這嚴(yán)重阻礙了其近期路線圖。由于GPU短缺，OpenAI無法部署其多模態(tài)模型。由于 GPU短缺，OpenAI 無法部署更長的序列長度模型（8k 與 32k）。

與此同時，中國公司不僅投資部署自己的LLM，而且還在美國出口管制進(jìn)一步收緊之前進(jìn)行庫存。例如，Tik Tok背后的中國公司字節(jié)跳動（Bytedance）據(jù)稱從英偉達(dá)訂購了價值超過10億美元的A800 / H800。

最高端的Nvidia GPUH100將一直售罄到明年第一季度，盡管Nvidia試圖大幅增加產(chǎn)量。英偉達(dá)將每季度出貨400，000個H100 GPU。

今天，我們將詳細(xì)介紹生產(chǎn)瓶頸以及英偉達(dá)及其競爭對手的下游產(chǎn)能正在擴(kuò)大多少。

英偉達(dá)的H100采用CoWoS-S上的7芯片封裝。中間是H100 GPU ASIC，其芯片尺寸為814mm2。不同SKU之間的HBM配置有所不同，但H100 SXM版本使用HBM3，每個堆棧為16GB，總內(nèi)存為80GB。H100 NVL將具有兩個封裝，每個封裝上有6個HBM有源層。

在只有5個有源HBM的情況下，非HBM芯片可以為芯片提供結(jié)構(gòu)支持。這些芯片位于一個在圖片中看不清楚的硅插入物之上。該硅插入物位于一個封裝襯底上，該封裝襯底是一個ABF封裝襯底。

GPU芯片和臺積電制造

英偉達(dá)GPU的主要數(shù)字處理組件是處理器芯片本身，在名為“4N”的定制臺積電工藝節(jié)點上制造。它在臺積電位于中國臺灣臺南的Fab 18制造，與臺積電N5和N4工藝節(jié)點共享相同的設(shè)施。這不是生產(chǎn)的限制因素。

臺積電N5工藝節(jié)點的利用率降至70%以下，原因是PC、智能手機(jī)和非AI相關(guān)數(shù)據(jù)中心芯片的巨大疲軟，英偉達(dá)在確保額外的晶圓供應(yīng)方面沒有問題。

事實上，英偉達(dá)已經(jīng)訂購了大量用于H100 GPU和NVSwitch的晶圓，這些晶圓立即開始生產(chǎn)，遠(yuǎn)遠(yuǎn)早于它們需要出貨芯片。這些晶圓將存放在臺積電的芯片組中，直到下游供應(yīng)鏈有足夠的能力將這些晶圓封裝成完整的芯片。

基本上，英偉達(dá)正在吸收臺積電的一些低利用率，并獲得一些定價優(yōu)勢，因為英偉達(dá)已承諾在未來購買成品。

晶圓庫，也稱為芯片庫，是半導(dǎo)體行業(yè)的一種做法，其中部分加工或完成的晶圓被存儲，直到客戶需要它們。與其他一些代工廠不同，臺積電將通過將這些晶圓保存在自己的賬簿上幾乎完全加工來幫助他們的客戶。這種做法使臺積電及其客戶能夠保持財務(wù)靈活性。由于它們只是部分加工的，因此晶圓庫中持有的晶圓不被視為成品，而是被歸類為在制品。只有當(dāng)這些晶圓完全完成時，臺積電才能確認(rèn)收入并將這些晶圓的所有權(quán)轉(zhuǎn)讓給客戶。

這有助于客戶裝扮他們的資產(chǎn)負(fù)債表，使庫存水平看起來得到控制。對于臺積電來說，好處是它可以幫助保持更高的利用率，從而支持利潤率。然后，當(dāng)客戶需要更多的庫存時，這些晶圓可以通過幾個最后的加工步驟完全完成，然后以正常的銷售價格甚至輕微的折扣交付給客戶。這有助于客戶修飾他們的資產(chǎn)負(fù)債表，使庫存水平看起來處于控制之中。對于臺積電說，好處是可以幫助保持更高的利用率，從而支撐利潤率。然后，隨著客戶需要更多庫存，這些晶圓可以通過幾個最終加工步驟完全完成，然后以正常銷售價格甚至稍有扣的價格交付給客戶。

HBM在數(shù)據(jù)中心的出現(xiàn)

GPU周圍的高帶寬內(nèi)存是下一個主要組件。HBM供應(yīng)量也有限，但正在增加。HBM是垂直堆疊DRAM芯片，通過硅通孔（TSV）連接，并使用TCB鍵合（未來需要更高的堆疊數(shù)量）。在DRAM芯片下面有一個基本邏輯作為控制器的管芯。通常，現(xiàn)代HBM有8層內(nèi)存和1個基本邏輯芯片但是我們很快就會看到12+1層HBM的產(chǎn)品，例如AMD的MI300X和英偉達(dá)即將推出的H100更新。

有趣的是，是AMD開創(chuàng)了HBM，盡管NVIDIA和谷歌是今天最大的用戶。在2008年，AMD預(yù)測，為了與游戲GPU性能相匹配，內(nèi)存帶寬的持續(xù)擴(kuò)展將需要越來越多的電源，這將需要從GPU邏輯中轉(zhuǎn)移，從而降低GPU的性能。AMD與SK Hynix和供應(yīng)鏈中的其他公司(如Amkor)合作，尋找一種能提供高帶寬、低功耗的內(nèi)存解決方案。這導(dǎo)致SK Hynix在2013年開發(fā)HBM。

SK海力士于2015年首次為AMD Fiji系列游戲GPU提供HBM，該GPU由Amkor進(jìn)行2.5D封裝。隨后在2017年推出了使用HBM2的Vega系列。然而，HBM 并沒有改變游戲 GPU性能的游戲規(guī)則。由于沒有明顯的性能優(yōu)勢加上更高的成本，AMD在Vega之后重新使用GDDR作為其游戲卡。今天，來自Nvidia和AMD的頂級游戲GPU仍在使用更便宜的GDDR6。

然而，AMD的最初預(yù)測在某種程度上是正確的:擴(kuò)展內(nèi)存帶寬已被證明是GPU的一個問題，只是這主要是數(shù)據(jù)中心GPU的問題。對于消費(fèi)級游戲GPU，英偉達(dá)和AMD已轉(zhuǎn)向使用大型緩存作為頓緩沖區(qū)，使它們能夠使用帶寬低得多的GDDR內(nèi)存。

正如我們過去所詳述的，推理和訓(xùn)練工作負(fù)載是內(nèi)存密集型的。隨著 AI 模型中參數(shù)數(shù)量的指數(shù)級增長，僅權(quán)重就將模型大小推高到 TB。因此，人工智能加速器的性能受到從內(nèi)存中存儲和檢索訓(xùn)練和推理數(shù)據(jù)的能力的瓶頸：這個問題通常被稱為內(nèi)存墻。

為了解決這個問題，領(lǐng)先的數(shù)據(jù)中心 GPU與高帶寬內(nèi)存（HBM）共同打包。英偉達(dá)在2016年發(fā)布了他們的第一個HBM GPU，P100。HBM 通過在傳統(tǒng) DDR 內(nèi)存和片上緩存之間找到中間地帶來解決內(nèi)存難題，以容量換取帶寬。通過大幅增加引腳數(shù)，達(dá)到每個 HBM 堆棧 1024 位寬的內(nèi)存總線，這是每個 DIMM 64 位寬度的 DDR5 的 18 倍，從而實現(xiàn)更高的帶寬。同時，以極低的每比特傳輸能量（pJ/bit）來控制功率。這是通過更短的走線長度實現(xiàn)的，HBM 的走線長度以毫米為單位，GDDR和 DDR 的走線長度以厘米為單位。

如今，許多面向HPC的芯片公司正在享受AMD努力的成果。具有諷刺意味的是，AMD的競爭對手Nvidia作為HBM的最高用戶可能受益最多。

HBM市場:SK海力士占據(jù)主導(dǎo)地位

作為HBM的先驅(qū)，SK Hynix是擁有最先進(jìn)技術(shù)路線圖的領(lǐng)導(dǎo)者。SK Hynix公司于2022年6月開始生產(chǎn)HBM 3，目前是唯一一家批量交付HBM 3的供應(yīng)商，市場份額超過95%，這是大多數(shù)H 100 SKU正在使用的產(chǎn)品。HBM的最大配置現(xiàn)在8層16 GB HBM 3模塊。SK Hynix為AMD MI300X和NVIDIA H 100刷新生產(chǎn)12層24 GB HBM 3，其數(shù)據(jù)率為5.6 GT/S。

HBM的主要挑戰(zhàn)是封裝和堆疊存儲器，這是SK海力士所擅長的，積累了最強(qiáng)的工藝流程知識。

三星緊跟SK海力士之后，預(yù)計將在2023年下半年推出HBM 3。我們相信它們都是為NVIDIA和AMD GPU設(shè)計的。他們目前對SK Hynix的數(shù)量有很大的虧空，但他們正緊追不舍，正在進(jìn)行巨大的投資以追趕市場份額。三星正在投資追趕HBM，成為HBM市場份額的第一名，就像他們擁有標(biāo)準(zhǔn)內(nèi)存一樣。我們聽說他們正在與一些加速器公司達(dá)成有利的交易，以爭取更多的份額。

他們已經(jīng)展示了他們的12層HBM以及未來的混合粘結(jié)HBM.三星HBM-4路線圖的一個有趣方面是，他們希望在內(nèi)部的FinFET節(jié)點上實現(xiàn)邏輯/外圍。這顯示了他們在內(nèi)部擁有邏輯和DRAM制造的潛在優(yōu)勢。

美光是最落后的。美光在混合內(nèi)存立方體（HMC）技術(shù)上投入了更多的資金。這是一個與HBM競爭的技術(shù)，與HBM有著非常相似的概念。然而，HMC周圍的生態(tài)系統(tǒng)是封閉的，使得IP很難在HMC周圍發(fā)展。此外，還存在一些技術(shù)缺陷。HBM的采用率更高，因此HBM成為3D堆疊DRAM的行業(yè)標(biāo)準(zhǔn)。

直到2018年，美光才開始從HMC轉(zhuǎn)向HBM路線圖。這就是為什么美光是最落后的。他們?nèi)匀煌Ａ粼贖BM2E上（SK海力士在2020年中期開始大規(guī)模生產(chǎn)），甚至不能成功地制造頂盒HBM2E。

在他們最近的財報電話會議上，美光對他們的HBM路線圖做了一些大膽的聲明：他們相信他們將在2024年通過HBM3E從落后者變成領(lǐng)導(dǎo)者。HBM3E預(yù)計將在第三季度/第四季度開始為英偉達(dá)的下一代GPU出貨。美光首席商務(wù)官SumitSadana表示：“我們的HBM3斜坡實際上是下一代HBM3，與當(dāng)今業(yè)界生產(chǎn)的HBM3相比，它具有更高水平的性能、帶寬和更低的功耗。該產(chǎn)品，即我們行業(yè)領(lǐng)先的產(chǎn)品，將從2024年第一季度開始銷量大幅增加，并對2024財年的收入產(chǎn)生重大影響，并在2025年大幅增加，即使是在2024年的水平基礎(chǔ)上。我們的目標(biāo)是在HBM中獲得非常強(qiáng)勁的份額，高于行業(yè)中DRAM的非自然供應(yīng)份額?！?/span>

他們在HBM中擁有比一般DRMA市場份額更高的市場份額的聲明非常大膽。鑒于他們?nèi)栽谂Υ笈可a(chǎn)頂級HBM2E，我們很難相信美光聲稱他們將在2024年初推出領(lǐng)先的HBM3，甚至成為第一個HBM3E。在我們看來，盡管英偉達(dá) GPU服務(wù)器的內(nèi)存容量比英特爾/AMD CPU服務(wù)器要低得多，但美光科技似乎正在試圖改變?nèi)藗儗θ斯ぶ悄苁≌叩目捶ā?/span>

我們所有的渠道檢查都發(fā)現(xiàn)SK海力士在新一代技術(shù)方面保持最強(qiáng)，而三星則非常努力地通過大幅供應(yīng)增加、大膽的路線圖和削減交易來追趕。

真正的瓶頸-CoWoS

下一個瓶頸是CoWoS容量。CoWoS是臺積電的一種“2.5D”封裝技術(shù)，其中多個有源硅芯片(通常的配置是邏輯和HBM堆棧）集成在無源硅中介層上。中介層充當(dāng)頂部有源芯片的通信層。然后將內(nèi)插器和有源硅連接到包含要放置在系統(tǒng)PCB上的I/O的封裝基板。

HBM和CoWoS是相輔相成的。HBM的高焊盤數(shù)和短跡線長度要求需要2.5D先進(jìn)封裝技術(shù)，如CoWoS，以實現(xiàn)這種密集的短連接，這在PCB甚至封裝基板上是無法實現(xiàn)的。CoWoS是主流封裝技術(shù)，以合理的成本提供最高的互連密度和最大的封裝尺寸。由于目前幾乎所有的HBM系統(tǒng)都封裝在Co Wos上，所有先進(jìn)的人工智能加速器都使用HBM，因此幾乎所有領(lǐng)先的數(shù)據(jù)中心GPU都是臺積電封裝在Co Wos上的。

雖然3D封裝技術(shù)，如臺積電的SoIC可以直接在邏輯上堆疊芯片，但由于熱量和成本，它對HBM沒有意義。SoIC在互連密度方面處于不同的數(shù)量級，更適合用芯片堆疊來擴(kuò)展片內(nèi)緩存，這一點可以從AMD的3D V-Cache解決方案中看出。AMD的Xilinx也是多年前將多個FPGA芯片組合在一起的第一批CoWoS用戶。

雖然還有一些其他應(yīng)用程序使用CoWoS，例如網(wǎng)絡(luò)(其中一些用于網(wǎng)絡(luò)GPU集群，如Broadcom的Jericho3-AI)、超級計算和FPGA，但絕大多數(shù)CoWoS需求來自人工智能。與半導(dǎo)體供應(yīng)鏈的其他部分不同，其他主要終端市場的疲軟意味著有足夠的閑置空間來吸收GPU需求的巨大增長，CoWoS和HBM已經(jīng)是大多數(shù)面向人工智能的技術(shù)，因此所有閑置空間已在第一季度被吸收。隨著GPU需求的爆炸式增長，供應(yīng)鏈中的這些部分無法跟上并成為GPU供應(yīng)的瓶頸。

臺積電首席執(zhí)行官魏哲家表示：“就在最近這兩天，我接到一個客戶的電話，要求大幅增加后端容量，特別是在CoWoS中。我們?nèi)栽谠u估這一點。”

臺積電一直在為更多的封裝需求做好準(zhǔn)備，但可能沒想到這一波生成式人工智能需求來得如此之快。6月，臺積電宣布在竹南開設(shè)先進(jìn)后端晶圓廠6。該晶圓廠占地14.3公頃足以容納每年100萬片晶圓的3DFabric產(chǎn)能。這不僅包括CoWoS，還包括SoIC和InFO技術(shù)。

有趣的是，該工廠比臺積電其他封裝工廠的總和還要大。雖然這只是潔凈室空間，遠(yuǎn)未配備齊全的工具來實際提供如此大的容量，但很明顯，臺積電正在做好準(zhǔn)備，預(yù)計對其先進(jìn)封裝解決方案的需求會增加。

確實有點幫助的是，在Wafer級別的扇出封裝能力(主要用于智能手機(jī)SoC)方面存在不足，其中一些可以在CoWoS過程中重新使用。特別是有一些重疊的過程，如沉積，電鍍，反磨，成型，放置，和RDL形成。我們將通過CoWoS流程和所有的公司誰看到了積極的需求，因為它在一個后續(xù)部分。設(shè)備供應(yīng)鏈中存在著有意義的轉(zhuǎn)變。

還有來自英特爾、三星和OSAT的其他2.5D封裝技術(shù)(如ASE的FOEB)，CoWoS是唯一在大容量中使用的技術(shù)，因為TSMC是人工智能加速器的最主要的晶圓廠。甚至英特爾哈巴納的加速器都是由臺積電制造和封裝的。

CoWoS變體

CoWoS有幾種變體，但原始CoWoS-S仍然是大批量生產(chǎn)中的唯一配置。這是如上所述的經(jīng)典配置:邏輯芯片+HBM芯片通過帶有TSV的硅基中介層連接。然后將中介層放置在有機(jī)封裝基板上。

硅中介層的一項支持技術(shù)是一種稱為“掩模版縫合”的技術(shù)。由于光刻工具狹縫/掃描最大尺寸，芯片的最大尺寸通常為26mmx33mm。隨著GPU芯片本身接近這一極限，并且還需要在其周圍安裝HBM，中介層需要很大，并且將遠(yuǎn)遠(yuǎn)超出這一標(biāo)線極限。臺積電解決了這與網(wǎng)線拼接，這使他們的模式插入式多次的刻線限制(目前最高3.5倍與AMD MI 300)。

CoWOS-R使用在具有再分布層（RDL）的有機(jī)襯底上，而不是硅中間層。這是一個成本較低的變體，犧牲的I/O密度，由于使用有機(jī)RDL，而不是基于硅的插入物。正如我們已經(jīng)詳細(xì)介紹的，AMD的MI300最初是在CoWoS-R上設(shè)計的，但我們認(rèn)為，由于翹曲和熱穩(wěn)定性問題，AMD不得不使用CoWoS-S。

CoWoS-L預(yù)計將在今年晚些時候推出，它采用RDL內(nèi)插器，但包含有源和/或無源硅橋，用于嵌入內(nèi)插器中的管芯到管芯互連。這是臺積電的相當(dāng)于英特爾的EMIB封裝技術(shù)。這將允許更大的封裝尺寸，因為硅插入物越來越難以擴(kuò)展。MI300 Co WO S-S可能是一個單一的硅插入器的限制附近。

這將是更經(jīng)濟(jì)的更大的設(shè)計去與CoWoS-L臺積電正在研究一個CoWoS-L的超級載波內(nèi)插器在6倍分劃板的大小。對于CoWOS-S，他們沒有提到 4x reticle 之外的任何內(nèi)容。這是因為硅插入物的脆弱性。這種硅中間層只有100微米厚，在工藝流程中，隨著中間層尺寸的增大，存在分層或開裂的風(fēng)險。

-End-

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。