大模型市場，不止帶火HBM

作者：時間：2023-07-12 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

近日，HBM 成為芯片行業(yè)的火熱話題。據(jù) TrendForce 預(yù)測，2023 年高帶寬內(nèi)存（HBM）比特量預(yù)計將達到 2.9 億 GB，同比增長約 60%，2024 年預(yù)計將進一步增長 30%。2008 年被 AMD 提出的 HBM 內(nèi)存概念，在 2013 年被 SK 海力士通過 TSV 技術(shù)得以實現(xiàn)，問世 10 年后 HBM 似乎真的來到了大規(guī)模商業(yè)化的時代。

本文引用地址：http://www.butianyuan.cn/article/202307/448547.htm

HBM 的概念的起飛與 AIGC 的火爆有直接關(guān)系。AI 服務(wù)器對帶寬提出了更高的要求，與 DDR SDRAM 相比，HBM 具有更高的帶寬和更低的能耗。超高的帶寬讓 HBM 成為了高性能 GPU 的核心組件，HBM 基本是 AI 服務(wù)器的標配。目前，HBM 成本在 AI 服務(wù)器成本中占比排名第三，約占 9%，單機平均售價高達 18,000 美元。

自從去年 ChatGPT 出現(xiàn)以來，大模型市場就開始了高速增長，國內(nèi)市場方面，百度、阿里、科大訊飛、商湯、華為等科技巨頭接連宣布將訓(xùn)練自己的 AI 大模型。TrendForce 預(yù)測，2025 年將有 5 個相當于 ChatGPT 的大型 AIGC、25 個 Midjourney 的中型 AIGC 產(chǎn)品、80 個小型 AIGC 產(chǎn)品，即使是全球所需的最小計算能力資源也可能需要 145,600 至 233,700 個英偉達 A100 GPU。這些都是 HBM 的潛在增長空間。

2023 年開年以來，三星、SK 海力士 HBM 訂單就快速增加，HBM 的價格也水漲船高，近期 HBM3 規(guī)格 DRAM 價格上漲了 5 倍。三星已收到 AMD 與英偉達的訂單，以增加 HBM 供應(yīng)。SK 海力士已著手擴建 HBM 產(chǎn)線，目標將 HBM 產(chǎn)能翻倍。韓媒報道，三星計劃投資約 7.6 億美元擴產(chǎn) HBM，目標明年底之前將 HBM 產(chǎn)能提高一倍，公司已下達主要設(shè)備訂單。

HBM 在 AIGC 中的優(yōu)勢

直接地說，HBM 將會讓服務(wù)器的計算能力得到提升。由于短時間內(nèi)處理大量數(shù)據(jù)，AI 服務(wù)器對帶寬提出了更高的要求。HBM 的作用類似于數(shù)據(jù)的「中轉(zhuǎn)站」，就是將使用的每一幀、每一幅圖像等圖像數(shù)據(jù)保存到幀緩存區(qū)中，等待 GPU 調(diào)用。與傳統(tǒng)內(nèi)存技術(shù)相比，HBM 具有更高帶寬、更多 I/O 數(shù)量、更低功耗、更小尺寸，能夠讓 AI 服務(wù)器在數(shù)據(jù)處理量和傳輸速率有大幅提升。

來源：rambus

可以看到 HBM 在帶寬方面有著「碾壓」級的優(yōu)勢。如果 HBM2E 在 1024 位寬接口上以 3.6Gbps 的速度運行，那么就可以得到每秒 3.7Tb 的帶寬，這是 LPDDR5 或 DDR4 帶寬的 18 倍以上。

除了帶寬優(yōu)勢，HBM 可以節(jié)省面積，進而在系統(tǒng)中安裝更多 GPU。HBM 內(nèi)存由與 GPU 位于同一物理封裝上的內(nèi)存堆棧組成。

這樣的架構(gòu)意味著與傳統(tǒng)的 GDDR5/6 內(nèi)存設(shè)計相比，可節(jié)省大量功耗和面積，從而允許系統(tǒng)中安裝更多 GPU。隨著 HPC、AI 和數(shù)據(jù)分析數(shù)據(jù)集的規(guī)模不斷增長，計算問題變得越來越復(fù)雜，GPU 內(nèi)存容量和帶寬也越來越大是一種必需品。H100 SXM5 GPU 通過支持 80 GB（五個堆棧）快速 HBM3 內(nèi)存，提供超過 3 TB/秒的內(nèi)存帶寬，是 A100 內(nèi)存帶寬的 2 倍。

過去對于 HBM 來說，價格是一個限制因素。但現(xiàn)在大模型市場上正處于百家爭鳴時期，對于布局大模型的巨頭們來說時間就是金錢，因此「貴有貴的道理」的 HBM 成為了大模型巨頭的新寵。隨著高端 GPU 需求的逐步提升，HBM 開始成為 AI 服務(wù)器的標配。

目前英偉達的 A100 及 H100，各搭載達 80GB 的 HBM2e 及 HBM3，在其最新整合 CPU 及 GPU 的 Grace Hopper 芯片中，單顆芯片 HBM 搭載容量再提升 20%，達 96GB。

AMD 的 MI300 也搭配 HBM3，其中，MI300A 容量與前一代相同為 128GB，更高端 MI300X 則達 192GB，提升了 50%。

預(yù)期 Google 將于 2023 年下半年積極擴大與 Broadcom 合作開發(fā) AISC AI 加速芯片 TPU 也計劃搭載 HBM 存儲器，以擴建 AI 基礎(chǔ)設(shè)施。

存儲廠商加速布局

這樣的「錢景」讓存儲巨頭們加速對 HBM 內(nèi)存的布局。目前，全球前三大存儲芯片制造商正將更多產(chǎn)能轉(zhuǎn)移至生產(chǎn) HBM，但由于調(diào)整產(chǎn)能需要時間，很難迅速增加 HBM 產(chǎn)量，預(yù)計未來兩年 HBM 供應(yīng)仍將緊張。

HBM 的市場主要還是被三大 DRAM 巨頭把握。不過不同于 DRAM 市場被三星領(lǐng)先，SK 海力士在 HBM 市場上發(fā)展的更好。如開頭所說，SK 海力士開發(fā)了第一個 HBM 產(chǎn)品。2023 年 4 月，SK 海力士宣布開發(fā)出首個 24GB HBM3 DRAM 產(chǎn)品，該產(chǎn)品用 TSV 技術(shù)將 12 個比現(xiàn)有芯片薄 40% 的單品 DRAM 芯片垂直堆疊，實現(xiàn)了與 16GB 產(chǎn)品相同的高度。同時，SK 海力士計劃在 2023 年下半年準備具備 8Gbps 數(shù)據(jù)傳輸性能的 HBM3E 樣品，并將于 2024 年投入量產(chǎn)。

國內(nèi)半導(dǎo)體公司對 HBM 的布局大多圍繞著封裝及接口領(lǐng)域。

國芯科技目前正在研究規(guī)劃合封多 HBM 內(nèi)存的 2.5D 的芯片封裝技術(shù)，積極推進 Chiplet 技術(shù)的研發(fā)和應(yīng)用。
通富微電公司 2.5D/3D 生產(chǎn)線建成后，將實現(xiàn)國內(nèi)在 HBM 高性能封裝技術(shù)領(lǐng)域的突破。
佰維存儲已推出高性能內(nèi)存芯片和內(nèi)存模組，將保持對 HBM 技術(shù)的持續(xù)關(guān)注。
瀾起科技 PCIe 5.0/CXL 2.0 Retimer 芯片實現(xiàn)量產(chǎn)，該芯片是瀾起科技 PCIe 4.0 Retimer 產(chǎn)品的關(guān)鍵升級，可為業(yè)界提供穩(wěn)定可靠的高帶寬、低延遲 PCIe 5.0/ CXL 2.0 互連解決方案。

HBM 雖好但仍需冷靜，HBM 現(xiàn)在依舊處于相對早期的階段，其未來還有很長的一段路要走。而可預(yù)見的是，隨著越來越多的廠商在 AI 和機器學習等領(lǐng)域不斷發(fā)力，內(nèi)存產(chǎn)品設(shè)計的復(fù)雜性正在快速上升，并對帶寬提出了更高的要求，不斷上升的寬帶需求將持續(xù)驅(qū)動 HBM 發(fā)展。

HBM 火熱反映了 AIGC 的帶動能力。那么除了 HBM 和 GPU，是否還有別的產(chǎn)品在這波新風潮中能夠順勢發(fā)展？

談?wù)勂渌粠Щ鸬男酒?/span>

FPGA 的優(yōu)勢開始顯現(xiàn)

FPGA（Field Programmable Gate Array，現(xiàn)場可編程門陣列）是一種集成電路，具有可編程的邏輯元件、存儲器和互連資源。不同于 ASIC（專用集成電路），F(xiàn)PGA 具備靈活性、可定制性、并行處理能力、易于升級等優(yōu)勢。

通過編程，用戶可以隨時改變 FPGA 的應(yīng)用場景，F(xiàn)PGA 可以模擬 CPU、GPU 等硬件的各種并行運算。因此，在業(yè)內(nèi)也被稱為「萬能芯片」。

FPGA 對底層模型頻繁變化的人工智能推理需求很有意義。FPGA 的可編程性超過了 FPGA 使用的典型經(jīng)濟性。需要明確的是，F(xiàn)PGA 不會成為使用數(shù)千個 GPU 的大規(guī)模人工智能系統(tǒng)的有力競爭對手，但隨著人工智能進一步滲透到電子領(lǐng)域，F(xiàn)PGA 的應(yīng)用范圍將會擴大。

FPGA 相比 GPU 的優(yōu)勢在于更低的功耗和時延。GPU 無法很好地利用片上內(nèi)存，需要頻繁讀取片外的 DRAM，因此功耗非常高。FPGA 可以靈活運用片上存儲，因此功耗遠低于 GPU。

6 月 27 日，AMD 宣布推出 AMD Versal Premium VP1902 自適應(yīng)片上系統(tǒng)（SoC），是基于 FPGA 的自適應(yīng) SoC。這是一款仿真級、基于小芯片的設(shè)備，能夠簡化日益復(fù)雜的半導(dǎo)體設(shè)計的驗證。據(jù)悉，AMD VP1902 將成為全球最大的 FPGA，對比上一代產(chǎn)品（Xilinx VU19P），新的 VP1902 增加了 Versal 功能，并采用了小芯片設(shè)計，使 FPGA 的關(guān)鍵性能增加了一倍以上。

東興證券研報認為，F(xiàn)PGA 憑借其架構(gòu)帶來的時延和功耗優(yōu)勢，在 AI 推理中具有非常大的優(yōu)勢。浙商證券此前研報亦指出，除了 GPU 以外，CPU+FPGA 的方案也能夠滿足 AI 龐大的算力需求。

不同于 HBM 被海外公司壟斷，國內(nèi)公司 FPGA 芯片已經(jīng)有所積累。

安路科技主營業(yè)務(wù)為 FPGA 芯片和專用 EDA 軟件的研發(fā)、設(shè)計和銷售，產(chǎn)品已廣泛應(yīng)用于工業(yè)控制、網(wǎng)絡(luò)通信、消費電子等領(lǐng)域。紫光國微子公司紫光同創(chuàng)是專業(yè)的 FPGA 公司，設(shè)計和銷售通用 FPGA 芯片。紫光國微曾在業(yè)績說明會上表示，公司的 FPGA 芯片可以用于 AI 領(lǐng)域。東土科技主要開展 FPGA 芯片的產(chǎn)業(yè)化工作，公司參股公司中科億海微團隊自主開發(fā)了支撐其 FPGA 產(chǎn)品應(yīng)用開發(fā)的 EDA 軟件。

國產(chǎn)替代新思路：存算一體+Chiplet

能否利用我們現(xiàn)在可用的工藝和技術(shù)來開發(fā)在性能上可以跟英偉達對標的 AI 芯片呢？一些「新思路」出現(xiàn)了，例如存算一體+Chiplet。

存算分離會導(dǎo)致算力瓶頸。AI 技術(shù)的快速發(fā)展，使得算力需求呈爆炸式增長。在后摩爾時代，存儲帶寬制約了計算系統(tǒng)的有效帶寬，系統(tǒng)算力增長步履維艱。例如，8 塊 1080TI 從頭訓(xùn)練 BERT 模型需 99 天。存算一體架構(gòu)沒有深度多層級存儲的概念，所有的計算都放在存儲器內(nèi)實現(xiàn)，從而消除了因為存算異構(gòu)帶來的存儲墻及相應(yīng)的額外開銷；存儲墻的消除可大量減少數(shù)據(jù)搬運，不但提升了數(shù)據(jù)傳輸和處理速度，而且能效比得以數(shù)倍提升。

一方面，存算一體架構(gòu)與傳統(tǒng)架構(gòu)處理器處理同等算力所需的功耗會降低；另一方面，存算一體的數(shù)據(jù)狀態(tài)都是編譯器可以感知的，因此編譯效率很高，可以繞開傳統(tǒng)架構(gòu)的編譯墻。

美國亞利桑那州立大學的學者于 2021 年發(fā)布了一種基于 Chiplet 的 IMC 架構(gòu)基準測試仿真器 SIAM, 用于評估這種新型架構(gòu)在 AI 大模型訓(xùn)練上的潛力。SIAM 集成了器件、電路、架構(gòu)、片上網(wǎng)絡(luò) (NoC)、封裝網(wǎng)絡(luò) (NoP) 和 DRAM 訪問模型，以實現(xiàn)一種端到端的高性能計算系統(tǒng)。SIAM 在支持深度神經(jīng)網(wǎng)絡(luò) (DNN) 方面具有可擴展性，可針對各種網(wǎng)絡(luò)結(jié)構(gòu)和配置進行定制。其研究團隊通過使用 CIFAR-10、CIFAR-100 和 ImageNet 數(shù)據(jù)集對不同的先進 DNN 進行基準測試來展示 SIAM 的靈活性、可擴展性和仿真速度。據(jù)稱，相對于英偉達 V100 和 T4 GPU, 通過 SIAM 獲得的 chiplet +IMC 架構(gòu)顯示 ResNet-50 在 ImageNet 數(shù)據(jù)集上的能效分別提高了 130 和 72。

這意味著，存算一體 AI 芯片有希望借助 Chiplet 技術(shù)和 2.5D / 3D 堆疊封裝技術(shù)實現(xiàn)異構(gòu)集成，從而形成大型計算系統(tǒng)。存算一體 + Chiplet 組合似乎是一種可行的實現(xiàn)方式，據(jù)稱億鑄科技正在這條路上探索，其第一代存算一體 AI 大算力商用芯片可實現(xiàn)單卡算力 500T 以上，功耗在 75W 以內(nèi)。也許這將開啟 AI 算力第二增長曲線的序幕。

結(jié)語

世界人工智能大會上，AMD CEO 蘇姿豐表示，未來十年一定會出現(xiàn)一個大型計算超級周期，因此，目前正是一個成為技術(shù)供應(yīng)商的好時機，同時也是與一些將會利用這些技術(shù)開發(fā)不同應(yīng)用的客戶合作的好時機。

沒有人想要一個只有一個主導(dǎo)者的行業(yè)。大模型市場能否讓芯片行業(yè)擁有新的市場格局，能否讓新玩家出現(xiàn)？

「大模型市場對芯片行業(yè)帶來了新的市場格局和機會。通過推動 AI 芯片的發(fā)展、促進云計算和數(shù)據(jù)中心市場的增長以及引發(fā)競爭格局變化，大模型的興起為芯片行業(yè)帶來了新的發(fā)展方向。

需要注意的是，芯片行業(yè)是一個高度競爭和技術(shù)密集的行業(yè)。進入該行業(yè)需要龐大的資金和技術(shù)資源，以滿足復(fù)雜的制造和研發(fā)要求。盡管大模型市場為新玩家提供了機會，但他們需要克服技術(shù)、資金和市場等方面的挑戰(zhàn)，才能在競爭激烈的芯片行業(yè)中獲得成功。」Chatgpt 如是回應(yīng)。