HBM:高帶寬內(nèi)存吸引各大科技巨頭搶購的“魔力”到底是什么?
全球第二大存儲芯片巨頭SK海力士昨天公布了最新財報,截至6月當(dāng)季銷售額約合57億美元,較上年同期下降47%,超過了6.05萬億韓元的平均預(yù)期,相比一季度創(chuàng)紀(jì)錄的虧損有所收窄。
本文引用地址:http://butianyuan.cn/article/202307/449029.htm由于各大企業(yè)對布局AI領(lǐng)域的興趣激增,同時,SK海力士在用于生成式AI領(lǐng)域的高帶寬存儲器(HBM)DRAM方面處于市場領(lǐng)先地位,其二季度用于AI領(lǐng)域的高性能DRAM銷售增長強勁,對高端DRAM的需求增長了一倍多。
繼英偉達之后,全球多個科技巨頭都在競購SK海力士的第五代高帶寬內(nèi)存HBM3,包括AMD、微軟和亞馬遜等等。SK海力士首席財務(wù)官Kim Woohyun透露,將繼續(xù)擴大其高端存儲芯片的產(chǎn)量,以滿足人工智能驅(qū)動的需求。
新一代DRAM解決方案
當(dāng)代電子計算體系的表現(xiàn)完全依賴于處理器和內(nèi)存的相互配合,而來到了AI時代,大模型處理數(shù)據(jù)的吞吐量更是呈指數(shù)級增長,最新的GPT-4模型據(jù)說有1.76萬億參數(shù)量,要想支撐如此龐大的數(shù)據(jù)處理和傳輸,對內(nèi)存就提出了更高的帶寬需求。
然而,存儲器和處理器并沒有同步發(fā)展,處理器的性能按照摩爾定律規(guī)劃的路線不斷飆升,對比內(nèi)存所使用的DRAM從工藝演進中的獲益卻很少,性能提升速度遠慢于處理器速度。據(jù)行業(yè)預(yù)計,處理器的峰值算力每兩年增長3.1倍,DRAM的帶寬每兩年增長1.4倍,相差1.7倍。
當(dāng)存儲器的性能跟不上處理器,對指令和數(shù)據(jù)搬運(寫入和讀出)的時間將是處理器運算所消耗時間的幾十倍乃至幾百倍。數(shù)據(jù)交換通路窄以及其引發(fā)的高能耗,導(dǎo)致DRAM的性能成為制約計算機性能的一個重要瓶頸,即所謂的“內(nèi)存墻”。
HBM突破了內(nèi)存容量與帶寬瓶頸,打破了“內(nèi)存墻”對算力提升的桎梏,被視為新一代DRAM解決方案,是未來DRAM重要發(fā)展路徑。這種新型的內(nèi)存方案具備高帶寬、低功耗的特點,已逐漸在競爭中脫穎而出,面對AI大模型這種動不動千億、萬億的參數(shù),服務(wù)器中負責(zé)計算的GPU幾乎必須搭載HBM。
什么是HBM
HBM(High Bandwidth Memory,高帶寬存儲器),與其他DRAM最大的差別就是擁有超高的帶寬,目前最新的HBM3的帶寬最高可以達到819GB/s。HBM為何能擁有如此大的帶寬?
那么就要從HBM的原始形態(tài)GDDR說起,GDDR采用傳統(tǒng)的方法將標(biāo)準(zhǔn)PCB和測試的DRAMs與SoC連接在一起,是將DRAM芯片直接放置在PCB上并圍著處理器轉(zhuǎn)一圈的獨立封裝。因此會受到來自PCB面積的約束,互聯(lián)線長/帶寬以及通訊延遲也會隨之增大。
相對于傳統(tǒng)內(nèi)存,HBM則是在硅中階層(Silicon Interposer)上堆疊起來并和GPU封裝在一起,這樣一來,面積一下子縮小了很多,并且HBM離GPU更近了,數(shù)據(jù)傳輸也就更快了。
HBM之所以可以做到這樣的布局,是因為采用了3D堆疊技術(shù),將DRAM裸片垂直疊放在一起,這相當(dāng)于在一樣的“占地面積”下能布置比過去多數(shù)倍的DRAM顆粒。這種堆疊方式不僅節(jié)約空間,而且能夠帶來更短的顆粒間距進而縮短信號傳輸路徑及延遲,但HBM真正的難點在于這些顆粒的互聯(lián)問題,直到有了TSV技術(shù)之后才得以解決。
硅通孔技術(shù)(Through Silicon Via, 簡稱“TSV”)將“每層樓”連接在一起,是連接硅晶圓兩面并與硅襯底和其他通孔絕緣的電互連結(jié)構(gòu):在保證強度以及完整性的前提下在芯片(硅)上垂直穿孔,然后以這些孔為通路進行布線并完成垂直互聯(lián)。貫通所有芯片層的柱狀通道傳輸信號、指令、電流,以增加吞吐量并克服單一封裝內(nèi)帶寬的限制。
憑借TSV技術(shù),HBM大幅提高了容量和數(shù)據(jù)傳輸速率,與傳統(tǒng)內(nèi)存技術(shù)相比,HBM具有更高帶寬、更多I/O數(shù)量、更低功耗、更小尺寸,可應(yīng)用于高性能計算(HPC)、超級計算機、大型數(shù)據(jù)中心、AI、云計算等領(lǐng)域。隨著5G商用到來,存儲數(shù)據(jù)量激增,市場對于HBM的需求將有望大幅提升。
存儲巨頭爭霸HBM
在DRAM的整體頹勢之中,HBM卻在逆市增長,自從去年ChatGPT出現(xiàn)以來,HBM作為AI服務(wù)器的“標(biāo)配”,更是開始狠刷存在感。超高的帶寬讓HBM成為了高性能GPU的核心組件,目前,高端GPU市場被英偉達和AMD瓜分,最新的H100和MI300X都配備了目前最新的HBM3。
預(yù)測到2031年,全球高帶寬存儲器市場預(yù)計將從2022年的2.93億美元增長到34.34億美元,在2023-2031年的預(yù)測期內(nèi)復(fù)合年增長率為31.3%。當(dāng)前HBM市場呈現(xiàn)三足鼎立格局,TrendForce研究顯示,2022年三大原廠HBM市占率分別為SK海力士占50%、三星約40%、美光約占10%。
SK海力士
SK海力士早在2021年10月就發(fā)布了全球首款HBM3,并于2022年6月正式量產(chǎn),是目前唯一能量產(chǎn)HBM3產(chǎn)品的供應(yīng)商。
SK海力士HBM技術(shù)起步早,從2013年與AMD聯(lián)合開發(fā)了全球首款HBM后,第一個站上HBM的跑道后就一直是HBM行業(yè)的領(lǐng)頭羊,得益于自主研發(fā)的MR-MUF(Mass Reflow Molded Underfill)技術(shù),目前占據(jù)全球HBM市場一半以上的市場份額。
2023年4月,SK海力士宣布已在全球首次實現(xiàn)垂直堆疊12層硅通孔技術(shù)垂直堆疊的芯片,實現(xiàn)最高容量24GB,容量較上一代HBM3 DRAM提升50%,還搭載了ECC校檢(On Die-ErrorCorrection Code),可以自動更正DRAM單元(cell)傳輸數(shù)據(jù)的錯誤,從而提升了產(chǎn)品的可靠性。
此外,SK海力士預(yù)計在今年年底前供應(yīng)HBM3E樣品,并在2024年開始量產(chǎn),將下一代產(chǎn)品HBM4的生產(chǎn)目標(biāo)時間定在了2026年。
三星跳過HBM1,于2016年首次量產(chǎn)HBM2產(chǎn)品,同一年發(fā)布了4GB和8GB的HBM2 DRAM;2020年2月,三星正式宣布推出其16GB HBM2E產(chǎn)品“Flashbolt”。
2021年三星宣布了一項新的突破,面向AI人工智能市場首次推出了HBM-PIM技術(shù),在存儲芯片上集成了計算功能而不是CPU、內(nèi)存數(shù)據(jù)分離,實現(xiàn)了原HBM2兩倍的性能,同時功耗還降低了70%。預(yù)計2024年實現(xiàn)接口速度高達7.2Gbps的HBM3P,2025年在新一代面向AI的GPU中見到HBM3P的應(yīng)用。
美光最開始是和英特爾一起開發(fā)HMC(混合內(nèi)存)技術(shù),雖然也使用了TSV,但是和HBM完全不同,也不兼容。直到2018年美光才正式放棄HMC,開始追趕HBM,于2020年7月宣布大規(guī)模量產(chǎn)HBM2E,HBM3也仍作為其產(chǎn)品線在持續(xù)研發(fā)之中,預(yù)計將于2024年初開始量產(chǎn)。
HBM的下游也在持續(xù)發(fā)力,英偉達歷代主流訓(xùn)練芯片基本都配置HBM;英特爾Sapphire Rapids發(fā)布全球首款配備HBM的X86 CPU;AMD也在持續(xù)更新HBM產(chǎn)品線。
同時值得一提的是,由于HBM主要和GPU搭載使用,封裝主要以TSV 3D封裝進行,所以通常在晶圓廠內(nèi)完成,當(dāng)前臺積電、格芯等也在發(fā)力HBM技術(shù)的研究與制造。
臺積電宣布與博通合作強化CoWoS平臺,該平臺技術(shù)常用于HBM的整合封裝,新一代CoWoS技術(shù)能夠容納多個邏輯系統(tǒng)單芯片以及多個HBM。業(yè)內(nèi)消息稱臺積電將量產(chǎn)其第六代CoWoS技術(shù),可在單個封裝內(nèi)集成12顆HBM。
格芯與SiFive也宣布共同開發(fā)基于12LP/12LP+ FinFET工藝的HBM2E。據(jù)介紹,SiFive基于格芯12LP平臺和12LP+解決方案的可定制HBM接口將實現(xiàn)高帶寬存儲輕松集成到單個片上系統(tǒng)(SoC)解決方案中。
存儲巨頭相繼入局、上下游廠商發(fā)力,HBM受到越來越多的關(guān)注與青睞,有人甚至認為HBM未來將取代DDR。
VR和AR是HBM未來將主要發(fā)力的領(lǐng)域。因為VR和AR系統(tǒng)需要高分辨率的顯示器,這些顯示器需要更多的帶寬來在GPU和內(nèi)存之間傳輸數(shù)據(jù)。而且,VR和AR也需要實時處理大量數(shù)據(jù),這都需要HBM的超強帶寬來助力。蘋果最新推出的頭顯設(shè)備Vision Pro也傳出內(nèi)置了SK海力士專門設(shè)計的高帶寬DRAM來提升圖像數(shù)據(jù)的處理效率。
此外,智能手機、平板電腦、游戲機和可穿戴設(shè)備的需求在不斷增長,這些設(shè)備需要更先進的內(nèi)存解決方案來支持其不斷增長的計算需求,HBM也有望在這些領(lǐng)域得到增長。并且,5G和物聯(lián)網(wǎng)(IoT)等新技術(shù)的出現(xiàn)也進一步推動了對HBM的需求。
在自動駕駛方面,智能汽車和車路協(xié)同場景都涉及大量的數(shù)據(jù)傳輸,HBM的帶寬優(yōu)勢能夠發(fā)揮作用,但是由于成本問題,HBM3距離“上車”還有些時日。
目前而言,DDR仍為DRAM市場主流產(chǎn)品,與龐大的DRAM市場比起來,HBM市場占比較低,大約只占整個DRAM市場的1.5%?,F(xiàn)在HBM還是主要應(yīng)用于服務(wù)器、數(shù)據(jù)中心等領(lǐng)域,消費領(lǐng)域?qū)Τ杀颈容^敏感,因此HBM的使用較少。亦仍有待進一步提升技術(shù)、降低成本,HBM未來或?qū)⒋笥兴鶠椤?/strong>
新技術(shù)革新的難點
目前困擾HBM的問題之一是成本,3D堆疊成本高昂。因為有一個邏輯芯片位于芯片堆疊的底部,這是必須支付的額外硅片,然后是硅中介層,最后還需要一個更大的封裝等等,這是需要付出昂貴代價的。
同時,由于HBM采用復(fù)雜的TSV封裝工藝,其生產(chǎn)良率較低,產(chǎn)品開發(fā)周期較長,生產(chǎn)成本也較高。并且如果組成垂直結(jié)構(gòu)的一部分完全失效,則必須丟棄整個結(jié)構(gòu),這會使通過TSV互連的系統(tǒng)制造起來更加昂貴。目前存在的HBM脫離了消費者領(lǐng)域,相比之下GDDR6等圖形內(nèi)存雖然無法提供與HBM一樣多的性能,但成本卻顯著降低。
另外,芯片在某些溫度條件下達到其時鐘速度,如果附近有另一個也會發(fā)熱的芯片會受到影響。大量DRAM堆疊和GPU封裝在一起產(chǎn)生大量的熱,如何散熱也是HBM極大的挑戰(zhàn)。
雖然HBM的高帶寬小體積是優(yōu)點,但是其堆疊工藝導(dǎo)致它缺乏靈活性,導(dǎo)致難以擴容且訪問延遲高。HBM由于互聯(lián)寬度超寬,這就決定了HBM的傳輸頻率不能太高,否則總功耗和發(fā)熱撐不住,所以延遲高(延遲指從讀取指令發(fā)出,到數(shù)據(jù)準(zhǔn)備就緒的過程,中間的一個等待時間)。
目前來說,CPU+DRAM技術(shù)較為成熟,成本相對較低,在多數(shù)對性能沒有極端需求的場合具有更好的性價比,而GPU+HBM的組合則更多用于對算力要求特別高的應(yīng)用領(lǐng)域。從2D走向3D,集成度更高、能耗效率更高的HBM是未來趨勢,隨著TSV工藝和HBM設(shè)計的不斷成熟,HBM自身的性價比也會有所提升,將會逐漸占據(jù)更多的市場。
評論