英偉達(dá)最強(qiáng)AI芯片H200性能翻倍 AMD出師未捷身先死?
11月13日,英偉達(dá)推出新一代AI旗艦芯片H200,是在目前市場上最強(qiáng)AI芯片H100的基礎(chǔ)上進(jìn)行了大升級。H200擁有141GB的內(nèi)存幾乎是H100最高80GB內(nèi)存的2倍,4.8TB/s的帶寬也顯著高于H100的3.35TB/s。
本文引用地址:http://butianyuan.cn/article/202311/453385.htm在推理速度上H200幾乎達(dá)到了H100的兩倍,英偉達(dá)表示根據(jù)使用Meta的70B大模型Llama 2進(jìn)行測試,H200的輸出速度幾乎是H100的兩倍。根據(jù)官方發(fā)布的圖片,H200在大模型Llama 2、GPT-3.5的輸出速度上分別是H100的1.9倍和1.6倍,在高性能計(jì)算HPC方面的速度更是達(dá)到了雙核x86 CPU的110倍。
因?yàn)槭褂没谂cH100相同的Hopper架構(gòu),H200將具有H100的一切功能,例如可以用來加速基于Transformer架構(gòu)搭建的深度學(xué)習(xí)模型的Transformer Engine功能。這意味著那些已經(jīng)在使用H100進(jìn)行訓(xùn)練的AI公司無需更改他們的服務(wù)器系統(tǒng)或軟件即可適應(yīng)H200。
卷內(nèi)存?H200最大升級HBM3
H200最大的變化就是內(nèi)存 —— 首次搭載“世界上最快的內(nèi)存”HBM3e,在性能上得到了直接提升,速度更快、容量更大,使其更適用于大型語言模型。
什么是HBM?
由于處理器與存儲器的工藝、封裝、需求的不同,過去20年中二者之間的性能差距越來越大,硬件的峰值計(jì)算能力增加了90000倍,但是內(nèi)存/硬件互連帶寬卻只是提高了30倍。當(dāng)存儲的性能跟不上處理器時,對指令和數(shù)據(jù)搬運(yùn)(寫入和讀出)的時間是處理器運(yùn)算所消耗時間的幾十倍乃至幾百倍,內(nèi)存帶寬就是處理器可以從內(nèi)存讀取數(shù)據(jù)或?qū)?shù)據(jù)存儲到內(nèi)存的速率。可以想象一下,數(shù)據(jù)傳輸就像處在一個巨大的漏斗之中,不管處理器灌進(jìn)去多少,存儲器都只能“細(xì)水長流”。
GDDR采用傳統(tǒng)方法是將標(biāo)準(zhǔn)PCB和測試的DRAMs與SoC連接在一起,以較窄的通道提供更高的數(shù)據(jù)速率,進(jìn)而實(shí)現(xiàn)必要的吞吐量,具有一定的帶寬和良好的能耗效率。而隨著AI等新需求的出現(xiàn)以及風(fēng)靡,為了讓數(shù)據(jù)傳輸更快,對帶寬的要求更高了,GDDR開始不夠用了。按照GDDR現(xiàn)有的模式很難有突破性的帶寬進(jìn)展,于是,HBM出現(xiàn)了。
HBM其實(shí)就是將DDR芯片堆疊在一起后和GPU封裝在一起,實(shí)現(xiàn)大容量、高位寬的DDR組合陣列。超高的帶寬讓HBM成為了高性能GPU的核心組件,讓更大的模型、更多的參數(shù)留在離核心計(jì)算更近的地方,從而減少內(nèi)存和存儲解決方案帶來的延遲。自從去年ChatGPT出現(xiàn)以來,HBM作為AI服務(wù)器的“標(biāo)配”,更是開始狠刷存在感。
3D堆疊技術(shù)的出現(xiàn)才讓HBM能夠?qū)崿F(xiàn)這樣的布局:將DRAM裸片像摩天大樓一樣垂直堆疊,并通過硅通孔(ThroughSiliconVia,簡稱“TSV”)技術(shù)將“每層樓”連接在一起,貫通所有芯片層的柱狀通道傳輸信號、指令、電流,以增加吞吐量并克服單一封裝內(nèi)帶寬的限制。采用3D堆疊技術(shù)之后,其直接結(jié)果就是接口變得更寬,其下方互聯(lián)的觸點(diǎn)數(shù)量遠(yuǎn)遠(yuǎn)多于DDR內(nèi)存連接到CPU的線路數(shù)量。
不過,這也意味著更高的成本,在沒有考慮封測成本的情況下,HBM的成本是GDDR的三倍左右。HBM發(fā)展制約因素正是高成本,一些高級計(jì)算引擎上的HBM內(nèi)存成本往往比芯片本身還要高,因此自然面臨很大的阻力。
“半代”升級?算力提升并不明顯
在同架構(gòu)之下,H200的浮點(diǎn)運(yùn)算速率基本上和H100相同,核心GPU運(yùn)算數(shù)據(jù)與H100完全一致。客觀來說,H200相較H100在算力方面提升并不明顯,可能只算“半代”升級。然而,在大模型推理表現(xiàn)上,H200提升卻極其明顯。
英偉達(dá)H200、H100和A100的性能規(guī)格對比(來源:anandtech)
H200重點(diǎn)放在提升推理方面的能力,再次證明英偉達(dá)的刀法依舊精準(zhǔn)。隨著AI技術(shù)的不斷發(fā)展和應(yīng)用,AI芯片市場的競爭越來越激烈,H200芯片的發(fā)布,進(jìn)一步鞏固了英偉達(dá)在AI芯片市場的領(lǐng)先地位。英偉達(dá)只有通過不斷推出更高性能的AI芯片,增強(qiáng)市場競爭力,才能夠在市場競爭中持續(xù)保持領(lǐng)先地位。那么,為什么英偉達(dá)突然選擇卷起內(nèi)存了呢?
AMD緊隨其后:搶先推出Instinct MI300X
隨著ChatGPT的橫空出世,全球掀起了AI大模型熱潮,以GPU為代表的算力芯片供不應(yīng)求。在全球GPU主要廠商中,英偉達(dá)市場占有率高達(dá)86%,而僅次于英偉達(dá)的就是AMD。AMD雖然在GPU市場名列第二,但其產(chǎn)品主要應(yīng)用于圖形處理、消費(fèi)級產(chǎn)品等傳統(tǒng)GPU應(yīng)用場景,在AI和高性能計(jì)算領(lǐng)域始終沒有什么存在感。
大模型時代,AMD等來了一個翻身機(jī)遇。在今年6月,AMD專門針對AI大模型訓(xùn)練需求,在英偉達(dá)之前搶先推出了大殺器 —— Instinct MI300。相比前代產(chǎn)品,MI300X擁有高達(dá)192GB的HBM3內(nèi)存以及5.2TB/s帶寬。MI300X提供的HBM密度是英偉達(dá)H100的2.4倍,HBM帶寬是H100的1.6倍,意味著在MI300X上可以訓(xùn)練比H100更大的模型,單張加速卡可運(yùn)行一個400億參數(shù)的模型。
其實(shí)早在2016年,AMD就推出Radeon Instinct系列產(chǎn)品線,旨在加速深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和高性能計(jì)算等方面應(yīng)用。然而AMD顯然不夠“上心”,在之后的4年間時間里,Radeon Instinct系列雖然不斷更新,但卻始終與AMD的消費(fèi)級顯卡Radeon公用基礎(chǔ)架構(gòu),在計(jì)算方面缺乏針對性和高效率,難以滿足AI訓(xùn)練的需求。
直到2020年,AMD將AI芯片產(chǎn)品線更名為“Instinct”,并首次拋棄了以往的消費(fèi)級顯卡架構(gòu),采用了專門設(shè)計(jì)的CNDA計(jì)算架構(gòu)。在此之后,AMD連續(xù)更新了三代產(chǎn)品MI100、MI200以及最新發(fā)布的MI300。憑借全新的技術(shù)路線,以及高性價比的市場策略,AMD才開始在AI訓(xùn)練市場中有人問津。
目前AMD正在搶抓英偉達(dá)缺席后的空白,試圖憑借空前強(qiáng)大的芯片新品和難得的產(chǎn)業(yè)機(jī)遇,攻入英偉達(dá)的腹地。為了保證不被超越,這也許就是H200突然卷起內(nèi)存的原因吧。此前,AMD表示MI300正在今年第三季度向客戶提供樣品,產(chǎn)量將在第四季增加。如果AMD真的能夠在第四季度提高產(chǎn)量并成功推出MI300芯片,那么它有望迎來強(qiáng)勁的需求。因?yàn)橛ミ_(dá)H100芯片的供不應(yīng)求,大公司需要“第二供應(yīng)商”的戰(zhàn)略將為AMD提供機(jī)遇,AMD可以有效填補(bǔ)供需缺口,憑借可得性贏得業(yè)務(wù)。
甲骨文公司就計(jì)劃采用雙源采購策略,即同時從英偉達(dá)和AMD兩家公司購買AI芯片。在明年,甲骨文公司將優(yōu)先考慮購買AMD的產(chǎn)品,這是因?yàn)橛ミ_(dá)因市場需求巨大而未能達(dá)到甲骨文公司預(yù)定的采購目標(biāo)。在此前的發(fā)布會上蘇姿豐表現(xiàn)得十分有信心:“我們認(rèn)為,數(shù)據(jù)中心人工智能加速器將以超過50%的復(fù)合年增長率,從今年的300億美元左右增長到2027年的1500億美元以上?!盡I300被寄予厚望,將成為該公司“有史以來最快達(dá)成10億美元銷售額的產(chǎn)品”。
從MI300的性能指標(biāo)而言,AMD已經(jīng)幾乎具備了與英偉達(dá)叫板的能力,直到H200橫空出世。在未來,AMD想要在如火如荼的AI技術(shù)市場中搶得一席之地,面前的壓力仍毋庸多言。至今AMD尚未公布MI300的官方定價,市場預(yù)計(jì)為了增加與英偉達(dá)的競爭籌碼,AMD MI300或許不得不延續(xù)其在傳統(tǒng)GPU市場的性價比路線。
潛在的壟斷消失?CUDA生態(tài)壁壘很難打破
最關(guān)鍵的問題在于英偉達(dá)能否為市場提供足夠的H200,或者它們是否會像H100一樣在供應(yīng)量上受到限制,并沒有明確的答案。考慮到目前高性能GPU服務(wù)器仍然緊缺,在AMD發(fā)布更便宜且性能不差的競品后,英偉達(dá)的壟斷還能維持多久?
英偉達(dá)在2006年推出的通用并行計(jì)算架構(gòu)CUDA,借助CUDA提供的編程接口和工具集等,開發(fā)者可以基于GPU芯片編程、運(yùn)行復(fù)雜的AI算法等等。雖然H100的壟斷地位導(dǎo)致服務(wù)器間兼容性問題,但英偉達(dá)在AI領(lǐng)域樹立的最大優(yōu)勢還是從語言設(shè)計(jì)到開發(fā)者工具這些構(gòu)成的生態(tài)壁壘,周邊工具一旦被用戶所接受,客戶技術(shù)遷移的成本將會是難以想象的。
即使AMD MI300的官方性能指標(biāo)相比英偉達(dá)H100體現(xiàn)出優(yōu)勢,后者的生態(tài)壁壘仍舊難以逾越,更別提H200展現(xiàn)出了更強(qiáng)的性能指標(biāo)。這樣的背景下,AMD想要逆風(fēng)翻盤,還是要著力補(bǔ)上生態(tài)差距。2016年,AMD推出了對標(biāo)英偉達(dá)CUDA的ROCm架構(gòu),但由于ROCm平臺起步晚,其對于GPU加速庫的支持沒有英偉達(dá)CUDA全面:CUDA的應(yīng)用場景基本能夠覆蓋全場景,ROCm更多用于高性能計(jì)算領(lǐng)域,對AI的覆蓋稍顯不足。
至今,AMD ROCm平臺的工具鏈已經(jīng)相對完善,并且能夠兼容英偉達(dá)的CUDA平臺。此外,為了進(jìn)一步優(yōu)化軟件生態(tài),AMD還在2023年10月份官宣收購了AI軟件企業(yè)Nod.ai。
AMD高性價比的市場策略將是其在AI領(lǐng)域的另一大優(yōu)勢。CNBC報告稱,上一代H100估計(jì)每顆售價在2.5萬美元到4萬美元之間,鑒于采用了HBM3e內(nèi)存,H200的售價可能會更貴。另一方面從亮相開始,H100就迎頭趕上了“百模大戰(zhàn)”的風(fēng)口,成為了被各方力量爭奪的寶貴算力資源,大模型產(chǎn)業(yè)疾速發(fā)展帶來了巨大的算力缺口:根據(jù)OpenAI數(shù)據(jù), 模型計(jì)算量增長速度遠(yuǎn)超人工智能硬件算力增長速度,兩者之間存在萬倍差距。對于長期在AI領(lǐng)域缺乏存在感的AMD而言,它正迎來了最好時機(jī)。
據(jù)了解,英偉達(dá)H200將于2024年第二季度開始向全球客戶和云服務(wù)廠商供貨。英偉達(dá)還透露,下一代新架構(gòu)Blackwell B100 GPU也將在2024年推出,性能已經(jīng)“望不到頭”。
英偉達(dá)官網(wǎng)顯示H200將為40多臺AI超級計(jì)算機(jī)提供支持。包括CoreWeave、亞馬遜AWS、谷歌云、微軟Azure、甲骨文云等公司將成為首批部署基于H200實(shí)例的云服務(wù)商;同時,華碩、戴爾科技、惠普、聯(lián)想、Supermicro、緯創(chuàng)資通等系統(tǒng)集成商也會使用H200更新其現(xiàn)有系統(tǒng)。此外,在新的H200加持之下,GH200超級芯片也將為全球各地的超級計(jì)算中心提供總計(jì)約200 Exaflops的AI算力:在SC23大會上,多家頂級超算中心紛紛宣布,即將使用GH200系統(tǒng)構(gòu)建自己的超級計(jì)算機(jī);德國尤里希超級計(jì)算中心將在超算JUPITER中使用GH200超級芯片。
值得注意的是,如果沒有獲得出口許可證,H200將無法在中國市場銷售。原因是H200參數(shù)高于美國商務(wù)部10月17日公布的性能紅線:多個數(shù)字處理單元的集成電路(用于數(shù)據(jù)中心)總處理性能為2400-4800,“性能密度”大于1.6且小于5.92。
評論