新聞中心

EEPW首頁 > 智能計算 > 編輯觀點 > 英偉達(dá)算力壟斷能否被打破?各大廠商下場展開自研AI芯片競賽

英偉達(dá)算力壟斷能否被打破?各大廠商下場展開自研AI芯片競賽

作者:陳玲麗 時間:2023-10-14 來源:電子產(chǎn)品世界 收藏

據(jù)市場研究公司Omdia披露,2023年第二季度,出貨了900噸H100 GPU。而一個帶有散熱器的H100 GPU的平均重量超過3公斤,因此在第二季度出貨了30多萬塊H100。

本文引用地址:http://butianyuan.cn/article/202310/451552.htm

以ChatGPT為首的生成式工具在全球范圍內(nèi)掀起了一股熱潮,拉升了對H100、A100、H800和A800等高性能GPU的需求,這使得該公司在全球 GPU市場拿下達(dá)90%的市占率。隨著英偉達(dá)從生成式人工智能熱潮中獲利,該公司未來一年的出貨量將加速增長,預(yù)計今年有望銷售約3600噸H100 GPU,相當(dāng)于大約120萬塊。

對抗英偉達(dá)

市面上的大模型越來越多,對的需求量爆炸式增長:對于云廠商來說,只能不斷的堆服務(wù)器;對于大模型開發(fā)者來說,對的需求也在趨緊。自英偉達(dá)發(fā)布大模型專用GPU并量產(chǎn)供貨后,據(jù)行業(yè)內(nèi)部消息稱,由于市場需求遠(yuǎn)大于產(chǎn)能供應(yīng),2023年英偉達(dá)H100的產(chǎn)量早已銷售一空,現(xiàn)在交錢訂購,至少要到2024年中才能拿到貨。

英偉達(dá)GPU不光不愁賣,利潤率還高得嚇人。美國金融機構(gòu)Raymond James在報告中透露,H100成本約3320美元,但英偉達(dá)對其客戶的批量價格仍然高達(dá)2.5萬-3萬美元。這一點從季度財報中也能得到充分印證,英偉達(dá)Q2財季凈利潤高達(dá)61.8億美元,同比上升843%。

截屏2023-10-13 23.56.27.png

英偉達(dá)井噴式的業(yè)績增長和長期展望表明AI需求并非曇花一現(xiàn),AI行業(yè)涵蓋了芯片設(shè)計、制造和應(yīng)用等多個領(lǐng)域。AI芯片的出現(xiàn)讓大規(guī)模的數(shù)據(jù)效率大大提升,技術(shù)升級帶來巨大的生產(chǎn)力飛躍,也正在對各個產(chǎn)業(yè)帶來革命性改變,甚至產(chǎn)業(yè)邏輯也需要被重估。

巨大的市場空間,以及超乎想象的前景,吸引全球眾多大型科技公司都在積極投入AI芯片研發(fā)與生產(chǎn),將進一步刺激行業(yè)競爭。在此趨勢下,AI芯片的戰(zhàn)役正愈演愈烈。

不管是為了降低成本,還是減少對英偉達(dá)的依賴、提高議價能力,在AI芯片市場要對抗英偉達(dá),其他廠商當(dāng)前只能抓住英偉達(dá)的產(chǎn)能仍較低的窗口期進行布局。

作為英偉達(dá)的最大競爭對手,發(fā)布了AI處理器MI300系列芯片,包括MI300A、MI300X兩個版本。其中MI300X是一款直接對標(biāo)英偉達(dá)H100芯片,專門面向生成式AI推出的加速器,采用了8個GPU Chiplet加4個I/O內(nèi)存Chiplet的設(shè)計,總共12個5nm Chiplet封裝在一起,使其集成的晶體管數(shù)量達(dá)到了1530億,高于英偉達(dá)H100的800億晶體管。

截屏2023-10-13 23.59.50.png

與英偉達(dá)的H100芯片相比,MI300X的HBM密度是前者的2.4倍,帶寬則為前者的1.6倍,理論上可以運行比H100更大的模型。此外,還發(fā)布了“AMD Instinct Platform”,集合了8個MI300X,可提供總計1.5TB的HBM3內(nèi)存。

蘇姿豐表示,隨著模型參數(shù)規(guī)模越來越大,就需要更多的GPU來運行。而隨著AMD芯片內(nèi)存的增加,開發(fā)人員將不再需要那么多數(shù)量的GPU,能夠為用戶節(jié)省成本。盡管AMD也在加速布局,但要量產(chǎn),還要等到本財年第四季度。

英特爾

今年7月,英特爾面向中國市場推出了AI芯片Habana Gaudi 2,直接對標(biāo)英偉達(dá)的A100,是專為訓(xùn)練大語言模型而構(gòu)建,采用7nm制程,有24個張量處理器核心。數(shù)據(jù)顯示,從計算機視覺模型訓(xùn)練到1760億參數(shù)的BLOOMZ推理,Gaudi 2每瓦性能約A100的2倍,模型訓(xùn)練和部署的功耗降低約一半。

相比A100,Gaudi 2價格更有競爭力,且性能更高,接下來采用FP8軟件的Gaudi 2預(yù)計能夠提供比H100更高的性價比。值得注意的是,去年英特爾就已經(jīng)在海外發(fā)布了Gaudi 2。

而英特爾在舊金山舉行的“Intel Innovation”大會上透露,使用5nm工藝打造的下一代Gaudi 3將在性能方面大幅提升。其中,BF16下的性能提升了四倍、計算能力提升了2倍、網(wǎng)絡(luò)帶寬的1.5倍以及HBM容量的提升1.5倍。

在Gaudi 3之后, 英特爾還計劃推出一個代號為Falcon Shores的繼任者。按照其最初規(guī)劃,F(xiàn)alcon Shores芯片為“XPU”設(shè)計,即集成CPU和GPU。但在上個月的財報會上,英特爾調(diào)整了Falcon Shores的計劃,將其重新定位為獨立GPU,并將于2025年發(fā)布。

其實在產(chǎn)品路線上,英特爾近年一直強調(diào)XPU,即多樣化、多組合的異構(gòu)計算。在AI相關(guān)的產(chǎn)品線上,既有集成AI加速器的CPU處理器、有GPU產(chǎn)品,以及Habana Gaudi系列代表的ASIC類型AI芯片。

IBM

IBM最近公布了一款新的模擬AI芯片,這款新芯片旨在解決生成式人工智能的主要問題之一:高能耗。通過集成大量的相變存儲單元實現(xiàn)更高效的計算和能效,據(jù)稱其能效比英偉達(dá)H100高出14倍。這對于大型模型的運行來說尤為重要,因為這些大型模型通常需要更多的能量來運行,意味著在相同的能量消耗下,它能夠完成更多的計算任務(wù)。

IBM聲稱其14nm模擬AI芯片每個組件可以編碼3500萬個相變存儲設(shè)備,可以建模多達(dá)1700萬個參數(shù)。同時,該芯片模仿了人腦的運作方式,微芯片直接在內(nèi)存中執(zhí)行計算,適用于節(jié)能語音識別和轉(zhuǎn)錄。隨著技術(shù)的不斷發(fā)展,預(yù)計未來模擬芯片有望成為人工智能領(lǐng)域的新趨勢。

亞馬遜

亞馬遜已擁有兩款A(yù)I專用芯片 —— 訓(xùn)練芯片Trainium和推理芯片Inferentia。2018年底,AWS推出自研AI推理芯片Inferentia,可以以低成本在云端運行圖像識別、語音識別、自然語言處理、個性化和欺詐檢測等大規(guī)模機器學(xué)習(xí)推理應(yīng)用程序;2020年底,AWS推出專用于訓(xùn)練機器學(xué)習(xí)模型的Trainium。

2023年初,專為人工智能打造的Inferentia 2發(fā)布,將計算性能提高了三倍,加速器總內(nèi)存提高了四分之一,吞吐量提高了四分之一,延遲提高了十分之一。Inf2實例(可通過芯片之間的直接超高速連接支持分布式推理)最多可支持1750億個參數(shù),這使其成為大規(guī)模模型推理的有力競爭者。

在亞馬遜、微軟和谷歌這三家中,亞馬遜是唯一一家在服務(wù)器中提供兩種類型芯片(標(biāo)準(zhǔn)計算芯片和用于訓(xùn)練與運行機器學(xué)習(xí)模型的專用芯片)的云提供商,其在2015年收購以色列芯片設(shè)計公司Annapurna Labs為這些努力奠定了基礎(chǔ)。

谷歌

早在2013年,谷歌就已秘密研發(fā)一款專注于AI機器學(xué)習(xí)算法的芯片,并將其用在內(nèi)部的云計算數(shù)據(jù)中心中,以取代英偉達(dá)的GPU。2016年5月,這款自研芯片公諸于世,即TPU:TPU可以為深度學(xué)習(xí)模型執(zhí)行大規(guī)模矩陣運算,例如用于自然語言處理、計算機視覺和推薦系統(tǒng)的模型,其最初專為谷歌的超級業(yè)務(wù)云計算數(shù)據(jù)中心而生。

實際上2020年,谷歌就在其數(shù)據(jù)中心部署了人工智能芯片TPU v4。不過直到今年4月4日,谷歌才首次公開了技術(shù)細(xì)節(jié) —— 相比TPU v3,TPU v4性能提升2.1倍;基于TPU v4的超級計算機擁有4096塊芯片,整體速度提高了約10倍。谷歌稱,對于類似大小的系統(tǒng),谷歌能做到比Graphcore IPU Bow快4.3-4.5倍,比英偉達(dá)A100快1.2-1.7倍,功耗低1.3-1.9倍。

目前,谷歌已將負(fù)責(zé)AI芯片的工程團隊轉(zhuǎn)移到了谷歌云,旨在提高谷歌云出售AI芯片給租用其服務(wù)器的公司的能力,從而與更大的競爭對手微軟和亞馬遜云科技相抗衡。雖然英偉達(dá)提供的GPU優(yōu)勢在前,但AI行業(yè)頭部的OpenAI、Midjourney的算力系統(tǒng)并沒有采購英偉達(dá)的GPU,而是選擇了谷歌的方案。

微軟

據(jù)The Information報道,微軟計劃在下個月的年度開發(fā)者大會上推出該公司首款為人工智能設(shè)計的芯片。2019年,微軟就開始在內(nèi)部開發(fā)代號為“Athena”的芯片,目前芯片已經(jīng)提供給微軟和OpenAI進行測試。Athena是為訓(xùn)練和運行大型語言模型(LLM)的數(shù)據(jù)中心服務(wù)器設(shè)計的,同時可支持推理,能為ChatGPT背后的所有AI軟件提供動力。

Athena的首個目標(biāo)是為OpenAI提供算力引擎,以替代昂貴的英偉達(dá)A100/H100,如果與英偉達(dá)的產(chǎn)品擁有同等競爭力,每個芯片的成本將可以降低三分之一。若明年大規(guī)模推出,Athena將允許微軟內(nèi)部和OpenAI的團隊同時訓(xùn)練和推理模型。

Meta

2022年,Meta還在主要使用CPU(中央處理器)和專為加速AI算法而設(shè)計的定制芯片組合來運行其AI工作負(fù)載,然而效率往往并不如GPU。之后,Meta取消了在2022年大規(guī)模推出定制芯片的計劃,轉(zhuǎn)而訂購了價值數(shù)十億美元的英偉達(dá)GPU。

直到今年,Meta在5月19日公布了AI訓(xùn)練與推理芯片項目,稱其為“針對推理工作負(fù)載的內(nèi)部定制加速器芯片系列”。據(jù)介紹,MTIA芯片的功耗僅為25瓦,占英偉達(dá)等市場領(lǐng)先供應(yīng)商芯片功耗的一小部分,并使用了RISC-V(第五代精簡指令處理器)開源架構(gòu)。

OpenAI

路透社報道,至少從去年開始,OpenAI就已討論各種方案,以解決AI芯片短缺問題。OpenAI已將獲取更多AI芯片列為公司首要任務(wù),討論方案包括自研AI芯片、與包括英偉達(dá)在內(nèi)的其他芯片制造商更密切地合作,以及在英偉達(dá)之外實現(xiàn)供應(yīng)商多元化。

對于OpenAI來說,自研芯片不僅能解決GPU的短缺問題,同時也將有效降低硬件運行所需的成本,畢竟GPT-4的運行成本實在太高了。

特斯拉

目前,特斯拉已經(jīng)推出了兩種自研芯片:全自動駕駛(FSD)芯片和Dojo D1芯片。

FSD芯片是用于特斯拉汽車上的自動駕駛系統(tǒng)的芯片,自2019年開始,特斯拉就將車上的英偉達(dá)處理器換成了自研的融合高速運算、AI等功能的FSD芯片。

Dojo D1芯片則是用于特斯拉超級計算機Dojo的芯片,是一種高吞吐量、通用的CPU。2021年,在首屆特斯拉AI Day上展示了其首款A(yù)I訓(xùn)練芯片Dojo D1,以及基于該芯片構(gòu)建的完整Dojo集群ExaPOD,目的是為了加速特斯拉自動駕駛系統(tǒng)的訓(xùn)練和改進,成為從汽車圈跑出來的強大對手。

英偉達(dá)鞏固地位

整體來看,當(dāng)英偉達(dá)的一些主要客戶開始自己開發(fā)AI芯片,無疑會讓英偉達(dá)面臨更為激烈的競爭。除了現(xiàn)有A100、H100等熱門產(chǎn)品出貨持續(xù)維持增長以外,英偉達(dá)也在持續(xù)發(fā)布多項用于AI和數(shù)據(jù)中心的新產(chǎn)品,以進一步鞏固自身在AI領(lǐng)域的話語權(quán)和統(tǒng)治力。

值得注意的是,英偉達(dá)計劃每年都推出一代新的數(shù)據(jù)中心GPU架構(gòu),例如明年將會使用H200來取代現(xiàn)有的H100。從NVIDIA新公布的官方路線圖來看,英偉達(dá)對指定日期持謹(jǐn)慎態(tài)度,這一點可能主要是因為與代工廠同步其計劃以及軟件部署準(zhǔn)備方面所面臨的挑戰(zhàn)。

截屏2023-10-14 00.03.58.png

路線圖顯示,英偉達(dá)準(zhǔn)備在2024年推出Hopper GH200 GPU,然后在2024年至2025年之間的某個時間推出基于Blackwell的GB200 GPU,最終在2025年后推出GX200 GPU。當(dāng)然,這些所謂的GH200、GB200和GX200都是圖形處理器的代號,實際產(chǎn)品名稱應(yīng)該是H200、B100和X100等。

目前,英偉達(dá)的產(chǎn)能正在逐漸攀升,加之采購量逐漸放緩,應(yīng)該一段時間后就會達(dá)到供需平衡的階段。唯一的矛盾就只剩下價格了,考慮到英偉達(dá)的成本與售價有著近10倍的差距,降價的空間應(yīng)該很充裕。那么對于絕大多數(shù)的企業(yè)而言,采購英偉達(dá)的專業(yè)計算卡搭建高性能數(shù)據(jù)中心依舊是一個劃算的買賣。

而一些對性能要求較低的數(shù)據(jù)中心,相比之下用自研芯片建造會更合適:面向普通用戶的數(shù)據(jù)中心可以使用自研芯片,降低建造成本及后續(xù)的維護費用。隨著AI模型的應(yīng)用范圍擴大,企業(yè)顯然也需要在全球各地建設(shè)更多的數(shù)據(jù)中心,以便就近響應(yīng)用戶的使用需求。

雖然最有競爭力的MI300X采用了更大的192GB HBM3,但英偉達(dá)的產(chǎn)品也在迭代,等AMD正式發(fā)售MI300X時,英偉達(dá)可能也已經(jīng)推出了參數(shù)更強的產(chǎn)品;而且由于AMD未公布新品價格,采用192GB HBM3的MI300X成本可能與H100相比可能不會有顯著的價格優(yōu)勢。

其次,MI300X沒有H100所擁有的用于加速Transformer大模型的引擎,這也意味著用同樣數(shù)量的MI300X將花費更長的訓(xùn)練時間。MI300X可能更多是作為客戶買不到H100的“替代品”。

相較于硬件參數(shù),最重要的是在軟件生態(tài)的建立和開發(fā)方面,英偉達(dá)的CUDA經(jīng)過十幾年積累已構(gòu)建其他競爭對手短時間難以逾越的壁壘。

從當(dāng)前進程來看,英偉達(dá)此前積累下來的優(yōu)勢,即使在未來也不會輕易丟失。但是隨著其他企業(yè)的入局,英偉達(dá)的話語權(quán)也不會再那么強硬,在產(chǎn)品定價等方面,可能會讓渡出部分利潤來維持市場份額。

傳統(tǒng)半導(dǎo)體巨頭試圖分一杯羹并不讓人感到奇怪,需要英偉達(dá)警惕的是OpenAI和微軟同時宣布將啟動AI芯片研發(fā)計劃,作為AI芯片最核心的兩大用戶,如果他們的自研芯片計劃成功,顯然會對英偉達(dá)的生態(tài)地位和營收造成更為嚴(yán)重的影響。



關(guān)鍵詞: 英偉達(dá) 算力 AI 芯片 AMD

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉