博客專欄

EEPW首頁 > 博客 > 悄然崛起的英偉達(dá)新對手

悄然崛起的英偉達(dá)新對手

發(fā)布人:芯東西 時間:2024-07-01 來源:工程師 發(fā)布文章

圖片

圖片

挑戰(zhàn)英偉達(dá)。本文授權(quán)轉(zhuǎn)載自公眾號“半導(dǎo)體行業(yè)觀察”,ID:icbank,作者:邵逸琦。

英偉達(dá)都有哪些對手?

首選當(dāng)然是AMD和英特爾,前者本身就有AI加速卡的業(yè)務(wù),集CPU和GPU設(shè)計能力與一身,而后者呢,作為x86架構(gòu)的奠基人,如今也涉足AI加速卡領(lǐng)域,可以見到它們所推出的產(chǎn)品不僅在參數(shù)上對標(biāo)英偉達(dá),還在定位與售價等方面發(fā)動了一輪又一輪的攻勢。

而英偉達(dá)的客戶與博通和Marvell組成統(tǒng)一戰(zhàn)線后,也成了它的對手,不斷推陳出新的自研定制芯片,開始取代傳統(tǒng)的通用AI加速卡,讓英偉達(dá)感受到了另一種壓力。

而在網(wǎng)絡(luò)領(lǐng)域,英偉達(dá)也迎來了自己的對手。


01.英偉達(dá)獨(dú)占AI網(wǎng)絡(luò)



進(jìn)入21世紀(jì)以來,隨著云計算、大數(shù)據(jù)的日益普及,數(shù)據(jù)中心得到了快速發(fā)展。而InfiniBand在其中發(fā)揮了很大的作用,尤其是從2023年開始,以ChatGPT為代表的大型AI模型依賴于InfiniBand,讓這一網(wǎng)絡(luò)技術(shù)的關(guān)注度進(jìn)一步提升。

眾所周知,現(xiàn)代數(shù)字計算機(jī)自誕生以來就一直采用馮·諾依曼體系結(jié)構(gòu),該體系結(jié)構(gòu)中有CPU(算術(shù)邏輯單元和控制單元)、內(nèi)存(RAM、硬盤)和I/O(輸入/輸出)設(shè)備。20世紀(jì)90年代初,為了支持越來越多的外部設(shè)備,Intel率先在標(biāo)準(zhǔn)PC架構(gòu)中引入了外圍組件互連(PCI)總線設(shè)計。

隨后,互聯(lián)網(wǎng)進(jìn)入快速發(fā)展階段,在線業(yè)務(wù)和用戶規(guī)模的不斷增長對IT系統(tǒng)容量提出了巨大挑戰(zhàn)。在摩爾定律的支持下,CPU、內(nèi)存、硬盤等部件都在飛速進(jìn)步,而PCI總線的更新?lián)Q代速度卻比較慢,大大限制了I/O性能,成為了整個系統(tǒng)的瓶頸。

為了解決這個問題,Intel、微軟和SUN牽頭制定了“下一代I/O(NGIO)”技術(shù)標(biāo)準(zhǔn),而IBM、康柏和惠普則牽頭制定了“未來I/O(FIO)”,并于1998年聯(lián)合制定了PCI-X標(biāo)準(zhǔn)。

1999 年,F(xiàn)IO開發(fā)者論壇和 NGIO 論壇合并成立了InfiniBand貿(mào)易協(xié)會 (IBTA)。很快,在2000年,InfiniBand架構(gòu)規(guī)范1.0版本正式發(fā)布。InfiniBand誕生的目的就是為了取代PCI總線,它引入了RDMA協(xié)議,提供更低的延遲、更高的帶寬、更高的可靠性,從而實(shí)現(xiàn)更強(qiáng)大的I/O性能。

同樣在1999年5月,幾位從英特爾和伽利略科技公司出走的員工在以色列成立了一家叫Mellanox的芯片公司, Mellanox成立后加入了NGIO,后來NGIO與FIO 合并,Mellanox也加入了InfiniBand陣營,并于2001年推出了第一款I(lǐng)nfiniBand產(chǎn)品。

而隨著英特爾轉(zhuǎn)向PCI Express(PCIe),以及微軟退出InfiniBand,該網(wǎng)絡(luò)技術(shù)開始轉(zhuǎn)向計算機(jī)集群互聯(lián)的應(yīng)用領(lǐng)域,而新成立的Mellanox開始走上舞臺,逐漸成為InfiniBand發(fā)展過程中的中堅力量。

InfiniBand雖然同時被英特爾和微軟放棄,但它在新的領(lǐng)域中找到了增長點(diǎn)。2012年以后,隨著高性能計算(HPC)需求的不斷增長,InfiniBand技術(shù)不斷取得長足進(jìn)步,市場份額不斷提升。2015年,InfiniBand技術(shù)在TOP500榜單中的份額首次突破50%,達(dá)到51.4%(257個系統(tǒng))。這標(biāo)志著InfiniBand技術(shù)首次成功挑戰(zhàn)以太網(wǎng)技術(shù),成為超級計算機(jī)首選的內(nèi)部互連技術(shù)。

圖片

而Mellanox也在不斷成長:2010年,Mellanox與Voltaire合并,Mellanox和QLogic成為InfiniBand的主要供應(yīng)商;2013年,Mellanox進(jìn)一步進(jìn)軍網(wǎng)絡(luò)領(lǐng)域,收購硅光技術(shù)公司Kotura和并行光互連芯片制造商IPtronics,進(jìn)一步鞏固其行業(yè)地位;到2015年,Mellanox已占據(jù)全球InfiniBand市場80%的份額。業(yè)務(wù)范圍從芯片擴(kuò)展到網(wǎng)卡、交換機(jī)/網(wǎng)關(guān)、遠(yuǎn)程通信系統(tǒng)、線纜和模塊,成為世界級網(wǎng)絡(luò)供應(yīng)商。

隨著AI的持續(xù)發(fā)展,InfiniBand的價值也日益顯現(xiàn),Mellanox也因其在該技術(shù)上近乎壟斷的地位而成為廠商眼里的香餑餑。

為什么InfiniBand對于AI如此重要?對于AI超級計算機(jī)來說,我們可以把它看作一個由許多圖形處理單元(GPUs)組成的集群,這些單元進(jìn)行大量復(fù)雜的計算。此外,還有一些中央處理單元(CPUs)負(fù)責(zé)指揮計算機(jī)的操作,再加上一些DRAM芯片和NAND芯片,成本大約分配為:50-60%用于GPUs,10-15%用于CPUs和DRAM芯片,5-10%用于NAND芯片。

但上述所有的芯片需要互相連接,這可以通過InfiniBand或以太網(wǎng)電纜來實(shí)現(xiàn),也就是所謂的“網(wǎng)絡(luò)”,它們占硬件成本的10-15%,而目的就是提供盡可能高的帶寬,讓數(shù)據(jù)能快速傳輸,倘若不能實(shí)現(xiàn)更高的帶寬,那么無論在GPUs上花費(fèi)多少成本,最后都會變得毫無意義。

英偉達(dá)作為AI領(lǐng)域最早的探索者之一,很敏銳地察覺到了這一點(diǎn),同時決定將其關(guān)注點(diǎn)從游戲轉(zhuǎn)向AI。2019 年,英偉達(dá)以69億美元收購Mellanox,超過了競爭對手英特爾和微軟的出價,后兩者的出價分別為60億美元和55億美元,這筆數(shù)額龐大的收購,為英偉達(dá)進(jìn)入網(wǎng)絡(luò)技術(shù)市場鋪平了道路。

當(dāng)時英偉達(dá)的CEO黃仁勛解釋稱,收購Mellanox的原因是:“這是兩家全球領(lǐng)先的高性能計算公司的合并,我們專注于加速計算,而Mellanox則專注于互連和存儲?!?/span>

GPU和網(wǎng)絡(luò)技術(shù)捆綁銷售,聽起來有點(diǎn)像強(qiáng)買強(qiáng)賣,但令許多人都未預(yù)料到的是,由黃仁勛所打造的這一模式迅速取得了成功。截至今年1月,英偉達(dá)的年收入翻了一番多,達(dá)到609億美元,計算和網(wǎng)絡(luò)部門的銷售額增長了215%,占英偉達(dá)業(yè)務(wù)的78%。雖然英偉達(dá)的GPU部分引起了大量關(guān)注,但其網(wǎng)絡(luò)業(yè)務(wù)也是成功的關(guān)鍵。在公司的最后一次財報電話會議上,黃仁勛表示,InfiniBand的收入同比增長了5倍,意味著其增長速度約為整個計算和網(wǎng)絡(luò)業(yè)務(wù)的兩倍。

英偉達(dá)將自身的GPU算力Mellanox的網(wǎng)絡(luò)技術(shù)相結(jié)合,打造出了一個強(qiáng)大的“計算引擎”,在計算基礎(chǔ)設(shè)施方面,英偉達(dá)無疑占據(jù)著領(lǐng)先優(yōu)勢。


02.英偉達(dá)的大威脅



過去,業(yè)界一直在使用英偉達(dá)配套的 InfiniBand 網(wǎng)絡(luò)解決方案來部署人工智能和機(jī)器學(xué)習(xí)技術(shù),原因很簡單,它是目前最成熟的支持大規(guī)模部署的網(wǎng)絡(luò)技術(shù),但I(xiàn)nfiniBand并非完美,一方面由于收購,它變成了英偉達(dá)的獨(dú)家產(chǎn)品,另一方面,它的成本昂貴,絕非普通企業(yè)可以輕松承擔(dān)得起的。

英偉達(dá)的CEO黃仁勛曾調(diào)侃道,InfiniBand只占集群成本的20%,而它能將人工智能訓(xùn)練的性能提高20%,某種程度上已經(jīng)收回了成本,因而InfiniBand實(shí)際上是免費(fèi)的。但這樣的論斷顯然是有失偏頗的,客戶必須首先拿出集群成本的20%,才能真正榨取出集群的性能,這就意味著用120%的成本創(chuàng)造120%的性能。

相對比之下,基于以太網(wǎng)的集群通常只需要額外的10%甚至更低的成本,盡管后者在性能上往往難以與InfiniBand匹敵,但它憑著自己的低廉價格也爭取到了一部分用戶。事實(shí)上,如今高性能網(wǎng)絡(luò)的競爭,是InfiniBand與高速以太網(wǎng)的較量,資源充足的廠商會更傾向于選擇InfiniBand,而注重性價比的廠商則可能傾向于高速以太網(wǎng)。

但這樣的情況并非一成不變,即便是那些具備雄厚財力的大企業(yè),也在尋找更廉價更合適的網(wǎng)絡(luò)方案,英偉達(dá)與InfiniBand正在不斷受到挑戰(zhàn)。

2023年7月,Linux基金會宣布,將監(jiān)督成立一個超級以太網(wǎng)聯(lián)盟,該聯(lián)盟的創(chuàng)始成員包括AMD、Arista、Broadcom、思科、Eviden、HPE、英特爾、Meta 和微軟的支持下,超以太網(wǎng)聯(lián)盟表示將致力于改進(jìn)以太網(wǎng),以滿足高性能計算和人工智能系統(tǒng)所需的低延遲和可擴(kuò)展性要求。

該聯(lián)盟創(chuàng)立的首要任務(wù)是定義和開發(fā)他們所稱的超以太網(wǎng)傳輸(UET)協(xié)議,這是一種新的以太網(wǎng)傳輸層協(xié)議,能更好地滿足人工智能和HPC工作負(fù)載的需求。

在高層次上,超以太網(wǎng)聯(lián)盟希望以外科手術(shù)的方式完善以太網(wǎng),只對實(shí)現(xiàn)目標(biāo)所必需的部分進(jìn)行改進(jìn)和改動。從一開始,該聯(lián)盟就著眼于改進(jìn)以太網(wǎng)技術(shù)的軟件層和物理層,但不改變其基本結(jié)構(gòu),以確保成本效益和互操作性。

聯(lián)盟的技術(shù)目標(biāo)包括開發(fā)規(guī)范、應(yīng)用程序接口和源代碼,以定義超以太網(wǎng)通信的協(xié)議、接口和數(shù)據(jù)結(jié)構(gòu)。此外,聯(lián)盟還致力于更新現(xiàn)有的鏈路和傳輸協(xié)議,創(chuàng)建新的遙測、信令、安全和擁塞機(jī)制,以更好地滿足大型人工智能和高性能計算集群的需求。同時,由于人工智能和高性能計算工作負(fù)載有許多不同之處,UET 將為適當(dāng)?shù)牟渴鹛峁﹩为?dú)的配置文件。

得益于這個超級以太網(wǎng)聯(lián)盟,過去以太網(wǎng)運(yùn)行人工智能工作負(fù)載的幾個問題正在解決,也推動了以太網(wǎng)在傳統(tǒng)HPC工作負(fù)載中的更廣泛采用,這也讓以太網(wǎng)網(wǎng)絡(luò)公司找到了反攻InfiniBand的機(jī)會。

圖片

超級以太網(wǎng)聯(lián)盟成員之一,以太網(wǎng)絡(luò)公司Arista Networks在今年2月的財報電話會議中,其首席執(zhí)行官Jayshree Ullal解釋了InfiniBand和以太網(wǎng)之間的區(qū)別:“如你所知,從歷史上看,當(dāng)單獨(dú)考慮InfiniBand和以太網(wǎng)時各有優(yōu)勢。傳統(tǒng)上,InfiniBand被認(rèn)為是無損的,而以太網(wǎng)被認(rèn)為有一些損失特性。然而當(dāng)你實(shí)際將一個完整的GPU集群連同光學(xué)設(shè)備等一同考慮,并查看所有數(shù)據(jù)包大小上的任務(wù)完成時間一致性時,數(shù)據(jù)——包括來自博通的第三方數(shù)據(jù)——顯示在現(xiàn)實(shí)環(huán)境中比較這些技術(shù),以太網(wǎng)的任務(wù)完成時間大約快10%。所以,你可以孤立地看待這些技術(shù),也可以在實(shí)際集群中看待它們。而在實(shí)際集群中,我們已經(jīng)看到以太網(wǎng)的改進(jìn)。請記住,這只是我們今天所知的以太網(wǎng)。一旦我們有了超級以太網(wǎng)聯(lián)盟和一些改進(jìn),比如數(shù)據(jù)包噴灑、動態(tài)負(fù)載平衡和擁塞控制,我相信這些數(shù)字會變得更好?!?/span>

“Arista聲稱其以太網(wǎng)在任務(wù)完成速度上比InfiniBand快約10%,這一點(diǎn)令我們感到意外,特別是考慮到InfiniBand在當(dāng)前GPU集群中的深度滲透?!盝efferies分析師George Notter在會議后表示。

他指出,英偉達(dá)將GPUs與InfiniBand簡單捆綁銷售是該技術(shù)成功的關(guān)鍵原因,換句話說,InfiniBand受歡迎的部分原因是因?yàn)樗c英偉達(dá)的GPU一起銷售,但這現(xiàn)在GPU的積壓訂單減少了,使用InfiniBand的動機(jī)可能也會減少,這對Arista以及另一家以太網(wǎng)網(wǎng)絡(luò)公司博通來說是個好消息。

“我們在四個主要的AI以太網(wǎng)集群中取得了進(jìn)展,這些集群都是我們戰(zhàn)勝InfiniBand的案例。在所有四個案例中,我們現(xiàn)在正從試驗(yàn)轉(zhuǎn)向試點(diǎn),每年連接數(shù)千個GPU,”Arista首席執(zhí)行官Jayshree Ullal解釋道。Arista在上季度業(yè)績表現(xiàn)也非常不錯,截至3月的三個月中,Arista的收入同比增長了16%,每股收益增長了44%,分析師預(yù)計隨著AI基礎(chǔ)設(shè)施支出的增加,這一增長將會加速。Arista約40%的業(yè)務(wù)來自微軟和Meta,這兩家公司都宣布明年將再次增加資本支出。Jefferies分析師George Notter最近還將Arista的評級從持有上調(diào)至買入,他表示:“現(xiàn)在,部署基于GPU的基礎(chǔ)設(shè)施(包括以太網(wǎng))的熱潮將會持久?!?/span>

Arista并不是唯一一家受益于“部署熱潮”的網(wǎng)絡(luò)公司。博通截至2月4日的三個月收入同比增長了34%,達(dá)到120億美元,其中網(wǎng)絡(luò)收入增長了46%,達(dá)到33億美元。“這主要是由于我們的兩個超大規(guī)??蛻魧I加速器的強(qiáng)勁需求,”博通首席執(zhí)行官Hock Tan在財報電話會議上解釋道。

對網(wǎng)絡(luò)硬件的需求比博通預(yù)期的還要快,“超大規(guī)??蛻粢约安渴餉I數(shù)據(jù)中心的大型企業(yè)的強(qiáng)勁需求”推動了這一增長。因此,博通將其網(wǎng)絡(luò)業(yè)務(wù)的全年增長預(yù)期從30%上調(diào)至35%。整體而言,博通今年的收入預(yù)計為500億美元,比去年增長40%。

國外媒體The Next Platform提出了一個有趣的數(shù)學(xué)問題:Arista Networks在AI集群互連銷售中每賺取7.5億美元,英偉達(dá)可能會損失15億至22.5億美元。在過去的12個月中,粗略估計英偉達(dá)在 InfiniBand 網(wǎng)絡(luò)方面的銷售額為64.7億美元,而數(shù)據(jù)中心的GPU計算銷售額為397.8億美元,在四比一的分紅率和穩(wěn)定的市場條件下,英偉達(dá)可以保留約13億美元,而超級以太網(wǎng)聯(lián)盟可以保留17億至26億美元,如果一切保持不變,InfiniBand的銷售目標(biāo)將達(dá)到120億美元。

該媒體指出,超級以太網(wǎng)聯(lián)盟的成員可以搶占的市場份額很大,但他們將通過從系統(tǒng)中移除收入來搶占,就像Linux對Unix所做的那樣,而不是將收入從一種技術(shù)轉(zhuǎn)換為另一種技術(shù),其中節(jié)省下來的資金將重新投入到GPU中。


03.挑戰(zhàn)英偉達(dá)



英偉達(dá)不止是在網(wǎng)絡(luò)領(lǐng)域受到挑戰(zhàn),正如我們前文中提到的,它的最大依仗——GPU正在受到AMD、英特爾、博通等公司的圍剿,盡管它坐擁3萬億美元市值,但依然會倍感壓力。在網(wǎng)絡(luò)市場,Arista現(xiàn)在無疑還是非常弱小的一家公司,相較于英偉達(dá)InfiniBand動輒數(shù)十億美元的營收,短期內(nèi)它還難以挑戰(zhàn),但巨頭們對于AI集群網(wǎng)絡(luò)壟斷的不滿,讓Arista獲得快速發(fā)展的寶貴機(jī)會,假以時日,它很有可能成為英偉達(dá)新的心腹大患。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: 英偉達(dá)

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉