博客專欄

EEPW首頁(yè) > 博客 > 全球最大,馬斯克4個(gè)月建成10萬(wàn)張H100超算集群!xAI算力超越OpenAI,奧特曼怕了

全球最大,馬斯克4個(gè)月建成10萬(wàn)張H100超算集群!xAI算力超越OpenAI,奧特曼怕了

發(fā)布人:傳感器技術(shù) 時(shí)間:2024-09-07 來(lái)源:工程師 發(fā)布文章

圖片

圖片

 

【導(dǎo)讀】兩天前,馬斯克得意自曝:團(tuán)隊(duì)僅用122天,就建成了10萬(wàn)張H100的Colossus集群,未來(lái)還會(huì)擴(kuò)展到15萬(wàn)張H100和5萬(wàn)張H200。此消息一出,奧特曼都被嚇到了:xAI的算力已經(jīng)超過(guò)OpenAI了,還給員工承諾了價(jià)值2億期權(quán),這是要上天?

馬斯克的xAI一路狂飆突進(jìn),把Sam Altman都整怕了!

就在9月3日,馬斯克在推上得意自曝:

團(tuán)隊(duì)僅僅用了122天時(shí)間,就建成了有10萬(wàn)張H100的Colossus集群,是世界上最強(qiáng)大的AI訓(xùn)練系統(tǒng)。

而且,未來(lái)幾個(gè)月規(guī)模還要翻一倍,擴(kuò)展到15萬(wàn)張H100+5萬(wàn)張H200。

圖片

最后,馬斯克感謝了英偉達(dá)和許多其他合作伙伴、供應(yīng)商。據(jù)悉,是戴爾開(kāi)發(fā)、組裝了Colossus系統(tǒng)。

馬斯克的xAI,已經(jīng)讓幾大AI巨頭感受到了強(qiáng)烈的威脅。

圖片圖片

根據(jù)內(nèi)幕消息,Sam Altman就曾表示,自己是怕了馬斯克了!

如今的xAI,不光算力有超越OpenAI之勢(shì),還對(duì)員工十分大方。有說(shuō)法指出,對(duì)于xAI的研究者,馬老板曾承諾過(guò)價(jià)值2億美元的期權(quán)。

圖片

圖片

馬斯克,全力進(jìn)軍超算

相信大家都已經(jīng)發(fā)現(xiàn):馬斯克的超算野心,是愈發(fā)藏不住了!

隔三岔五的,就會(huì)有勁爆消息曝出。

7月底,xAI啟動(dòng)了位于孟菲斯的超級(jí)AI集群的訓(xùn)練,該集群由十萬(wàn)個(gè)液冷H100 GPU組成。

十萬(wàn)個(gè)H100 GPU消耗的電力大約在70兆瓦,因此這個(gè)超算至少會(huì)消耗150兆瓦的電力。

8月底,特斯拉宣布了Cortex AI集群,包括5萬(wàn)個(gè)英偉達(dá)H100 GPU,和2萬(wàn)個(gè)特斯拉的Dojo AI晶圓級(jí)芯片。

圖片

圖片如今看來(lái),這些集群很可能都正式投入運(yùn)行,甚至已經(jīng)在訓(xùn)練AI模型了。不過(guò),馬斯克真的有能力讓它們?nèi)吭诰€嗎?首要問(wèn)題是,要調(diào)試和優(yōu)化這些集群的設(shè)置,需要一定時(shí)間。其次,xAI還得確保它們獲得足夠的電力。我們知道,雖然馬斯克的公司一直在用14臺(tái)獨(dú)立發(fā)電機(jī)為其供電,但要為十萬(wàn)塊H100 GPU供電,這些電力顯然不夠。訓(xùn)練xAI的Grok 2,需要兩萬(wàn)塊H100;而馬斯克預(yù)測(cè),要訓(xùn)練Grok 3,可能會(huì)需要十萬(wàn)塊H100。所以,xAI的數(shù)據(jù)中心,建得怎么龐大都不過(guò)分。

建設(shè)速度太快,推測(cè)是「部分上線」

122天,也就是4個(gè)月的時(shí)間,建成10萬(wàn)張H100組成的超算集群,這是個(gè)什么速度?有業(yè)內(nèi)人士表示,通常完成這樣一個(gè)集群可能需要一年時(shí)間。這個(gè)速度,這個(gè)規(guī)模,很馬斯克。圖片但也有人猜測(cè),他可能有夸大其詞的傾向,高估了在單一集群中實(shí)際運(yùn)行的GPU數(shù)量。囤足10萬(wàn)張芯片、放在一起共同運(yùn)行,并不意味著就是單一集群。論GPU數(shù)量,Meta在今年1月就已經(jīng)計(jì)劃采購(gòu)35萬(wàn)張H100,但實(shí)際運(yùn)行時(shí)是分成了不同集群。之所以還沒(méi)有其他公司能造出10萬(wàn)GPU規(guī)模的集群,很難說(shuō)是因?yàn)槿卞X,更重要的因素是網(wǎng)絡(luò)解決方案。串聯(lián)起所有GPU的網(wǎng)絡(luò),需要保證足夠的高帶寬、低延遲和可靠性,才能讓10萬(wàn)張芯片協(xié)同起來(lái)像一臺(tái)計(jì)算機(jī)一樣工作。圖片

圖片

Colossus是二戰(zhàn)期間第一臺(tái)可編程計(jì)算機(jī),也曾在科幻電影里登場(chǎng)除了網(wǎng)絡(luò),還有電力問(wèn)題。馬斯克此前表示,Colossus在6月底已經(jīng)啟動(dòng)運(yùn)行,當(dāng)時(shí),電力公司供應(yīng)的最高功率只有幾兆瓦,僅能供應(yīng)數(shù)千個(gè)GPU同時(shí)運(yùn)行。電力公司表示,到8月,xAI將獲得大約50兆瓦的電力,但這只能供應(yīng)大約5萬(wàn)個(gè)芯片。與此同時(shí),現(xiàn)場(chǎng)即將建成的另一個(gè)發(fā)電站將提供另外150兆瓦,可以滿足10萬(wàn)個(gè)或更多芯片的電力需求,但要到明年才能實(shí)現(xiàn)。馬斯克似乎找到了一個(gè)短期解決方案:引入化石能源發(fā)電機(jī)。圖片Colossus所在地,田納西州孟菲斯的環(huán)保組織前幾天剛剛寫(xiě)信控訴馬斯克,指責(zé)他在沒(méi)有許可的情況下安裝了至少18臺(tái)渦輪機(jī)(可能更多),加劇了當(dāng)?shù)氐目諝馕廴尽?/span>圖片出于網(wǎng)絡(luò)和電力兩方面的限制因素,The Information指出,馬斯克的這個(gè)集群可能只是「部分完成」除了Colossus和微軟在鳳凰城為OpenAI建造的超算集群,多個(gè)類似的集群也正處在研發(fā)和建設(shè)過(guò)程中。

奧特曼:微軟爸爸,我們的算力不夠了

盡管如此,馬斯克這個(gè)超大集群的進(jìn)展,還是讓一些競(jìng)爭(zhēng)對(duì)手極度擔(dān)心!圖片其中一位,就是OpenAI的CEO Sam Altman。根據(jù)內(nèi)部消息,奧特曼已經(jīng)向一些微軟高管透露了自己的擔(dān)憂——他十分擔(dān)心,xAI很快就擁有比OpenAI更多的算力!圖片雖然為OpenAI提供算力的微軟老大哥,資金實(shí)力非常雄厚,但作為上市公司,微軟在花費(fèi)資金時(shí),還需要對(duì)公眾股東負(fù)責(zé)。但馬斯克則完全沒(méi)有這樣的限制,盡管他的資金不如微軟。圖片甭管馬斯克有多少吹牛的成分,即使能部分完成Colossus集群的建成,也是一件令人印象深刻的事。外媒The Information猜測(cè),馬斯克這種神奇的趕工速度,是否放棄了傳統(tǒng)的例行安全檢查?畢竟,如果按例檢查的話,可能會(huì)讓數(shù)據(jù)中心項(xiàng)目的竣工延遲數(shù)月。圖片而且,The Information還發(fā)現(xiàn)了一個(gè)「華點(diǎn)」:Colossus位于以前的制造工廠內(nèi),這可不是適合高性能計(jì)算的理想場(chǎng)所。微軟和英偉達(dá)的高管透露,這是他們最不愿意放置昂貴硬件的地點(diǎn)之一。因?yàn)檫@些地方很難改造,來(lái)適應(yīng)服務(wù)器耗費(fèi)的巨大電量,和數(shù)據(jù)中心設(shè)備需要的冷卻技術(shù)。咱們都知道,馬老板一向喜歡突破邊界,而在質(zhì)疑聲紛至沓來(lái)時(shí),他又經(jīng)常被證明是正確的。最近在xAI的姊妹公司X,馬斯克又有了一個(gè)驚人之舉:關(guān)閉了一個(gè)數(shù)據(jù)中心。當(dāng)時(shí)大家都擔(dān)心,X會(huì)因此而崩潰。結(jié)果誰(shuí)也沒(méi)想到,X運(yùn)行得很好,馬斯克居然有如此先見(jiàn)之明。而這次,馬斯克在田納西州的超算,也同樣可能會(huì)對(duì)AI開(kāi)發(fā)者振聾發(fā)聵——或許他們會(huì)發(fā)現(xiàn),傳統(tǒng)的做事方式如今已經(jīng)過(guò)時(shí)了。

兩家神秘AI巨頭,正計(jì)劃打造1250億美元超算

如今,數(shù)據(jù)中心之戰(zhàn),競(jìng)爭(zhēng)還在火熱加?。≈辽儆辛缶揞^,已經(jīng)下場(chǎng)了。根據(jù)北達(dá)科他州官員的披露,除了微軟、OpenAI和xAI,還有兩家AI巨頭也正在醞釀建造「巨型AI數(shù)據(jù)中心」。圖片這兩家公司找到了商務(wù)專員Josh Teigen和州長(zhǎng)Doug Burgum,商討建立巨型AI數(shù)據(jù)中心。除了技術(shù)研發(fā),這類數(shù)據(jù)中心也對(duì)資源和基礎(chǔ)設(shè)施提出了很高的要求。不僅需要采購(gòu)足夠的芯片和相關(guān)設(shè)備,還要留出數(shù)萬(wàn)英畝的土地、建設(shè)新的發(fā)電設(shè)施。馬斯克的Colossus要自建發(fā)電站才能弄出200兆瓦,而這兩家公司可能是因?yàn)橹苯诱疑狭酥蓍L(zhǎng),他們的初始電力就能達(dá)到500~1000兆瓦,并計(jì)劃在幾年內(nèi)擴(kuò)增至5k~1w兆瓦。這些項(xiàng)目的規(guī)模將比現(xiàn)有的任何數(shù)據(jù)中心,包括Colossus都擴(kuò)大幾個(gè)數(shù)量級(jí)。100兆瓦可以為7萬(wàn)至10萬(wàn)個(gè)家庭供電;去年微軟Azure的全球數(shù)據(jù)中心總共使用了大約5吉瓦(5k兆瓦)的電力。這就意味著,一個(gè)數(shù)據(jù)中心,可能和整個(gè)Azure云服務(wù)平臺(tái)的耗電量相當(dāng)。根據(jù)會(huì)議的音頻記錄,這類規(guī)模的項(xiàng)目耗資可能超過(guò)1250億美元。

圖片

在對(duì)外會(huì)議上,商務(wù)專員Teigen沒(méi)有透露這兩家神秘AI巨頭的名字,但他表示市值達(dá)到了「一萬(wàn)億美元」。這就將潛在名單縮小到了美國(guó)的大約6家公司,七巨頭之六——英偉達(dá)、亞馬遜、微軟、谷歌、Meta和蘋果。微軟此前就和OpenAI討論過(guò)建造價(jià)值1000億美元的「星際之門」(Stargate),而且北達(dá)科他州長(zhǎng)Doug Burgum曾是微軟的高管,在2001年以11億美元向微軟出售過(guò)自己的一家軟件公司。圖片但我們也知道,谷歌和亞馬遜等其他公司也在積極提升其AI計(jì)算能力。

揭開(kāi)美國(guó)AI超算的神秘面紗

AI巨頭一向?qū)舛思夹g(shù)嚴(yán)格保密,但他們對(duì)開(kāi)發(fā)數(shù)據(jù)中心所需的技術(shù),保密程度有過(guò)之而無(wú)不及。The Information列出了在美國(guó)7個(gè)州運(yùn)營(yíng)或計(jì)劃中的17個(gè)超算數(shù)據(jù)中心,涉及微軟、OpenAI、Meta和xAI等公司。總的來(lái)說(shuō),仍在開(kāi)發(fā)或計(jì)劃階段的設(shè)施建設(shè)成本可能超過(guò)500億美元,其中包括約350億美元的英偉達(dá)芯片,以及運(yùn)營(yíng)所需的額外數(shù)十億美元。圖片這些超算估計(jì)在數(shù)年時(shí)間內(nèi)落成,并需要大量的芯片、土地和電力。ChatGPT問(wèn)世前,GPU集群通常只包含幾千個(gè)芯片。如今,一些最大的GPU集群擁有超過(guò)3萬(wàn)個(gè)芯片,上面提到的這些超算更是達(dá)到了前所未有的規(guī)模。要為所有計(jì)劃中的數(shù)據(jù)中心供電,美國(guó)能源部預(yù)計(jì)會(huì)出現(xiàn)電力不足的情況,因此最近提出了一些解決方案,例如資助研究使AI計(jì)算更高效。圖片

爭(zhēng)奪「下一個(gè)高地」

現(xiàn)在,數(shù)據(jù)中心競(jìng)賽的焦點(diǎn),集中到了英偉達(dá)CEO黃仁勛的身上。就在上周,老黃發(fā)表了以下言論,宛如在業(yè)內(nèi)投入一顆炸彈。

率先達(dá)到超算集群下一個(gè)高地的人,將實(shí)現(xiàn)革命性的AI水平。

此言一出,英偉達(dá)的GPU,誰(shuí)敢不買?即使已經(jīng)和博通共同設(shè)計(jì)出了TPU的谷歌,最近也為英偉達(dá)即將推出的Blackwell下了大單。圖片對(duì)GPU的爭(zhēng)奪,已經(jīng)引發(fā)了AI開(kāi)發(fā)者及其云供應(yīng)商之間的緊張局勢(shì),甚至,有時(shí)還會(huì)引發(fā)它們和英偉達(dá)的摩擦。比如,馬斯克就曾考慮和甲骨文達(dá)成一項(xiàng)大規(guī)模協(xié)議,根據(jù)他的計(jì)劃,xAI將在未來(lái)幾年內(nèi),花費(fèi)超過(guò)100億美元租賃英偉達(dá)的GPU。而這項(xiàng)談判最終破裂了,部分原因在于,馬斯克認(rèn)為甲骨文無(wú)法足夠快地建起超算,而甲骨文則擔(dān)心,他會(huì)把GPU集群放在一個(gè)供電不足的地方。

芯片多多,問(wèn)題多多

很多超大的GPU集群都位于土地遼闊、空間充裕且電力充足的地區(qū)。例如,馬斯克的Colossus特意選址在田納西州孟菲斯,亞馬遜、Meta和微軟都在亞利桑那州的鳳凰城地區(qū)運(yùn)營(yíng)AI服務(wù)器。但隨著更大的GPU集群需要更多的電力,AI巨頭們正計(jì)劃在非傳統(tǒng)數(shù)據(jù)中心樞紐的地區(qū)建造這些集群。例如,亞馬遜最近在賓夕法尼亞州中部的一座核電站旁邊購(gòu)置了土地,計(jì)劃供應(yīng)約一吉瓦(1000兆瓦)的電力。這足以為整個(gè)舊金山供電,或者構(gòu)建多達(dá)100萬(wàn)張GPU的集群。另一個(gè)挑戰(zhàn)是如何進(jìn)行設(shè)備冷卻。傳統(tǒng)上,數(shù)據(jù)中心一般采用風(fēng)冷,但GPU服務(wù)器產(chǎn)生的熱量遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)服務(wù)器。為了更佳的冷卻效果,微軟在威斯康星州為OpenAI建設(shè)的數(shù)據(jù)中心預(yù)計(jì)將使用液冷而非風(fēng)冷。雖然如今越來(lái)越多人懷疑,AI泡沫要接近臨界點(diǎn)了,但興建超算之風(fēng),一時(shí)半會(huì)還不會(huì)冷卻。畢竟,競(jìng)家都All In了,你能不上嗎?六巨頭割據(jù),群雄逐鹿,誰(shuí)將奪得下一個(gè)超算高地?


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: 全球

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉