馬斯克燒幾十億美元造最大超算中心，10萬塊H100訓(xùn)練Grok追趕GPT-4o

發(fā)布人：傳感器技術(shù) 時(shí)間：2024-05-29 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

編輯：?jiǎn)虠?nbsp;好困【導(dǎo)讀】最近，許久沒有新動(dòng)向的馬斯克放出了大消息——他旗下的人工智能初創(chuàng)公司xAI將投入巨資建造一個(gè)超算中心，以保證Grok 2及之后版本的訓(xùn)練。這個(gè)「超級(jí)計(jì)算工廠」預(yù)計(jì)于2025年秋季建成，規(guī)模將達(dá)到目前最大GPU集群的四倍。
前段時(shí)間，OpenAI、谷歌、微軟相繼開大會(huì)，AI圈子的競(jìng)爭(zhēng)如火如荼。這么熱鬧的時(shí)候，怎么能少得了馬斯克。前段時(shí)間忙著特斯拉和星鏈的他，最近好像開始騰出手，而且不鳴則已、一鳴驚人，直接放出一個(gè)大消息——自己要造世界上最大的超算中心。今年3月，他旗下的xAI發(fā)布了最新版的Grok 1.5，此后一直有關(guān)于Grok 2即將面世的傳說，但卻遲遲沒有官方消息。

難道是因?yàn)樗懔Σ粔颍?/span>沒錯(cuò)，億萬富翁可能也買不到足夠的芯片。今年四月他曾親自下場(chǎng)表示，沒有足夠多的先進(jìn)芯片，推遲了Grok 2模型的訓(xùn)練和發(fā)布。

他表示，訓(xùn)練Grok 2需要大約2萬個(gè)基于Hopper架構(gòu)的英偉達(dá)H100 GPU，并補(bǔ)充說Grok 3模型及更高版本將需要10萬個(gè)H100 芯片。特斯拉第一季度的財(cái)報(bào)也顯示，公司此前一直受到算力的限制，當(dāng)時(shí)馬斯克的計(jì)劃還是年底前部署8.5萬個(gè)H100 GPU，將xAI從紅杉資本和其他投資者那里籌集的60億美元中的大部分都花在芯片上。目前每臺(tái)H100的售價(jià)約為3萬美元，不算建造費(fèi)用和其他服務(wù)器設(shè)備，僅僅是芯片就需要花掉28億美元。根據(jù)馬斯克的估算，這個(gè)芯片儲(chǔ)量訓(xùn)練Grok 2綽綽有余。但可能老馬思考了一個(gè)月之后，覺得這一步邁得還不夠大，不夠有突破性。畢竟xAI的定位是要和OpenAI、谷歌這種強(qiáng)勁對(duì)手正面掰頭的，以后想訓(xùn)練模型可不能再因?yàn)樗懔Φ翩溩印?/span>于是，他最近公開表示，xAI需要部署10萬個(gè)H100來訓(xùn)練和運(yùn)行Grok的下一個(gè)版本。而且，xAI還計(jì)劃將所有芯片串聯(lián)成一個(gè)巨大的計(jì)算機(jī)——馬斯克稱之為「超級(jí)計(jì)算工廠」（Gigafactory of Compute）。老馬這個(gè)月已經(jīng)向投資者表示，他希望在2025年秋季之前讓這臺(tái)超級(jí)計(jì)算機(jī)運(yùn)行起來，而且他將「?jìng)€(gè)人負(fù)責(zé)按時(shí)交付超級(jí)計(jì)算機(jī)」，因?yàn)檫@對(duì)于開發(fā)LLM至關(guān)重要。這臺(tái)超算可能由xAI與Oracle合作共建。這幾年來，xAI已經(jīng)從Oracle租用了帶有約1.6萬個(gè)H100芯片的服務(wù)器，是這些芯片最大的訂單來源。如果不發(fā)展自己的算力，未來幾年xAI在云服務(wù)器上很可能就要花費(fèi)100億美元，算下來居然還是「超級(jí)計(jì)算工廠」比較省錢。

目前最大GPU集群

這個(gè)「超級(jí)計(jì)算工廠」一旦完工，規(guī)模將至少是當(dāng)前最大GPU集群的4倍。比如Meta官網(wǎng)在3月發(fā)布的數(shù)據(jù)顯示，他們當(dāng)時(shí)推出了2個(gè)包含2.4萬個(gè)H100 GPU的集群用于Llama 3的訓(xùn)練。

雖然英偉達(dá)已經(jīng)宣布今年下半年開始生產(chǎn)并交付全新架構(gòu)Blackwell的B100 GPU，但馬斯克目前的計(jì)劃還是采購(gòu)H100。為什么不用最新型號(hào)的芯片，反而要大批量購(gòu)入快要淘汰的型號(hào)？這其中的原因，老黃本人向我們解釋過——「在今天的AI競(jìng)爭(zhēng)里，時(shí)間很重要」。

英偉達(dá)會(huì)每一年更新一代產(chǎn)品，而如果你想等我的下一個(gè)產(chǎn)品，那么你就丟失了訓(xùn)練的時(shí)間和先發(fā)優(yōu)勢(shì)。下一個(gè)達(dá)到里程碑的公司會(huì)宣布一個(gè)突破性的AI，而接下來的第二名只在它上面提升0.3%。你要選擇做哪一種？這就是為什么一直做技術(shù)領(lǐng)先的公司很重要，你的客戶會(huì)在你上面建設(shè)并且相信你會(huì)一直領(lǐng)先。這里面時(shí)間很重要。這就是為什么我的客戶現(xiàn)在依然瘋狂的在建設(shè)Hopper系統(tǒng)。時(shí)間就是一切。下一個(gè)里程碑馬上就來。

然而，即使一切順利，「超級(jí)計(jì)算工廠」在馬斯克的「?jìng)€(gè)人負(fù)責(zé)」下按時(shí)交付，這個(gè)集群到了明年秋天是否仍然有規(guī)模優(yōu)勢(shì)，也是一個(gè)未知數(shù)。扎克伯格今年1月曾經(jīng)在Instagram上發(fā)帖，稱Meta到今年底將再部署35萬個(gè)H100，加上之前的算力總共相當(dāng)于60萬個(gè)H100，但他并未提及單個(gè)集群的芯片數(shù)量。

但這個(gè)數(shù)字沒過半年就幾乎翻了一番，5月初Llama 3發(fā)布前，有消息稱Meta已從英偉達(dá)額外購(gòu)買了50萬塊GPU，總數(shù)達(dá)到 100 萬塊，零售價(jià)值達(dá)300億美元。同時(shí)，微軟的目標(biāo)是到年底擁有180萬個(gè) GPU，OpenAI甚至更加激進(jìn)，希望為最新的AI模型使用1000萬個(gè)GPU。這兩家公司也在討論開發(fā)一個(gè)價(jià)值1000億美元的超級(jí)計(jì)算機(jī)，包含數(shù)百萬個(gè)英偉達(dá)GPU。

這場(chǎng)算力之戰(zhàn)，最后誰(shuí)會(huì)勝出呢？

應(yīng)該是英偉達(dá)吧。而且不僅僅是H100，英偉達(dá)CFO Colette Kress曾經(jīng)提到過一份Blackwell旗艦芯片的優(yōu)先客戶名單，包括OpenAI、亞馬遜、谷歌、xAI等等。即將投產(chǎn)的B100，以及英偉達(dá)之后將要一年一更的芯片，將會(huì)源源不斷地進(jìn)入科技巨頭們的超算中心，幫助他們完成算力的升級(jí)迭代。

芯片短缺，電也不夠

馬斯克在談到特斯拉的算力問題時(shí)也補(bǔ)充說，雖然迄今為止芯片短缺是AI發(fā)展的一大制約因素，但電力供應(yīng)在未來一兩年將至關(guān)重要，甚至?xí)〈酒蔀樽畲蟮南拗埔蛩亍?/span>包括新建的這家「超級(jí)計(jì)算工廠」的選址，最需要考慮的因素也是電力供應(yīng)。一個(gè)擁有10萬GPU的數(shù)據(jù)中心可能需要100兆瓦的專用電力。要提供這種量級(jí)的電力，xAI總部辦公室所在的舊金山灣區(qū)顯然不是理想的選擇。為了降低成本，數(shù)據(jù)中心往往建在電力更便宜且供應(yīng)更充足的偏遠(yuǎn)地區(qū)。例如，微軟和OpenAI除了計(jì)劃那個(gè)耗資千億美元的超算，也正在威斯康星州建造大型數(shù)據(jù)中心，建設(shè)成本約為100億美元；亞馬遜云服務(wù)的數(shù)據(jù)中心則選址在亞利桑那州。「超級(jí)計(jì)算工廠」一個(gè)非常可能的選址，是特斯拉總部，德克薩斯州奧斯汀市。去年特斯拉宣布建造的Dojo就部署在了這里。這臺(tái)超算基于定制芯片，幫助訓(xùn)練AI自動(dòng)駕駛軟件，也可以用于向外界提供云服務(wù)。第一臺(tái)Dojo運(yùn)行在1萬個(gè)GPU上，建造成本約為3億美元。馬斯克4月表示，特斯拉目前共有3.5萬個(gè)GPU用于訓(xùn)練自動(dòng)駕駛系統(tǒng)。

在數(shù)據(jù)中心進(jìn)行模型訓(xùn)練是一個(gè)極其耗電的過程。據(jù)估計(jì)，訓(xùn)練GPT-3的耗電量為1287兆瓦時(shí)，大約相當(dāng)于130個(gè)美國(guó)家庭每年消耗的電量。注意到AI電力問題的CEO不止馬斯克一人，Sam Altman本人曾向初創(chuàng)公司Helion Energy投資3.75 億美元，這家公司旨在利用核聚變提供一種更環(huán)保、更低成本的 AI 數(shù)據(jù)中心運(yùn)行方式。馬斯克則沒有押注在核聚變技術(shù)上，他認(rèn)為，AI公司很快將開始爭(zhēng)奪降壓變壓器（step down transformer），可以將高壓電流轉(zhuǎn)換為電網(wǎng)可用的電力，「從公用電網(wǎng)獲得的電力（例如 300 千伏）降至 1 伏以下是一個(gè)巨大的下降」。芯片之后，AI行業(yè)需要「transformers for Transformers」。參考資料：https://www.theinformation.com/articles/musk-plans-xai-supercomputer-dubbed-gigafactory-of-compute?rc=epv9gihttps://www.inc.com/ben-sherry/elon-musk-touts-nvidia-dominance-predicts-a-giant-leap-in-ai-power.htmlhttps://finance.yahoo.com/news/jensen-huang-elon-musk-openai-182851783.html?guccounter=1

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

馬斯克燒幾十億美元造最大超算中心，10萬塊H100訓(xùn)練Grok追趕GPT-4o

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

馬斯克燒幾十億美元造最大超算中心，10萬塊H100訓(xùn)練Grok追趕GPT-4o

相關(guān)推薦

技術(shù)專區(qū)

馬斯克燒幾十億美元造最大超算中心，10萬塊H100訓(xùn)練Grok追趕GPT-4o