馬斯克打臉OpenAI，全球最大巨無霸模型Grok-1開源！3140億參數(shù)8個(gè)MoE，GitHub狂攬6k星

發(fā)布人：傳感器技術(shù) 時(shí)間：2024-03-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

【導(dǎo)讀】xAI的Grok，在七天后如期開源了！公開Grok背后代碼，讓馬斯克對(duì)OpenAI啪啪打臉。3140億參數(shù)8個(gè)MoE，權(quán)重架構(gòu)全開放，項(xiàng)目一上線已經(jīng)在GitHub上狂攬6k星。

說到做到，馬斯克xAI的Grok，果然如期開源了！

就在剛剛，xAI正式發(fā)布3140億參數(shù)混合專家模型Grok-1的權(quán)重和架構(gòu)。

3140億的參數(shù)，讓Grok-1成為迄今參數(shù)量最大的開源LLM，是Llama 2的4倍。

目前，xAI關(guān)于Grok-1沒有透露更多信息。

官網(wǎng)放出的信息如下——

- 基礎(chǔ)模型在大量文本數(shù)據(jù)上訓(xùn)練，未針對(duì)任何特定任務(wù)進(jìn)行微調(diào)。

- 314B參數(shù)的MoE，有25%的權(quán)重在給定token上處于激活狀態(tài)。

- 2023年10月，xAI使用JAX和Rust之上的自定義訓(xùn)練堆棧從頭開始訓(xùn)練。

一經(jīng)上線GitHub，Grok就狂攬了6k星，586個(gè)Fork。

項(xiàng)目地址：https://github.com/xai-org/grok-1

馬斯克還不忘嘲諷OpenAI一番，「告訴我們更多關(guān)于OpenAI的「open」部分...」

紐約時(shí)報(bào)點(diǎn)評(píng)道，開源Gork背后的原始代碼，是這個(gè)世界上最富有的人控制AI未來戰(zhàn)斗的升級(jí)。

開源究竟會(huì)讓技術(shù)更安全，還是會(huì)讓它更濫用？

「開源支持者」馬斯克，以身作則地卷入了AI界的這場(chǎng)激烈辯論，并用行動(dòng)給出了答案。

小扎剛剛也對(duì)Grok做出了評(píng)價(jià)，「并沒有給人留下真正深刻的印象，3140億參數(shù)太多了，你需要一堆H100，不過我已經(jīng)買下了」。

一條磁力鏈，全球首個(gè)最大模型開源

這次xAI開源Grok-1，遵守的是Apache-2.0許可證，因此，用戶可以自由使用、修改和分發(fā)軟件。存儲(chǔ)庫(kù)包含了用于加載和運(yùn)行Grok-1開源權(quán)重模型的JAX示例代碼。用戶需要下載checkpoint，將ckpt-0目錄放置在checkpoint中，隨后運(yùn)行以下代碼來測(cè)試：

pip install -r requirements.txtpython run.py

這個(gè)腳本會(huì)在測(cè)試輸入上，加載checkpoint和模型中的樣本。

由于模型較大，參數(shù)達(dá)到了314B參數(shù)，因此需要具有足夠GPU內(nèi)存的計(jì)算機(jī)，才能使用示例代碼測(cè)試模型。而且，由于此存儲(chǔ)庫(kù)中MoE層的實(shí)現(xiàn)效率不高，選擇該實(shí)現(xiàn)是為了避免需要自定義內(nèi)核來驗(yàn)證模型的正確性。通過Torrent客戶端和下面這個(gè)磁力鏈接，就可以下載權(quán)重了。

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

更多細(xì)節(jié)

斯坦福研究者Andrew Kean Gao瀏覽了model.py介紹了更多Grok的架構(gòu)信息，314B參數(shù)沒有更多附加條款。

8個(gè)混合專家（2個(gè)活躍專家），86B活躍參數(shù)。使用旋轉(zhuǎn)嵌入，而不是固定位置嵌入。

- tokenizer詞匯量：131,072（于GPT-4類似）相當(dāng)于2^17

- 嵌入大?。?144（48*128）

- Transformer層：64（每一層都有一個(gè)解碼層：多頭注意塊和密度塊）

- 鍵值大小：128

多頭注意模塊：有48個(gè)查詢頭和8個(gè)鍵值

密集塊（密集前饋塊）：

- 寬度因子（Widening Factor）：8

- 隱藏層大小為32768每個(gè)token從8個(gè)專家中選出2個(gè)。

旋轉(zhuǎn)位置嵌入大小6144，與模型的輸入嵌入大小相同。

- 上下文長(zhǎng)度：8192個(gè)token

- 精度：bf16

最后，附上一張總結(jié)版圖。

網(wǎng)友：開源爭(zhēng)霸戰(zhàn)要來

AI社區(qū)已經(jīng)沸騰了！

技術(shù)界指出，Grok的亮點(diǎn)是在前向反饋層中使用了GeGLU以及歸一化方法，并且使用了有趣的三明治范式技術(shù)（sandwich norm technique）。

連OpenAI的員工，都表示了自己對(duì)Grok的強(qiáng)烈興趣。

英偉達(dá)高級(jí)科學(xué)家Jim Fan表示，「有史以來最大的開源大模型，由世界級(jí)團(tuán)隊(duì)訓(xùn)練，通過磁力鏈Apache 2.0發(fā)布。314B參數(shù)，混合專家模型（8個(gè)專家2個(gè)是活躍的）。就連活躍參數(shù)規(guī)模（86B）都超過了最大的Llama模型。迫不及待地想看到基準(zhǔn)測(cè)試結(jié)果，以及人們能用它構(gòu)建出什么樣的應(yīng)用」。

AI研究人員Sebastian Raschka表示，與其他通常有使用限制的開源模重模型相比，Grok更為開源。不過它的開源程度低于Pythia、Bloom和Olmo，后者提供了訓(xùn)練代碼和可重現(xiàn)的數(shù)據(jù)集。

Craiyon創(chuàng)始人Boris Dayma，詳細(xì)分析了Grok-1的代碼。

網(wǎng)友indigo表示，為了「理解宇宙」的理念，看來xAI團(tuán)隊(duì)特意把參數(shù)設(shè)定成了「圓周率 314B」，這是目前規(guī)模最大的開源模型，期待今年6月的Llama 3加入Grok的開源爭(zhēng)霸戰(zhàn)。

Grok開源后，一大波微調(diào)要來了。

第一代Grok已超越Llama-2-70B

2023年11月，xAI推出了自己的第一代大語言模型Grok，正式加入大模型的戰(zhàn)爭(zhēng)。當(dāng)時(shí)，Grok在推特上作為「Premium+」訂閱服務(wù)的一部分，月費(fèi)16美元。xAI表示，Grok的設(shè)計(jì)靈感來源于《銀河系漫游指南》，它能夠回答幾乎所有問題，助力人類不分背景或政治立場(chǎng)地追求理解和知識(shí)。Grok最初的版本Grok-0擁有330億參數(shù)，緊接著xAI推出了經(jīng)過數(shù)次改進(jìn)的Grok-1，為X上的Grok聊天機(jī)器人提供支持。根據(jù)xAI公布的數(shù)據(jù)，在GSM8K、HumanEval和MMLU等一系列基準(zhǔn)測(cè)試中，Grok-1的表現(xiàn)超過了Llama-2-70B和GPT-3.5，雖然跟GPT-4還差得遠(yuǎn)。

當(dāng)時(shí)，Grok不僅能夠處理X平臺(tái)上實(shí)時(shí)生成的用戶內(nèi)容，還帶有一點(diǎn)幽默感，給憨憨的AI注入了一絲活力。在提供最新熱點(diǎn)事件信息（無論是政治還是體育）的同時(shí)，它還能抖個(gè)機(jī)靈，甚至偶爾諷刺一下。

馬斯克為何選擇開源？

在數(shù)次嘲諷OpenAI是「CloseAI」之后，馬斯克果真選擇了開源自家大模型。

當(dāng)然，這背后肯定也有商業(yè)上的考量。作為市場(chǎng)領(lǐng)導(dǎo)者的OpenAI，是沒有理由開源ChatGPT背后模型代碼的。現(xiàn)在，通過發(fā)布Grok的代碼，馬斯克將自己牢牢扎根在后者的陣營(yíng)中。這一決定，或許能讓他的xAI超越Meta和Mistral AI。Llama的開源給Meta帶來了很多好處，幾乎讓小扎從元宇宙的泥潭爬了出來。

而僅僅只是一個(gè)小型初創(chuàng)公司的Mistral AI，也因?yàn)樽约旱拈_源策略而聲名鵲起，被業(yè)界公認(rèn)為「歐洲的OpenAI」。

開源版本可能會(huì)鼓勵(lì)開發(fā)者和潛在客戶更快地采納自己的模型，實(shí)際上起到了市場(chǎng)推廣的作用。開發(fā)者社區(qū)對(duì)Grok開源版本的反饋和改進(jìn)也可能有助于xAI加速開發(fā)新版本，這些新版本xAI可以選擇開放源代碼或保留專有權(quán)。比如像Mistral一樣，承諾繼續(xù)發(fā)布開源版本，同時(shí)為付費(fèi)客戶保留最先進(jìn)的模型。馬斯克一直是開源技術(shù)的支持者，連Tesla也已經(jīng)開放了汽車某些部分的源代碼，而他的社交媒體平臺(tái)X公開了一些用于內(nèi)容排名的算法。「還有工作要做，但這個(gè)平臺(tái)已經(jīng)是迄今為止最透明、最注重真相、不是高門檻的平臺(tái)，」馬斯克今天在回應(yīng)對(duì)開源X推薦算法的評(píng)論時(shí)，這樣說道。

盡管OpenAI目前在AI領(lǐng)域仍遙遙領(lǐng)先，但開源和閉源的戰(zhàn)爭(zhēng)還遠(yuǎn)遠(yuǎn)沒有結(jié)束。

AI模型是否應(yīng)該開源？某些人認(rèn)為，必須防止這種強(qiáng)大技術(shù)免受闖入者的侵害，而另一些人則堅(jiān)持認(rèn)為，開源的利絕對(duì)大于弊。作為市場(chǎng)領(lǐng)導(dǎo)者的OpenAI，是沒有理由開源ChatGPT背后模型代碼的。現(xiàn)在，通過發(fā)布Grok的代碼，馬斯克將自己牢牢扎根在后者的陣營(yíng)中。這一決定，或許能讓他的xAI最終超越Meta和Mistral AI。參考資料：https://x.ai/blog/grok-oshttps://twitter.com/itsandrewgao/status/1769447551374156097https://www.wired.com/story/elon-musk-no-choice-open-chatbot-grok/

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

馬斯克打臉OpenAI，全球最大巨無霸模型Grok-1開源！3140億參數(shù)8個(gè)MoE，GitHub狂攬6k星

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

馬斯克打臉OpenAI，全球最大巨無霸模型Grok-1開源！3140億參數(shù)8個(gè)MoE，GitHub狂攬6k星

相關(guān)推薦

技術(shù)專區(qū)

馬斯克打臉OpenAI，全球最大巨無霸模型Grok-1開源！3140億參數(shù)8個(gè)MoE，GitHub狂攬6k星