比GPT-4快18倍，世界最快大模型Groq登場(chǎng)！每秒500 token破紀(jì)錄，自研LPU是英偉達(dá)GPU 10倍

發(fā)布人：傳感器技術(shù) 時(shí)間：2024-02-22 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

編輯：桃子好困

【導(dǎo)讀】卷瘋了！世界最快的大模型Groq一夜之間爆火，能夠每秒輸出近500個(gè)token。如此神速的響應(yīng)，背后全憑自研的LPU。
一覺醒來，每秒能輸出500個(gè)token的Groq模型刷屏全網(wǎng)。堪稱是「世界上速度最快的LLM」！

相比之下，ChatGPT-3.5每秒生成速度僅為40個(gè)token。有網(wǎng)友將其與GPT-4、Gemini對(duì)標(biāo)，看看它們完成一個(gè)簡(jiǎn)單代碼調(diào)試問題所需的時(shí)間。沒想到，Groq完全碾壓兩者，在輸出速度上比Gemini快10倍，比GPT-4快18倍。（不過就答案質(zhì)量來說，Gemini更好。）

，時(shí)長(zhǎng)01:23

最關(guān)鍵的是，任何人可以免費(fèi)用！進(jìn)入Groq主頁，目前有兩種可以自選的模型：Mixtral8x7B-32k，Llama 270B-4k。

地址：https://groq.com/與此同時(shí)，Groq API也向開發(fā)者提供，完全兼容OpenAI API。Mixtral 8x7B SMoE可以達(dá)到480 token/S，100萬token價(jià)格為0.27美元。極限情況下，用Llama2 7B甚至能實(shí)現(xiàn)750 token/S。

目前，他們還提供100萬token的免費(fèi)試用。Groq突然爆火，背后最大的功臣不是GPU，而是自研的LPU——語言處理單元。單卡僅有230MB內(nèi)存，2萬美元一張。在LLM任務(wù)上，LPU比英偉達(dá)的GPU性能快10倍。

在前段時(shí)間的基準(zhǔn)測(cè)試中，Groq LPU推理引擎上運(yùn)行的Llama 2 70B直接刷榜，而且比頂級(jí)云提供商快18倍的LLM推理性能。

網(wǎng)友大波演示

Groq火箭般的生成速度，讓許多人為之震驚。網(wǎng)友們紛紛放出的自己做的demo。

在不到一秒鐘的時(shí)間里，生成幾百詞的、帶有引用的事實(shí)性回答。實(shí)際上，搜索占據(jù)了超過四分之三的處理時(shí)間，而非內(nèi)容的生成！

針對(duì)「創(chuàng)建一個(gè)簡(jiǎn)單的健身計(jì)劃」同一提示，Groq與ChatGPT并排響應(yīng)，速度差異。

面對(duì)300多個(gè)單詞的「巨型」prompt，Groq在不到一秒鐘的時(shí)間里，就為一篇期刊論文創(chuàng)建了初步大綱和寫作計(jì)劃！

Groq完全實(shí)現(xiàn)了遠(yuǎn)程實(shí)時(shí)的AI對(duì)話。在GroqInc硬件上運(yùn)行Llama 70B，然后在提供給Whisper，幾乎沒有延遲。

，時(shí)長(zhǎng)02:05

GPU不存在了？

Groq模型之所以能夠以驚人速度響應(yīng)，是因?yàn)楸澈蠊綠roq（同名）開發(fā)了獨(dú)特的硬件——LPU。并非是，傳統(tǒng)的GPU。

簡(jiǎn)而言之，Groq自研的是一種名為張量流處理器（TSP）的新型處理單元，并將其定義為「語言處理單元」，即LPU。它是專為圖形渲染而設(shè)計(jì)、包含數(shù)百個(gè)核心的并行處理器，能夠?yàn)锳I計(jì)算提供穩(wěn)定的性能。

論文地址：https://wow.groq.com/wp-content/uploads/2024/02/GroqISCAPaper2022_ASoftwareDefinedTensorStreamingMultiprocessorForLargeScaleMachineLearning.pdf具體來說，LPU的工作原理與GPU截然不同。它采用了時(shí)序指令集計(jì)算機(jī)（Temporal Instruction Set Computer）架構(gòu)，這意味著它無需像使用高帶寬存儲(chǔ)器（HBM）的GPU那樣頻繁地從內(nèi)存中加載數(shù)據(jù)。這一特點(diǎn)不僅有助于避免HBM短缺的問題，還能有效降低成本。這種設(shè)計(jì)使得每個(gè)時(shí)鐘周期（every clock cycle）都能被有效利用，從而保證了穩(wěn)定的延遲和吞吐量。在能效方面，LPU也顯示出其優(yōu)勢(shì)。通過減少多線程管理的開銷和避免核心資源的未充分利用，LPU能夠?qū)崿F(xiàn)更高的每瓦特計(jì)算性能。目前，Groq可支持多種用于模型推理的機(jī)器學(xué)習(xí)開發(fā)框架，包括PyTorch、TensorFlow和ONNX。但不支持使用LPU推理引擎進(jìn)行ML訓(xùn)練。甚至有網(wǎng)友表示，「Groq的LPU在處理請(qǐng)求和響應(yīng)方面，速度超越了英偉達(dá)的GPU」。

不同于英偉達(dá)GPU需要依賴高速數(shù)據(jù)傳輸，Groq的LPU在其系統(tǒng)中沒有采用高帶寬存儲(chǔ)器（HBM）。它使用的是SRAM，其速度比GPU所用的存儲(chǔ)器快約20倍。

鑒于AI的推理計(jì)算，相較于模型訓(xùn)練需要的數(shù)據(jù)量遠(yuǎn)小，Groq的LPU因此更節(jié)能。在執(zhí)行推理任務(wù)時(shí)，它從外部?jī)?nèi)存讀取的數(shù)據(jù)更少，消耗的電量也低于英偉達(dá)的GPU。LPU并不像GPU那樣對(duì)存儲(chǔ)速度有極高要求。如果在AI處理場(chǎng)景中采用Groq的LPU，可能就無需為英偉達(dá)GPU配置特殊的存儲(chǔ)解決方案。

Groq的創(chuàng)新芯片設(shè)計(jì)實(shí)現(xiàn)了多個(gè)TSP的無縫鏈接，避免了GPU集群中常見的瓶頸問題，極大地提高了可擴(kuò)展性。這意味著隨著更多LPU的加入，性能可以實(shí)現(xiàn)線性擴(kuò)展，簡(jiǎn)化了大規(guī)模AI模型的硬件需求，使開發(fā)者能夠更容易地?cái)U(kuò)展應(yīng)用，而無需重構(gòu)系統(tǒng)。Groq公司宣稱，其技術(shù)能夠通過其強(qiáng)大的芯片和軟件，在推理任務(wù)中取代GPU的角色。網(wǎng)友做的具體規(guī)格對(duì)比圖。

這一切意味著什么？對(duì)開發(fā)者來說，這意味著性能可以被精確預(yù)測(cè)并優(yōu)化，這一點(diǎn)對(duì)于實(shí)時(shí)AI應(yīng)用至關(guān)重要。對(duì)于未來AI應(yīng)用的服務(wù)而言，LPU可能會(huì)帶來與GPU相比巨大的性能提升！考慮到A100和H100如此緊缺，對(duì)于那些初創(chuàng)公司擁有這樣的高性能替代硬件，無疑是一個(gè)巨大的優(yōu)勢(shì)。目前，OpenAI正在向全球政府和投資者尋求7萬億美元的資金，以開發(fā)自己的芯片，解決擴(kuò)展其產(chǎn)品時(shí)遇到算力不足的問題。

2倍吞吐量，響應(yīng)速度僅0.8秒

前段時(shí)間，在ArtifialAnalysis.ai的LLM基準(zhǔn)測(cè)試中，Groq的方案擊敗了8個(gè)關(guān)鍵性能指標(biāo)。其中包括在延遲與吞吐量、隨時(shí)間的吞吐量、總響應(yīng)時(shí)間和吞吐量差異。在右下角的綠色象限中，Groq取得最優(yōu)的成績(jī)。

來源：ArtifialAnalysis.aiLlama 2 70B在Groq LPU推理引擎上效果最為出色，達(dá)到了每秒241個(gè)token的吞吐量，是其他大廠的2倍還要多。

總響應(yīng)時(shí)間Groq的響應(yīng)時(shí)間也是最少的，接收100個(gè)token后輸出只有0.8秒。

另外，Groq已經(jīng)運(yùn)行了幾個(gè)內(nèi)部基準(zhǔn)，可以達(dá)到每秒300個(gè)token，再次設(shè)定了全新的速度標(biāo)準(zhǔn)。Groq首席執(zhí)行官Jonathan Ross曾表示，「Groq的存在是為了消除「富人和窮人」，并幫助人工智能社區(qū)中的每個(gè)人發(fā)展。而推理是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵，因?yàn)椤核俣取皇菍㈤_發(fā)人員的想法轉(zhuǎn)化為商業(yè)解決方案和改變生APP的關(guān)鍵」。

一塊卡2萬刀，內(nèi)存230MB

想必大家在前面已經(jīng)注意到了，一張LPU卡僅有230MB的內(nèi)存。

而且，售價(jià)為2萬+美元。

根據(jù)The Next Platform的報(bào)道，在以上的測(cè)試中，Groq實(shí)際上使用了576個(gè)GroqChip，才實(shí)現(xiàn)了對(duì)Llama 2 70B的推理。

通常來說，GroqRack配備有9個(gè)節(jié)點(diǎn)，其中8個(gè)節(jié)點(diǎn)負(fù)責(zé)計(jì)算任務(wù)，剩下1個(gè)節(jié)點(diǎn)作為備用。但這次，9個(gè)節(jié)點(diǎn)全部被用于計(jì)算工作。

對(duì)此網(wǎng)友表示，Groq LPU面臨的一個(gè)關(guān)鍵問題是，它們完全不配備高帶寬存儲(chǔ)器（HBM），而是僅配備了一小塊（230MiB）的超高速靜態(tài)隨機(jī)存取存儲(chǔ)器（SRAM），這種SRAM的速度比HBM3快20倍。這意味著，為了支持運(yùn)行單個(gè)AI模型，你需要配置大約256個(gè)LPU，相當(dāng)于4個(gè)滿載的服務(wù)器機(jī)架。每個(gè)機(jī)架可以容納8個(gè)LPU單元，每個(gè)單元中又包含8個(gè)LPU。相比之下，你只需要一個(gè)H200（相當(dāng)于1/4個(gè)服務(wù)器機(jī)架的密度）就可以相當(dāng)有效地運(yùn)行這些模型。這種配置如果用于只需運(yùn)行一個(gè)模型且有大量用戶的場(chǎng)景下可能表現(xiàn)良好。但是，一旦需要同時(shí)運(yùn)行多個(gè)模型，特別是需要進(jìn)行大量的模型微調(diào)或使用高級(jí)別的LoRA等操作時(shí)，這種配置就不再適用。此外，對(duì)于需要在本地部署的情況，Groq LPU的這一配置優(yōu)勢(shì)也不明顯，因?yàn)槠渲饕獌?yōu)勢(shì)在于能夠集中多個(gè)用戶使用同一個(gè)模型。

另有網(wǎng)友表示，「Groq LPU似乎沒有任何HBM，而且每個(gè)芯片基本上都帶有少量的SRAM？也就是說他們需要大約256個(gè)芯片來運(yùn)行Llama 70B？」沒想到得到了官方回應(yīng)：是的，我們的LLM在數(shù)百個(gè)芯片上運(yùn)行。

還有人對(duì)LPU的卡的價(jià)錢提出了異議，「這難道不會(huì)讓你的產(chǎn)品比H100貴得離譜嗎」？

馬斯克Grok，同音不同字

前段時(shí)間，Groq曾公開基準(zhǔn)測(cè)試結(jié)果后，已經(jīng)引來了一大波關(guān)注。而這次，Groq這個(gè)最新的AI模型，憑借其快速響應(yīng)和可能取代GPU的新技術(shù)，又一次在社交媒體上掀起了風(fēng)暴。不過，Groq背后的公司并非大模型時(shí)代后的新星。它成立于2016年，并直接注冊(cè)了Groq這一名字。

CEO兼聯(lián)合創(chuàng)始人Jonathan Ross在創(chuàng)立Groq之前，曾是谷歌的員工。曾在一個(gè)20%的項(xiàng)目中，設(shè)計(jì)并實(shí)現(xiàn)了第一代TPU芯片的核心元素，這就是后來的谷歌張量處理單元（TPU）。隨后，Ross加入了谷歌X實(shí)驗(yàn)室的快速評(píng)估團(tuán)隊(duì)（著名的「登月工廠」項(xiàng)目初始階段），為谷歌母公司Alphabet設(shè)計(jì)和孵化新的Bets（單元）。

或許大多數(shù)人對(duì)馬斯克Grok，還有Groq模型的名字感到迷惑。

其實(shí)，在勸退馬斯克使用這個(gè)名字時(shí)，還有個(gè)小插曲。去年11月，當(dāng)馬斯克的同名AI模型Grok（拼寫有所不同）開始受到關(guān)注時(shí)，Groq的開發(fā)團(tuán)隊(duì)發(fā)表了一篇博客，幽默地請(qǐng)馬斯克另選一個(gè)名字：

我們明白你為什么會(huì)喜歡我們的名字。你對(duì)快速的事物（如火箭、超級(jí)高鐵、單字母公司名稱）情有獨(dú)鐘，而我們的Groq LPU推理引擎正是運(yùn)行LLM和其他生成式AI應(yīng)用的最快方式。但我們還是得請(qǐng)你趕緊換個(gè)名字。

不過，馬斯克并未對(duì)兩個(gè)模型名稱的相似之處作出回應(yīng)。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

比GPT-4快18倍，世界最快大模型Groq登場(chǎng)！每秒500 token破紀(jì)錄，自研LPU是英偉達(dá)GPU 10倍

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

比GPT-4快18倍，世界最快大模型Groq登場(chǎng)！每秒500 token破紀(jì)錄，自研LPU是英偉達(dá)GPU 10倍

相關(guān)推薦

技術(shù)專區(qū)

比GPT-4快18倍，世界最快大模型Groq登場(chǎng)！每秒500 token破紀(jì)錄，自研LPU是英偉達(dá)GPU 10倍