比GPT-4快18倍,世界最快大模型Groq登場(chǎng)!每秒500 token破紀(jì)錄,自研LPU是英偉達(dá)GPU 10倍
編輯:桃子 好困
一覺(jué)醒來(lái),每秒能輸出500個(gè)token的Groq模型刷屏全網(wǎng)。堪稱(chēng)是「世界上速度最快的LLM」!相比之下,ChatGPT-3.5每秒生成速度僅為40個(gè)token。有網(wǎng)友將其與GPT-4、Gemini對(duì)標(biāo),看看它們完成一個(gè)簡(jiǎn)單代碼調(diào)試問(wèn)題所需的時(shí)間。沒(méi)想到,Groq完全碾壓兩者,在輸出速度上比Gemini快10倍,比GPT-4快18倍。(不過(guò)就答案質(zhì)量來(lái)說(shuō),Gemini更好。)
,時(shí)長(zhǎng)01:23
網(wǎng)友大波演示
Groq火箭般的生成速度,讓許多人為之震驚。網(wǎng)友們紛紛放出的自己做的demo。在不到一秒鐘的時(shí)間里,生成幾百詞的、帶有引用的事實(shí)性回答。實(shí)際上,搜索占據(jù)了超過(guò)四分之三的處理時(shí)間,而非內(nèi)容的生成!針對(duì)「創(chuàng)建一個(gè)簡(jiǎn)單的健身計(jì)劃」同一提示,Groq與ChatGPT并排響應(yīng),速度差異。面對(duì)300多個(gè)單詞的「巨型」prompt,Groq在不到一秒鐘的時(shí)間里,就為一篇期刊論文創(chuàng)建了初步大綱和寫(xiě)作計(jì)劃!Groq完全實(shí)現(xiàn)了遠(yuǎn)程實(shí)時(shí)的AI對(duì)話(huà)。在GroqInc硬件上運(yùn)行Llama 70B,然后在提供給Whisper,幾乎沒(méi)有延遲。,時(shí)長(zhǎng)02:05
GPU不存在了?
Groq模型之所以能夠以驚人速度響應(yīng),是因?yàn)楸澈蠊綠roq(同名)開(kāi)發(fā)了獨(dú)特的硬件——LPU。并非是,傳統(tǒng)的GPU。簡(jiǎn)而言之,Groq自研的是一種名為張量流處理器(TSP)的新型處理單元,并將其定義為「語(yǔ)言處理單元」,即LPU。它是專(zhuān)為圖形渲染而設(shè)計(jì)、包含數(shù)百個(gè)核心的并行處理器,能夠?yàn)锳I計(jì)算提供穩(wěn)定的性能。論文地址:https://wow.groq.com/wp-content/uploads/2024/02/GroqISCAPaper2022_ASoftwareDefinedTensorStreamingMultiprocessorForLargeScaleMachineLearning.pdf具體來(lái)說(shuō),LPU的工作原理與GPU截然不同。它采用了時(shí)序指令集計(jì)算機(jī)(Temporal Instruction Set Computer)架構(gòu),這意味著它無(wú)需像使用高帶寬存儲(chǔ)器(HBM)的GPU那樣頻繁地從內(nèi)存中加載數(shù)據(jù)。這一特點(diǎn)不僅有助于避免HBM短缺的問(wèn)題,還能有效降低成本。這種設(shè)計(jì)使得每個(gè)時(shí)鐘周期(every clock cycle)都能被有效利用,從而保證了穩(wěn)定的延遲和吞吐量。在能效方面,LPU也顯示出其優(yōu)勢(shì)。通過(guò)減少多線程管理的開(kāi)銷(xiāo)和避免核心資源的未充分利用,LPU能夠?qū)崿F(xiàn)更高的每瓦特計(jì)算性能。目前,Groq可支持多種用于模型推理的機(jī)器學(xué)習(xí)開(kāi)發(fā)框架,包括PyTorch、TensorFlow和ONNX。但不支持使用LPU推理引擎進(jìn)行ML訓(xùn)練。甚至有網(wǎng)友表示,「Groq的LPU在處理請(qǐng)求和響應(yīng)方面,速度超越了英偉達(dá)的GPU」。不同于英偉達(dá)GPU需要依賴(lài)高速數(shù)據(jù)傳輸,Groq的LPU在其系統(tǒng)中沒(méi)有采用高帶寬存儲(chǔ)器(HBM)。它使用的是SRAM,其速度比GPU所用的存儲(chǔ)器快約20倍。鑒于AI的推理計(jì)算,相較于模型訓(xùn)練需要的數(shù)據(jù)量遠(yuǎn)小,Groq的LPU因此更節(jié)能。在執(zhí)行推理任務(wù)時(shí),它從外部?jī)?nèi)存讀取的數(shù)據(jù)更少,消耗的電量也低于英偉達(dá)的GPU。LPU并不像GPU那樣對(duì)存儲(chǔ)速度有極高要求。如果在AI處理場(chǎng)景中采用Groq的LPU,可能就無(wú)需為英偉達(dá)GPU配置特殊的存儲(chǔ)解決方案。Groq的創(chuàng)新芯片設(shè)計(jì)實(shí)現(xiàn)了多個(gè)TSP的無(wú)縫鏈接,避免了GPU集群中常見(jiàn)的瓶頸問(wèn)題,極大地提高了可擴(kuò)展性。這意味著隨著更多LPU的加入,性能可以實(shí)現(xiàn)線性擴(kuò)展,簡(jiǎn)化了大規(guī)模AI模型的硬件需求,使開(kāi)發(fā)者能夠更容易地?cái)U(kuò)展應(yīng)用,而無(wú)需重構(gòu)系統(tǒng)。Groq公司宣稱(chēng),其技術(shù)能夠通過(guò)其強(qiáng)大的芯片和軟件,在推理任務(wù)中取代GPU的角色。網(wǎng)友做的具體規(guī)格對(duì)比圖。這一切意味著什么?對(duì)開(kāi)發(fā)者來(lái)說(shuō),這意味著性能可以被精確預(yù)測(cè)并優(yōu)化,這一點(diǎn)對(duì)于實(shí)時(shí)AI應(yīng)用至關(guān)重要。對(duì)于未來(lái)AI應(yīng)用的服務(wù)而言,LPU可能會(huì)帶來(lái)與GPU相比巨大的性能提升!考慮到A100和H100如此緊缺,對(duì)于那些初創(chuàng)公司擁有這樣的高性能替代硬件,無(wú)疑是一個(gè)巨大的優(yōu)勢(shì)。目前,OpenAI正在向全球政府和投資者尋求7萬(wàn)億美元的資金,以開(kāi)發(fā)自己的芯片,解決擴(kuò)展其產(chǎn)品時(shí)遇到算力不足的問(wèn)題。2倍吞吐量,響應(yīng)速度僅0.8秒
前段時(shí)間,在ArtifialAnalysis.ai的LLM基準(zhǔn)測(cè)試中,Groq的方案擊敗了8個(gè)關(guān)鍵性能指標(biāo)。其中包括在延遲與吞吐量、隨時(shí)間的吞吐量、總響應(yīng)時(shí)間和吞吐量差異。在右下角的綠色象限中,Groq取得最優(yōu)的成績(jī)。來(lái)源:ArtifialAnalysis.aiLlama 2 70B在Groq LPU推理引擎上效果最為出色,達(dá)到了每秒241個(gè)token的吞吐量,是其他大廠的2倍還要多。總響應(yīng)時(shí)間Groq的響應(yīng)時(shí)間也是最少的,接收100個(gè)token后輸出只有0.8秒。另外,Groq已經(jīng)運(yùn)行了幾個(gè)內(nèi)部基準(zhǔn),可以達(dá)到每秒300個(gè)token,再次設(shè)定了全新的速度標(biāo)準(zhǔn)。Groq首席執(zhí)行官Jonathan Ross曾表示,「Groq的存在是為了消除「富人和窮人」,并幫助人工智能社區(qū)中的每個(gè)人發(fā)展。而推理是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵,因?yàn)椤核俣取皇菍㈤_(kāi)發(fā)人員的想法轉(zhuǎn)化為商業(yè)解決方案和改變生APP的關(guān)鍵」。一塊卡2萬(wàn)刀,內(nèi)存230MB
想必大家在前面已經(jīng)注意到了,一張LPU卡僅有230MB的內(nèi)存。而且,售價(jià)為2萬(wàn)+美元。根據(jù)The Next Platform的報(bào)道,在以上的測(cè)試中,Groq實(shí)際上使用了576個(gè)GroqChip,才實(shí)現(xiàn)了對(duì)Llama 2 70B的推理。通常來(lái)說(shuō),GroqRack配備有9個(gè)節(jié)點(diǎn),其中8個(gè)節(jié)點(diǎn)負(fù)責(zé)計(jì)算任務(wù),剩下1個(gè)節(jié)點(diǎn)作為備用。但這次,9個(gè)節(jié)點(diǎn)全部被用于計(jì)算工作。對(duì)此網(wǎng)友表示,Groq LPU面臨的一個(gè)關(guān)鍵問(wèn)題是,它們完全不配備高帶寬存儲(chǔ)器(HBM),而是僅配備了一小塊(230MiB)的超高速靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM),這種SRAM的速度比HBM3快20倍。這意味著,為了支持運(yùn)行單個(gè)AI模型,你需要配置大約256個(gè)LPU,相當(dāng)于4個(gè)滿(mǎn)載的服務(wù)器機(jī)架。每個(gè)機(jī)架可以容納8個(gè)LPU單元,每個(gè)單元中又包含8個(gè)LPU。相比之下,你只需要一個(gè)H200(相當(dāng)于1/4個(gè)服務(wù)器機(jī)架的密度)就可以相當(dāng)有效地運(yùn)行這些模型。這種配置如果用于只需運(yùn)行一個(gè)模型且有大量用戶(hù)的場(chǎng)景下可能表現(xiàn)良好。但是,一旦需要同時(shí)運(yùn)行多個(gè)模型,特別是需要進(jìn)行大量的模型微調(diào)或使用高級(jí)別的LoRA等操作時(shí),這種配置就不再適用。此外,對(duì)于需要在本地部署的情況,Groq LPU的這一配置優(yōu)勢(shì)也不明顯,因?yàn)槠渲饕獌?yōu)勢(shì)在于能夠集中多個(gè)用戶(hù)使用同一個(gè)模型。另有網(wǎng)友表示,「Groq LPU似乎沒(méi)有任何HBM,而且每個(gè)芯片基本上都帶有少量的SRAM?也就是說(shuō)他們需要大約256個(gè)芯片來(lái)運(yùn)行Llama 70B?」沒(méi)想到得到了官方回應(yīng):是的,我們的LLM在數(shù)百個(gè)芯片上運(yùn)行。還有人對(duì)LPU的卡的價(jià)錢(qián)提出了異議,「這難道不會(huì)讓你的產(chǎn)品比H100貴得離譜嗎」?馬斯克Grok,同音不同字
前段時(shí)間,Groq曾公開(kāi)基準(zhǔn)測(cè)試結(jié)果后,已經(jīng)引來(lái)了一大波關(guān)注。而這次,Groq這個(gè)最新的AI模型,憑借其快速響應(yīng)和可能取代GPU的新技術(shù),又一次在社交媒體上掀起了風(fēng)暴。不過(guò),Groq背后的公司并非大模型時(shí)代后的新星。它成立于2016年,并直接注冊(cè)了Groq這一名字。CEO兼聯(lián)合創(chuàng)始人Jonathan Ross在創(chuàng)立Groq之前,曾是谷歌的員工。曾在一個(gè)20%的項(xiàng)目中,設(shè)計(jì)并實(shí)現(xiàn)了第一代TPU芯片的核心元素,這就是后來(lái)的谷歌張量處理單元(TPU)。隨后,Ross加入了谷歌X實(shí)驗(yàn)室的快速評(píng)估團(tuán)隊(duì)(著名的「登月工廠」項(xiàng)目初始階段),為谷歌母公司Alphabet設(shè)計(jì)和孵化新的Bets(單元)。或許大多數(shù)人對(duì)馬斯克Grok,還有Groq模型的名字感到迷惑。其實(shí),在勸退馬斯克使用這個(gè)名字時(shí),還有個(gè)小插曲。去年11月,當(dāng)馬斯克的同名AI模型Grok(拼寫(xiě)有所不同)開(kāi)始受到關(guān)注時(shí),Groq的開(kāi)發(fā)團(tuán)隊(duì)發(fā)表了一篇博客,幽默地請(qǐng)馬斯克另選一個(gè)名字:我們明白你為什么會(huì)喜歡我們的名字。你對(duì)快速的事物(如火箭、超級(jí)高鐵、單字母公司名稱(chēng))情有獨(dú)鐘,而我們的Groq LPU推理引擎正是運(yùn)行LLM和其他生成式AI應(yīng)用的最快方式。但我們還是得請(qǐng)你趕緊換個(gè)名字。不過(guò),馬斯克并未對(duì)兩個(gè)模型名稱(chēng)的相似之處作出回應(yīng)。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。