博客專欄

EEPW首頁 > 博客 > AI推理速度提升超10倍,Groq LPU能否取代英偉達GPU?

AI推理速度提升超10倍,Groq LPU能否取代英偉達GPU?

發(fā)布人:芯智訊 時間:2024-02-27 來源:工程師 發(fā)布文章

image.png

2月20日消息,美國人工智能初創(chuàng)公司Groq最新推出的面向云端大模型的推理芯片引發(fā)了業(yè)內(nèi)的廣泛關(guān)注。其最具特色之處在于,采用了全新的Tensor Streaming Architecture (TSA) 架構(gòu),以及擁有超高帶寬的SRAM,從而使得其對于大模型的推理速度提高了10倍以上,甚至超越了英偉達的GPU。

推理速度是英偉達GPU的10倍,功耗僅1/10

據(jù)介紹,Groq的大模型推理芯片是全球首個LPU(Language Processing Unit)方案,是一款基于全新的TSA 架構(gòu)的Tensor Streaming Processor (TSP) 芯片,旨在提高機器學習和人工智能等計算密集型工作負載的性能。

雖然Groq的LPU并沒有采用更本高昂的尖端制程工藝,而是選擇了14nm制程,但是憑借自研的TSA 架構(gòu),Groq LPU 芯片具有高度的并行處理能力,可以同時處理數(shù)百萬個數(shù)據(jù)流,并該芯片還集成了230MB容量的SRAM來替代DRAM,以保證內(nèi)存帶寬,其片上內(nèi)存帶寬高達80TB/s。

image.png

根據(jù)官方的數(shù)據(jù)顯示,Groq的LPU芯片的性能表現(xiàn)相當出色,可以提供高達1000 TOPS (Tera Operations Per Second) 的計算能力,并且在某些機器學習模型上的性能表現(xiàn)可以比常規(guī)的 GPU 和 TPU 提升10到100倍。

Groq表示,基于其LPU芯片的云服務器在Llama2或Mistreal模型在計算和響應速度上遠超基于NVIDIA AI GPU的ChatGPT,其每秒可以生成高達500個 token。相比之下,目前ChatGPT-3.5的公開版本每秒只能生成大約40個token。由于ChatGPT-3.5主要是基于NVIDIA的GPU,也就是說,Groq LPU芯片的響應速度達到了NVIDIA GPU的10倍以上。Groq表示,相對于其他云平臺廠商的大模型推理性能,基于其LPU芯片的云服務器的大模型推理性能最終實現(xiàn)了比其他云平臺廠商快18倍。

image.png

另外,在能耗方面,英偉達GPU需要大約10到30焦耳才能生成響應中的tokens,而Groq LPU芯片僅需1到3焦耳,在推理速度大幅提升10倍的同時,其能耗成本僅有英偉達GPU的十分之一,這等于是性價比提高了100倍。

Groq公司在演示中展示了其芯片的強大性能,支持Mistral AI的Mixtral8x7B SMoE,以及Meta的Llama2的7B和70B等多種模型,支持使用4096字節(jié)的上下文長度,并可直接體驗Demo。不僅如此,Groq還喊話各大公司,揚言在三年內(nèi)超越英偉達。目前該公司的LPU推理芯片在第三方網(wǎng)站上的售價為2萬多美元,低于NVIDIA H100的2.5-3萬美元。

資料顯示,Groq 是一家成立于2016年人工智能硬件初創(chuàng)公司,核心團隊來源于谷歌最初的張量處理單元(TPU)工程團隊。Groq 創(chuàng)始人兼CEO Jonathan Ross是谷歌TPU項目的核心研發(fā)人員。該公司硬件工程副總裁Jim Miller 曾是亞馬遜云計算服務AWS設(shè)計算力硬件的負責人,還曾在英特爾領(lǐng)導了所有 Pentium II 工程。目前該公司籌集了超過 6200 萬美元。

為何采用大容量SRAM?

Groq LPU芯片與大多數(shù)其他初創(chuàng)公司和現(xiàn)有的AI處理器有著截然不同的時序指令集計算機(Temporal Instruction Set Computer)架構(gòu),它被設(shè)計為一個強大的單線程流處理器,配備了專門設(shè)計的指令集,旨在利用張量操作和張量移動,使機器學習模型能夠更有效地執(zhí)行。該架構(gòu)的獨特之處在于執(zhí)行單元、片內(nèi)的SRAM內(nèi)存和其他執(zhí)行單元之間的交互。它無需像使用HBM(高帶寬內(nèi)存)的GPU那樣頻繁地從內(nèi)存中加載數(shù)據(jù)。

Groq 的神奇之處不僅在于硬件,還在于軟件。軟件定義的硬件在這里發(fā)揮著重要作用。Groq 的軟件將張量流模型或其他深度學習模型編譯成獨立的指令流,并提前進行高度協(xié)調(diào)和編排。編排來自編譯器。它提前確定并計劃整個執(zhí)行,從而實現(xiàn)非常確定的計算?!斑@種確定性來自于我們的編譯器靜態(tài)調(diào)度所有指令單元的事實。這使我們無需進行任何激進的推測即可公開指令級并行性。芯片上沒有分支目標緩沖區(qū)或緩存代理,”Groq 的首席架構(gòu)師 Dennis Abts 解釋道。Groq LPU芯片為了追求性能最大化,因此添加了更多SRAM內(nèi)存和執(zhí)行塊。

SRAM全名為“靜態(tài)隨機存取存儲器”(Static Random-Access Memory)是隨機存取存儲器的一種。所謂的“靜態(tài)”,是指這種存儲器只要保持通電,里面儲存的數(shù)據(jù)就可以恒常保持。相對之下,動態(tài)隨機存取存儲器(DRAM)里面所儲存的數(shù)據(jù)則需要周期性地更新。自SRAM推出60多年來,其一直是低延遲和高可靠性應用的首選存儲器,

事實上,對于 AI/ML 應用來說,SRAM 不僅僅具有其自身的優(yōu)勢?!癝RAM 對于 AI 至關(guān)重要,尤其是嵌入式 SRAM,它是性能最高的存儲器,可以將其直接與高密度邏輯核心集成在一起。目前SRAM也是被諸多CPU集成在片內(nèi)(更靠近CPU計算單元),作為CPU的高速緩存,使得CPU可以更直接、更快速的從SRAM中獲取重要的數(shù)據(jù),無需去DRAM當中讀取。只不過,當前旗艦級CPU當中的SRAM容量最多也僅有幾十個MB。

Groq之所以選擇使用大容量的 SRAM來替代DRAM 內(nèi)存的原因主要有以下幾點:

1、SRAM 內(nèi)存的訪問速度比 DRAM 內(nèi)存快得多,這意味著 LPU 芯片更快速地處理數(shù)據(jù),從而提高計算性能。

2、SRAM 內(nèi)存沒有 DRAM 內(nèi)存的刷新延遲,這意味著LPU芯片也可以更高效地處理數(shù)據(jù),減少延遲帶來的影響。

3、SRAM 內(nèi)存的功耗比 DRAM 內(nèi)存低,這意味著LPU芯片可以更有效地管理能耗,從而提高效率。

但是,對于SRAM來說,其也有著一些劣勢:

1、面積更大:在邏輯晶體管隨著CMOS工藝持續(xù)微縮的同時,SRAM的微縮卻十分的困難。事實上,早在 20nm時代,SRAM 就無法隨著邏輯晶體管的微縮相應地微縮。

2、容量小:SRAM 的容量比 DRAM 小得多,這是因為每個bit的數(shù)據(jù)需要更多的晶體管來存儲,再加上SRAM的微縮非常困難,使得相同面積下,SRAM容量遠低于DRAM等存儲器。這也使得SRAM在面對需要存儲大量數(shù)據(jù)時的應用受到了限制。

3、成本高:SRAM 的成本比 DRAM要高得多,再加上相同容量下,SRAM需要更多的晶體管來存儲數(shù)據(jù),這也使得其成本更高。

總的來說,雖然SRAM 在尺寸、容量和成本等方面具有一些劣勢,這些劣勢限制了其在某些應用中的應用,但是 SRAM 的訪問速度比 DRAM 快得多,這使得它在某些計算密集型應用中表現(xiàn)得非常出色。Groq LPU 芯片采用的大容量 SRAM 內(nèi)存可以提供更高的帶寬(高達80TB/s)、更低的功耗和更低的延遲,從而提高機器學習和人工智能等計算密集型工作負載的效率。

那么,與目前AI GPU當中所搭載的 HBM 內(nèi)存相比,Groq LPU 芯片集成的 SRAM 內(nèi)存又有何優(yōu)勢和劣勢呢?

Groq LPU 芯片的 SRAM 內(nèi)存容量雖然有230MB,但是相比之下AI GPU 中的 HBM 容量通常都有數(shù)十GB(比如NVIDIA H100,其集成了80GB HBM),這也意味著LPU 芯片可能無法處理更大的數(shù)據(jù)集和更復雜的模型。相同容量下,SRAM的成本也比HBM更高。 不過,與HBM 相比,Groq LPU 芯片的所集成的 SRAM 的仍然有著帶寬更快(NVIDIA H100的HBM帶寬僅3TB/s)、功耗更低、延遲更低的優(yōu)勢。

能否替代NVIDIA H00?

雖然Groq公布的數(shù)據(jù)似乎表明,其LPU芯片的推理速度達到了NVIDIA GPU的10倍以上,并且能耗成本僅是它十分之一,等于是性價比提高了100倍。但是,Groq并且明確指出其比較的是NVIDIA的哪款GPU產(chǎn)品。由于目前NVIDIA最主流的AI GPU是H100,因此,我們就拿NVIDIA H100來與Groq LPU來做比較。

由于Groq LPU只有230MB的片上SRAM來作為內(nèi)存,因此,如果要運行Llama-2 70b模型,即使將Llama 2 70b量化到INT8精度,仍然需要70GB左右的內(nèi)存,即使完全忽略內(nèi)存消耗,也需要305張Groq LPU加速卡才夠用。如果考慮到內(nèi)存消耗,可能需要572張Groq LPU加速卡。官方數(shù)據(jù)顯示,Groq LPU的平均功耗為185W,即使不計算外圍設(shè)備的功耗,572張Groq LPU加速卡的總功耗也高達105.8kW。假設(shè)一張Groq LPU加速卡的價格為2萬美元,因此,購買572張卡的成本高達1144萬美元(規(guī)模采購價格應該可以更低)。

根據(jù)人工智能科學家賈揚清分享的數(shù)據(jù)顯示,目前,數(shù)據(jù)中心每月每千瓦的平均價格約為20美元,這意味著572張Groq LPU加速卡每年的電費為105.8*200*12=25.4萬美元。

賈揚清還表示,使用4張NVIDIA H100加速卡就可以實現(xiàn)572張Groq LPU一半的性能,這意味著一個8張H100的服務器的性能大致相當于572張Groq LPU。而8張H100加速卡的標稱最大功率為10kW(實際上約為8-9千瓦),因此一年電費為僅24000美元或略低。現(xiàn)在一個8張H100加速卡的服務器的價格約為30萬美元。

顯然,相比較之下,在運行相同的INT8精度的Llama-2 70b模型時,NVIDIA H00的實際性價比要遠高于Groq LPU。

即使我們以FP16精度的Llama-2 7b模型來比較,其最低需要14GB的內(nèi)存來運行,需要約70張Groq LPU加速卡才能夠部署,按照單卡FP16算力188TFLOPs計算,其總算力將達到約13.2PFLOPs。這么強的算力只是用來推理Llama-2 7b模型屬實有些浪費。相比之下,單個NVIDIA H100加速卡,其集成的80GB HMB就足夠部署5個FP16精度的Llama-2 7b模型,而H100在FP16算力約為2PFLOPs。即使要達到70張Groq LPU加速卡相同的算力,只需要一臺8卡NVIDIA H100服務器就能夠達到。

單從硬件成本上來計算,70張Groq LPU加速卡成本約140萬美元,一個8張H100加速卡的服務器的價格約為30萬美元,顯然,對于運行FP16精度的Llama-2 7b模型來說,采用NVIDIA H100的性價比也是遠高于Groq LPU。

當然,這并不是說Groq LPU相對于NVIDIA H100來說毫無優(yōu)勢,正如前面所介紹的那樣,Groq LPU的主要優(yōu)勢在于其采用了大容量的SRAM內(nèi)存,擁有80TB/s的超高的內(nèi)存帶寬,使得其非常適合于較小的模型且需要頻繁從內(nèi)存訪問數(shù)據(jù)的應用場景。當然,其缺點則在于SRAM的內(nèi)存容量較小,要運行大模型,就需要更多的Groq LPU。那么,Groq LPU能否進一步提升其SRAM內(nèi)存容量來彌補這一缺點呢?答案當然是可以,但是,這將會帶來Groq LPU面積和成本的大幅增加,并且也會帶來功耗方面的問題?;蛟S未來Groq可能會考慮,加入HBM/DRAM來提升 LPU的適應性。

編輯:芯智訊-浪客劍


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: 英偉達

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉