博客專欄

EEPW首頁(yè) > 博客 > 745TFLOPS!Tenstorrent推768核RISC-V AI芯片:對(duì)標(biāo)英偉達(dá)A100

745TFLOPS!Tenstorrent推768核RISC-V AI芯片:對(duì)標(biāo)英偉達(dá)A100

發(fā)布人:芯智訊 時(shí)間:2024-10-22 來(lái)源:工程師 發(fā)布文章

8月28日消息,由傳奇芯片架構(gòu)師Jim Keller領(lǐng)導(dǎo)的AI芯片新創(chuàng)公司Tenstorrent在近日的Hot Chips 2024活動(dòng)上詳細(xì)介紹了其新一代基于RISC-V架構(gòu)的BlackHole系列AI處理器,性能高達(dá)745 TOPS,盡管芯片集成的內(nèi)存容量和帶寬低于英偉達(dá)A100,但是整體的AI性能和可擴(kuò)展性更優(yōu)。

image.png

據(jù)介紹,這款Blackhole AI芯片共擁有768個(gè)RISC-V內(nèi)核,包括16個(gè)Big RISC-V內(nèi)核、752個(gè)Baby RISC-V內(nèi)核,其中大量的Baby RISC-V內(nèi)核被分別集成在140 個(gè) Tensix 人工智能計(jì)算核心當(dāng)中,241MB的片上SRAM內(nèi)存和一系列高速連接,可以提供745TFLOPS 的 FP8 性能(FP16 時(shí)為 372 TFLOPS)。Blackhole還支持32GB 的 GDDR6 內(nèi)存和基于以太網(wǎng)的互連,能夠在其 10 個(gè) 400Gbps 鏈路上實(shí)現(xiàn) 1TBps 的總帶寬。

Big RISC-V和Baby RISC-V

具體來(lái)說(shuō),與之前推出的基于PCIe的Greyskull 和 Wormhole加速芯片不同,Blackhole是一款獨(dú)立的AI計(jì)算機(jī)系統(tǒng)。

根據(jù)Tenstorrent ML 框架和編程模型高級(jí)研究員 Jasmina Vasiljevic 的說(shuō)法,這主要?dú)w功于其內(nèi)部集成的16 個(gè)具有64 位、雙發(fā)射、順序執(zhí)行的Big RISC-V CPU內(nèi)核,這些內(nèi)核排列在四個(gè)集群中。至關(guān)重要的是,這些Big RISC-V CPU內(nèi)核足夠強(qiáng)大,可以用作運(yùn)行 Linux 的設(shè)備端主機(jī)。并且,還有與之配對(duì)的752 個(gè)“Baby RISC-V”內(nèi)核,這些內(nèi)核負(fù)責(zé)內(nèi)存管理、片外通信和數(shù)據(jù)處理。

image.png

△Blackhole 加速器包含 16 個(gè) Big RISC-V 和 752 個(gè) Baby RISC-V 內(nèi)核。

然而,Blackhole實(shí)際的AI計(jì)算則主要由 Tenstorrent自研的140 個(gè) Tensix AI內(nèi)核處理,每個(gè)內(nèi)核由五個(gè)“Baby RISC-V”內(nèi)核、一對(duì)路由器、一個(gè)計(jì)算綜合體和一些 L1 緩存組成。

image.png

這個(gè)計(jì)算綜合體則是由一個(gè)旨在加速矩陣工作負(fù)載的平鋪數(shù)學(xué)引擎和一個(gè)矢量數(shù)學(xué)引擎組成。前者將支持 Int8、TF32、BF/FP16、FP8 以及 2bit 到 8bit 的浮點(diǎn)數(shù)據(jù)類型,而矢量引擎則主要面向 FP32、INT16 和 INT32數(shù)據(jù)類型。

根據(jù)Tenstorrent 的 AI 軟件和架構(gòu)高級(jí)研究員 Davor Capalija 的說(shuō)法,這種配置意味著該芯片可以支持 AI 和 HPC 應(yīng)用中的各種常見(jiàn)數(shù)據(jù)模式,包括矩陣乘法、卷積和分片數(shù)據(jù)布局。

image.png

△Blackhole 的 Baby RISC-V核心可以進(jìn)行編程以支持各種數(shù)據(jù)移動(dòng)模式

總的來(lái)說(shuō),Blackhole 的 Tensix 內(nèi)核占了總共752 個(gè)Baby RISC-V 內(nèi)核中的 700 個(gè)。如上圖,其余的Baby RISC-V 內(nèi)核則負(fù)責(zé)內(nèi)存管理(“D”代表 DRAM)、片外通信(“E”代表以太網(wǎng))、系統(tǒng)管理(“A”)和 PCIe(“P”)。

Blackhole Galaxy系統(tǒng)

然而,就像英偉達(dá)的AI加速芯片通常被組成集群來(lái)使用一樣,Tenstorrent 的 Blackhole 也被設(shè)計(jì)為作為支持橫向擴(kuò)展系統(tǒng)的一部分進(jìn)行部署。Tenstorrent計(jì)劃將 32 個(gè) Blackhole 加速器塞進(jìn)一個(gè) 4x8 網(wǎng)格網(wǎng)絡(luò)中,并將其稱為 Blackhole Galaxy系統(tǒng)。

image.png

△Tenstorrent 的 Blackhole Galaxy 系統(tǒng)將 32 個(gè) Blackhole 加速器組成了一個(gè)集群,可以實(shí)現(xiàn)近 24 petaFLOPS 的 FP8 性能。

總的來(lái)說(shuō),單個(gè) Blackhole Galaxy 承諾可以帶來(lái)FP8 的 23.8 petaFLOPS 或 FP16 的 11.9 petaFLOPS算力,以及 1TB 的內(nèi)存,能夠?qū)崿F(xiàn) 16 TBps 的原始帶寬。

更重要的是,Tenstorrent 表示,該芯片的內(nèi)核密集架構(gòu)意味著這些系統(tǒng)中的每一個(gè)都可以用作計(jì)算或內(nèi)存節(jié)點(diǎn)或11.2TBps 高帶寬的AI 交換機(jī)。

“你可以把它當(dāng)作樂(lè)高積木來(lái)制作一個(gè)完整的訓(xùn)練集群,”Davor Capalija 說(shuō)。

image.png

Tenstorrent 認(rèn)為,整個(gè)訓(xùn)練集群可以只使用 Blackhole Galaxy 系統(tǒng)作為“樂(lè)高積木”來(lái)構(gòu)建。

相比之下,英偉達(dá)最密集的 HGX/DGX A100 服務(wù)器系統(tǒng)基本都是8個(gè)GPU組成一個(gè)系統(tǒng),其FP16性能不到 2.5 petaFLOPS,相比之下Blackhole Galaxy 的速度提高了近 4.8 倍。事實(shí)上,在系統(tǒng)級(jí)別,Blackhole Galaxy 應(yīng)該可以與英偉達(dá)的HGX/DGX H100 和 H200系統(tǒng)競(jìng)爭(zhēng),后者在FP8數(shù)據(jù)類型下,可以提供大約 15.8 petaFLOPS的算力。

Tenstorrent 使用板載以太網(wǎng)來(lái)進(jìn)行連接,意味著它避免了與處理芯片到芯片和節(jié)點(diǎn)到節(jié)點(diǎn)網(wǎng)絡(luò)的多種互連技術(shù)相關(guān)的挑戰(zhàn),就像英偉達(dá)使用 NVLink 和 InfiniBand/以太網(wǎng)一樣。在這方面,Tenstorrent 的橫向擴(kuò)展策略與 英特爾的Gaudi系列AI加速器平臺(tái)非常相似,后者也使用以太網(wǎng)作為其主要互連。

構(gòu)建軟件生態(tài)系統(tǒng)


除了芯片之外,Tenstorrent 還披露了其加速器的 TT-Metalium 低級(jí)編程模型。

熟悉英偉達(dá)CUDA 平臺(tái)的人都知道,即使競(jìng)品的硬件性能表現(xiàn)比英偉達(dá)更高,配套的軟件也仍可以決定其成敗。Capalija 解釋說(shuō),事實(shí)上,TT-Metalium 有點(diǎn)讓人想起 CUDA 或 OpenCL 等 GPU 編程模型,因?yàn)樗钱悩?gòu)的,但不同之處在于它是從“為 AI 和橫向擴(kuò)展”計(jì)算而構(gòu)建的。

這些差異之一是內(nèi)核本身是帶有 API 的普通 C++?!拔覀冋J(rèn)為不需要特殊的內(nèi)核語(yǔ)言,”他解釋說(shuō)。

image.png

Tenstorrent 旨在支持許多標(biāo)準(zhǔn)模型運(yùn)行時(shí),如 TensorFlow、PyTorch、ONNX、Jax 和 vLLM 。結(jié)合包括 TT-NN、TT-MLIR 和 TT-Forge 在內(nèi)的其他軟件庫(kù),Tenstorrent 旨在支持使用 PyTorch、ONNX、JAX、TensorFlow 和 vLLM 等常用運(yùn)行時(shí)在其加速器上運(yùn)行任何 AI 模型。

對(duì)這些高級(jí)編程模型的支持應(yīng)該有助于抽象出跨這些加速器部署工作負(fù)載的復(fù)雜性,類似于我們?cè)?AMD 和 Intel 加速器中看到的情況。

編輯:芯智訊-浪客劍 編譯自:theregister


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: 芯片

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉