英特爾AI Gaudi 3 加速器:比 Nvidia H100慢但更便宜
Intel 今天正式推出了適用于 AI 工作負(fù)載的 Gaudi 3 加速器。新處理器在 AI 和 HPC 方面的速度比 Nvidia 流行的 H100 和 H200 GPU 慢,因此英特爾將其 Gaudi 3 的成功押注在其較低的價(jià)格和較低的總擁有成本 (TCO) 上。
Intel 的 Gaudi 3 處理器使用兩個(gè)小芯片,其中包含 64 個(gè)張量處理器內(nèi)核(TPC、256x256 MAC 結(jié)構(gòu),帶 FP32 累加器)、八個(gè)矩陣乘法引擎(MME,256 位寬矢量處理器)和 96MB 片上 SRAM 緩存,帶寬為 19.2 TB/s。此外,Gaudi 3 還集成了 24 200 GbE 網(wǎng)絡(luò)接口和 14 個(gè)媒體引擎,后者能夠處理 H.265、H.264、JPEG 和 VP9 以支持視覺處理。該處理器配備 128GB HBM2E 內(nèi)存,分為八個(gè)內(nèi)存堆棧,提供 3.67 TB/s 的巨大帶寬。
與 Gaudi 3 相比,英特爾的 Gaudi 2 代表了巨大的改進(jìn),Gaudi 2 具有 24 個(gè) TPC、兩個(gè) MME 和攜帶 96GB 的 HBM2E 內(nèi)存。但是,英特爾似乎簡化了 TPC 和 MME,因?yàn)?Gaudi 3 處理器僅支持 FP8 矩陣運(yùn)算以及 BFloat16 矩陣和向量運(yùn)算(即不再有 FP32、TF32 和 FP16)。
在性能方面,英特爾表示,Gaudi 3 可以在 600W TDP 左右的情況下提供高達(dá) 1856 BF16/FP8 矩陣 TFLOPS 以及高達(dá) 28.7 BF16 矢量 TFLOPS。與 Nvidia 的 H100 相比,至少在紙面上,Gaudi 3 的 BF16 矩陣性能略低(1,856 對(duì) 1,979 TFLOPS),F(xiàn)P8 矩陣性能低兩倍(1,856 對(duì) 3,958 TFLOPS),BF16 矢量性能明顯較低(28.7 對(duì) 1,979 TFLOPS)。
比原始規(guī)格更重要的是 Gaudi 3 的實(shí)際性能。它需要與 AMD 的 Instinct MI300 系列以及 Nvidia 的 H100 和 B100/B200 處理器競爭。而這還有待觀察,因?yàn)楹艽蟪潭壬先Q于軟件和其他因素。目前,英特爾展示了一些幻燈片,聲稱與 Nvidia 的 H3 相比,Gaudi 100 可以提供顯著的性價(jià)比優(yōu)勢。
今年早些時(shí)候,英特爾表示,基于基板上八個(gè) Gaudi 3 處理器的加速器套件將花費(fèi) 125,000 美元,這意味著每個(gè)處理器的成本約為 15,625 美元。相比之下,Nvidia H100 卡目前的售價(jià)為 30,678 美元,因此英特爾確實(shí)計(jì)劃比其競爭對(duì)手擁有很大的價(jià)格優(yōu)勢。然而,由于基于 Blackwell 的 B100/B200 GPU 可能提供的巨大性能優(yōu)勢,這家藍(lán)色公司是否能夠保持其相對(duì)于競爭對(duì)手的優(yōu)勢還有待觀察。
“對(duì) AI 的需求正在導(dǎo)致數(shù)據(jù)中心的大規(guī)模變革,該行業(yè)正在尋求硬件、軟件和開發(fā)人員工具的選擇,”英特爾執(zhí)行副總裁兼數(shù)據(jù)中心和人工智能事業(yè)部總經(jīng)理 Justin Hotard 說。隨著我們推出具有 P-core(性能核)和 Gaudi 3 AI 加速器的 Xeon 6,Intel 正在實(shí)現(xiàn)一個(gè)開放的生態(tài)系統(tǒng),使我們的客戶能夠以更高的性能、效率和安全性實(shí)施其所有工作負(fù)載。
英特爾的 Gaudi 3 AI 加速器將從 IBM Cloud 和 Intel Tiber Developer Cloud 獲得。此外,基于英特爾至強(qiáng) 6 和高迪 3 的系統(tǒng)將于第四季度從戴爾、慧與和 Supermicro 全面上市,戴爾和 Supermicro 的系統(tǒng)將于 10 月發(fā)貨,Supermicro 的機(jī)器將于 12 月發(fā)貨。
評(píng)論