FuriosaAI推出高能效AI芯片：性能與英偉達(dá)L40S接近，功耗低40%！

發(fā)布人：芯智訊時間：2024-10-18 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

8月27日消息，在近日召開的Hot Chips 2024大會上，韓國AI芯片初創(chuàng)公司FuriosaAI 推出了一款面向高性能大型語言模型和多模態(tài)模型推理的高能效數(shù)據(jù)中心AI加速器 RNGD。

需要指出的是，這款芯片并不追求最高的AI性能，對標(biāo)的也不是英偉達(dá)的H100之類的高性能AI芯片，而是一款追求高能效、低功耗AI數(shù)據(jù)中心解決方案，性能與英偉達(dá)L40S接近，功耗還降低了40%。

具體來說，F(xiàn)uriosaAI RNGD基于臺積電5nm工藝制造，其核心的面積為653mm2，晶體管數(shù)量為400億顆，AI計(jì)算核心的頻率為1.0GHz，擁有256MB的片上SRAM，外圍還通過CoWoS-S封裝集成了48GB HBM3（2顆12層堆棧的24GB HBM），內(nèi)存帶寬為1.5TB/s。

在性能方面，基于 RNGD芯片的單張卡算力為64TFLOPS（FP8），可以運(yùn)行Llama 3.1 8B等大語言模型，TDP功耗僅150W，相比之下英偉達(dá)H100 TDP則高達(dá)400W。而基于8張RNGD加速卡的系統(tǒng)，則可提供最高512TFLOPS（FP8）和1024TOPS（INT4）的計(jì)算能力。

根據(jù)FuriosaAI介紹，RNGD在運(yùn)行擁有約100億個參數(shù)的模型時，能夠達(dá)到每秒處理多達(dá)3000個Token的吞吐量。在復(fù)雜的AI算法處理場景中，其能夠有效降低電費(fèi)和冷卻成本，為數(shù)據(jù)中心提供了一種可持續(xù)的發(fā)展解決方案。與當(dāng)前市場上的主流GPU相比，RNGD芯片能耗大幅降低的同時，計(jì)算性能卻未受影響，提升了整體的經(jīng)濟(jì)效益。

正如前面所提及的，F(xiàn)uriosaAI并沒有將RNGD的目標(biāo)對準(zhǔn)高性能的英偉達(dá)H100之類的產(chǎn)品，而是瞄準(zhǔn)了英偉達(dá)L40S，目標(biāo)不僅是提供相似的性能，而且是以更低的功耗提供該性能。根據(jù)FuriosaAI提供的數(shù)據(jù)顯示，RNGD在擁有與英偉達(dá)L40S相近的AI性能的情況下，其能耗大約只有L40S的60%（即相當(dāng)于功耗降低了40%），這也反應(yīng)了其出色的能效表現(xiàn)。

FuriosaAI RNGD的高能效主要得益于其獨(dú)特的TCP架構(gòu)。FuriosaAI表示，該架構(gòu)在能效、性能和可編程性之間達(dá)成了良好的平衡，能夠高效管理數(shù)據(jù)和內(nèi)存。這使得RNGD在處理例如Llama3這樣的龐大模型時，比傳統(tǒng)GPU方案具備明顯的優(yōu)勢，尤其是在能效比方面。

當(dāng)然，這也得益于FuriosaAI RNGD來自于硬件、軟件和算法方面的聯(lián)合優(yōu)化。

比如，F(xiàn)uriosaAI一直試圖解決在硬件和軟件之間的抽象層上工作的挑戰(zhàn)。

張量收縮是FuriosaAI的主要操作之一。在BERT方面，占據(jù)了FLOPS算力的99%。