新聞中心

EEPW首頁 > 網(wǎng)絡(luò)與存儲 > 市場分析 > ISSCC 2025上的存算一體芯片

ISSCC 2025上的存算一體芯片

作者: 時間:2025-02-26 來源:半導(dǎo)體產(chǎn)業(yè)縱橫 收藏

當前, 邊緣智能計算設(shè)備部署神經(jīng)網(wǎng)絡(luò)時, 往往需要通過訓(xùn)練微調(diào)以提升網(wǎng)絡(luò)精度。但基于遠程云端訓(xùn)練的方法存在高延遲、高功耗以及存在隱私泄露風險等缺點, 因此, 實現(xiàn)支持本地訓(xùn)練的存算一體技術(shù)至關(guān)重要。

本文引用地址:http://www.butianyuan.cn/article/202502/467330.htm

存算一體(Computing-in-Memory, CIM)技術(shù)是一種革命性的計算架構(gòu),通過將計算和存儲功能集成在同一芯片中,解決了傳統(tǒng)馮?諾依曼架構(gòu)中的 「內(nèi)存墻」 問題。隨著人工智能、邊緣計算和數(shù)據(jù)中心等領(lǐng)域的快速發(fā)展,存算一體技術(shù)因其高效能、低功耗的特點,成為未來計算架構(gòu)的重要方向

傳統(tǒng)的存算一體宏僅支持網(wǎng)絡(luò)推理, 無法進行網(wǎng)絡(luò)訓(xùn)練所需要的轉(zhuǎn)置運算?,F(xiàn)有方案無法對訓(xùn)練中的前向與反向傳播過程中的乘累加電路進行有效的復(fù)用, 造成了功耗和面積上的浪費, 且僅支持定點數(shù)制的模擬存算方案, 在精度上也存在較大的缺陷。如何有效實現(xiàn)支持轉(zhuǎn)置操作的高能效、高精度的存算一體宏, 是當前存算一體領(lǐng)域亟須解決的問題。

針對以上問題, 集成電路制造技術(shù)全國重點實驗室張鋒研究員團隊設(shè)計出可轉(zhuǎn)置的近似精確雙模浮點存算一體宏芯片。

通過提出的循環(huán)權(quán)重映射 SRAM 方案, 芯片可在前向與反向傳播時復(fù)用乘加單元, 在實現(xiàn)了轉(zhuǎn)置功能的同時, 相對之前的轉(zhuǎn)置存算一體宏單元大大提升了能效與算力密度。

通過提出的有符號定點尾數(shù)編碼方式與向量粒度預(yù)對齊方案, 芯片實現(xiàn)了多種浮點、定點數(shù)制的兼容支持, 相較于傳統(tǒng)的粗粒度浮點預(yù)對齊方案有著更小的精度損失。

通過提出的近似精確雙模的乘加電路設(shè)計, 芯片可在精度要求低的推理環(huán)節(jié)時開啟近似模式, 從而獲得 12% 的速度提升與 45% 的能耗降低, 可在精度要求高的訓(xùn)練環(huán)節(jié)時開啟精確模式確保沒有精度損失。

該存算一體宏芯片在 28nm CMOS 工藝下流片, 可支持 BF16、FP8 浮點精度運算以及 INT8、INT4 定點精度運算。BF16 浮點矩陣-矩陣-向量計算均值能效達到 48TFLOP/W, 峰值能效達到 100TFLOPS/W;FP8 浮點矩陣-矩陣-向量計算均值能效達到 192.3TFLOP/W, 峰值能效達到 400TFLOPS/W。這一研究結(jié)果為應(yīng)用于邊緣端訓(xùn)練的存算一體架構(gòu)芯片提供了新思路。

上述工作以「A 28nm 192.3TFLOPS/W Accurate/Approximate Dual-mode Transpose Digital 6T-SRAM Compute-in-Memory Macro for Floating-Point Edge Training and Inference」為題入選 ISSCC 2025。微電子所博士生袁易揚為第一作者, 張鋒研究員與北京理工大學(xué)李瀟然助理教授為通訊作者。該研究成果得到了科技部重點研發(fā)計劃、國家自然科學(xué)基金、中國科學(xué)院戰(zhàn)略先導(dǎo)專項等項目的支持。


圖 1. 28nm 基于外積的數(shù)?;旌细↑c存算一體宏芯片:(a) 芯片顯微鏡照片,(b) 芯片特性總結(jié)表。

存算一體芯片的適用場景

中早期的存算一體芯片算力較小,從小算力 1TOPS 開始往上走,解決的是音頻類、健康類及低功耗視覺終端側(cè)應(yīng)用場景,AI 落地的芯片性能及功耗問題。比如:AIoT 的應(yīng)用。眾所周知,碎片化的 AIoT 市場對先進工藝芯片的需求并不強烈,反而更青睞低成本、低功耗、易開發(fā)的芯片。存算一體正是符合這一系列要求的芯片。

首先,存算一體技術(shù)能夠減少數(shù)據(jù)在存儲單元和計算單元之間的移動,從而顯著降低能耗。例如,傳統(tǒng)架構(gòu)中,大量的數(shù)據(jù)傳輸會消耗大量能量,而存算一體架構(gòu)可以避免這種不必要的能耗,使得像電池供電的物聯(lián)網(wǎng)設(shè)備能夠更長時間地運行。

其次,通過減少數(shù)據(jù)傳輸和提高集成度,存算一體技術(shù)可以降低芯片的制造成本。對于大規(guī)模部署的 AIoT 設(shè)備來說,成本的降低有助于更廣泛的應(yīng)用推廣。

最后,存算一體芯片還可以大幅提高運算速度并節(jié)省空間,而這兩項也是給 AIoT 應(yīng)用帶來助力的兩大因素。

目前云計算算力市場,GPU 的單一架構(gòu)已經(jīng)不能適應(yīng)不同 AI 計算場景的算法離散化特點,如在圖像、推薦、NLP 領(lǐng)域有各自的主流算法架構(gòu)。隨著存算一體芯片算力不斷提升,使用范圍逐漸擴展到大算力應(yīng)用領(lǐng)域。針對大算力場景>100TOPS,在無人車、泛機器人、智能駕駛,云計算領(lǐng)域提供高性能大算力和高性價比的產(chǎn)品。此外,存算一體芯片還有一些其他延伸應(yīng)用,比如感存算一體、類腦計算等。



關(guān)鍵詞: CIM芯片

評論


技術(shù)專區(qū)

關(guān)閉