新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 清華大學在支持片上學習的憶阻器存算一體芯片領域取得重大突破

清華大學在支持片上學習的憶阻器存算一體芯片領域取得重大突破

作者: 時間:2023-09-18 來源:清華大學集成電路學院 收藏

當前,生成式人工智能已引爆新一輪智能革命的發(fā)展浪潮,大算力支撐下的人工智能技術極大改變著人類的生產(chǎn)生活方式??呻S之而來的海量參數(shù)令算力需求持續(xù)攀升,如何解決龐大的算力缺口,實現(xiàn)能效比的大幅提升,正在變得日益迫切。高算力、高能效芯片作為算力的具體載體,已成為驅動本輪智能革命發(fā)展的核心底座,更是推動人類社會不斷發(fā)展的動力源泉。

本文引用地址:http://butianyuan.cn/article/202309/450640.htm

面向傳統(tǒng)存算分離架構制約算力提升的重大挑戰(zhàn),集成電路學院吳華強教授、高濱副教授聚焦憶阻器存算一體技術研究,探索實現(xiàn)計算機系統(tǒng)新范式。憶阻器存算一體技術從底層器件、電路架構和計算理論全面顛覆了馮·諾依曼傳統(tǒng)計算架構,可實現(xiàn)算力和能效的跨越式提升,同時,該技術還可利用底層器件的學習特性,支持實時片上學習,賦能基于本地學習的邊緣訓練新場景。當前國際上的相關研究主要集中在憶阻器陣列層面的學習功能演示,然而實現(xiàn)全系統(tǒng)集成的、支持高效片上學習的憶阻器芯片仍面臨較大挑戰(zhàn),至今還未實現(xiàn),主要在于傳統(tǒng)的反向傳播訓練算法所要求的高精度權重更新方式與憶阻器實際特性的適配性較差。

為解決上述難題,課題組基于存算一體計算范式,創(chuàng)造性提出適配憶阻器存算一體實現(xiàn)高效片上學習的新型通用算法和架構(STELLAR),有效實現(xiàn)大規(guī)模模擬型憶阻器陣列與 CMOS 的單片三維集成,通過算法、架構、集成方式的全流程協(xié)同創(chuàng)新,研制出全球首顆全系統(tǒng)集成的、支持高效片上學習的憶阻器存算一體芯片。該芯片包含支持完整片上學習所必需的全部電路模塊,成功完成圖像分類、語音識別和控制任務等多種片上增量學習功能驗證,展示出高適應性、高能效、高通用性、高準確率等特點,有效強化了智能設備在實際應用場景下的學習適應能力。相同任務下,該芯片實現(xiàn)片上學習的能耗僅為先進工藝下專用集成電路(ASIC)系統(tǒng)的 3%,展現(xiàn)出卓越的能效優(yōu)勢,極具滿足人工智能時代高算力需求的應用潛力,為突破馮·諾依曼傳統(tǒng)計算架構下的能效瓶頸提供了一種創(chuàng)新發(fā)展路徑。

圖一:憶阻器存算一體芯片及測試系統(tǒng)


圖二:基于憶阻器存算一體, 實現(xiàn)高效片上學習的通用算法和架構

該研究成果以「面向邊緣學習的全集成類腦憶阻器芯片」(Edge Learning Using a Fully Integrated Neuro-Inspired Memristor Chip)為題在線發(fā)表在《科學》(Science)上。

論文通訊作者為清華大學集成電路學院高濱副教授和吳華強教授,清華大學集成電路學院博士生張文彬、博士后姚鵬為論文的共同第一作者,其他參加研究的作者包括清華大學集成電路學院錢鶴教授、唐建石副教授、伍冬副研究員、張清天助理研究員,清華大學電子系汪玉教授等。

該研究得到科技部科技創(chuàng)新 2030「腦科學與類腦研究」重大項目、國家自然科學基金委后摩爾重大研究計劃、北京集成電路高精尖創(chuàng)新中心等支持。

論文鏈接

https://www.science.org/doi/full/10.1126/science.ade3483

清華大學集成電路學院錢鶴、吳華強教授團隊長期致力于基于憶阻器的存算一體技術研究,從器件制備、工藝集成、電路設計及架構與算法優(yōu)化等多層次實現(xiàn)創(chuàng)新突破,先后在《自然》(Nature)、《科學》(Science)、《自然·納米技術》(Nature Nanotechnology)、《自然·電子》(Nature Electronics)、《自然·機器智能》(Nature Machine Intelligence)等頂級期刊以及國際電子器件會議(IEDM)、國際固態(tài)半導體電路大會(ISSCC)等領域內(nèi)頂級國際學術會議上發(fā)表多篇論文。高濱課題組作為團隊重要研究力量,長期從事憶阻器性能優(yōu)化和存算一體芯片設計方法的相關研究,成功開發(fā)了從器件到系統(tǒng)的聯(lián)合仿真工具和協(xié)同優(yōu)化方法,設計出計算精度大于 95%、能效大于 78TOPs/W 的高性能憶阻器存算一體芯片。


什么是存算一體?

存算一體(Computing in Memory)是在存儲器中嵌入計算能力,以新的運算架構進行二維和三維矩陣乘法/加法運算。

存算一體技術概念的形成,最早可以追溯到上個世紀 70 年代。隨著近幾年云計算和人工智能(AI)應用的發(fā)展,面對計算中心的數(shù)據(jù)洪流,數(shù)據(jù)搬運慢、搬運能耗大等問題成為了計算的關鍵瓶頸。

在過去二十年,處理器性能以每年大約 55% 的速度提升,內(nèi)存性能的提升速度每年只有 10% 左右。結果長期下來,不均衡的發(fā)展速度造成了當前的存儲速度嚴重滯后于處理器的計算速度。

在傳統(tǒng)計算機的設定里,存儲模塊是為計算服務的,因此設計上會考慮存儲與計算的分離與優(yōu)先級。但是如今,存儲和計算不得不整體考慮,以最佳的配合方式為數(shù)據(jù)采集、傳輸和處理服務。這里面,存儲與計算的再分配過程就會面臨各種問題,而它們主要體現(xiàn)為存儲墻、帶寬墻和功耗墻問題。

雖然多核(例如 CPU)/眾核(例如 GPU)并行加速技術也能提升算力,但在后摩爾時代,存儲帶寬制約了計算系統(tǒng)的有效帶寬,芯片算力增長步履維艱。

從處理單元外的存儲器提取數(shù)據(jù),搬運時間往往是運算時間的成百上千倍,整個過程的無用能耗大概在 60%-90% 之間,能效非常低,「存儲墻」成為了數(shù)據(jù)計算應用的一大障礙。特別是,深度學習加速的最大挑戰(zhàn)就是數(shù)據(jù)在計算單元和存儲單元之間頻繁的移動。

存內(nèi)計算和存內(nèi)邏輯,即存算一體技術直接利用存儲器進行數(shù)據(jù)處理或計算,從而把數(shù)據(jù)存儲與計算融合在同一個芯片的同一片區(qū)之中,可以徹底消除馮諾依曼計算架構瓶頸,特別適用于深度學習神經(jīng)網(wǎng)絡這種大數(shù)據(jù)量大規(guī)模并行的應用場景。


存算一體發(fā)展史

1969 年,斯坦福研究所的 Kautz 等人提出了存算一體計算機的概念。但受限于當時的芯片制造技術和算力需求的匱乏,那時存算一體僅僅停留在理論研究階段,并未得到實際應用。

為了打破馮諾依曼計算架構瓶頸,降低「存儲-內(nèi)存-處理單元」過程數(shù)據(jù)搬移帶來的開銷,學術界和工業(yè)界嘗試了多種方法。其中比較直接的方法是近存計算,減少內(nèi)存和處理單元之間的路徑,如通過 3D 封裝技術實現(xiàn) 3D 堆疊,將多層 DRAM 堆疊而成的新型內(nèi)存,能提供更大的內(nèi)存容量和內(nèi)存帶寬。此外,Intel 和 Micron 合作開發(fā)的基于 PRAM 存儲介質的 3D Xpoint 屬于堆疊型內(nèi)存,旨在縮短片上存儲與內(nèi)存之間的路徑。但上述方案并沒有改變數(shù)據(jù)存儲與數(shù)據(jù)處理分離的問題,并不能從根本上解決馮諾依曼計算架構瓶頸。

近年來,隨著半導體制造技術的突飛猛進,以及 AI、元宇宙等算力密集的應用場景的崛起,為存算一體技術提供新的制造平臺和產(chǎn)業(yè)驅動力。

2010 年,惠普實驗室的 Williams 教授團隊用憶阻器實現(xiàn)簡單布爾邏輯功能。2016 年,美國加州大學圣塔芭芭拉分校(UCSB)的謝源教授團隊提出使用 RRAM 構建存算一體架構的深度學習神經(jīng)網(wǎng)絡 (PRIME)。相較于傳統(tǒng)馮諾伊曼架構的傳統(tǒng)方案,PRIME 可以實現(xiàn)功耗降低約 20 倍、速度提升約 50 倍,引起產(chǎn)業(yè)界廣泛關注。

隨著人工智能等大數(shù)據(jù)應用的興起,存算一體技術得到國內(nèi)外學術界與產(chǎn)業(yè)界的廣泛研究與應用。在 2017 年微處理器頂級年會 (Micro 2017) 上,包括英偉達、英特爾、微軟、三星、加州大學圣塔芭芭拉分校等都推出了他們的存算一體系統(tǒng)原型。




關鍵詞:

評論


相關推薦

技術專區(qū)

關閉