新聞中心

EEPW首頁 > 網(wǎng)絡(luò)與存儲 > 市場分析 > 存算一體芯片,實打?qū)嵉幕鹆?/p>

存算一體芯片,實打?qū)嵉幕鹆?/h1>
作者: 時間:2024-04-12 來源:半導(dǎo)體產(chǎn)業(yè)縱橫 收藏

在當前數(shù)字化高速發(fā)展的時代,數(shù)據(jù)處理和存儲的需求日益增長,傳統(tǒng)的計算與存儲分離的模式已逐漸難以滿足高效、低能耗的需求。

本文引用地址:http://butianyuan.cn/article/202404/457512.htm

因此,業(yè)界迫切需要一種新型的解決方案來應(yīng)對這一挑戰(zhàn)。存算一體便是當下最熱門的方案之一。

存算一體架構(gòu)的優(yōu)勢

存算一體技術(shù)有助于解決傳統(tǒng)馮·諾依曼架構(gòu)下的「存儲墻」和「功耗墻」問題。

馮·諾依曼架構(gòu)要求數(shù)據(jù)在存儲器單元和處理單元之間不斷地「讀寫」,這樣數(shù)據(jù)在兩者之間來回傳輸就會消耗很多的傳輸功耗。根據(jù)英特爾的研究表明,當半導(dǎo)體工藝達到 7nm 時,數(shù)據(jù)搬運功耗高達 35pJ/bit,占總功耗的 63.7%。數(shù)據(jù)傳輸造成的功耗損失越來越嚴重,限制了芯片發(fā)展的速度和效率,形成了「功耗墻」問題。

「存儲墻」是指由于存儲器的性能跟不上 CPU 的性能,導(dǎo)致 CPU 需要花費大量的時間等待存儲器完成讀寫操作,從而降低了系統(tǒng)的整體性能?!复鎯Α钩蔀榱藬?shù)據(jù)計算應(yīng)用的一大障礙。特別是,深度學習加速的最大挑戰(zhàn)就是數(shù)據(jù)在計算單元和存儲單元之間頻繁的移動。

存算一體的優(yōu)勢便是打破存儲墻,消除不必要的數(shù)據(jù)搬移延遲和功耗,并使用存儲單元提升算力,成百上千倍的提高計算效率,降低成本。

存算一體屬于非馮·諾伊曼架構(gòu),在特定領(lǐng)域可以提供更大算力(1000TOPS 以上)和更高能效(超過 10-100TOPS/W),明顯超越現(xiàn)有 ASIC 算力芯片。

除了用于 AI 計算外,存算技術(shù)也可用于感和類腦芯片,代表了未來主流的大數(shù)據(jù)計算芯片架構(gòu)。

存算一體技術(shù)分類

目前,存算一體的技術(shù)路徑尚未形成統(tǒng)一的分類,目前主流的劃分方法是依照計算單元與存儲單元的距離,將其大致分為近存計算(PNM)、存內(nèi)處理(PIM)、存內(nèi)計算(CIM)。

近存計算是一種較為成熟的技術(shù)路徑。它利用先進的封裝技術(shù),將計算邏輯芯片和存儲器封裝到一起,通過減少內(nèi)存和處理單元之間的路徑,實現(xiàn)高 I/O 密度,進而實現(xiàn)高內(nèi)存帶寬以及較低的訪問開銷。近存計算主要通過 2.5D、3D 堆疊等技術(shù)來實現(xiàn),廣泛應(yīng)用于各類 CPU 和 GPU 上。

存內(nèi)處理則主要側(cè)重于將計算過程盡可能地嵌入到存儲器內(nèi)部。這種實現(xiàn)方式旨在減少處理器訪問存儲器的頻率,因為大部分計算已經(jīng)在存儲器內(nèi)部完成。這種設(shè)計有助于消除馮·諾依曼瓶頸帶來的問題,提高數(shù)據(jù)處理速度和效率。

存內(nèi)計算同樣是將計算和存儲合二為一的技術(shù)。它有兩種主要思路。第一種思路是通過電路革新,讓存儲器本身就具有計算能力。這通常需要對 SRAM 或者 MRAM 等存儲器進行改動,以在數(shù)據(jù)讀出的 decoder 等地方實現(xiàn)計算功能。這種方法的能效比通常較高,但計算精度可能受限。

另一種思路是在存儲器內(nèi)部集成額外的計算單元,以支持高精度計算。這種思路主要針對 DRAM 等主處理器訪問開銷大的存儲器,但 DRAM 工藝對計算邏輯電路不太友好,因此集成計算單元的挑戰(zhàn)較大。

存內(nèi)計算也就是國內(nèi)大部分初創(chuàng)公司所說的存算一體。

值得注意的是,不同的公司在這一領(lǐng)域的研發(fā)與實踐中,各自選擇了不同的賽道進行押注。有的公司側(cè)重于優(yōu)化存儲與計算之間的協(xié)同效率,力求在大數(shù)據(jù)處理上實現(xiàn)質(zhì)的飛躍;而另一些公司則更注重架構(gòu)的靈活性和擴展性,以適應(yīng)不斷變化的市場需求。此外,存算一體依托的存儲介質(zhì)也呈現(xiàn)多樣化,比如以 SRAM、DRAM 為代表的易失性存儲器、以 Flash 為代表的非易失性存儲器等。綜合來看,不同存儲介質(zhì)各有各的優(yōu)點和短板。

各大廠商,各有押注

從存算一體發(fā)展歷程來看,自 2017 年起,英偉達、微軟、三星等大廠提出了存算一體原型,同年國內(nèi)企業(yè)開始涌現(xiàn)。

大廠們對存算一體架構(gòu)的需求是實用且落地快,而作為最接近工程落地的技術(shù),近存計算成為大廠們的首選。諸如特斯拉、三星等擁有豐富生態(tài)的大廠以及英特爾、IBM 等傳統(tǒng)芯片大廠都在布局近存計算。

國際主要廠商研究進展

在存算一體的研究路徑上,三星選擇多個技術(shù)路線進行嘗試,2021 年初,三星發(fā)布基于 HBM 的新型內(nèi)存,里面集成了 AI 處理器,該處理器可以實現(xiàn)高達 1.2TFLOPS 的計算能力,新型 HBM-PIM 芯片將 AI 引擎引入每個存儲庫,從而將處理操作轉(zhuǎn)移到 HBM,可以減輕在內(nèi)存和處理器之間搬運數(shù)據(jù)的負擔。三星表示新型 HBM-PIM 芯片,可以提供 2 倍的系統(tǒng)性能,同時能耗降低了 70% 以上。

2022 年 1 月三星電子又帶來新研究成果,該公司在頂級學術(shù)期刊 Nature 上發(fā)表了全球首個基于 MRAM(磁性隨機存儲器)的存內(nèi)計算研究。據(jù)介紹,三星電子的研究團隊通過構(gòu)建新的 MRAM 陣列結(jié)構(gòu),用基于 28nm CMOS 工藝的 MRAM 陣列芯片運行了手寫數(shù)字識別和人臉檢測等 AI 算法,準確率分別為 98% 和 93%。

SK 海力士 2022 年 2 月也宣布開發(fā)出下一代智能內(nèi)存芯片技術(shù) PIM,SK 海力士還開發(fā)出了公司首款基于 PIM 技術(shù)的產(chǎn)品- GDDR6-AiM 的樣本。GDDR6-AiM 是將計算功能添加到數(shù)據(jù)傳輸速度為 16Gbps 的 GDDR6 內(nèi)存的產(chǎn)品。與傳統(tǒng) DRAM 相比,將 GDDR6-AiM 與 CPU、GPU 相結(jié)合的系統(tǒng)可在特定計算環(huán)境中將演算速度提高至最高 16 倍。GDDR6-AiM 有望在機器學習、高性能計算、大數(shù)據(jù)計算和存儲等領(lǐng)域有廣泛應(yīng)用。隨后在 2022 年 10 月,SK 海力士再次宣布推出基于 CXL 的存算一體計算存儲器解決方案 CMS(Computational Memory Solution)。

臺積電也在進行存內(nèi)計算的研究,該公司的研究人員在 2021 年初的國際固態(tài)電路會議(ISSCC 2021)上提出了一種基于數(shù)字改良的 SRAM 設(shè)計存內(nèi)計算方案,能支持更大的神經(jīng)網(wǎng)絡(luò)。2024 年 1 月,臺積電攜手工研院宣布成功研發(fā)出自旋軌道轉(zhuǎn)矩磁性存儲器(SOT-MRAM)陣列芯片,標志著在下一代 MRAM 存儲器技術(shù)領(lǐng)域的重大突破。這一創(chuàng)新產(chǎn)品不僅采用了先進的運算架構(gòu),而且其功耗僅為同類技術(shù) STT-MRAM 的 1%。工研院與臺積電的合作使得 SOT-MRAM 在工作速度方面達到 10ns,進一步提高了存內(nèi)運算性能。

英特爾也是 MRAM 技術(shù)的主要推動者,該公司采用的是基于 FinFET 技術(shù)的 22 nm 制程。2018 年底,英特爾首次公開介紹了其 MRAM 的研究成果,推出了一款基于 22nm FinFET 制程的 STT-MRAM,當時,該公司稱,這是首款基于 FinFET 的 MRAM 產(chǎn)品,并表示已經(jīng)具備該技術(shù)產(chǎn)品的量產(chǎn)能力。

國內(nèi)主要廠商研究進展

國內(nèi)初創(chuàng)企業(yè)則聚焦于無需考慮先進制程技術(shù)的存內(nèi)計算。其中,知存科技、億鑄科技、九天睿芯等初創(chuàng)公司都在押注 PIM、CIM 等「存」與「算」更親密的存算一體技術(shù)路線。億鑄科技、千芯科技等專注于大模型計算、自動駕駛等 AI 大算力場景;閃易、新憶科技、蘋芯科技、知存科技等則專注于物聯(lián)網(wǎng)、可穿戴設(shè)備、智能家居等邊緣小算力場景。

那么目前各家企業(yè)的研究和量產(chǎn)情況進展如何呢?各家的技術(shù)路線有何差異?存算一體技術(shù)未來的整體趨勢如何?

云和邊緣大算力企業(yè)

億鑄科技

億鑄科技成立于 2020 年 6 月,致力于用存算一體架構(gòu)設(shè)計 AI 大算力芯片,首次將憶阻器 ReRAM 和存算一體架構(gòu)相結(jié)合,通過全數(shù)字化的芯片設(shè)計思路,在當前產(chǎn)業(yè)格局的基礎(chǔ)上,提供一條更具性價比、更高能效比、更大算力發(fā)展空間的 AI 大算力芯片換道發(fā)展新路徑。2023 年,億鑄科技率先提出「存算一體超異構(gòu)架構(gòu)」這一全新的技術(shù)發(fā)展路徑,為中國 AI 算力芯片的進一步發(fā)展增添新動能。

目前,億鑄科技點亮了基于憶阻器 ReRAM 的高精度、低功耗存算一體 AI 大算力 POC 芯片,基于傳統(tǒng)工藝制程,能效比表現(xiàn)經(jīng)第三方機構(gòu)驗證,超出傳統(tǒng)架構(gòu) AI 芯片平均性能的 10 倍以上。

千芯科技

千芯科技成立于 2019 年,專注于面向人工智能和科學計算領(lǐng)域的大算力存算一體算力芯片與計算解決方案研發(fā),在 2019 年率先提出可重構(gòu)存算一體技術(shù)產(chǎn)品架構(gòu),在計算吞吐量方面相比傳統(tǒng) AI 芯片能夠提升 10-40 倍。目前千芯科技可重構(gòu)(原型)已在云計算、自動駕駛感知、圖像分類、車牌識別等領(lǐng)域試用或落地;其大算力存算一體芯片產(chǎn)品原型也已在國內(nèi)率先通過互聯(lián)網(wǎng)大廠內(nèi)測。

后摩智能

后摩智能成立于 2020 年,2023 年 5 月后摩智能正式推出存算一體智駕芯片后摩鴻途 H30,物理算力達到 256TOPS,典型功耗達到 35W。根據(jù)后摩實驗室及 MLPerf 公開測試結(jié)果,在 ResNet50 性能功耗對比上,采取 12nm 制程的 H30 相比同類芯片性能提升超 2 倍,功耗減少超 50%。

據(jù)后摩智能聯(lián)合創(chuàng)始人兼研發(fā)副總裁陳亮介紹,鴻途 H30 以存算一體創(chuàng)新架構(gòu)實現(xiàn)了六大技術(shù)突破,即大算力、全精度、低功耗、車規(guī)級、可量產(chǎn)、通用性。鴻途 H30 基于 SRAM 存儲介質(zhì),采用數(shù)字存算一體架構(gòu),擁有極低的訪存功耗和超高的計算密度,在 Int8 數(shù)據(jù)精度條件下,其 AI 核心 IPU 能效比高達 15Tops/W,是傳統(tǒng)架構(gòu)芯片的 7 倍以上。同時,后摩智能第二代產(chǎn)品鴻途 H50 已經(jīng)在全力研發(fā)中,預(yù)計將于 2024 年推出,支持客戶 2025 年的量產(chǎn)車型。

端和邊緣小算力企業(yè)

知存科技

知存科技的方案是重新設(shè)計存儲器,利用 Flash 閃存存儲單元的物理特性,對存儲陣列改造和重新設(shè)計外圍電路使其能夠容納更多的數(shù)據(jù),同時將算子也存儲到存儲器當中,使得每個單元都能進行模擬運算并且能直接輸出運算結(jié)果,以達到存算一體的目的。

知存科技的存算一體芯片已進入多個可穿戴設(shè)備產(chǎn)品,年銷量預(yù)計達百萬。2020 年知存科技推出了存算一體加速器 WTM1001,2022 年知存科技推出全球首顆大規(guī)模量產(chǎn)的存內(nèi)計算芯片 WTM2101,該芯片已被多家國際知名企業(yè)用于智能語音、AI 健康監(jiān)測等場景,相比傳統(tǒng)芯片,該芯片在算力和功耗上優(yōu)勢顯著,賦能行業(yè)用戶實現(xiàn)端側(cè) AI 能力的提升和應(yīng)用的推廣。

目前,知存科技自主研發(fā)的邊緣側(cè)算力芯片 WTM-8 系列也即將量產(chǎn),該系列芯片能夠提供至少 24Tops 算力,而功耗僅為市場同類方案的 5%,將助力移動設(shè)備實現(xiàn)更高性能的圖像處理和空間計算。2025 年前后知存科技將推出 WTM-C 系列產(chǎn)品,可以用于邊緣服務(wù)器等。隨著集成規(guī)模、工藝等方面的技術(shù)推進,未來幾年存內(nèi)計算產(chǎn)品預(yù)計平均每年都有 5~10 倍算力的提升。

九天睿芯

九天睿芯專注于神經(jīng)擬態(tài)感存算一體芯片研發(fā),提供人工智能系統(tǒng)高效低耗運行的最新解決方案,廣泛應(yīng)用于 AIoT 等對低功耗延時需求強烈的領(lǐng)域,為用戶提供面向聲音端和視覺端的 AI 芯片。九天睿芯基于多年在全球領(lǐng)先的視覺領(lǐng)域感存算一體研究學習和實踐積累,并和來自世界頂級圖像傳感器公司的研發(fā)合作和戰(zhàn)略投資,已設(shè)計出可廣泛應(yīng)用于視覺領(lǐng)域的超高能效比(20Tops/W)基于 SRAM 的感存算一體架構(gòu)芯片 ADA20X。

存算一體技術(shù)已至大規(guī)模應(yīng)用的前夜

當前 AI 算力需求的不斷增長,存算一體技術(shù)已經(jīng)接近大規(guī)模量產(chǎn)的節(jié)點,隨著技術(shù)成熟度的提高以及大規(guī)模商用落地,其市場空間有望呈現(xiàn)爆炸式增長。

據(jù) QYResearch 調(diào)研團隊最新報告《全球存算一體技術(shù)市場報告 2023-2029》顯示,預(yù)計 2029 年全球存算一體技術(shù)市場規(guī)模將達到 306.3 億美元,未來幾年年復(fù)合增長率 CAGR 為 154.7%。這一高增長率的背后,是存算一體技術(shù)在數(shù)據(jù)處理、人工智能、物聯(lián)網(wǎng)等多個領(lǐng)域的廣泛應(yīng)用和深度融合。

隨著大數(shù)據(jù)、云計算和人工智能等技術(shù)的快速發(fā)展,存算一體技術(shù)作為實現(xiàn)高效數(shù)據(jù)存儲和計算的關(guān)鍵技術(shù),其重要性日益凸顯。面對如此巨大的市場空間和發(fā)展機遇,我們也需要清醒地認識到存算一體技術(shù)面臨的挑戰(zhàn)和困難。比如,存算一體技術(shù)是一門非常復(fù)雜的綜合性創(chuàng)新,產(chǎn)業(yè)還算不上成熟,在產(chǎn)業(yè)鏈方面仍舊存在上游支撐不足,下游應(yīng)用不匹配的諸多挑戰(zhàn),但諸多的挑戰(zhàn)同時也構(gòu)成了當前存算一體創(chuàng)新未來可構(gòu)筑的綜合性壁壘。

未來,隨著技術(shù)的不斷進步和應(yīng)用的不斷拓展,存算一體技術(shù)將在更多領(lǐng)域發(fā)揮重要作用,為全球經(jīng)濟發(fā)展注入新的動力。同時,這也將對相關(guān)產(chǎn)業(yè)鏈產(chǎn)生深遠影響,推動整個科技產(chǎn)業(yè)的創(chuàng)新和升級。



關(guān)鍵詞: 存算一體芯片

評論


技術(shù)專區(qū)

關(guān)閉