博客專欄

EEPW首頁(yè) > 博客 > 入選芯片頂會(huì)ISSCC,阿里達(dá)摩院最新存算芯片技術(shù)解讀

入選芯片頂會(huì)ISSCC,阿里達(dá)摩院最新存算芯片技術(shù)解讀

發(fā)布人:深科技 時(shí)間:2021-12-14 來源:工程師 發(fā)布文章
存算技術(shù)在海量數(shù)據(jù)計(jì)算場(chǎng)景中擁有天然的優(yōu)勢(shì)。

作者 |  陳巍 千芯科技
編者注:阿里達(dá)摩院12月3日宣布其已成功研發(fā)基于DRAM的3D鍵合堆疊存算一體AI芯片,該芯片可滿足AI等場(chǎng)景對(duì)高帶寬、高容量?jī)?nèi)存和極致算力的需求,相關(guān)研究成果已被國(guó)際芯片頂會(huì)ISSCC 2022收錄。本文為千芯科技董事長(zhǎng)陳巍對(duì)該芯片創(chuàng)新技術(shù)的解讀。12月3日,阿里達(dá)摩院宣布成功研發(fā)新型架構(gòu)芯片,已經(jīng)被證明能夠在阿里推薦系統(tǒng)中發(fā)揮極大的應(yīng)用價(jià)值,并受到技術(shù)圈的普遍關(guān)注。據(jù)悉,這顆芯片與數(shù)據(jù)中心的推薦系統(tǒng)對(duì)于帶寬/存儲(chǔ)的需求完美匹配,大幅提升帶寬的同時(shí)還實(shí)現(xiàn)了超低功耗,充分展示了存算技術(shù)(第一代僅是近存計(jì)算)在數(shù)據(jù)中心場(chǎng)景的潛力。


讓我們根據(jù)達(dá)摩院成員已公開的技術(shù)信息,來大膽解讀這顆芯片的新科技。據(jù)悉,該工作將發(fā)表在2022年ISSCC的Session 29的第一篇,堪稱Session 29的扛鼎之作。需要說明的是,ISSCC(International Solid-State Circuits Conference)被業(yè)界視為芯片設(shè)計(jì)界的奧林匹克運(yùn)動(dòng)會(huì),是芯片設(shè)計(jì)圈的頂級(jí)盛會(huì)。根據(jù)該論文的信息,我們可以看到,這款存算芯片的設(shè)計(jì)合作方包括北美Sunnyvale、北京、上海三地的達(dá)摩院和西安紫光國(guó)芯。幕后大佬包括了達(dá)摩院的謝源教授和紫光國(guó)芯的CEO任奇?zhèn)ァ?/span>該存算芯片的吞吐率能效達(dá)到184QPS/W,單位面積存儲(chǔ)密度為64Mb/mm^2,使用了基于3D混合鍵合(3D Hybrid Bonding)近存計(jì)算技術(shù),將邏輯單元與DRAM單元鍵合在一起。

“馮·諾伊曼架構(gòu)存儲(chǔ)和計(jì)算分離的模型,已無(wú)法滿足人工智能應(yīng)用的需求,計(jì)算存儲(chǔ)一體化將突破AI算力瓶頸?!边@是達(dá)摩院判斷的2020十大科技趨勢(shì)中的技術(shù)趨勢(shì)之一。AI技術(shù)的快速發(fā)展,使得算力需求呈爆炸式增長(zhǎng)。雖然多核(例如CPU)/眾核(例如GPU)并行加速技術(shù)也能提升算力,但在后摩爾時(shí)代,存儲(chǔ)帶寬制約了計(jì)算系統(tǒng)的有效帶寬,芯片算力增長(zhǎng)步履維艱。巨大的算力需求與實(shí)際算力有限增長(zhǎng)之間的矛盾,將問題根源指向了·諾依曼架構(gòu)存算分離的局限性。由于計(jì)算與存儲(chǔ)分離,在計(jì)算的過程中就需要不斷通過總線交換數(shù)據(jù),將數(shù)據(jù)從內(nèi)存讀進(jìn)CPU,計(jì)算完成后再寫回存儲(chǔ)。這一運(yùn)轉(zhuǎn)方式讓馮·諾依曼架構(gòu)無(wú)法適應(yīng)新型計(jì)算的大算力需求。分析顯示,數(shù)據(jù)從內(nèi)存?zhèn)鬏數(shù)接?jì)算單元需要的功耗大約是計(jì)算本身的200倍,真正用于計(jì)算的時(shí)間和功耗占比大大降低。為了從根本上解決馮·諾依曼架構(gòu)瓶頸,就必須使用將計(jì)算和存儲(chǔ)合二為一的存算技術(shù)。
基于SeDRAM的近存計(jì)算技術(shù)


達(dá)摩院存算芯片的內(nèi)存單元采用了異質(zhì)集成嵌入式DRAM(SeDRAM),擁有超大帶寬、超大容量等特點(diǎn),片上內(nèi)存帶寬可高達(dá)37.5GB/s/mm^2。達(dá)摩院存算芯片所使用的SeDRAM就是堆疊嵌入式DRAM(Stacked Embedded DRAM)。在以往的HBM使用硅中介層(interposer)和微凸塊(microbump)來增加邏輯到內(nèi)存接口的I/O連接數(shù)量,以在高數(shù)據(jù)速率下提供高帶寬。然而,進(jìn)一步提高每引腳數(shù)據(jù)速率需要HBM和復(fù)雜且耗電的PHY電路。而且TSV 和中介層連接具有較大的電阻和電容,從而導(dǎo)致高功耗。在基于SeDRAM的存算芯片中,AI電路和外圍電路,包括控制、I/O和DFT,被分立到一個(gè)邏輯芯片,并通過混合鍵合堆疊在存儲(chǔ)陣列芯片上方,混合鍵合使用 Cu到Cu直接熔合鍵合。DFT模塊則被設(shè)計(jì)為邏輯芯片中的 IP,用于為陣列芯片執(zhí)行BISR(內(nèi)置自修復(fù))。

作為線路后端(BEOL)互連工藝的延伸,混合鍵合比微凸塊和TSV的寄生電容小很多。因此,邏輯到存儲(chǔ)器接口的功耗也可以降低40%。混合鍵合的PIN間距尺寸為3μm,相反,microbump的間距約為50μm,TSV的間距約為6μm。與使用微凸塊和TSV技術(shù)的HBM相比,使用混合鍵合技術(shù)的SeDRAM可以達(dá)到 110,000/mm^2的最大通孔密度。僅就帶寬而言,基于混合鍵合技術(shù)的SeDRAMHBM效率更高。當(dāng)然,我們也看到,達(dá)摩院的這顆芯片僅僅是使用了近存計(jì)算技術(shù),就已經(jīng)獲得了顯著的性能,如果使用更先進(jìn)的存算技術(shù),則會(huì)產(chǎn)生更大的技術(shù)躍遷。
存算芯片的數(shù)據(jù)流架構(gòu)


數(shù)據(jù)流架構(gòu)是這顆芯片的另一個(gè)特色。達(dá)摩院研發(fā)設(shè)計(jì)了基于數(shù)據(jù)流的定制化加速器架構(gòu),對(duì)推薦系統(tǒng)端到端進(jìn)行加速,包括匹配、粗排序、神經(jīng)網(wǎng)絡(luò)計(jì)算、細(xì)排序等任務(wù)。如數(shù)據(jù)流架構(gòu)圖所示,節(jié)點(diǎn)(Node Cluster)是構(gòu)建整個(gè)架構(gòu)的基本模塊,每個(gè)檢點(diǎn)的微架構(gòu)包括多個(gè)存儲(chǔ)塊和一個(gè)處理核心。(例如權(quán)重存儲(chǔ)和輸入數(shù)據(jù)存儲(chǔ))底層電路結(jié)構(gòu)采用了同構(gòu)設(shè)計(jì),所有節(jié)點(diǎn)都可以靈活配置,每個(gè)節(jié)點(diǎn)有點(diǎn)像多處理器片上系統(tǒng)。整個(gè)計(jì)算流程分為多輪(Round)。一輪可以進(jìn)一步分為兩個(gè)子輪。在計(jì)算子輪期間,存儲(chǔ)在其本地緩沖區(qū)中的輸入特征和神經(jīng)權(quán)重被傳送到處理數(shù)組中以進(jìn)行計(jì)算。在每個(gè)通信子輪中,節(jié)點(diǎn)轉(zhuǎn)發(fā)其輸出特征,簇(Cluster)之間以循環(huán)方式交換存儲(chǔ)的數(shù)據(jù)。通過這種近存計(jì)算(基于SeDRAM)和數(shù)據(jù)流架構(gòu)的耦合,可以大大減少訪問外部?jī)?nèi)存的次數(shù),提升整體計(jì)算能效和性能以搜索推薦為例,這一場(chǎng)景對(duì)內(nèi)存帶寬、功耗、時(shí)延等方面有很高的要求,如果用傳統(tǒng)計(jì)算來實(shí)現(xiàn),系統(tǒng)性能不易提高,但用存算的方式就能解決這些問題,同時(shí)降低成本。在實(shí)際推薦系統(tǒng)應(yīng)用中,該芯片相對(duì)于傳統(tǒng)CPU計(jì)算系統(tǒng)可以達(dá)到10倍以上性能提升和300倍的能效提升。



存算技術(shù)路線的演進(jìn)


目前存算技術(shù)在按照以下路線在演進(jìn):查存計(jì)算(Processing With Memory):GPU中對(duì)于復(fù)雜函數(shù)就采用了這種計(jì)算方法,是早已落地多年的技術(shù)。存儲(chǔ)芯片內(nèi)部的存儲(chǔ)單元完成查表計(jì)算操作,存儲(chǔ)單元和計(jì)算單元完全融合,沒有一個(gè)獨(dú)立的計(jì)算單元。近存計(jì)算(Computing Near Memory):典型代表包括AMD的Zen系列CPU和達(dá)摩院本次發(fā)表的存算芯片。計(jì)算操作由位于存儲(chǔ)區(qū)域外部的獨(dú)立計(jì)算芯片/模塊完成。這種架構(gòu)設(shè)計(jì)的代際設(shè)計(jì)成本較低,適合傳統(tǒng)架構(gòu)芯片轉(zhuǎn)入。存內(nèi)計(jì)算(Computing In Memory):典型代表是Mythic、閃憶、知存、九天睿芯。計(jì)算操作由位于存儲(chǔ)芯片/區(qū)域內(nèi)部的獨(dú)立計(jì)算單元完成,存儲(chǔ)和計(jì)算可以是模擬的也可以是數(shù)字的。這種路線適合算法固定的場(chǎng)景算法計(jì)算,目前主要用于語(yǔ)音等輕算力場(chǎng)景。

邏輯存儲(chǔ)(Logic In Memory):通過在內(nèi)部存儲(chǔ)中添加計(jì)算邏輯,直接在內(nèi)部存儲(chǔ)執(zhí)行數(shù)據(jù)計(jì)算,這種架構(gòu)數(shù)據(jù)傳輸路徑最短,同時(shí)能滿足大模型的計(jì)算精度要求。典型代表包括TSMC(在2021 ISSCC發(fā)表)和千芯。在達(dá)摩院前期的測(cè)試中,這顆存算芯片(目前還僅是近存計(jì)算)已經(jīng)被證明能夠在阿里推薦系統(tǒng)中發(fā)揮極大的應(yīng)用價(jià)值。可以看到,由于存算技術(shù)本身的高能效和大算力特點(diǎn),可以打破傳統(tǒng)計(jì)算架構(gòu)的“存儲(chǔ)墻”問題。這次近存架構(gòu)在數(shù)據(jù)中心推薦系統(tǒng)中的應(yīng)用還只是小試牛刀。存算技術(shù)在海量數(shù)據(jù)計(jì)算場(chǎng)景中擁有天然的優(yōu)勢(shì),將在云計(jì)算、自動(dòng)駕駛、元宇宙等場(chǎng)景擁有廣闊的發(fā)展空間。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: ISSCC

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉