一文抓住AI芯片趨勢

發(fā)布人：旺材芯片時間：2024-04-07 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

目前AI芯片的發(fā)展依然受到制約：第一個是深度學(xué)習(xí)需要海量數(shù)據(jù)進(jìn)行計算，內(nèi)存帶寬的制約，已經(jīng)成為整個系統(tǒng)的性能瓶頸。第二個就是海量內(nèi)存和計算單元，訪問頻繁切換，導(dǎo)致整體功耗很難降下去。最后便是隨著AI產(chǎn)業(yè)的快速變化，硬件如何適配算法是個難題。

這里預(yù)測一下AI芯片的4****展趨勢。

未來10年是加速計算架構(gòu)變革的新十年。在計算存儲一體化方面，也就是把計算單元和存儲單元放在一起，使得AI系統(tǒng)的計算和數(shù)據(jù)吞吐量增大，還能顯著地降低功耗。會不會出現(xiàn)一種新型非易失性存儲器件，就是在存儲陣列里面加上AI計算功能，從而節(jié)省數(shù)據(jù)搬移操作呢？現(xiàn)在硬件計算能力大于數(shù)據(jù)讀取和訪問性能，當(dāng)計算單元不在是瓶頸，如何減少存儲器的訪問延時，將會成為下一個研究方向。

通常，離計算越近的存儲器速度越快，每字節(jié)的成本也越高，同時容量也越受限，因此新型的存儲結(jié)構(gòu)也將應(yīng)運(yùn)而生。

第二個趨勢就是，稀疏化計算。隨著千億、到萬億網(wǎng)絡(luò)模型提出，模型越來越大，但實(shí)際不是每個神經(jīng)元，都能有效激活，這個時候稀疏計算，可以高效減少無用能效。特別是在推薦場景和圖神經(jīng)網(wǎng)絡(luò)的應(yīng)用，稀疏已經(jīng)成為常態(tài)。

例如，哈佛大學(xué)提出了優(yōu)化的五級流水線結(jié)構(gòu)，在最后一級輸出了觸發(fā)信號。在Activation層后對下一次計算的必要性進(jìn)行預(yù)先判斷，如果發(fā)現(xiàn)這是一個稀疏節(jié)點(diǎn)，則觸發(fā) SKIP信號，避免乘法運(yùn)算的功耗，以達(dá)到減少無用功耗的目的。第三個趨勢是支持更加復(fù)雜的AI算子。在標(biāo)準(zhǔn)的SIMD基礎(chǔ)上，CNN的特殊結(jié)構(gòu)復(fù)用，可以減少總線的數(shù)據(jù)通訊，Transformer結(jié)構(gòu)對大數(shù)據(jù)在計算和存儲之間切換，或者是在NLP和語音領(lǐng)域經(jīng)常需要支持的動態(tài)shape，合理地分解、映射這些不同復(fù)雜結(jié)構(gòu)的算子，到有效的硬件上成為了一個值得研究的方向。

最后一個是更快的推理時延和存儲位寬。隨著蘋果、高通、華為都在手機(jī)芯片SoC上面推出AI推理硬件IP，近年來在手機(jī)SoC上，又引入可學(xué)習(xí)功能。未來如何在手機(jī)SoC上執(zhí)行更快是業(yè)界很關(guān)注的一個點(diǎn)，包括經(jīng)?？匆曨l的抖音、bilibili，都需要對視頻進(jìn)行AI編解碼，基于ISP進(jìn)行AI影像處理。另外在理論計算領(lǐng)域，神經(jīng)網(wǎng)絡(luò)計算的位寬從32bit到16bit，出現(xiàn)了混合精度到目前8bit，甚至更低的比特數(shù)，都開始慢慢進(jìn)入實(shí)踐領(lǐng)域。

來源：芯生代

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

一文抓住AI芯片趨勢

相關(guān)推薦

技術(shù)專區(qū)