一文抓住AI芯片趨勢 發(fā)布人:旺材芯片 時間:2024-04-07 來源:工程師 加入技術(shù)交流群 掃碼加入和技術(shù)大咖面對面交流海量資料庫查詢 發(fā)布文章 目前AI芯片的發(fā)展依然受到制約:第一個是深度學(xué)習(xí)需要海量數(shù)據(jù)進(jìn)行計算,內(nèi)存帶寬的制約,已經(jīng)成為整個系統(tǒng)的性能瓶頸。第二個就是海量內(nèi)存和計算單元,訪問頻繁切換,導(dǎo)致整體功耗很難降下去。最后便是隨著AI產(chǎn)業(yè)的快速變化,硬件如何適配算法是個難題。這里預(yù)測一下AI芯片的4****展趨勢。未來10年是加速計算架構(gòu)變革的新十年。在計算存儲一體化方面,也就是把計算單元和存儲單元放在一起,使得AI系統(tǒng)的計算和數(shù)據(jù)吞吐量增大,還能顯著地降低功耗。會不會出現(xiàn)一種新型非易失性存儲器件,就是在存儲陣列里面加上AI計算功能,從而節(jié)省數(shù)據(jù)搬移操作呢?現(xiàn)在硬件計算能力大于數(shù)據(jù)讀取和訪問性能,當(dāng)計算單元不在是瓶頸,如何減少存儲器的訪問延時,將會成為下一個研究方向。通常,離計算越近的存儲器速度越快,每字節(jié)的成本也越高,同時容量也越受限,因此新型的存儲結(jié)構(gòu)也將應(yīng)運(yùn)而生。第二個趨勢就是,稀疏化計算。隨著千億、到萬億網(wǎng)絡(luò)模型提出,模型越來越大,但實(shí)際不是每個神經(jīng)元,都能有效激活,這個時候稀疏計算,可以高效減少無用能效。特別是在推薦場景和圖神經(jīng)網(wǎng)絡(luò)的應(yīng)用,稀疏已經(jīng)成為常態(tài)。例如,哈佛大學(xué)提出了優(yōu)化的五級流水線結(jié)構(gòu), 在最后一級輸出了觸發(fā)信號。在Activation層后對下一次計算的必要性進(jìn)行預(yù)先判斷,如果發(fā)現(xiàn)這是一個稀疏節(jié)點(diǎn),則觸發(fā) SKIP信號,避免乘法運(yùn)算的功耗,以達(dá)到減少無用功耗的目的。第三個趨勢是支持更加復(fù)雜的AI算子。在標(biāo)準(zhǔn)的SIMD基礎(chǔ)上,CNN的特殊結(jié)構(gòu)復(fù)用,可以減少總線的數(shù)據(jù)通訊,Transformer結(jié)構(gòu)對大數(shù)據(jù)在計算和存儲之間切換,或者是在NLP和語音領(lǐng)域經(jīng)常需要支持的動態(tài)shape,合理地分解、映射這些不同復(fù)雜結(jié)構(gòu)的算子,到有效的硬件上成為了一個值得研究的方向。最后一個是更快的推理時延和存儲位寬。隨著蘋果、高通、華為都在手機(jī)芯片SoC上面推出AI推理硬件IP,近年來在手機(jī)SoC上,又引入可學(xué)習(xí)功能。未來如何在手機(jī)SoC上執(zhí)行更快是業(yè)界很關(guān)注的一個點(diǎn),包括經(jīng)??匆曨l的抖音、bilibili,都需要對視頻進(jìn)行AI編解碼,基于ISP進(jìn)行AI影像處理。另外在理論計算領(lǐng)域,神經(jīng)網(wǎng)絡(luò)計算的位寬從32bit到16bit,出現(xiàn)了混合精度到目前8bit,甚至更低的比特數(shù),都開始慢慢進(jìn)入實(shí)踐領(lǐng)域。來源:芯生代 *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。