新聞中心

EEPW首頁 > 物聯(lián)網(wǎng)與傳感器 > 設(shè)計(jì)應(yīng)用 > Arm Ethos-U85:滿足物聯(lián)網(wǎng)面向 AI 時(shí)代的高性能需求

Arm Ethos-U85:滿足物聯(lián)網(wǎng)面向 AI 時(shí)代的高性能需求

作者: 時(shí)間:2024-04-12 來源: 收藏

隨著人工智能 () 不斷對我們的日常生活產(chǎn)生越來越大的影響,其推理任務(wù)也逐漸從云端遷移到邊緣側(cè)和端側(cè)。邊緣側(cè)推理為板載設(shè)備引入智能化能力,使數(shù)據(jù)能夠在本地進(jìn)行處理,并實(shí)時(shí)做出決策,同時(shí)提高了數(shù)據(jù)隱私性和安全性。

本文引用地址:http://butianyuan.cn/article/202404/457539.htm

Ethos NPU

多年來不斷開發(fā)邊緣 加速器,以滿足邊緣側(cè)和端側(cè)不斷增長的推理工作負(fù)載需求。此前兩款成功的 NPU 產(chǎn)品——? Ethos?-U55 Ethos-U65,為邊緣側(cè)和端側(cè) 應(yīng)用帶來了高性能、高能效的解決方案。

Ethos-U55  通常部署在基于 Cortex?-M 的異構(gòu)系統(tǒng)中。而 Ethos-U65 則將 Ethos-U 系列的適用性擴(kuò)展到基于 Cortex-A 的系統(tǒng)中,并為設(shè)備上的機(jī)器學(xué)習(xí) (ML) 能力帶來了兩倍的性能提升。這兩款產(chǎn)品均提供統(tǒng)一的工具鏈,可簡化開發(fā)并支持常見的 ML 神經(jīng)網(wǎng)絡(luò)運(yùn)算,包括卷積神經(jīng)網(wǎng)絡(luò) (CNN) 和循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)

 

Transformer 架構(gòu)的影響

2017 年問世的Transformer 架構(gòu)徹底改變了生成式 AI,并成為許多新型神經(jīng)網(wǎng)絡(luò)的首選架構(gòu)。基于 Transformer 架構(gòu)的模型可利用注意力機(jī)制處理序列數(shù)據(jù),并在機(jī)器翻譯、自然語言理解、語音識別、分割和圖像字幕生成等多項(xiàng) AI 任務(wù)中實(shí)現(xiàn)優(yōu)異的效果。

這些模型可被調(diào)整和壓縮,在不過多影響準(zhǔn)確度的情況下,能高效運(yùn)行于邊緣設(shè)備上,并在許多邊緣側(cè)和端側(cè)用例中發(fā)揮領(lǐng)先的優(yōu)勢。

全新 NPU

依托 Ethos-U 系列 NPU 過往的成功經(jīng)驗(yàn),Arm 推出了全新產(chǎn)品—— 。該處理器秉承此前 Ethos-U NPU 一貫的高性能、高能效設(shè)計(jì)理念,并可同時(shí)為邊緣側(cè)和端側(cè)設(shè)備上采用 Transformer 架構(gòu)的現(xiàn)有和未來的工作負(fù)載提供支持。

Arm Ethos-U 產(chǎn)品線中的第三代 NPU,也是迄今為止性能和能效最強(qiáng)的 Ethos NPU。與上一代產(chǎn)品相比,該 NPU 的性能提升了四倍,能效提高了 20%,并且可在主流網(wǎng)絡(luò)上實(shí)現(xiàn)高達(dá) 85% 的利用率。全新 Ethos-U85 可滿足諸如工廠自動化和商用或智能家居攝像頭等應(yīng)用不斷攀升的性能需求。此外,其專為搭配基于 Cortex-M Cortex-A的系統(tǒng)一同運(yùn)行而設(shè)計(jì),并容忍高 DRAM 延遲。

 

Ethos-U85 的主要特性包括:

?  單周期支持從 128 2048 個(gè) MAC單元的配置——在 1GHz 時(shí),算力可支持從 256 GOPS 4 TOPS。

?  支持 int8 權(quán)重和 int8 int16 激活。

?  支持 Transformer 架構(gòu)網(wǎng)絡(luò),以及 CNN RNN。

?  硬件原生支持 2/4 稀疏性,使吞吐量翻倍。

?  內(nèi)部 SRAM 29 267 KB,多達(dá)六個(gè) 128 AXI5 接口。

?  支持權(quán)重壓縮,采用標(biāo)準(zhǔn)和快速權(quán)重編碼器。

?  支持?jǐn)U展壓縮。

 

除了 Ethos-U55 Ethos-U65 目前支持的算子,通過支持 TRANSPOSE、GATHERMATMUL、RESIZE BILINEAR ARGMAX 等運(yùn)算,Ethos-U85 涵蓋了對 Transformer 模型和 DeeplabV3 語義分割網(wǎng)絡(luò)的原生硬件支持。

Ethos-U85 也支持元素級算子鏈化。通過鏈化將元素級運(yùn)算與先前的運(yùn)算相結(jié)合,使 SRAM 不必先寫入再讀取中間張量。由此可憑借 NPU 和內(nèi)存之間數(shù)據(jù)傳輸量的減少,提高 NPU 的效率。相比于 Ethos-U65,鏈化是 Ethos-U85 在效率提升上的新功能之一,其余還包括快速的權(quán)重編碼器、優(yōu)化的 MAC 陣列能效,以及提升的元素效率。

 

圖片.png 

Ethos-U85 可用于與 Ethos-U55 Ethos-U65 相同的系統(tǒng)配置流程,并且我們支持從基于 Cortex-A 的系統(tǒng)直接驅(qū)動 Ethos-U85 的功能。

Ethos-U85 支持與上一代Ethos-U系列產(chǎn)品相同的軟件工具鏈, 即使用TFLmicro運(yùn)行時(shí)。此外,在這個(gè)基礎(chǔ)上,Ethos-U85 同時(shí)還能為更廣泛采用 Transformer 架構(gòu)的用例提供支持,這對于已經(jīng)投入在基于 Cortex-A/Cortex-M Ethos-U55/Ethos-U65 的系統(tǒng)廠商來說,將能擴(kuò)大其過往的投資價(jià)值。未來,我們預(yù)計(jì)將支持面向邊緣設(shè)備的 PyTorch 運(yùn)行時(shí) ExecuTorch。

Ethos-U85 支持的算子將在 NPU 上進(jìn)行加速,對于特殊算子不支持的情況,其中部分算子將調(diào)用CMSIS-NN庫實(shí)現(xiàn)在Cortex-M系統(tǒng)上進(jìn)行加速。例如,在 tinyLlama 的用例中,該模型算子可完全映射到 Ethos-U85,沒有算子回退到 CPU

Ethos-U85 擔(dān)任了 Arm 全新參考設(shè)計(jì)平臺 Corstone-320 的核心角色,該參考設(shè)計(jì)平臺加快了各類 AIoT 解決方案中高性能 SoC 的開發(fā)和部署。

 

釋放邊緣AI 的無限潛力

Ethos-U85 將提供在邊緣側(cè)和端側(cè)設(shè)備上執(zhí)行領(lǐng)先 AI 功能所需的算力。隨著 AI 時(shí)代的不斷發(fā)展,我們的合作伙伴將獲得基于 Arm Ethos-U 的可靠、高效兼具高性能的解決方案。我們預(yù)計(jì)在新興的邊緣 AI 用例、智能家居、零售或工業(yè)場景中看到Ethos-U85 被廣泛部署,這些用例和場景需要更高的計(jì)算性能,并支持新型的 AI 框架。

Arm 引以為傲的是,我們不斷通過前沿的軟硬件解決方案,為合作伙伴與生態(tài)系統(tǒng)提供強(qiáng)而有力的支持。全新 Ethos-U85 的推出將釋放邊緣側(cè)和端側(cè) AI 推理用例的無限潛能,從而改變世界。Arm 正在引領(lǐng)邊緣 AI 的創(chuàng)新提升至全新水平,并持續(xù)夯實(shí) Arm 成為未來邊緣 AI 的基石。



評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉