Arm打破邊緣AI“次元壁”：Armv9邊緣AI計(jì)算平臺重塑物聯(lián)網(wǎng)未來格局

作者：時間：2025-03-05 來源：全球半導(dǎo)體觀察

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

2025年2月27日，全球領(lǐng)先的 IP 計(jì)算平臺公司Arm舉辦媒體溝通會，并正式推出全球首個Armv9邊緣人工智能（AI）計(jì)算平臺，以全新Cortex-A320 CPU與Ethos-U85 NPU為核心，為物聯(lián)網(wǎng)（IoT）領(lǐng)域帶來顛覆性突破。該平臺專為邊緣AI場景優(yōu)化，支持運(yùn)行超10億參數(shù)的大語言模型（LLM），比去年的基于 Cortex-M85 搭配 Ethos-U85 的平臺提升了八倍的 ML 計(jì)算性能，帶來了顯著的 AI 計(jì)算能力突破，標(biāo)志著邊緣計(jì)算正式邁入“高智能、超安全、強(qiáng)能效”的新紀(jì)元。

本文引用地址：http://www.butianyuan.cn/article/202503/467614.htm

劃時代產(chǎn)品組合：性能與能效的高階平衡

作為Armv9架構(gòu)在邊緣計(jì)算領(lǐng)域的首秀，本次發(fā)布的平臺由兩大核心組件構(gòu)成。

Cortex-A320 CPU：全球最小型、最高能效的Armv9-A處理器，專為物聯(lián)網(wǎng)設(shè)備打造。其集成SVE2（可伸縮向量擴(kuò)展）指令集，標(biāo)量計(jì)算性能較前代Cortex-A35提升30%，ML推理能力相較于前代提升了10倍；支持BF16、INT8等AI專用數(shù)據(jù)類型，矩陣乘法指令顯著加速神經(jīng)網(wǎng)絡(luò)處理。

Ethos-U85 NPU：與上一代產(chǎn)品相比，Ethos-U85 性能提升四倍，能效提高 20%，同時，其 MAC 單元可從 128 個擴(kuò)展到 2048 個（在 1GHz 時，算力實(shí)現(xiàn) 4 TOPs），能夠?yàn)橹T如工廠自動化和商用或智能家居攝像頭等需要更高性能的應(yīng)用提供有力的支持。此外，Ethos-U85 支持 Transformer 架構(gòu)和卷積神經(jīng)網(wǎng)絡(luò) (CNN) 以實(shí)現(xiàn) AI 推理。

二者協(xié)同可運(yùn)行超10億參數(shù)的端側(cè)模型，滿足工業(yè)自動化、智能攝像頭、自動駕駛等場景對實(shí)時性與隱私性的嚴(yán)苛需求。Arm高級副總裁兼物聯(lián)網(wǎng)事業(yè)部總經(jīng)理Paul Williamson表示：“AI 的革新已不再局限于云端。隨著世界的互聯(lián)和智能化水平的日益提升，從智慧城市到工業(yè)自動化，在邊緣側(cè)處理 AI 工作負(fù)載不僅帶來顯著的優(yōu)勢，其必要性更是不可或缺。專為物聯(lián)網(wǎng)打造的 Armv9 邊緣 AI 計(jì)算平臺的推出，標(biāo)志著這一發(fā)展趨勢邁入了重要的里程碑?！?/p>

如今，智慧城市和工業(yè)智能制造對邊緣計(jì)算的實(shí)時性、低延遲以及可靠性提出了極高要求。那么，Arm此次發(fā)布的邊緣AI計(jì)算平臺針對這些需求有哪些設(shè)計(jì)？Arm物聯(lián)網(wǎng)事業(yè)部業(yè)務(wù)拓展副總裁馬?。–hloe Ma）對此表示，在實(shí)時性方面，全新的邊緣AI計(jì)算平臺提供了有力支持。因邊緣AI芯片處理能力不足，與監(jiān)控相關(guān)的視頻常需返回云端處理，導(dǎo)致實(shí)時性大打折扣。除了與全新Cortex-A320 CPU搭配之外，Ethos-U85 NPU還能與最高性能的Cortex-X925搭配，這樣的靈活組合大幅提升了邊緣算力。在視頻、多模態(tài)等大量數(shù)據(jù)處理場景下，AI處理能在邊緣進(jìn)行，大大提高了應(yīng)用實(shí)時性。

在可靠性方面，Arm的CPU經(jīng)過了大量量產(chǎn)驗(yàn)證。馬健指出，過去30年，Arm合作伙伴基于Arm架構(gòu)的芯片出貨量超3000億，2021年近300億顆基于Arm架構(gòu)的年度芯片出貨量中，近200億顆被部署到物聯(lián)網(wǎng)和嵌入式應(yīng)用中。這得益于其設(shè)計(jì)過程中完善的驗(yàn)證機(jī)制，為產(chǎn)品質(zhì)量和可靠性提供了保障。

Armv9架構(gòu)：安全、效率與靈活性的三重革新

此次Armv9架構(gòu)的引入，為邊緣設(shè)備帶來安全性、性能、能效三大維度的革新。

·極致安全性

內(nèi)存標(biāo)記擴(kuò)展（MTE）：實(shí)時檢測并顯著減少內(nèi)存安全漏洞，對提升系統(tǒng)安全性有重要作用。
指針驗(yàn)證（PAC）與分支目標(biāo)識別（BTI）：確保代碼執(zhí)行路徑安全，抵御控制流攻擊。
Secure EL2虛擬化：實(shí)現(xiàn)虛擬機(jī)間硬件級隔離，滿足多租戶邊緣場景的安全需求。

·性能飛躍

增強(qiáng)的 Neon 和可伸縮向量擴(kuò)展（SVE2）技術(shù)：提供更高效的 ML 計(jì)算能力。
新增矩陣乘法指令：優(yōu)化AI和ML計(jì)算性能，加速神經(jīng)網(wǎng)絡(luò)推理和訓(xùn)練任務(wù)。

·能效突破

通過窄取和解碼數(shù)據(jù)路徑、密集存儲的 L1 緩存、縮減端口的整數(shù)寄存器文件等等微架構(gòu)優(yōu)化，Cortex-A320能效較Cortex-A520提升了50% 以上。得益于Armv9 架構(gòu)所實(shí)現(xiàn)的顯著 ML 性能提升，在 2GHz 頻率下運(yùn)行，以 8 位 MAC/周期測得，四核 Cortex-A320 可以執(zhí)行高達(dá) 256 GOPS。因此，無需外部加速器，Cortex-A320 便可直接在 CPU 上運(yùn)行高級 ML 和 AI 用例。

KleidiAI與生態(tài)協(xié)同：開發(fā)效率提升70%

針對邊緣AI開發(fā)痛點(diǎn)，Arm此次還將Kleidi擴(kuò)展到物聯(lián)網(wǎng)領(lǐng)域。Kleidi已集成到Llama.cpp、ExecuTorch等主流框架，加速了 Meta Llama 3 和 Phi-3 等關(guān)鍵模型的性能。例如，在 Llama.cpp 上運(yùn)行微軟的 Tiny Stories 數(shù)據(jù)集時，KleidiAI 為新的 Cortex-A320 帶來了高達(dá) 70% 的性能提升。Kleidi讓開發(fā)者擺脫硬件適配桎梏，專注于創(chuàng)新本身。此外，新的邊緣 AI 計(jì)算平臺具備支持多種操作系統(tǒng)的能力，無論是如 FreeRTOS 和 Zephyr 的實(shí)時操作系統(tǒng) (RTOS)，還是如 Linux 和 Android 的功能豐富的操作系統(tǒng)，都能提供高效支持，讓超2000萬開發(fā)者無縫遷移現(xiàn)有工具鏈。

此外，Armv9 邊緣AI計(jì)算平臺獲得了全球產(chǎn)業(yè)鏈領(lǐng)軍企業(yè)的高度認(rèn)可。例如，亞馬遜云科技表示，Arm邊緣AI計(jì)算平臺為其客戶實(shí)現(xiàn)在Armv9技術(shù)上運(yùn)行AWS IoT Greengrass的輕量級設(shè)備運(yùn)行時環(huán)境—— Nucleus Lite，讓邊緣設(shè)備以最低的內(nèi)存需求高效運(yùn)行；西門子認(rèn)為，基于 Armv9 架構(gòu)的全新邊緣 AI 計(jì)算平臺有助于其將高度安全、高性能和高能效的 AI 創(chuàng)新產(chǎn)品組合擴(kuò)展到所有客戶，涵蓋一系列工業(yè)、智能基礎(chǔ)設(shè)施和移動應(yīng)用；瑞薩電子稱，Cortex-A320不僅在 AI/ML 高性能和安全性方面表現(xiàn)出色，還顯著優(yōu)化了功耗和面積效率。這一突破有助于瑞薩電子加快創(chuàng)新步伐，進(jìn)一步提升效率和可擴(kuò)展性。