Arm打破邊緣AI“次元壁”:Armv9邊緣AI計(jì)算平臺重塑物聯(lián)網(wǎng)未來格局
2025年2月27日,全球領(lǐng)先的 IP 計(jì)算平臺公司Arm舉辦媒體溝通會,并正式推出全球首個Armv9邊緣人工智能(AI)計(jì)算平臺,以全新Cortex-A320 CPU與Ethos-U85 NPU為核心,為物聯(lián)網(wǎng)(IoT)領(lǐng)域帶來顛覆性突破。該平臺專為邊緣AI場景優(yōu)化,支持運(yùn)行超10億參數(shù)的大語言模型(LLM),比去年的基于 Cortex-M85 搭配 Ethos-U85 的平臺提升了八倍的 ML 計(jì)算性能,帶來了顯著的 AI 計(jì)算能力突破,標(biāo)志著邊緣計(jì)算正式邁入“高智能、超安全、強(qiáng)能效”的新紀(jì)元。
本文引用地址:http://www.butianyuan.cn/article/202503/467614.htm劃時代產(chǎn)品組合:性能與能效的高階平衡
作為Armv9架構(gòu)在邊緣計(jì)算領(lǐng)域的首秀,本次發(fā)布的平臺由兩大核心組件構(gòu)成。
Cortex-A320 CPU:全球最小型、最高能效的Armv9-A處理器,專為物聯(lián)網(wǎng)設(shè)備打造。其集成SVE2(可伸縮向量擴(kuò)展)指令集,標(biāo)量計(jì)算性能較前代Cortex-A35提升30%,ML推理能力相較于前代提升了10倍;支持BF16、INT8等AI專用數(shù)據(jù)類型,矩陣乘法指令顯著加速神經(jīng)網(wǎng)絡(luò)處理。
Ethos-U85 NPU:與上一代產(chǎn)品相比,Ethos-U85 性能提升四倍,能效提高 20%,同時,其 MAC 單元可從 128 個擴(kuò)展到 2048 個(在 1GHz 時,算力實(shí)現(xiàn) 4 TOPs),能夠?yàn)橹T如工廠自動化和商用或智能家居攝像頭等需要更高性能的應(yīng)用提供有力的支持。此外,Ethos-U85 支持 Transformer 架構(gòu)和卷積神經(jīng)網(wǎng)絡(luò) (CNN) 以實(shí)現(xiàn) AI 推理。
二者協(xié)同可運(yùn)行超10億參數(shù)的端側(cè)模型,滿足工業(yè)自動化、智能攝像頭、自動駕駛等場景對實(shí)時性與隱私性的嚴(yán)苛需求。Arm高級副總裁兼物聯(lián)網(wǎng)事業(yè)部總經(jīng)理Paul Williamson表示:“AI 的革新已不再局限于云端。隨著世界的互聯(lián)和智能化水平的日益提升,從智慧城市到工業(yè)自動化,在邊緣側(cè)處理 AI 工作負(fù)載不僅帶來顯著的優(yōu)勢,其必要性更是不可或缺。專為物聯(lián)網(wǎng)打造的 Armv9 邊緣 AI 計(jì)算平臺的推出,標(biāo)志著這一發(fā)展趨勢邁入了重要的里程碑?!?/p>
如今,智慧城市和工業(yè)智能制造對邊緣計(jì)算的實(shí)時性、低延遲以及可靠性提出了極高要求。那么,Arm此次發(fā)布的邊緣AI計(jì)算平臺針對這些需求有哪些設(shè)計(jì)?Arm物聯(lián)網(wǎng)事業(yè)部業(yè)務(wù)拓展副總裁馬?。–hloe Ma)對此表示,在實(shí)時性方面,全新的邊緣AI計(jì)算平臺提供了有力支持。因邊緣AI芯片處理能力不足,與監(jiān)控相關(guān)的視頻常需返回云端處理,導(dǎo)致實(shí)時性大打折扣。除了與全新Cortex-A320 CPU搭配之外,Ethos-U85 NPU還能與最高性能的Cortex-X925搭配,這樣的靈活組合大幅提升了邊緣算力。在視頻、多模態(tài)等大量數(shù)據(jù)處理場景下,AI處理能在邊緣進(jìn)行,大大提高了應(yīng)用實(shí)時性。
在可靠性方面,Arm的CPU經(jīng)過了大量量產(chǎn)驗(yàn)證。馬健指出,過去30年,Arm合作伙伴基于Arm架構(gòu)的芯片出貨量超3000億,2021年近300億顆基于Arm架構(gòu)的年度芯片出貨量中,近200億顆被部署到物聯(lián)網(wǎng)和嵌入式應(yīng)用中。這得益于其設(shè)計(jì)過程中完善的驗(yàn)證機(jī)制,為產(chǎn)品質(zhì)量和可靠性提供了保障。
Armv9架構(gòu):安全、效率與靈活性的三重革新
此次Armv9架構(gòu)的引入,為邊緣設(shè)備帶來安全性、性能、能效三大維度的革新。
·極致安全性
內(nèi)存標(biāo)記擴(kuò)展(MTE):實(shí)時檢測并顯著減少內(nèi)存安全漏洞,對提升系統(tǒng)安全性有重要作用。
指針驗(yàn)證(PAC)與分支目標(biāo)識別(BTI):確保代碼執(zhí)行路徑安全,抵御控制流攻擊。
Secure EL2虛擬化:實(shí)現(xiàn)虛擬機(jī)間硬件級隔離,滿足多租戶邊緣場景的安全需求。
·性能飛躍
增強(qiáng)的 Neon 和可伸縮向量擴(kuò)展(SVE2)技術(shù):提供更高效的 ML 計(jì)算能力。
新增矩陣乘法指令:優(yōu)化AI和ML計(jì)算性能,加速神經(jīng)網(wǎng)絡(luò)推理和訓(xùn)練任務(wù)。
·能效突破
通過窄取和解碼數(shù)據(jù)路徑、密集存儲的 L1 緩存、縮減端口的整數(shù)寄存器文件等等微架構(gòu)優(yōu)化,Cortex-A320能效較Cortex-A520提升了50% 以上。得益于Armv9 架構(gòu)所實(shí)現(xiàn)的顯著 ML 性能提升,在 2GHz 頻率下運(yùn)行,以 8 位 MAC/周期測得,四核 Cortex-A320 可以執(zhí)行高達(dá) 256 GOPS。因此,無需外部加速器,Cortex-A320 便可直接在 CPU 上運(yùn)行高級 ML 和 AI 用例。
KleidiAI與生態(tài)協(xié)同:開發(fā)效率提升70%
針對邊緣AI開發(fā)痛點(diǎn),Arm此次還將Kleidi擴(kuò)展到物聯(lián)網(wǎng)領(lǐng)域。Kleidi已集成到Llama.cpp、ExecuTorch等主流框架,加速了 Meta Llama 3 和 Phi-3 等關(guān)鍵模型的性能。例如,在 Llama.cpp 上運(yùn)行微軟的 Tiny Stories 數(shù)據(jù)集時,KleidiAI 為新的 Cortex-A320 帶來了高達(dá) 70% 的性能提升。Kleidi讓開發(fā)者擺脫硬件適配桎梏,專注于創(chuàng)新本身。此外,新的邊緣 AI 計(jì)算平臺具備支持多種操作系統(tǒng)的能力,無論是如 FreeRTOS 和 Zephyr 的實(shí)時操作系統(tǒng) (RTOS),還是如 Linux 和 Android 的功能豐富的操作系統(tǒng),都能提供高效支持,讓超2000萬開發(fā)者無縫遷移現(xiàn)有工具鏈。
此外,Armv9 邊緣AI計(jì)算平臺獲得了全球產(chǎn)業(yè)鏈領(lǐng)軍企業(yè)的高度認(rèn)可。例如,亞馬遜云科技表示,Arm邊緣AI計(jì)算平臺為其客戶實(shí)現(xiàn)在Armv9技術(shù)上運(yùn)行AWS IoT Greengrass的輕量級設(shè)備運(yùn)行時環(huán)境—— Nucleus Lite,讓邊緣設(shè)備以最低的內(nèi)存需求高效運(yùn)行;西門子認(rèn)為,基于 Armv9 架構(gòu)的全新邊緣 AI 計(jì)算平臺有助于其將高度安全、高性能和高能效的 AI 創(chuàng)新產(chǎn)品組合擴(kuò)展到所有客戶,涵蓋一系列工業(yè)、智能基礎(chǔ)設(shè)施和移動應(yīng)用;瑞薩電子稱,Cortex-A320不僅在 AI/ML 高性能和安全性方面表現(xiàn)出色,還顯著優(yōu)化了功耗和面積效率。這一突破有助于瑞薩電子加快創(chuàng)新步伐,進(jìn)一步提升效率和可擴(kuò)展性。
總體而言,隨著生成式AI向邊緣滲透,物聯(lián)網(wǎng)領(lǐng)域正在迎來前所未有的機(jī)遇與生機(jī)。Arm 所發(fā)布的全新平臺不僅僅是一次漸進(jìn)式的升級,更是為未來邊緣計(jì)算和 AI 處理提出了新的范式。
評論