Arm技術日:為AI終端準備了哪些新基石?
過去一年,移動終端設備的長足進步令人贊嘆,例如人工智能 (AI) 從手機到筆記本電腦的巨大創(chuàng)新,并誕生了“新一代 AI 手機”和 AIPC。據(jù)IDC預測,2024年全球新一代AI手機的出貨量將達到1.7億部,占智能手機市場總量的近15%。在中國市場,新一代 AI 手機在2027年將達到 1.5 億臺,占有超過一半的份額。在AIPC方面,今年是AIPC的發(fā)展元年,2028年中國下一代 AIPC 年出貨量將是2024年的60倍。
本文引用地址:http://butianyuan.cn/article/202406/460392.htm一切皆有可能,且盡在掌控之中,其基石就是新一代的高級計算。為此,Arm不久前在京舉辦了“技術媒體分享日”,介紹了Arm 終端 CSS、CPU、GPU及Kledi軟件與軟件社區(qū)參與計劃等,并回答了媒體問題。
1 概覽:使用AI優(yōu)化的Arm CSS 賦能終端
Arm 終端事業(yè)部智能手機市場高級總監(jiān) Steve Raphael稱,Arm 是實現(xiàn)下一波計算性能需求的基石,不僅賦能設備端實現(xiàn)更高的AI性能,同時聚焦于降低能效,為當今的計算平臺帶來了高效的性能。
最新的 Arm 計算平臺是 Arm 終端計算子系統(tǒng) (Arm CSS for Client)。Arm首次在終端領域為Arm CPU 和 GPU 交付物理實現(xiàn)。這讓構建基于 Arm 架構的解決方案變得更加簡單和可靠,同時實現(xiàn)新的性能點和計算能力,并助力加速產(chǎn)品上市進程。
Arm 力求提供更多價值,例如針對新的3納米工藝節(jié)點對整個堆棧進行優(yōu)化。Arm 終端 CSS 將物理實現(xiàn)與 Armv9 的 AI 優(yōu)勢結合在一起。Armv9 架構是2021 年推出的,專為高性能和 AI 而設計的,并在過去幾年中提高了在矢量加速、機器學習 (ML) 等領域的計算能力;增強系統(tǒng)的安全性和穩(wěn)健性;更重要的是,增加了面向 AI 的功能。在去年 Armv9.2 取得成功的基礎上,現(xiàn)在正通過全新的 Arm Cortex-X CPU 和Arm Immortalis GPU 來提供高性能,并以效率為核心,終端 CSS 能夠為合作伙伴生態(tài)系統(tǒng)帶來所需的性能,并且加速其產(chǎn)品上市進程。所有這些與持續(xù)的軟件投資相結合,為開發(fā)者構建起一個平臺,幫助他們能夠在 Arm 平臺上打造更卓越、快速的 AI 體驗。
圖 Arm終端CCS參考平臺
2 終端CSS:面向高端終端設備
Arm 終端事業(yè)部產(chǎn)品管理總監(jiān) Steve Hopper 首先回顧了 Arm 在終端設備市場的創(chuàng)新之路。自 2021 年以來,Arm 通過全面計算解決方案 (TCS) 不斷突破移動端計算的極限。第一代解決方案引入了全新的 Armv9 CPU 集群、性能強大的 Arm Mali GPU 以及一整套系統(tǒng) IP 產(chǎn)品。2022 年,Arm 發(fā)布了第二代全面計算解決方案,帶來了 Armv9 CPU 集群,并推出了新的旗艦級 GPU 系列 Arm Immortalis。在去年的全面計算解決方案中,Arm 推出了新一代 Armv9.2 CPU 集群和基于第五代 GPU 架構的新 GPU 系列,持續(xù)推進這一勢頭。Arm的終端解決方案已連續(xù)三代實現(xiàn)兩位數(shù)的性能和效率提升。
在 Specint 和 Geekbench 等基準測試中,計算性能每年提高超過 15%。在各種 GPU 基準測試和實際游戲內(nèi)容中,圖形性能提升超過 20%。更重要的是,Arm持續(xù)實現(xiàn)了超過 15% 的同比效率提升。
今年,Arm 將其終端解決方案升級為Arm 終端計算子系統(tǒng) (CSS),該計算子系統(tǒng)專為高端終端設備細分市場設計,將在性能、效率和可擴展性方面帶來突破性變化。
Arm 終端 CSS 囊括最新的 Armv9.2 Cortex CPU 集群和 Arm Immortalis 與 Arm Mali GPU、CoreLink 互連系統(tǒng) IP,以及知名代工廠采用3納米工藝生產(chǎn)就緒的 CPU 和 GPU 物理實現(xiàn)。該平臺為Arm的合作伙伴提供了生產(chǎn)芯片的最快途徑。通過物理實現(xiàn),Arm 的合作伙伴能夠利用前沿3納米工藝的各種優(yōu)勢,同時實現(xiàn)高度靈活、可定制的芯片設計。
具體來看,Arm 終端 CSS 采用最新 Armv9.2 CPU 集群,其中集成了 Arm 目前最高性能的 Arm Cortex-X925 CPU、最高效的 Cortex-A725 CPU 和更新后的 Cortex-A520 CPU。這為 AI 和其他實際用例計算工作負載提供出色的性能和效率。
圖 Arm終端CSS 的要素
最新發(fā)布的Armv9.2 CPU集群在性能上實現(xiàn)了大幅提升,這是得益于Arm從多維度著手進行優(yōu)化。除了IPC(每時鐘周期指令數(shù))的提升,Arm也關注于減少內(nèi)存延遲,以及最大化內(nèi)存帶寬和緩存大小,從多個關鍵因素入手,進而實現(xiàn)CPU性能的提高。
而針對能效優(yōu)化方面,Steve Hopper強調(diào)了能效提升是一個多因素的結果,它涉及到工藝節(jié)點、核心設計、軟件優(yōu)化以及系統(tǒng)級緩存等多個方面。例如在系統(tǒng)級緩存方面,Arm終端CSS的參考實現(xiàn)中,系統(tǒng)級緩存已經(jīng)擴展到了16MB,這有助于減少內(nèi)存流量,進而可降低能耗。
2.1 CPU、GPU和NPU的關系
拍照和拍視頻可能是大眾最常使用的手機功能之一,而要想拍攝出具有逼真焦外成像 (Bokeh) 效果的照片和視頻,并不是一項簡單的工作負載。AI 攝像頭的焦外成像管線由深度估計、分割、摳圖和混合等多個階段組成,以確保生成高質量的影像。在Steve Hopper的技術分享中列舉了一個案例,該案例的管線中的AI可在NPU上運行,但Arm已經(jīng)證明它同樣可以在CPU上運行,并且它的運行速度正越來越快。Arm 終端 CSS 的亮點之一正是計算攝影和 AI 攝像頭用例。與去年TCS23中的CPU相比,今年終端CSS中的Cortex-X925運行焦外成像工作負載算法實現(xiàn)了24%的性能提升。當下智能手機市場中的成像解決方案非常復雜,在CPU、GPU和NPU上運行的都有。市場不斷創(chuàng)新,涌現(xiàn)出新的算法、數(shù)據(jù)類型或運算符。CPU 所具備的優(yōu)勢在于它的靈活性,以及可以滿足未來技術需求。例如,研發(fā)中的新技術可以首先在CPU上實現(xiàn),而NPU則需要特定的編碼,這增加了研發(fā)工作的難度。因此,新的算法通常首先出現(xiàn)在CPU或GPU上,最后當硬件分離時才會遷移到 NPU 上。通過CPU與NPU緊密協(xié)作,將能共同推動技術前沿的發(fā)展。而針對端側AI推理的處理器協(xié)同工作,Steve Hopper表示,CPU因其易于訪問并極為靈活,是一個較為理想的進行AI推理的地方。對于卸載到NPU上進行成本比較高的工作負載而言,CPU也是比較合適的運行推理的地方。未來,我們期待看到在高端設備中CPU、GPU和NPU三者相輔相成。但對于一些稍微低級別設備來說,廠商可能很難承擔NPU的費用,CPU往往就是一個很好的運行此類工作負載的目標。
3 適用于AI及未來的高性能、高效率CPU集群
在過去的一年里,圍繞 2023 Arm 全面計算解決方案 (TCS23) 中的 CPU 集群,人們見到了許多令人矚目的產(chǎn)品和發(fā)布。這些產(chǎn)品共同引領了 AI 等新的高級用例的激增。如今,AI 運行于 Arm 平臺和 Arm的 CPU 集群之上。這些工作負載的計算密集度越來越高。因此Arm需要不斷發(fā)展技術,以應對這一挑戰(zhàn)。正是在這一新技術和新用例的交匯之際,Arm推出了新的 Armv9.2 CPU 集群。
Arm 終端事業(yè)部高級產(chǎn)品經(jīng)理 Manish Pandey介紹了兩個全新的 IP(旗艦 CPU Arm Cortex-X 系列和高效 CPU Arm Cortex-A700 系列的新產(chǎn)品),以及另外兩個經(jīng)過更新的 IP——可用于3納米工藝的更新的 Arm Cortex-A500 系列 CPU,以及具有新功能的更新的 DSU。這些產(chǎn)品被集成至 Arm 迄今為止針對安卓系統(tǒng)速度最快的計算平臺 —— 新的 Arm 終端CSS。
圖 Armv9 CPU集群的代際更新及最新產(chǎn)品
Arm Cortex-X925是Arm迄今為止速度最快、性能最強的CPU,其單線程性能提升了36%,AI性能提高了46%,是Arm Cortex-X 系列有史以來最大幅度的 IPC 同比提升。要實現(xiàn)如此優(yōu)異的性能,并非只涉及單個因素,而是來自每時鐘周期指令數(shù) (IPC)、頻率、編譯器、操作系統(tǒng) (OS)、封裝等多個方面的投入。除了性能的提升以外,Arm也始終與其合作伙伴需求以及行業(yè)發(fā)展保持同頻,并致力于為其合作伙伴提供相關工具,幫助他們的產(chǎn)品實現(xiàn)逐年的性能提升,并且可以確保最終成品保持在他們的片上面積以及功耗預算之內(nèi)。
在終端設備市場,隨著智能手機性能提升的同時,散熱問題也是眾所關注的焦點。在這一方面,Arm持續(xù)投入,以確保其基礎IP在典型的功耗預算內(nèi)實現(xiàn)最大的性能表現(xiàn)。在Arm終端CSS中,Arm也以特定工藝節(jié)點的物理IP為目標,確保在這些工藝節(jié)點上獲得最佳性能,同時達到最低的能耗和最小的發(fā)熱量。
3.1 Cortex-X925 的命名含義
與過往Cortex-X系列以個位數(shù)命名的方式不同,此次Arm針對Cortex-X925改成了以三位數(shù)的命名方式。據(jù)了解,今年改名的原因主要在于,Arm革新了新一代 CPU 的設計理念,得益于新設計所實現(xiàn)的微架構改進和頻率提升,Cortex-X925是Cortex-X推出以來取得最高IPC同比增幅的CPU,通過命名的調(diào)整,Arm用來彰顯其與前代產(chǎn)品的突出表現(xiàn)。此外,新推出的Immortalis-G925 GPU在性能方面也實現(xiàn)了驚人的提升,通過將 GPU 和 CPU 的命名統(tǒng)一起來,也能清楚表明這兩款產(chǎn)品作為旗艦高端 IP的定位。Steve Raphael進一步說明,Arm Cortex-X 系列將持續(xù)定位為Arm和合作伙伴定制合作的專用高端 CPU。而對于Cortex-A700 系列,Arm同樣看重,也將持續(xù)保持這一高效產(chǎn)品線。
3 新GPU定位:從手游到AI
作為人們?nèi)粘?shù)字生活中不可或缺的一部分,Arm GPU 賦能了從當今智能手機上的沉浸式游戲,到各類邊緣側人工智能 (AI) 體驗的方方面面。目前,Arm 合作伙伴的 GPU 出貨量已超過 100 億顆,而這一卓越成就歸功于Arm在業(yè)界領先的生態(tài)系統(tǒng)。這些 GPU 廣泛應用于包括智能手機、平板電腦、智能電視、機頂盒、智能手表和 XR 可穿戴設備在內(nèi)的各類消費電子設備。
去年此時,Arm推出了新的第五代 GPU 架構及一系列新的 GPU,包括 Arm Immortalis-G720 GPU。 MediaTek的天璣 9300 系統(tǒng)級芯片 (SoC) 平臺便采用此 GPU。之后,知名手機廠商 vivo 和 OPPO 的旗艦智能手機都先后采用了該芯片。
今年,Arm推出了第二代基于 Arm 第五代 GPU 架構構建的GPU 產(chǎn)品,成為 Arm 終端計算子系統(tǒng) (CSS) 的重要組件。其中包括新的 Arm Immortalis-G925 GPU、Arm Mali-G725 GPU 和 Arm Mali-G625 GPU,它們適用于從旗艦智能手機、高端手機,到智能手表、入門級移動設備等各類消費電子設備,這些 GPU 產(chǎn)品的兩大設計重心:
● 作為手機游戲持續(xù)演進的一部分,實現(xiàn)沉浸式視覺體驗
● 在主流應用中加速實現(xiàn)AI體驗
安謀科技 (Arm China)市場總監(jiān)王剛提供了一組數(shù)據(jù):Immortalis-G925 GPU與 Immortalis-G720 相比,性能提升了 37%。這款產(chǎn)品的多項技術改進,如片段預處理、光線追蹤和可擴展性的提升等。Arm還針對一些關鍵 AI/ML 用例改進了 AI 性能,并與生態(tài)系統(tǒng)緊密合作,更大限度地提高了 Arm GPU 的性能。此外,Mali-G725 和 Mali-G625 這兩款產(chǎn)品可為各類不同級別的設備帶來出色的游戲體驗。
圖 Immortalis-G925整體性能提升
具體來看下Arm GPU在AI 性能方面的表現(xiàn),與前幾代產(chǎn)品一樣,Arm持續(xù)提升GPU對AI/ML性能和效率的支持,并關注于AI等主要領域。在圖像處理(如分割或分類)方面,與其去年參考平臺中的Immortalis-G720相比,Arm終端CSS參考平臺中的Immortalis-G925性能顯著提升了41%。在超級采樣任務中,使用神經(jīng)網(wǎng)絡放大圖像時,性能提升了將近30%;在自然語言處理和語音轉文本方面,更是取得了50%性能提升。
王剛強調(diào)到,在衡量整個GPU的能效和性能時,Arm不局限于某一兩種基準測試,而是更注重實際用例的表現(xiàn),如游戲體驗和普通用戶的UI使用體驗,這些實際應用場景被視為基準測試的重要補充。
4 通過軟件加速邊緣AI開發(fā)
在飛速發(fā)展的AI 時代,Arm正支持全球數(shù)百萬開發(fā)者,確保他們能夠獲得所需的性能、工具和軟件庫,從而順利地打造下一波令人驚嘆的 AI 體驗。
為此,Arm推出了 Arm Kleidi,這是一項廣泛的軟件和軟件社區(qū)參與計劃,旨在加速 AI 發(fā)展。其中的第一個舉措是推出面向熱門 AI 框架的 Arm Kleidi 軟件庫。這使開發(fā)者可以直接取得 Arm CPU 的出色 AI 功能,而如今全球從云端到邊緣側的大多數(shù) AI 推理工作負載都在這些 Arm CPU 上運行。開發(fā)者可以借助 Arm 超過 20 年的架構創(chuàng)新,從 Armv7 架構首次引入高級單指令多數(shù)據(jù) (SIMD) 擴展以支持機器學習 (ML) 工作負載,到如今的 Armv9 架構在 Arm CPU 上囊括了加速和保護高級生成式 AI 工作負載的功能,這些創(chuàng)新持續(xù)推動 AI 能力和性能的提升。
Arm Kleidi提供了一個輕量級的軟件庫,由于設計時已盡可能減少了對外部軟件環(huán)境的依賴性,使其能夠輕松整合到多種庫中。作為一個開源項目,Kleidi面向全行業(yè)開放,也將會不斷加入新特性、提升性能,并覆蓋更多運算內(nèi)核。
Kleidi軟件庫包含面向AI工作負載的KleidiAI和面向運行于Arm CPU上出色的計算機視覺工作負載的KleidiCV。該軟件庫可以被直接嵌入到熱門的 AI 框架中,開發(fā)者無需進行任何操作。如此一來,開發(fā)者可以輕松地啟用Arm CPU的AI功能,從而快速構建AI應用,并在盡可能廣泛的設備上實現(xiàn)最出色性能。
總結來說,安謀科技 (Arm China) 開發(fā)者生態(tài)高級經(jīng)理李陳魯在講演中分享了的內(nèi)容涵蓋了, Kleidi 將能在使用 Arm CPU 的任何地方加速 ML;通過Arm的協(xié)作、內(nèi)容創(chuàng)作和工具方面的突破,進一步推動移動圖形渲染不斷挑戰(zhàn)未來極限;通過Arm對 Chromium、ADPF 的貢獻以及 MTE 在消費電子設備中的落地來進一步增強安卓系統(tǒng);以及在打造 Windows on Arm 的原生生態(tài)系統(tǒng)方面取得了巨大進展。
評論