Arm技術(shù)日:為AI終端準(zhǔn)備了哪些新基石?
一切皆有可能,且盡在掌控之中,其基石就是新一代的高級計(jì)算。為此,Arm不久前在京舉辦了“技術(shù)媒體分享日”,介紹了Am終端CSS、CPU、 GPU及Kledi“軟件與軟件社區(qū)參與計(jì)劃”等,并回答了媒體問題。
本文引用地址:http://butianyuan.cn/article/202407/460971.htm1 概覽:使用Al優(yōu)化的Arm CSS賦能終端
Arm終端事業(yè)部智能手機(jī)市場高級總監(jiān)Steve Raphael稱,Am是實(shí)現(xiàn)下一波計(jì)算性能需求的基石,不僅賦能設(shè)備端實(shí)現(xiàn)更高的AI性能,同時聚焦于降低能效,為當(dāng)今的計(jì)算平臺帶來了高效的性能。
最新的Arm計(jì)算平臺是Am終端計(jì)算子系統(tǒng)(Arm CSSforClient)。Arm首次在終端領(lǐng)域?yàn)锳rmCPU和GPU交付物理實(shí)現(xiàn)(如圖1)。這讓構(gòu)建基于Arm架構(gòu)的解決方案變得更加簡單和可靠,同時實(shí)現(xiàn)新的性能點(diǎn)和計(jì)算能力,并助力加速產(chǎn)品上市進(jìn)程。
圖1 Arm終端CCS參考平臺
Arm力求提供更多價(jià)值,例如針對新的3納米工藝節(jié)點(diǎn)對整個堆棧進(jìn)行優(yōu)化。Am終端CSS將物理實(shí)現(xiàn)與Armv9的AI優(yōu)勢結(jié)合在一起。 Armv9架構(gòu)是2021年推出的,專為高性能和AI而設(shè)計(jì)的,并在過去幾年中提高了在矢量加速、機(jī)器學(xué)習(xí)(ML)等領(lǐng)域的計(jì)算能力;增強(qiáng)系統(tǒng)的安全性和穩(wěn)健性;更重要的是,增加了面向AI的功能。在去年Armv9.2取得成功的基礎(chǔ)上,現(xiàn)在正通過全新的Arm Cortex+ -x CPU和Arm Immortalis GPU來提供高性能,并以效率為核心,終端CSS能夠?yàn)楹献骰锇樯鷳B(tài)系統(tǒng)帶來所需的性能,并且加速其產(chǎn)品上市進(jìn)程。所有這些與持續(xù)的軟件投資相結(jié)合,為開發(fā)者構(gòu)建起-一個平臺,幫助他們能夠在Arm平臺上打造更卓越、快速的AI體驗(yàn)。
2 終端CSS:面向高端終端設(shè)備
Amm終端事業(yè)部產(chǎn)品管理總監(jiān)Steve Hopper首先回年以來,Arm通過全面計(jì)算解決方案(TCS)不斷突破移年以來,Arm 通過全面計(jì)算解決方案(TCS)不斷突破移動端計(jì)算的極限。第一代解決方案引入了全新的Amv9 CPU集群、性能強(qiáng)大的Arm Mali GPU以及一整套系統(tǒng)IP產(chǎn)品。2022年, Arm發(fā)布了第二代全面計(jì)算解決方案,帶來了Armv9 CPU集群,并推出了新的旗艦級GPU系列Arm Immortalis。在去年的全面計(jì)算解決方案中,Am推出了新一代Amv9.2 CPU集群和基于第五代GPU架構(gòu)的新GPU系列,持續(xù)推進(jìn)這一勢頭。 Arm的終端解決方案已連續(xù)三代實(shí)現(xiàn)兩位數(shù)的性能和效率提升。
圖2
在Specint和Geekbench等基準(zhǔn)測試中,計(jì)算性能每年提高超過15%。在各種GPU基準(zhǔn)測試和實(shí)際游戲內(nèi)容中,圖形性能提升超過20%。更重要的是,Arm持續(xù)實(shí)現(xiàn)了超過15%的同比效率提升。
今年,Am將其終端解決方案升級為Arm終端計(jì)算子系統(tǒng)(CSS),該計(jì)算子系統(tǒng)專為高端終端設(shè)備細(xì)分市場設(shè)計(jì),將在性能、效率和可擴(kuò)展性方面帶來突破性變化。
Am終端CSS囊括最新的Amv9.2 Cortex CPU集群和Arm Immortalis與Arm Mali GPU、CoreLink互連系統(tǒng)IP,以及知名代工廠采用3納米工藝生產(chǎn)就緒的CPU和GPU物理實(shí)現(xiàn)。該平臺為Am的合作伙伴提供了生產(chǎn)芯片的最快途徑。通過物理實(shí)現(xiàn),Arm的合作伙伴能夠利用前沿3納米工藝的各種優(yōu)勢,同時實(shí)現(xiàn)高度靈活、可定制的芯片設(shè)計(jì)。
具體來看,Arm終端CSS采用最新Armv9.2 CPU集群,其中集成了Arm目前最高性能的Arm Cortex-X925 CPU、最高效的Cortex- -A725 CPU和更新后的Cortex-A520 CPU。這為AI和其他實(shí)際用例計(jì)算工作負(fù)載提供出色的性能和效率(圖3)。
圖3 Arm終端CSS的要素
最新發(fā)布的Armv9.2 CPU集群在性能上實(shí)現(xiàn)了大幅提升,這得益于Am從多維度著手進(jìn)行優(yōu)化。除了內(nèi)存延遲,以及最大化內(nèi)存帶寬和緩存大小,從多個關(guān)內(nèi)存延遲,以及最大化內(nèi)存帶寬和緩存大小,從多個關(guān)鍵因素入手,進(jìn)而實(shí)現(xiàn)CPU性能的提高。
而針對能效優(yōu)化方面, Steve Hopper強(qiáng)調(diào)了能效提升是一個多因素的結(jié)果,它涉及到工藝節(jié)點(diǎn)、核心設(shè)計(jì)、軟件優(yōu)化以及系統(tǒng)級緩存等多個方面。例如在系統(tǒng)級緩存方面,Arm終端CSS的參考實(shí)現(xiàn)中,系統(tǒng)級緩存已經(jīng)擴(kuò)展到了16MB,這有助于減少內(nèi)存流量,進(jìn)而可降低能耗。
2.1 CPU、GPU和NPU的關(guān)系
拍照和拍視頻可能是大眾最常使用的手機(jī)功能之一,而要想拍攝出具有逼真焦外成像(Bokeh)效果的照片和視頻,并不是一-項(xiàng)簡單的工作負(fù)載。AI攝像頭的焦外成像管線由深度估計(jì)、分割、摳圖和混合等多個階段組成,以確保生成高質(zhì)量的影像。在Steve Hopper的技術(shù)分享中列舉了一個案例,該案例的管線中的AI可在NPU上運(yùn)行,但Arm已經(jīng)證明它同樣可以在CPU上運(yùn)行,并且它的運(yùn)行速度正越來越快。Am終端CSS的亮點(diǎn)之一正是計(jì)算攝影和AI攝像頭用例。與去年TCS23中的CPU相比,今年終端CSS中的Cortex- X925運(yùn)行焦外成像工作負(fù)載算法實(shí)現(xiàn)了24%的性能提升。
當(dāng)下智能手機(jī)市場中的成像解決方案非常復(fù)雜,在CPU、GPU和NPU上運(yùn)行的都有。市場不斷創(chuàng)新,涌現(xiàn)出新的算法、數(shù)據(jù)類型或運(yùn)算符。CPU 所具備的優(yōu)勢在于它的靈活性,以及可以滿足未來技術(shù)需求。例如,研發(fā)中的新技術(shù)可以首先在CPU上實(shí)現(xiàn),而NPU則需要特定的編碼,這增加了研發(fā)工作的難度。因此,新的算法通常首先出現(xiàn)在CPU或GPU上,最后當(dāng)硬件分離時才會遷移到NPU上。通過CPU與NPU緊密協(xié)作,將能共同推動技術(shù)前沿的發(fā)展。
而針對端側(cè)AI推理的處理器協(xié)同工作,Steve Hopper表示,CPU因其易于訪問并極為靈活,是一個較為理想的進(jìn)行AI推理的地方。對于卸載到NPU上進(jìn)行成本比較高的工作負(fù)載而言,CPU也是比較合適的運(yùn)行推理的地方。未來,期待看到在高端設(shè)備中CPU、GPU和NPU三者相輔相成。但對于一些稍微低級別設(shè)備來說,廠商可能很難承擔(dān)NPU的費(fèi)用,CPU往往是運(yùn)行此類工作負(fù)載的理想目標(biāo)。
3 適用于Al及未來的高性能、高效率CPU集群
在過去的一年里,圍繞2023 Arm全面計(jì)算解決方案(TCS23)中的CPU集群,人們見到了許多令人矚目的產(chǎn)品和發(fā)布。這些產(chǎn)品共同引領(lǐng)了AI等新的高級用例的激增。如今,AI運(yùn)行于Arm平臺和Arm的CPU集群之,上。這些工作負(fù)載的計(jì)算密集度越來越高。因此Arm需要不斷發(fā)展技術(shù),以應(yīng)對這一挑戰(zhàn)。 正是在這一新技術(shù)和新用例的交匯之際,Arm推出了新的Armv9.2CPU集群(圖4)。
圖4 Armv9 CPU集群的代際更新及最新產(chǎn)品
Arm終端事業(yè)部高級產(chǎn)品經(jīng)理ManishPandey介紹了兩個全新的IP (旗艦CPU Arm Cortex-X系列和高效CPU Arm Cortex-A700系列的新產(chǎn)品),以及另外兩個經(jīng)過更新的IP一可用于3納米工藝的更新的Amm Cortex—A500系列CPU,以及具有新功能的更新的DSU。這些產(chǎn)品被集成至Arm迄今為止針對安卓系統(tǒng)速度最快的計(jì)算平臺一新的 Arm終端CSS。
Arm Cortex-X925是Arm迄今為止速度最快、性能最強(qiáng)的CPU,其單線程性能提升了36%,AI 性能提高了46%,是Arm Cortex- -X系列有史以來最大幅度的IPC同比提升。要實(shí)現(xiàn)如此優(yōu)異的性能,并非只涉及單個因素, 而是來自每時鐘周期指令數(shù)(IPC)、 頻率、編譯器、 操作系統(tǒng)(OS)、封裝等多個方面的投入。除了性能的提升以外,Arm也始終與其合作伙伴需求以及行業(yè)發(fā)展保持同頻,并致力于為其合作伙伴提供相關(guān)工具,幫助他們的產(chǎn)品實(shí)現(xiàn)逐年的性能提升,并且可以確保最終成品保持在他們的片上面積以及功耗預(yù)算之內(nèi)。
在終端設(shè)備市場,隨著智能手機(jī)性能提升的同時,散熱問題也是眾所關(guān)注的焦點(diǎn)。在這一-方面, Arm持續(xù)投入,以確保其基礎(chǔ)IP在典型的功耗預(yù)算內(nèi)實(shí)現(xiàn)最大的性能表現(xiàn)。在Arm終端CSS中,Arm也以特定工藝節(jié)點(diǎn)的物理IP為目標(biāo),確保在這些工藝節(jié)點(diǎn)上獲得最佳性能, 同時達(dá)到最低的能耗和最小的發(fā)熱量。
3.1 Cortex-X925的命名含義
此次Arm針對Cortex- -X925改成了以三位數(shù)的命名方此次Arm針對Cortex- -X925改成了以三位數(shù)的命名方式。據(jù)了解,今年改名的原因主要在于,Arm革新了新一代CPU的設(shè)計(jì)理念,得益于新設(shè)計(jì)所實(shí)現(xiàn)的微架構(gòu)改進(jìn)和頻率提升,Cortex- -X925 是Cortex- -X推出以來取得最高IPC同比增幅的CPU,通過命名的調(diào)整,Arm用來彰顯其與前代產(chǎn)品的突出表現(xiàn)。此外,新推出的Immortalis- -G925 GPU在性能方面也實(shí)現(xiàn)了驚人的提升,通過將GPU和CPU的命名統(tǒng)一起來,也能清楚表明這兩款產(chǎn)品作為旗艦高端IP的定位。Steve Raphael進(jìn)一步說明, Arm Cortex- -X系列將持續(xù)定位為Arm和合作伙伴定制合作的專用高端CPU。而對于Cortex-. A700系列,Arm同樣看重,也將持續(xù)保持這一高效產(chǎn)品線。
3 新GPU定位:從手游到AI
作為人們?nèi)粘?shù)字生活中不可或缺的一部分,Arm GPU賦能了從當(dāng)今智能手機(jī)上的沉浸式游戲,到各類邊緣側(cè)人工智能(AI) 體驗(yàn)的方方面面。目前,Arm合作伙伴的GPU出貨量已超過100 億顆,而這一卓越成就歸功于Arm在業(yè)界領(lǐng)先的生態(tài)系統(tǒng)。這些GPU廣泛應(yīng)用于包括智能手機(jī)、平板電腦、智能電視、機(jī)頂盒、智能手表和XR可穿戴設(shè)備在內(nèi)的各類消費(fèi)電子設(shè)備。
去年此時,Am推出了新的第五代GPU架構(gòu)及一系 列新的GPU,包括Arm Immortalis -G720 GPU。MediaTek的天璣9300系統(tǒng)級芯片(SoC)平臺便采用此GPU。之后,知名手機(jī)廠商vivo和OPPO的旗艦智能手機(jī)都先后采用了該芯片。
今年,Amm推出了第二代基于Am第五代GPU架構(gòu)構(gòu)建的GPU產(chǎn)品,成為Am終端計(jì)算子系統(tǒng)(CsS)的重Malir -G725 GPU和Amm Malir -G625 GPU,它們適用于從旗艦智能手機(jī)、高端手機(jī),到智能手表、入門級移動設(shè)備等各類消費(fèi)電子設(shè)備,這些GPU產(chǎn)品的兩大設(shè)計(jì)重心:
● 作為手機(jī)游戲持續(xù)演進(jìn)的一部分,實(shí)現(xiàn)沉浸式視覺體驗(yàn);
● 在主流應(yīng)用中加速實(shí)現(xiàn)AI體驗(yàn)。
安謀科技(Arm China)市場總監(jiān)王剛提供了一組數(shù)據(jù):Immortalis——G925 GPU與Immortal—G720相比,性能提升了37%。這款產(chǎn)品還有多項(xiàng)技術(shù)改進(jìn),如片段預(yù)處理、光線追蹤和可擴(kuò)展性的提升等(圖5)。Arm還針對- -些關(guān)鍵AIML用例改進(jìn)了AI性能,并與生態(tài)系統(tǒng)緊密合作,更大限度地提高了Arm GPU的性能。此外,Mali-G725和Mali——G625這兩款產(chǎn)品可為各類不同級別的設(shè)備帶來出色的游戲體驗(yàn)。
圖5 Immortalis- G925整體性能提升
具體來看下Am GPU在AI性能方面的表現(xiàn),與前幾代產(chǎn)品一樣,Am持續(xù)提升GPU對AI/ML性能和效率的支持,并關(guān)注于AI等主要領(lǐng)域。在圖像處理(如分割或分類)方面,與其去年參考平臺中的Immortalis-G720相比,Am終端CSS參考平臺中的Immortalis -G925性能顯著提升了41%。在超級采樣任務(wù)中,使用神經(jīng)網(wǎng)絡(luò)放大圖像時,性能提升了將近30%;在自然語言處理和語音轉(zhuǎn)文本方面,更是取得了50%性能提升。
王剛強(qiáng)調(diào)道,在衡量整個GPU的能效和性能時,Am不局限于某一兩種基準(zhǔn)測試, 而是更注重實(shí)際用例的表現(xiàn),如游戲體驗(yàn)和普通用戶的UI使用體驗(yàn),這些實(shí)際應(yīng)用場景被視為基準(zhǔn)測試的重要補(bǔ)充。
4 通過軟件加速邊緣AI開發(fā)
在飛速發(fā)展的AI時代,Arm正支持全球數(shù)百萬開發(fā)者,確保他們能夠獲得所需的性能、工具和軟件庫, 從而順利地打造下一波令人驚嘆的AI體驗(yàn)。
為此,Arm推出了Arm Kleidi,這是一項(xiàng)廣 泛的“軟件和軟件社區(qū)參與計(jì)劃”,旨在加速AI發(fā)展。其中的第一個舉措是推出面向熱門AI框架的Arm Kleidi軟件庫。這使開發(fā)者可以直接取得Am CPU的出色AI功能,而如今全球從云端到邊緣側(cè)的大多數(shù)AI推理工作負(fù)載都在這些Amm CPU上運(yùn)行。開發(fā)者可以借助Arm超過多數(shù)據(jù)(SIMD)擴(kuò)展以支持機(jī)器學(xué)習(xí)(ML)工作負(fù)載,多數(shù)據(jù)(SIMD)擴(kuò)展以支持機(jī)器學(xué)習(xí)(ML)工作負(fù)載,到如今的Armv9架構(gòu)在Arm CPU上囊括了加速和保護(hù)高級生成式AI工作負(fù)載的功能,這些創(chuàng)新持續(xù)推動AI能力和性能的提升。
Arm Kleidi提供了一個輕量級的軟件庫,由于設(shè)計(jì)時已盡可能減少了對外部軟件環(huán)境的依賴性,使其能夠輕松整合到多種庫中。作為一個開源項(xiàng)目,Kleidi面向全行業(yè)開放,也將會不斷加入新特性、提升性能,并覆蓋更多運(yùn)算內(nèi)核。
Kleidi軟件庫包含面向AI工作負(fù)載的KleidiAI和面向運(yùn)行于Arm CPU上出色的計(jì)算機(jī)視覺工作負(fù)載的KleidiCV (圖6)。該軟件庫可以被直接嵌入到熱[門]的AI框架中,開發(fā)者無需進(jìn)行任何操作。如此一來,開發(fā)者可以輕松地啟用Arm CPU的AI功能,從而快速構(gòu)建AI應(yīng)用,并在盡可能廣泛的設(shè)備上實(shí)現(xiàn)最出色性能。
圖6
總結(jié)來說,安謀科技(Arm China)開發(fā)者生態(tài)高級經(jīng)理李陳魯在講演中分享了的內(nèi)容涵蓋了:Kleidi 將能在使用Arm CPU的任何地方加速M(fèi)L;通過Arm的協(xié)作、內(nèi)容創(chuàng)作和工具方面的突破,進(jìn)一步推動移動圖ADPF的貢獻(xiàn)以及MTE在消費(fèi)電子設(shè)備中的落地來進(jìn)ADPF的貢獻(xiàn)以及MTE在消費(fèi)電子設(shè)備中的落地來進(jìn)一步增強(qiáng)安卓系統(tǒng);以及在打造Windows on Arm的原生生態(tài)系統(tǒng)方面取得了巨大進(jìn)展。
(本文來源于《EEPW》202407)
評論