打造 “CPU+” 異構(gòu)計算平臺，Arm靈活應(yīng)對各類AI工作負(fù)載

作者：時間：2024-12-04 來源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

對于人工智能 (AI) 而言，任何單一硬件或計算組件都無法成為適合各類工作負(fù)載的萬能解決方案。AI 貫穿從云端到邊緣側(cè)的整個現(xiàn)代計算領(lǐng)域，為了滿足不同的 AI 用例和需求，一個可以靈活使用 CPU、GPU 和 NPU 等不同計算引擎的異構(gòu)計算平臺必不可少。

本文引用地址：http://www.butianyuan.cn/article/202412/465192.htm

依托于 Arm CPU 的性能、能效、普及性、易于編程性和靈活性，從小型的嵌入式設(shè)備到大型的數(shù)據(jù)中心，Arm CPU 已經(jīng)為各種平臺上的 AI 加速奠定了基礎(chǔ)。

就靈活性而言，這對生態(tài)系統(tǒng)大有裨益的三個主要原因是，首先，Arm CPU 可以處理廣泛的 AI 推理用例，其中許多用例通常用于數(shù)十億臺設(shè)備，例如當(dāng)今的智能手機、云和數(shù)據(jù)中心。不僅如此，除了推理之外，CPU 還經(jīng)常用于技術(shù)棧中的數(shù)據(jù)預(yù)處理和編排等其他任務(wù)。其次，開發(fā)者能夠在更多種類的數(shù)據(jù)格式中運行更廣泛的軟件，而無需構(gòu)建多個版本的代碼。最后，CPU 的靈活性使之成為加速 AI 工作負(fù)載的理想工具。

提供多樣性和選擇，助力行業(yè)靈活部署AI計算

除了 CPU 產(chǎn)品組合外，Arm 計算平臺還包括 GPU 和 NPU 等 AI 加速器技術(shù)，許多市場都在將這些技術(shù)與 CPU 進(jìn)行集成。

在移動端領(lǐng)域，Arm 終端計算子系統(tǒng) (CSS) 包含 Armv9.2 CPU 集群，并與 Arm Immortalis-G925 GPU 集成，可為各種 AI 用例提供加速功能，包括圖像分割、對象檢測、自然語言處理和語音轉(zhuǎn)文本等用例。在物聯(lián)網(wǎng) (IoT) 方面，Arm Ethos-U85 NPU 可與需要加速 AI 性能的基于 Arm Cortex-A 的系統(tǒng)一起設(shè)計，例如工廠自動化等場景。

此外，除了 Arm 自己的加速器技術(shù)外，合作伙伴借助 Arm 的 CPU 靈活定制具有差異化的芯片解決方案。例如，NVIDIA 用于 AI 基礎(chǔ)設(shè)施的 Grace Blackwell 和 Grace Hopper 超級芯片均采用了 Arm CPU 和 NVIDIA 的 AI 加速器技術(shù)，從而顯著提升 AI 性能。

NVIDIA Grace Blackwell 超級芯片將 NVIDIA 的 Blackwell GPU 架構(gòu)與基于 Arm Neoverse 的 Grace CPU 相結(jié)合。Arm 獨特的產(chǎn)品組合使 NVIDIA 能夠進(jìn)行系統(tǒng)級設(shè)計優(yōu)化，與 NVIDIA H100 GPU 相比，其能耗降低了 25 倍，單個 GPU 性能提高了 30 倍。具體來說，得益于 Arm Neoverse 平臺的靈活性，NVIDIA 能夠?qū)崿F(xiàn)自有的高帶寬 NVLink 互連技術(shù)，并提升 CPU、GPU 和內(nèi)存之間的數(shù)據(jù)帶寬和延遲。

Arm 致力于通過 Arm 全面設(shè)計生態(tài)項目，為整個生態(tài)系統(tǒng)注入 AI 加速的機遇。通過該生態(tài)項目，開發(fā)者可以更快訪問 Arm CSS 技術(shù)，賦能軟硬件技術(shù)進(jìn)步，以此驅(qū)動 AI 和芯片創(chuàng)新，并加快開發(fā)和部署 AI 優(yōu)化的芯片解決方案。

Arm架構(gòu)滿足AI所需的獨特靈活性

Arm CPU 設(shè)計所具有靈活性關(guān)鍵在于 Arm 領(lǐng)先的架構(gòu)。它提供了一個可以與 AI 加速器技術(shù)緊密集成的基礎(chǔ)平臺，并支持從 128 位到 2,048 位的各種向量長度，可以在許多不同的數(shù)據(jù)點上輕松執(zhí)行多個神經(jīng)網(wǎng)絡(luò)。

Arm 架構(gòu)的靈活性為整個芯片生態(tài)系統(tǒng)提供了多樣化的定制機會，Arm 一直致力于幫助合作伙伴更快地構(gòu)建自己的差異化芯片解決方案。這種獨特的靈活性也使 Arm 能夠不斷進(jìn)行架構(gòu)創(chuàng)新，定期推出關(guān)鍵指令和功能來加速 AI 計算，進(jìn)而惠及整個生態(tài)系統(tǒng)，其中包括領(lǐng)先的芯片合作伙伴，以及在 Arm 計算平臺上構(gòu)建應(yīng)用的 2,000 多萬軟件開發(fā)者等。

這一切始于 Armv7 架構(gòu)，該架構(gòu)引入了高級單指令多數(shù)據(jù) (SIMD) 擴展，例如 Neon 技術(shù)，這是 Arm 首次涉足機器學(xué)習(xí) (ML) 工作負(fù)載。在過去幾年中，該架構(gòu)不斷增強，Armv8 中增加了向量點積和矩陣乘法特性，之后在 Armv9 中又引入了 Arm SVE2 和新的 Arm SME 技術(shù)，為廣泛的生成式 AI 工作負(fù)載和用例提高了計算性能并降低了功耗。

與AI加速器技術(shù)無縫集成

Arm 是 AI 時代的計算平臺，推動了持續(xù)的架構(gòu)創(chuàng)新，以滿足速度更快、互動性更好和沉浸感更強的 AI 應(yīng)用的發(fā)展。Arm CPU 作為靈活處理 AI 工作負(fù)載的異構(gòu)計算方法中的一部分，可以無縫增強和集成 GPU 和 NPU 等 AI 加速器技術(shù)。

Arm CPU 是處理眾多 AI 推理工作負(fù)載的實用之選，憑借出色的靈活性，它能夠與加速器技術(shù)無縫集成，打造更強大、更高性能的 AI 功能，精準(zhǔn)滿足特定用例和計算需求。對于 Arm 的技術(shù)合作伙伴而言，出色的靈活性有助于實現(xiàn)豐富的定制選擇，使他們能夠為 AI 工作負(fù)載構(gòu)建完整的芯片解決方案。