新聞中心

EEPW首頁 > 嵌入式系統 > 設計應用 > 在基于 Arm Neoverse 的 AWS Graviton3 CPU 上實現出色性能

在基于 Arm Neoverse 的 AWS Graviton3 CPU 上實現出色性能

作者: 時間:2024-08-13 來源:Arm 收藏

作者: 基礎設施事業(yè)部數據中心解決方案架構師 Ravi Malhotra

本文引用地址:http://www.butianyuan.cn/article/202408/461975.htm

在過去一年里,生成式人工智能 (AI) 吸引了科技行業(yè)的目光,大家都在想方設法地將大語言模型 (LLM) 部署到其位于云端和邊緣側服務器上的應用中。雖然 GPU 和加速器憑借優(yōu)異的性能,一直是這些部署任務的默認首選平臺。但在推理領域,除了 GPU 和加速器之外,還有其他可行的選擇。長期以來,CPU 一直被用于傳統的 AI 和機器學習 (ML) 用例,由于 CPU 能夠處理廣泛多樣的任務且部署起來更加靈活,因此當企業(yè)和開發(fā)者尋求將 LLM 集成到產品和服務中時,CPU 成了熱門選擇。

本文將介紹基于 Neoverse 的 Graviton3 CPU 在規(guī)模化靈活運行 Llama 3 [1] 和 Phi-3 [2] 等業(yè)內標準 LLM 方面的能力,并展示與其他基于 CPU 的服務器平臺相比的主要優(yōu)勢。

Graviton3 上的 LLM 性能

為了展示基于 平臺的服務器 CPU 在 LLM 推理方面的能力,Arm 軟件團隊和我們的合作伙伴對 llama.cpp 中實現的 int4 和 int8 內核進行了優(yōu)化,以利用這些較新的指令 [3] 。我們在 Graviton3 平臺上進行了多次實驗,以測量不同場景下對性能的影響,并將影響因素隔離開。

所有實驗均在 AWS r7g.16xlarge 實例上進行,該實例帶有 64 個虛擬 CPU (vCPU) 和 512 GB 的內存。所用的模型是經過 int4 量化的 Llama3-8B。

 

提示詞處理

提示詞詞元 (Token) 通常是并行處理的,即使對于單次操作 (batch=1),也會使用所有可用核心。在這方面,經過 Arm 優(yōu)化,每秒處理的詞元數提升了 2.5 倍;在處理更大的批次大小時,性能小幅提升。

圖:提示詞處理經優(yōu)化得到提升

 

詞元生成

詞元生成以自回歸的方式進行,對于所需生成的輸出長度高度敏感。在這方面,經過 Arm 優(yōu)化,吞吐量最多可提高兩倍,有助于處理更大的批次大小。

圖:詞元生成經優(yōu)化得到提升

 

延遲

詞元生成的延遲對 LLM 的交互式部署非常重要。對于下個詞元響應時間 (time-to-next-token),100ms 的延遲是關鍵的目標指標,這是基于人們每秒 5-10 個單詞的典型閱讀速度計算得出的。在下方圖表中,我們看到在單次操作和批量處理的場景下,AWS Graviton3 都能滿足 100ms 的延遲要求,因此適合于作為 LLM 的部署目標。

我們使用了兩組不同的模型 Llama3-8B 和 Phi-3-mini (3.8B),以展示不同規(guī)模的 LLM 的延遲情況。

圖:AWS Graviton3 的下個詞元響應時間延遲情況

即使是在 2019 年推出的 AWS Graviton2 這樣的上一代 Arm 服務器平臺上,也能運行多達 80 億參數的新 LLM,并且在單次操作和批量處理的場景下,均能滿足 100ms 的延遲要求。

圖:AWS Graviton2 的下個詞元響應時間延遲情況

性能比較


此外,我們使用經過 int4 量化的 Llama3-8B 模型,比較了它在 AWS Graviton3 與在 AWS 上其他新一代服務器 CPU 的性能。


AWS Graviton3:r7g.16xlarge,64 個 vCPU,512 GB 內存,3.43 美元/小時


第四代 Intel Xeon:r7i.16xlarge,64 個 vCPU,512 GB 內存,4.23 美元/小時


第四代 AMD EPYC:r7a.16xlarge,64 個 vCPU(SMT 關閉),512 GB 內存,4.87 美元/小時

我們發(fā)現,相較于其他兩款 CPU,在提示詞處理和詞元生成方面,AWS Graviton3 的性能高出三倍。

圖:提示詞處理比較

圖: 詞元生成比較

同樣值得注意的是,AWS Graviton3 CPU 比第四代 x86 CPU 更具成本效益,這在 Graviton3 實例相對較低的定價中就有所體現。鑒于 LLM 對算力的要求已經非常高,以單位價格詞元數量來計算總體擁有成本 (TCO),是推動 LLM 在數據中心內廣泛采用的關鍵。

在這一點上,AWS Graviton3 擁有顯著優(yōu)勢,每美元詞元數量最高多了三倍,不僅在 CPU 中處于領先,也為希望在采用 LLM 的過程中逐步擴大規(guī)模的用戶提供了令人信服的優(yōu)勢。

圖:LLM 推理的 TCO 比較

結論

當開發(fā)者想要在其應用中部署專用 LLM 時,服務器 CPU 為開發(fā)者提供了靈活、經濟和簡化的起點。Arm 新增了幾項關鍵特性,有助于顯著提升 LLM 的性能。得益于此,基于 Arm Neoverse 的服務器處理器(如 AWS Graviton3)不僅能提供優(yōu)于其他服務器 CPU 的 LLM 性能,還能為更多應用開發(fā)者降低采用 LLM 的門檻。



關鍵詞: Arm AWS

評論


相關推薦

技術專區(qū)

關閉