借助小語言模型，高效 Arm 計算賦能定制化 AI 未來

作者：時間：2024-07-09 來源：Arm

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

隨著我們逐步邁入人工智能 (AI) 的世界，小體量模型愈發(fā)具有大優(yōu)勢。

本文引用地址：http://butianyuan.cn/article/202407/460786.htm

在過去的一年多里，大語言模型 (LLM) 推動了生成式 AI 的早期創(chuàng)新浪潮，訓(xùn)練參數(shù)量朝萬億級規(guī)模邁進(jìn)，但越來越多的證據(jù)表明，無限制地擴展 LLM 并不具備可持續(xù)性。至少來說，通過此方式來發(fā)展 AI 所需的基礎(chǔ)設(shè)施成本過于高昂，僅有少數(shù)企業(yè)可以承受。此類 LLM 需要消耗大量算力和電力，運營成本不菲。這些項目將帶來沉重的財務(wù)和資源負(fù)擔(dān)，例如 GPT-4 的訓(xùn)練成本至少為一億美元。

除此之外，這些 LLM 的開發(fā)和部署過程也相對復(fù)雜。劍橋大學(xué)的一項研究 ^[1]指出，企業(yè)將花費超過 90 天來部署單一的機器學(xué)習(xí) (ML) 模型。漫長的周期阻礙了快速開發(fā)和迭代實驗的步伐，而這在 AI 技術(shù)飛速發(fā)展的領(lǐng)域卻又至關(guān)重要。

綜合考慮以上因素和其他挑戰(zhàn)，AI 的開發(fā)重心正逐漸轉(zhuǎn)向小語言模型 (Small Language Models, SLM)，有時或稱小型 LLM，從而借助其效率更高、資源需求更少，以及更易于定制和控制等優(yōu)勢來解決多項挑戰(zhàn)。相比于生成較復(fù)雜或精細(xì)的內(nèi)容，SLM（例如 Llama、Mistral、Qwen、Gemma、Phi-3 的小規(guī)模參數(shù)版本）在執(zhí)行對話、翻譯、摘要和分類等較簡單的集中任務(wù)時，效率更高，其訓(xùn)練過程也僅需消耗較少的電力。

這有助于開發(fā)者構(gòu)建具有多模態(tài)功能的生成式 AI 解決方案，用于處理和生成文本、圖像和音頻等不同媒體形式的內(nèi)容。

Llama 3 等基礎(chǔ)模型可以利用特定上下文數(shù)據(jù)進(jìn)一步微調(diào)，以專注于特定應(yīng)用領(lǐng)域，如醫(yī)學(xué)科學(xué)、代碼生成或其它專業(yè)知識領(lǐng)域。結(jié)合這些較小體量 LLM 的可及性，這些應(yīng)用讓生成式 AI 更為普及，并讓不具備 GPU 集群的應(yīng)用開發(fā)者也可獲得 AI 功能，進(jìn)而開辟了新的應(yīng)用和用例。

與此同時，諸如量化等底層優(yōu)化技術(shù)也是提高模型效率的有效方式。量化技術(shù)通過對神經(jīng)網(wǎng)絡(luò)權(quán)重進(jìn)行更低精度計算，可以縮減模型大小。量化可以將 16 位浮點數(shù)壓縮為 4 位整數(shù)，進(jìn)而大幅降低了內(nèi)存和計算需求，對準(zhǔn)確度也僅有細(xì)微影響。例如，應(yīng)用這一方法后，原本擁有 70 億參數(shù)的 Llama 2 模型可從 13.5 GB 縮減至 3.9 GB，130 億參數(shù)版本可從 26.1 GB 縮減至 7.3 GB，700 億參數(shù)模型可從 138 GB 縮減至 40.7 GB。這項技術(shù)提高了這些輕量級模型的運行速度，還降低了軟件運行成本，尤其是在 CPU 上的軟件運行成本。

結(jié)合更高效、性能更強大的 Arm CPU 技術(shù)，這些軟件進(jìn)展使規(guī)模更小、效率更高的語言模型能夠直接在移動設(shè)備上運行，從而提高性能、保護(hù)隱私并優(yōu)化用戶體驗。

llama.cpp 等專用框架也促進(jìn)了 SLM 的興起。與 PyTorch 等通用框架相比，llama.cpp 專注于優(yōu)化 CPU 推理的性能，能在通用硬件上更快速、更高效地執(zhí)行基于 Llama 的模型。這種可及性為廣泛部署提供了新的可能，而無需依賴專門的 GPU 資源，從而使 LLM 能夠服務(wù)于更廣泛的用戶群體和應(yīng)用。

那么，硬件在其中又扮演了什么角色呢？

以 Arm 的方式來體現(xiàn)效率的價值

Arm Neoverse CPU 通過 Neon 和 SVE 等 SIMD 指令提升 ML 處理進(jìn)程，尤其是用以加速通用矩陣乘法 (General Matrix Multiplications, GEMM)，這是一種涉及神經(jīng)網(wǎng)絡(luò)內(nèi)部復(fù)雜乘法的核心算法。在過去幾代產(chǎn)品中，Arm 不斷在其 Neon 和 SVE2 引擎中引入 SDOT (Signed Dot Product) 和 MMLA (Matrix Multiply Accumulate) 等功能指令，進(jìn)而增強關(guān)鍵的 ML 算法。這有助于提高廣泛部署的服務(wù)器 CPU 效率，如 AWS Graviton 和 NVIDIA Grace，以及近期宣布投入量產(chǎn)的 Microsoft Cobalt 和 Google Axion 。

典型的 LLM 管線可劃分為兩個階段：

第一階段：提示處理，準(zhǔn)備模型的輸入數(shù)據(jù)，目的是提高響應(yīng)速度。

第二階段：詞元 (Token) 生成，一次創(chuàng)建一段文本，重點在于吞吐量和可擴展性。

在聊天、風(fēng)格轉(zhuǎn)換、總結(jié)生成和內(nèi)容創(chuàng)建等不同應(yīng)用中，提示大小、詞元生成以及對于速度、質(zhì)量需求之間的優(yōu)先級會有所不同。交互式聊天優(yōu)先考慮快速響應(yīng)，風(fēng)格轉(zhuǎn)換強調(diào)輸出質(zhì)量，總結(jié)生成需要平衡全面性和及時性，而內(nèi)容創(chuàng)建則側(cè)重于生成大量優(yōu)質(zhì)素材。

簡而言之，語言模型是否有效，取決于能否根據(jù)快速交互、高效摘要、高質(zhì)量寫作和大量內(nèi)容創(chuàng)作輸入處理等任務(wù)需要，精細(xì)調(diào)整其輸入處理和文本生成。

Llama 3 在 AWS Graviton3 上的性能表現(xiàn)

為了評估 Neoverse CPU 執(zhí)行 LLM 任務(wù)的效率，Arm 軟件團隊和合作伙伴對 llama.cpp 中的 int4 和 int8 內(nèi)核進(jìn)行了優(yōu)化，以利用基于 Arm 架構(gòu)的服務(wù)器 CPU 中較新的指令。團隊使用經(jīng)過 int4 量化并具有 80 億參數(shù)的 Llama 3 模型，對 AWS r7g.16xlarge 實例進(jìn)行了性能測試，該實例搭載了 64 個基于 Arm 架構(gòu)的 Graviton3 核心并配置了 512 GB RAM。

測試結(jié)果如下：

提示處理：經(jīng)過 Arm 優(yōu)化，每秒處理的詞元數(shù)提高了三倍；在更大的批次大小時，有小幅性能提升。

詞元生成：經(jīng)過 Arm 優(yōu)化，吞吐量提高了兩倍，有助于更高效地處理更大的批次大小。

AWS Graviton3 在單個和批量處理場景中均達(dá)到了新興行業(yè)共同要求的針對交互式 LLM 部署的 100ms 延遲目標(biāo)。即使是在 2019 年推出的 Graviton2 上，也能在 100ms 延遲目標(biāo)內(nèi)運行多達(dá) 80 億參數(shù)的 LLM。

與當(dāng)前一代 x86 實例相比，AWS Graviton3 在提示處理和詞元生成方面的性能高了三倍。

成本效益：Graviton3 實例的價格低于 Sapphire Rapids 和 Genoa。Graviton3 的單位價格詞元生成數(shù)量高了三倍，是采用和擴展 LLM 經(jīng)濟高效的理想之選。

想要詳細(xì)了解該性能測試，盡請關(guān)注 Arm 社區(qū)的后續(xù)文章！

靈活且價格經(jīng)濟

基于 CPU 的云實例為開發(fā)者提供了靈活、經(jīng)濟、快速的開發(fā)起點，使其能夠輕松在應(yīng)用中部署規(guī)模較小的專用 LLM。Arm 在自身的架構(gòu)中引入了多項關(guān)鍵功能，顯著提升了 LLM 的性能。得益于此，與其他服務(wù)器 CPU 相比，廣泛部署且基于 Neoverse 平臺的服務(wù)器處理器（如 AWS Graviton3）不僅能提供業(yè)界領(lǐng)先的 LLM 性能，還能為更多應(yīng)用開發(fā)者降低采用 LLM 的成本門檻。

具體來說，僅需兩分錢左右就可以在兩秒鐘內(nèi)處理完本篇推文，并在不到一秒鐘內(nèi)生成簡短摘要。

Arm 一直處于推動向 SLM 發(fā)展的前沿，我們深切認(rèn)識到了這一趨勢的潛力，并已準(zhǔn)備好迎接這一轉(zhuǎn)變。深深根植于 Arm DNA 的高效和出色性能的 CPU 廣受市場贊譽，能在不會影響質(zhì)量或性能的前提下，無縫運行 AI 工作負(fù)載。

較大規(guī)模的語言模型在短短一年多的時間對科技行業(yè)和整個社會產(chǎn)生了深遠(yuǎn)影響，短時間內(nèi)必然不會消失。

“

即使是 OpenAI 首席執(zhí)行官 Sam Altman 也已看到了即將發(fā)生的變化。他表示：大模型時代將告一段落，未來的重點將轉(zhuǎn)向?qū)Ｓ煤投ㄖ颇Ｐ?。只有根?jù)客戶和特定領(lǐng)域的數(shù)據(jù)對這些模型進(jìn)行優(yōu)化調(diào)整，才能真正釋放其價值潛能。

”

隨著定制化難度降低和必要性提升，SLM 正借此東風(fēng)展翅高飛，占據(jù)其市場位置。

“

正如 AI 初創(chuàng)公司 Hugging Face 首席執(zhí)行官 Clem Delangue 表示，多達(dá) 99% 的用例都可以使用 SLM 來解決，他預(yù)計 2024 年將是 SLM 綻放的一年。

”

我們即將迎來的小語言模型將大有可為！