探索 AI 新未來(lái)，移動(dòng)端 CPU 運(yùn)行生成式 AI 實(shí)例解析

作者：時(shí)間：2024-10-17 來(lái)源：ADI

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

作者：Arm 終端事業(yè)部產(chǎn)品管理總監(jiān) Ronan Naughton

本文引用地址：http://www.butianyuan.cn/article/202410/463732.htm

2022 年，首個(gè)云端文生圖的生成式人工智能 (AI) 用例誕生。通過(guò)“一張宇航員騎馬的照片”文字提示，生成了一張 AI 圖像，雖然圖像還存在瑕疵，但展示了生成式 AI 令人驚嘆的能力和潛力。

當(dāng)時(shí)我并未在云端運(yùn)行這個(gè)用例，而是在想： “這很棒，但它能在移動(dòng)設(shè)備上實(shí)現(xiàn)嗎？”

生成式 AI 是當(dāng)今智能手機(jī)體驗(yàn)的一部分

時(shí)至今日，答案已顯而易見(jiàn)。事實(shí)上，許多生成式 AI 工作負(fù)載，如圖像生成和文本摘要，已無(wú)縫融入現(xiàn)代智能手機(jī)體驗(yàn)之中，且這些任務(wù)均能在端側(cè)進(jìn)行高效處理。這得益于旗艦 AI 智能手機(jī)卓越的計(jì)算能力，以及生成式 AI 所依賴的大語(yǔ)言模型 (LLM) 不斷向更小、更高效的方向發(fā)展。這些趨勢(shì)將繼續(xù)演進(jìn)，意味著在不久的將來(lái)，生成式 AI 將成為移動(dòng)端應(yīng)用的標(biāo)配。

AI 工作負(fù)載始于 CPU

正如我們之前談到的，移動(dòng)端 AI 始于 CPU。它為全球開(kāi)發(fā)者提供了軟件靈活性和可編程性。此外，地球上每一臺(tái)數(shù)字消費(fèi)電子設(shè)備都搭載 CPU，CPU 的無(wú)處不在意味著開(kāi)發(fā)者創(chuàng)建應(yīng)用時(shí)，可以“一次編寫(xiě)，即可隨處部署”，確保覆蓋更為廣泛的用戶。

今年早些時(shí)候，我們進(jìn)行了聊天機(jī)器人演示，它能作為科學(xué)和編程虛擬助教，并在移動(dòng)端 CPU 上流暢運(yùn)行。此次演示的成功，表明我們開(kāi)始探索在 Arm CPU 上運(yùn)行更多端側(cè)生成式 AI 用例，以更好地滿足智能手機(jī)用戶的日常使用需求。由此，我們創(chuàng)建了三款新的演示，包括群聊總結(jié) 、語(yǔ)音留言總結(jié) 和實(shí)時(shí)語(yǔ)音助手。它們和聊天機(jī)器人演示一樣，完全在端側(cè)處理和運(yùn)行生成式 AI 工作負(fù)載，相比將數(shù)據(jù)發(fā)送到云端處理，這能提供更好的隱私性、降低延遲，并具備成本優(yōu)勢(shì)。

新的生成式 AI 演示

對(duì)我個(gè)人而言，群聊總結(jié)和語(yǔ)音留言總結(jié)在日常生活中非常實(shí)用。和大多數(shù)智能手機(jī)用戶一樣，我總會(huì)收到親朋好友的各種消息和語(yǔ)音，用生成式 AI 總結(jié)聊天內(nèi)容很有幫助。

群聊總結(jié)演示可以針對(duì)包含多個(gè)參與者的群聊消息快速提煉要點(diǎn)，并以易于理解的格式呈現(xiàn)。除群聊消息總結(jié)之外，該功能還適用于其他場(chǎng)景，例如電子郵件內(nèi)容總結(jié)。更令人稱道的是，該用例也支持多模態(tài)，甚至可以在總結(jié)中巧妙融入圖片信息。

語(yǔ)音留言總結(jié)演示可以展示 LLM 和語(yǔ)音轉(zhuǎn)文本模型如何通過(guò)協(xié)同工作總結(jié)和轉(zhuǎn)錄用戶收到的語(yǔ)音留言。先由模型將語(yǔ)音留言轉(zhuǎn)換為文本，再由 LLM 加以總結(jié)。對(duì)我個(gè)人而言，這真的節(jié)省了大量時(shí)間！

和之前的聊天機(jī)器人演示一樣，實(shí)時(shí)語(yǔ)音助手演示的創(chuàng)新亮點(diǎn)在于，它完全可以在飛行模式下獨(dú)立運(yùn)行，充分展示了 Arm CPU 在端側(cè)處理生成式 AI 工作負(fù)載的強(qiáng)大能力。

該演示先使用 whisper.cpp 自動(dòng)識(shí)別語(yǔ)音，再進(jìn)入 LLM 模塊，使用 Google AI Edge 的 MediaPipe 運(yùn)行 Gemma 2B 模型。此外，也可選擇 Llama 3 模型。即使使用 30 億參數(shù)模型，也能實(shí)現(xiàn)實(shí)時(shí)對(duì)話，聲音逼真，且能感知語(yǔ)境、進(jìn)行多輪對(duì)話。

為了顯著提升性能，我們?cè)谟糜谡Z(yǔ)音識(shí)別的 whisper 模塊和用于生成響應(yīng)的 LLM 模塊中都集成了 Arm KleidiAI ——一組專(zhuān)為生成式 AI 工作負(fù)載而高度優(yōu)化的AI軟件內(nèi)核，能夠顯著提升性能表現(xiàn)。該用例還可用于汽車(chē)應(yīng)用，駕駛員無(wú)需手動(dòng)操作，僅憑語(yǔ)音指令即可與設(shè)備互動(dòng)，例如在行車(chē)途中詢問(wèn)導(dǎo)航方向，或與游戲角色互動(dòng)對(duì)話，極大地提升了駕駛體驗(yàn)。

在以上三種演示中，我們都使用了旗艦級(jí)AI 智能手機(jī)，包括搭載 MediaTek 天璣 9300 芯片的 vivo X100 、搭載 MediaTek 天璣 9200+ 芯片的紅米 K60 至尊版，以及搭載 Google Tensor G3 芯片的 Google Pixel 8 和 Pixel 8 Pro，這些手機(jī)的芯片組均采用了 Armv9 CPU 技術(shù)，該技術(shù)融入了諸如 SVE2 等全新架構(gòu)特性，旨在大幅提升 AI 性能。

未來(lái)，基于 Arm CPU 打造的旗艦 AI 智能手機(jī)將利用可伸縮矩陣擴(kuò)展 (SME) 架構(gòu)特性，加速 AI 工作負(fù)載，并為 Arm CPU 上運(yùn)行的 AI 應(yīng)用提高性能、能效和靈活性。

展望未來(lái)

盡管生成式 AI 已經(jīng)展現(xiàn)了諸多潛力，但其未來(lái)的發(fā)展前景將更加令人期待。事實(shí)上，我認(rèn)為我們?cè)诙藗?cè)生成式 AI 領(lǐng)域，尤其是在圖像和視頻生成方面，還僅僅處于初步探索階段。

近期，OpenAI 展示了由文本生成視頻，Luna Labs 演示了由圖像生成視頻。雖然兩種生成式 AI 工作負(fù)載都在云端處理，但根據(jù)當(dāng)前的趨勢(shì)發(fā)展，預(yù)計(jì)在未來(lái)兩年內(nèi)，這些工作負(fù)載就有可能在移動(dòng)端CPU上得以實(shí)現(xiàn)，就像剛才提到的騎馬的宇航員用例一樣！

Arm 平臺(tái)是端側(cè)生成式 AI 的基石

生成式 AI 陸續(xù)實(shí)現(xiàn)了各種不同的用例和工作負(fù)載，不斷鞏固著智能手機(jī)在個(gè)人和專(zhuān)業(yè)計(jì)算中的核心地位。這讓我們更加期待生成式 AI 在移動(dòng)領(lǐng)域的發(fā)展。

全球 99% 的智能手機(jī)和業(yè)界領(lǐng)先的移動(dòng)生態(tài)系統(tǒng)都采用了普遍的 Arm CPU 技術(shù)，Arm 也將通過(guò)持續(xù)的技術(shù)賦能，實(shí)現(xiàn)這些令人贊嘆的可能性。

我們將持續(xù)優(yōu)化 Arm CPU，為其增加更多功能和架構(gòu)特性，同時(shí)通過(guò) Arm Kleidi 為開(kāi)發(fā)者釋放更多 AI 性能。作為引領(lǐng)未來(lái) AI 發(fā)展的移動(dòng)平臺(tái)，Arm 將持續(xù)推動(dòng)該領(lǐng)域的革新與進(jìn)步。

新聞中心

探索 AI 新未來(lái)，移動(dòng)端 CPU 運(yùn)行生成式 AI 實(shí)例解析

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)