人工智能大模型年代需要什么樣的操作系統(tǒng)？紅帽給出了當(dāng)下更好的回答

作者：劉延時(shí)間：2024-08-29 來源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

AI大模型從ChatGPT3.5問世以來取得了革命性突破。大語言模型通過深度學(xué)習(xí)算法和大量數(shù)據(jù)訓(xùn)練，具備創(chuàng)造出高質(zhì)量的文本、圖片、視頻等新內(nèi)容的能力，為腦力勞動(dòng)帶來了創(chuàng)新與效率的雙重提升。

本文引用地址：http://www.butianyuan.cn/article/202408/462466.htm

而AI新時(shí)代的到來，也為操作系統(tǒng)帶來更多挑戰(zhàn)。目前市面上缺少AI原生的操作系統(tǒng)，操作系統(tǒng)對大模型的嵌入深度和廣度，還遠(yuǎn)未達(dá)到AI大模型的應(yīng)用水平。

紅帽最新的工作，則是對人工智能大模型的理解，以及對于使用者的支撐。

一、操作系統(tǒng)的演進(jìn)路線

大型機(jī)到個(gè)人電腦時(shí)代，Windows操作系統(tǒng)搭配Intel的X86架構(gòu)處理器，憑借其相對友好的圖形用戶界面、強(qiáng)大的辦公套件、互聯(lián)網(wǎng)瀏覽等殺手級(jí)應(yīng)用，極大地降低了電腦使用的門檻，標(biāo)志著個(gè)人電腦時(shí)代的正式到來。

個(gè)人電腦到智能手機(jī)時(shí)代，傳統(tǒng)的PC操作系統(tǒng)無法滿足新應(yīng)用場景，蘋果iOS系統(tǒng)以其封閉而優(yōu)化的生態(tài)，以及谷歌Android系統(tǒng)以其開源、可定制性強(qiáng)的優(yōu)勢，結(jié)合Arm架構(gòu)低功耗、小體積的特點(diǎn)，共同引領(lǐng)了智能手機(jī)發(fā)展。

AI大模型時(shí)代，操作系統(tǒng)需更好支持大規(guī)模數(shù)據(jù)處理、模型訓(xùn)練和高效推理，應(yīng)具備高度集成的AI服務(wù)框架、高效的異構(gòu)計(jì)算調(diào)度、動(dòng)態(tài)資源管理、優(yōu)秀的數(shù)據(jù)安全機(jī)制以及跨平臺(tái)的兼容性。

二、AI大模型年代的操作系統(tǒng)應(yīng)該具備哪些特征？

● 高度集成的AI服務(wù)。操作系統(tǒng)應(yīng)內(nèi)嵌AI服務(wù)平臺(tái)，原生支持主流AI框架、集成API，使開發(fā)者能夠通過簡單的接口調(diào)用，快速實(shí)現(xiàn)自然語言處理、圖像識(shí)別、聲音分析等多種復(fù)雜功能。

● 異構(gòu)計(jì)算支持與優(yōu)化。大模型對算力要求高、突發(fā)性強(qiáng)，操作系統(tǒng)需整合異構(gòu)計(jì)算架構(gòu)，通過智能調(diào)度算法動(dòng)態(tài)分配任務(wù)，確保在不同的硬件平臺(tái)上都能發(fā)揮最大效能。系統(tǒng)也應(yīng)支持不同類型的優(yōu)化算法，減少計(jì)算延遲，提升能效比。

● 跨平臺(tái)與多設(shè)備協(xié)同。操作系統(tǒng)應(yīng)具備強(qiáng)大的跨平臺(tái)能力，實(shí)現(xiàn)邊緣計(jì)算到云計(jì)算資源的靈活調(diào)度，確保AI大模型應(yīng)用能在電腦、手機(jī)、服務(wù)器等多種設(shè)備高效運(yùn)行。

● 生態(tài)開放與標(biāo)準(zhǔn)化。操作系統(tǒng)應(yīng)建立開放的標(biāo)準(zhǔn)和API，推動(dòng)第三方開發(fā)者和云服務(wù)提供商廣泛參與，形成繁榮的生態(tài)系統(tǒng)，促進(jìn)技術(shù)創(chuàng)新。

● 增強(qiáng)的數(shù)據(jù)安全與隱私保護(hù)機(jī)制。大模型涉及大量敏感數(shù)據(jù)，如公司機(jī)密信息、個(gè)人隱私信息等，若本地算力不足還需接入云端處理。因此，操作系統(tǒng)需集成數(shù)據(jù)保護(hù)技術(shù)，確保數(shù)據(jù)傳輸存儲(chǔ)安全，并建立嚴(yán)格的數(shù)據(jù)訪問控制體系。

紅帽的OpenShift平臺(tái)就滿足了以上大部分需求。

● AI服務(wù)集成方面，OpenShift內(nèi)置DevOps功能，使MLOps能夠加快交付AI驅(qū)動(dòng)型應(yīng)用，并簡化集成ML模型和持續(xù)重新部署以提高預(yù)測準(zhǔn)確性的迭代流程。包括OpenShift Build、OpenShift Pipelines、OpenShift GitOps用于構(gòu)建應(yīng)用、迭代開發(fā)及自動(dòng)化部署。

● 算力優(yōu)化方面，OpenShift通過紅帽認(rèn)證GPU operator，集成了流行的硬件加速器，從而可以無縫地滿足高計(jì)算資源要求，幫助選擇最佳 ML 模型以提供最高預(yù)測準(zhǔn)確性，并在模型在生產(chǎn)中遇到新數(shù)據(jù)時(shí)協(xié)助ML推理工作。

● 跨平臺(tái)方面，OpenShift包含多項(xiàng)關(guān)鍵功能，可以跨數(shù)據(jù)中心、公共云計(jì)算和邊緣計(jì)算以一致的方式實(shí)現(xiàn)機(jī)器學(xué)習(xí)運(yùn)維（MLOps）。

● 生態(tài)方面，紅帽的開放混合云平臺(tái)整合了容器、Kubernetes、DevOps等技術(shù)與實(shí)踐，由廣泛的合作伙伴提供支持，幫助開發(fā)者為生產(chǎn)就緒型AI/ML 環(huán)境構(gòu)建堅(jiān)實(shí)的基礎(chǔ)，同時(shí)提供AI云服務(wù)和快速采用培訓(xùn)。

三、本地化部署AI大模型可能是第一步

（1）為什么大模型需要本地化部署？

● 數(shù)據(jù)安全合規(guī)。金融、醫(yī)療、IT、工業(yè)等行業(yè)AI大模型應(yīng)用中，私有化部署將確保數(shù)據(jù)存儲(chǔ)與處理均在企業(yè)防火墻之內(nèi)，符合歐洲GDPR、美國加州CCPA等數(shù)據(jù)保護(hù)法規(guī)要求，防止數(shù)據(jù)外泄風(fēng)險(xiǎn)。

● 行業(yè)專屬模型。私有化部署AI大模型，企業(yè)能根據(jù)自身業(yè)務(wù)流程和市場需求定制AI功能，加速產(chǎn)品和服務(wù)的創(chuàng)新。如模型微調(diào)、新算法快速測試部署、與現(xiàn)有IT系統(tǒng)深度集成，促進(jìn)AI技術(shù)與業(yè)務(wù)深度融合。

● 長期成本效益。長期來看，私有化部署可以降低云服務(wù)費(fèi)用，特別是在數(shù)據(jù)處理量巨大或模型頻繁使用的情況下，成本效益更為明顯。

（2）大模型應(yīng)該怎么私有化部署？

AI大模型本地化部署全套服務(wù)的成本較高。授權(quán)費(fèi)用通常包含模型使用權(quán)、技術(shù)支持與維護(hù)等服務(wù)，加上必要的硬件投資，總體開銷不容小覷。

圖片來源：智譜AI開放平臺(tái)

考慮到成本控制的需求，企業(yè)可以選擇一種更為經(jīng)濟(jì)靈活的路徑——采用開源大模型加定制化部署服務(wù)的模式。

LLAMA、Qwen等提供開源預(yù)訓(xùn)練模型，企業(yè)按需選擇合適的模型二次開發(fā)和微調(diào)。通過第三方技術(shù)服務(wù)商，企業(yè)獲得模型選型、部署到后期運(yùn)維的一站式解決方案，享受開源成本優(yōu)勢，確保系統(tǒng)穩(wěn)定運(yùn)行。

——紅帽就提供了本地化部署和服務(wù)的商業(yè)模式。

紅帽O(jiān)penShift提供了一個(gè)適合AI工作負(fù)載的可擴(kuò)展應(yīng)用平臺(tái)，并以主流的硬件加速器來加以完善。加拿大皇家銀行與紅帽、英偉達(dá)合作，內(nèi)部交付AI私有云功能，推動(dòng)企業(yè)IT技術(shù)進(jìn)步的同時(shí)，也保障了數(shù)據(jù)的隱私。

四、端云結(jié)合，可能是未來AI大模型操作系統(tǒng)的重點(diǎn)方向

大模型本地化部署面臨算力瓶頸問題，訓(xùn)練效率與推理性能受限。需在模型性能上妥協(xié)，以適應(yīng)有限的計(jì)算資源。

云平臺(tái)是AI大模型訓(xùn)練和推理的理想場所，可結(jié)合高算力訓(xùn)練、優(yōu)化、運(yùn)行參數(shù)量更大的模型。此外，云平臺(tái)還可以接入自然語言理解、圖像識(shí)別、視頻分析等API，可調(diào)用服務(wù)實(shí)現(xiàn)功能的快速集成。

此外，隨著阿里云、火山引擎等國內(nèi)大廠相繼推出大模型降價(jià)甚至免費(fèi)的策略，大大降低了企業(yè)和開發(fā)者接入高質(zhì)量AI服務(wù)的門檻。

圖片來源：阿里云大模型服務(wù)平臺(tái)百煉

面向未來，AI大模型需端云結(jié)合。端側(cè)私有化部署，減少數(shù)據(jù)延遲，減少敏感數(shù)據(jù)傳輸，增強(qiáng)隱私保護(hù)和數(shù)據(jù)安全性。云端進(jìn)行模型訓(xùn)練、更大參數(shù)模型推理，結(jié)合各種接口開發(fā)應(yīng)用，并基于端側(cè)新數(shù)據(jù)迭代優(yōu)化模型，持續(xù)迭代優(yōu)化。

紅帽的AI端云協(xié)同的平臺(tái)OpenShift ，可以跨公共云、本地、混合云或邊緣架構(gòu)提供一致體驗(yàn)?？梢钥鐢?shù)據(jù)中心、公共云計(jì)算和邊緣計(jì)算以一致的方式實(shí)現(xiàn)機(jī)器學(xué)習(xí)運(yùn)維。通過應(yīng)用 DevOps 和 GitOps 原則，企業(yè)可以自動(dòng)化并簡化將機(jī)器學(xué)習(xí)模型集成到軟件開發(fā)、生產(chǎn)、監(jiān)控、再訓(xùn)練和重新部署的迭代流程。

總結(jié)

AI大模型的浪潮不僅推動(dòng)了技術(shù)邊界的拓展，也對傳統(tǒng)操作系統(tǒng)提出了新的挑戰(zhàn)。當(dāng)前市場上，真正意義上的AI原生操作系統(tǒng)尚屬空白，處理大模型所需的高效數(shù)據(jù)流轉(zhuǎn)、異構(gòu)資源調(diào)度、以及模型生命周期管理等方面的能力存在局限。

紅帽作為開源操作系統(tǒng)解決方案的領(lǐng)導(dǎo)者，正探索將AI大模型更深融入操作系統(tǒng)。他們一方面理解AI大模型的技術(shù)特性與應(yīng)用需求，包括模型架構(gòu)、訓(xùn)練與推理的優(yōu)化策略，如何利用端側(cè)和云端的資源；同時(shí)，構(gòu)建面向用戶的支撐體系，簡化開發(fā)者、運(yùn)維人員在操作系統(tǒng)層面上，集成、部署、監(jiān)控AI大模型的流程，提供一套易用的工具鏈和框架，快速實(shí)現(xiàn)AI大模型的價(jià)值轉(zhuǎn)化?；诖?，紅帽旨在打造更智能、靈活的操作系統(tǒng)，最大限度地釋放AI技術(shù)的生產(chǎn)力。

關(guān)于作者

劉延

關(guān)注硬科技、數(shù)碼等領(lǐng)域。知乎優(yōu)秀答主。