肯睿Cloudera:2024年生成式AI及云領域的五大趨勢預測

作者：Cloudera亞太區(qū)首席技術官Daniel Hand 時間：2023-12-04 來源：電子產(chǎn)品世界

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

就在十二個月前，“生成式設計人工智能”還處于Gartner新興技術成熟度曲線的邊緣；而如今，Gartner認為“生成式人工智能”（生成式AI）已接近期望膨脹期的頂峰。

本文引用地址：http://www.butianyuan.cn/article/202312/453536.htm

生成式AI的優(yōu)勢令人趨之若鶩且影響深遠。分析師認為它將影響各個主要行業(yè)和工作崗位。麥肯錫在2023年的一份報告中指出，當前的生成式AI等技術有可能使目前占用員工60%至70%時間的工作活動實現(xiàn)自動化。IDC的研究也強調(diào)了今年亞太地區(qū)有三分之二的企業(yè)正在探索或投資于生成式AI。

隨著2024年的臨近，預計企業(yè)將加大力度實現(xiàn)生成式AI操作化和改進，并調(diào)整其管理各個環(huán)境（尤其是云環(huán)境）日益增長的數(shù)據(jù)量的方式，以提高靈活性，并推動業(yè)務增長。

以下是2024年生成式AI及云領域的五大趨勢預測。

趨勢一：強大的MLOPS和數(shù)據(jù)集成賦能生成式AI的操作化

自2022年11月ChatGPT v3.5發(fā)布以來，企業(yè)一直面臨著一個難題：如何一面安全地為其提供足夠的上下文數(shù)據(jù)以使其發(fā)揮作用，一邊充分挖掘其優(yōu)勢。

ChatGPT和其他基于軟件即服務（SaaS）的大型語言模型（LLM）給企業(yè)帶來了巨大的數(shù)據(jù)隱私挑戰(zhàn)。在許多情況下，問題、答案和上下文數(shù)據(jù)都可能是敏感數(shù)據(jù)，而這對于重復使用這些數(shù)據(jù)來重新訓練模型的公共多租戶服務來說是不合適的。

快速發(fā)展的開源LLM（如Meta的Llama-v2）已具備與ChatGPT旗鼓相當?shù)男阅?，并成為了可行的替代方案。但生成式AI模型很難通過可擴展且可靠的方式從實驗室轉(zhuǎn)移到生產(chǎn)中。更何況這些模型通常還需要在多個應用之間共享，因此與傳統(tǒng)的機器學習（ML）模型相比會帶來更大的數(shù)據(jù)集成挑戰(zhàn)。

預計在2024年，企業(yè)將繼續(xù)專注于開發(fā)強大的機器學習操作（MLOPS）和數(shù)據(jù)集成能力。

趨勢二：企業(yè)將加倍重視檢索增強生成（RAG）和微調(diào)功能以優(yōu)化LLM

優(yōu)化LLM性能的方法包括提示工程、檢索增強生成（RAG）和微調(diào)等。

RAG使用知識庫中的內(nèi)容豐富提示并提供必要的上下文。RAG架構(gòu)的關鍵組成部分之一是一個以特殊方式編制索引的知識庫內(nèi)容數(shù)據(jù)庫。

用戶問題先被轉(zhuǎn)換成數(shù)學表達形式，然后用于搜索數(shù)據(jù)庫中與之最接近的內(nèi)容。用戶問題作為提示的一部分被發(fā)送至LLM進行推理。同步提供問題和領域上下文可顯著改進推理結(jié)果。

事實證明，由于RAG不需要對LLM進行任何訓練或調(diào)整，同時還能生成出高質(zhì)量的結(jié)果，因此它是采用LLM的一條有效途徑。不過，它確實需要數(shù)據(jù)工程管道以維護知識庫，還需要專門的向量數(shù)據(jù)庫存儲索引數(shù)據(jù)。

相信在2024年，RAG仍將是許多企業(yè)采用生成式AI的一條可行途徑。

性能高效微調(diào)（PEFT）在2023年備受關注。高效微調(diào)在特定領域數(shù)據(jù)上訓練一個小型神經(jīng)網(wǎng)絡并與通用LLM并存，它能夠以極低的成本和極少的訓練數(shù)據(jù)，實現(xiàn)反復訓練大型LLM所獲得的大部分性能優(yōu)勢。雖然對LLM進行微調(diào)需要更強大的ML能力，但可以帶來更高的效率、可解釋性和更準確的結(jié)果，尤其是在訓練數(shù)據(jù)有限的情況下。

預計在2024年，像高效微調(diào)這樣的微調(diào)方法將被越來越多的企業(yè)用于新項目，并取代早期的RAG 架構(gòu)。在擁有較大、較強數(shù)據(jù)科學團隊的企業(yè)中，這種方法的應用將最為廣泛。

趨勢三：企業(yè)將從“云優(yōu)先”轉(zhuǎn)向謹慎的云戰(zhàn)略

2024年，云計算將繼續(xù)成為企業(yè)數(shù)據(jù)戰(zhàn)略中的一項重要變革技術。

一些企業(yè)在2023年將他們的云戰(zhàn)略從原先的“云優(yōu)先”調(diào)整為謹慎、平衡的戰(zhàn)略，這與大多數(shù)大型企業(yè)所采取的保守舉措不謀而合。推動這一轉(zhuǎn)變的因素包括云對許多可預測的分析工作負載的經(jīng)濟性、數(shù)據(jù)管理法規(guī)、考慮到經(jīng)濟狀況不確定性的企業(yè)財政政策等。

這些企業(yè)已選擇跨公有云和私有云的云原生架構(gòu)支撐其數(shù)據(jù)和云戰(zhàn)略，而云原生所帶來的靈活性、可擴展性和所節(jié)省的成本可抵消因其增加的架構(gòu)復雜性。

由此產(chǎn)生的跨公有云和私有云的數(shù)據(jù)編織架構(gòu)為智能、自動化和策略驅(qū)動的數(shù)據(jù)管理方法奠定了基礎。

趨勢四：數(shù)據(jù)管理自動化、數(shù)據(jù)民主化和零信任安全仍將是首要考慮因素

由于數(shù)據(jù)仍在以成倍的速度生成和被獲取，企業(yè)需要提高數(shù)據(jù)平臺管理的自動化和智能化水平。因此，跨基礎設施、平臺和工作負載的可觀察性將在 2024年發(fā)揮更加重要的作用。

而這是實現(xiàn)高性能、高可靠性和高效率智能平臺自動化的先決條件。用于訓練ML模型的運營數(shù)據(jù)將成為智能數(shù)據(jù)平臺的核心。數(shù)據(jù)從業(yè)人員將繼續(xù)推動數(shù)據(jù)的進一步民主化并增加更多的自助服務選項。這一點與Data Mesh范式最重要的原則之一相吻合。

最具創(chuàng)新性的企業(yè)將賦能數(shù)據(jù)科學家、數(shù)據(jù)工程師和業(yè)務分析師，讓他們無需通過數(shù)據(jù)關守就能從數(shù)據(jù)中獲得更多洞察。在2024年，企業(yè)和技術提供商將重視消除數(shù)據(jù)生命周期各個階段的摩擦，以及增加對實時數(shù)據(jù)的訪問。

各種混合云原生架構(gòu)的出現(xiàn)、第三方SaaS與平臺即服務（PaaS）的采用以及網(wǎng)絡安全的加強繼續(xù)推動人們對數(shù)據(jù)安全、零信任以及明確劃分數(shù)據(jù)管理責任的關注。

零信任要求對使用數(shù)據(jù)的用戶和系統(tǒng)進行持續(xù)身份驗證和授權(quán)。這些主體將越來越多地被授予執(zhí)行特定任務所需的最低權(quán)限，同時也受到嚴格的審核。這將成為推動數(shù)據(jù)治理和管理創(chuàng)新的一項重要職能，同時滿足日益增長的數(shù)據(jù)訪問民主化需求。

隨著數(shù)據(jù)聯(lián)邦日益受到關注，預計在2024年，技術將進一步簡化企業(yè)內(nèi)部乃至企業(yè)之間的零信任落地與執(zhí)行。

趨勢五：向開放式數(shù)據(jù)湖倉遷移已迫在眉睫

數(shù)據(jù)湖倉的實現(xiàn)方式在2022年出現(xiàn)了重大創(chuàng)新，業(yè)界領先的數(shù)據(jù)管理提供商奠定了Apache Iceberg“正式格式”的地位。Iceberg作為首選的開放技術之一而被迅速采用，而幾乎可以確定的是，這將影響一些數(shù)據(jù)管理提供商改變其開源戰(zhàn)略并在其產(chǎn)品中加入對Iceberg的支持。

預計在2024年，數(shù)據(jù)和工作負載將穩(wěn)步遷移至跨公有云和私有云的開放式數(shù)據(jù)湖倉架構(gòu)中。

***

新聞中心

肯睿Cloudera:2024年生成式AI及云領域的五大趨勢預測

評論

相關推薦

技術專區(qū)