讓AI用視覺認識世界,豆包發(fā)布并開源VideoWorld視頻生成模型
2月10日,豆包大模型團隊聯(lián)合北京交通大學、中國科學技術(shù)大學,發(fā)布了視頻生成模型——VideoWorld,并且已開源代碼與模型。
本文引用地址:http://www.butianyuan.cn/article/202502/466831.htm與Sora、DALL-E等主流多模態(tài)模型不同,VideoWorld開辟了新的路徑,打破對語言模型的依賴,實現(xiàn)僅靠“視覺信息”認知世界。就像幼兒能在不依賴語言的情況下理解真實世界一樣,VideoWorld通過瀏覽視頻數(shù)據(jù),讓機器掌握推理、規(guī)劃和決策等復雜能力。在僅有300M參數(shù)量時,它就已展現(xiàn)出可觀的性能,達到專業(yè)5段9x9圍棋水平,還能在多種環(huán)境中執(zhí)行機器人任務。
在模型構(gòu)建方面,團隊構(gòu)建了視頻圍棋對戰(zhàn)和視頻機器人模擬操控兩個實驗環(huán)境。訓練時,模型通過“觀看”包含大量視頻演示數(shù)據(jù)的離線數(shù)據(jù)集進行學習。其架構(gòu)采用樸素自回歸模型,包含VQ-VAE編碼器-解碼器和自回歸Transformer架構(gòu)。
不過,研究初期發(fā)現(xiàn)視頻序列知識挖掘效率低于文本形式,為此團隊引入潛在動態(tài)模型(LDM)。LDM夠?qū)g視覺變化壓縮為緊湊的潛在編碼,提升知識挖掘效率,還能保留豐富視覺信息,讓VideoWorld可以捕捉視覺序列中的長期依賴關系,從而更好地進行長期推理和規(guī)劃。
通過細致分析,團隊發(fā)現(xiàn)LDM不僅能建模訓練集的數(shù)據(jù)模式,還能幫助模型在測試時進行前向規(guī)劃,并且生成因果相關的編碼。盡管VideoWorld在圍棋和模擬機器人操控場景中表現(xiàn)卓越,但團隊也清醒地認識到,在真實世界的應用中,它還面臨高質(zhì)量視頻生成和多環(huán)境泛化等挑戰(zhàn)。不過,團隊已明確未來將聚焦這些難題,致力于讓視頻生成模型成為真實世界的通用知識學習器。
當下,DeepSeek掀起的行業(yè)變革浪潮持續(xù)發(fā)酵,不僅在人工智能產(chǎn)業(yè)鏈內(nèi)引發(fā)連鎖反應,還向其他行業(yè)滲透。它的火爆并非源于性能優(yōu)勢,而是憑借創(chuàng)新性技術(shù)路線,以超低算力成本實現(xiàn)超預期效果輸出,為行業(yè)發(fā)展帶來全新思路。無獨有偶,此次豆包發(fā)布的VideoWorld視覺模型同樣開辟了全新技術(shù)路徑,打破對語言模型的依賴,僅靠視覺信息就讓機器實現(xiàn)對世界的認知并掌握復雜能力,有望進一步夯實了國產(chǎn)大模型在多模態(tài)領域的技術(shù)實力。
評論