用語(yǔ)言建模世界：UC伯克利多模態(tài)世界模型利用語(yǔ)言預(yù)測(cè)未來(lái)（1）

發(fā)布人：機(jī)器之心時(shí)間：2023-08-07 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

當(dāng)前，人與智能體（比如機(jī)器人）的交互是非常直接的，你告訴它「拿一塊藍(lán)色的積木」，它就會(huì)幫你拿過(guò)來(lái)。但現(xiàn)實(shí)世界的很多信息并非那么直接，比如「扳手可以用來(lái)擰緊螺母」、「我們的牛奶喝完了」。這些信息不能直接拿來(lái)當(dāng)成指令，但卻蘊(yùn)含著豐富的世界信息。智能體很難了解這些語(yǔ)言在世界上的含義。

圖源：谷歌機(jī)器人團(tuán)隊(duì)論文「Interactive Language: Talking to Robots in Real Time」。

UC 伯克利 Dynalang 研究的關(guān)鍵思想是，我們可以將語(yǔ)言看作是幫助我們更好地對(duì)世界進(jìn)行預(yù)測(cè)的工具，比如「我們的牛奶喝完了」→打開(kāi)冰箱時(shí)沒(méi)有牛奶；「扳手可以用來(lái)擰緊螺母」→使用工具時(shí)螺母會(huì)旋轉(zhuǎn)。Dynalang 在一個(gè)模型中結(jié)合了語(yǔ)言模型（LM）和世界模型（WM），使得這種范式變成多模態(tài)。研究者認(rèn)為，將語(yǔ)言生成和行動(dòng)統(tǒng)一在一個(gè)智能體架構(gòu)中是未來(lái)研究的一個(gè)令人興奮的方向。

論文概覽

人工智能長(zhǎng)期以來(lái)的目標(biāo)是開(kāi)發(fā)能夠在物理世界中與人類(lèi)自然交互的智能體。當(dāng)前的具身智能體可以遵循簡(jiǎn)單的低層指令，比如「拿一塊藍(lán)色的積木」或者「經(jīng)過(guò)電梯，然后向右轉(zhuǎn)」。
然而，要實(shí)現(xiàn)自由交流的互動(dòng)智能體，就需要理解人們?cè)凇复藭r(shí)此地」之外使用語(yǔ)言的完整方式，包括：傳遞知識(shí)，比如「左上角的按鈕是關(guān)掉電視的」；提供情境信息，如「我們的牛奶喝完了」；以及協(xié)同，比如跟別人說(shuō)「我已經(jīng)吸過(guò)客廳了」。我們?cè)谖谋局虚喿x的很多內(nèi)容或者從他人口中聽(tīng)到的信息都在傳遞有關(guān)世界的知識(shí)，無(wú)論是關(guān)于世界如何運(yùn)行還是關(guān)于當(dāng)前世界狀態(tài)的知識(shí)。
我們?nèi)绾问怪悄荏w能夠使用多樣化的語(yǔ)言呢？一種訓(xùn)練基于語(yǔ)言的智能體解決任務(wù)的方法是強(qiáng)化學(xué)習(xí)（RL）。然而，目前的基于語(yǔ)言的 RL 方法主要是學(xué)習(xí)從特定任務(wù)指令生成行動(dòng)，例如將目標(biāo)描述「拿起藍(lán)色的積木」作為輸入，輸出一系列運(yùn)動(dòng)控制。
然而，當(dāng)考慮到自然語(yǔ)言在現(xiàn)實(shí)世界中所服務(wù)的多樣功能時(shí)，直接將語(yǔ)言映射到最優(yōu)行動(dòng)是一個(gè)具有挑戰(zhàn)性的學(xué)習(xí)問(wèn)題。以「我把碗放好了」為例：如果任務(wù)是清洗，智能體應(yīng)該繼續(xù)進(jìn)行下一個(gè)清洗步驟；而如果是晚餐服務(wù)，智能體應(yīng)該去取碗。當(dāng)語(yǔ)言不涉及任務(wù)時(shí)，它只與智能體應(yīng)該采取的最優(yōu)行動(dòng)弱相關(guān)。將語(yǔ)言映射到行動(dòng)，尤其是僅使用任務(wù)獎(jiǎng)勵(lì)，對(duì)于學(xué)會(huì)使用多樣化語(yǔ)言輸入完成任務(wù)來(lái)說(shuō)是一個(gè)弱學(xué)習(xí)信號(hào)。
不同的是，UC 伯克利的研究者提出，智能體使用語(yǔ)言的一種統(tǒng)一方法是幫助它們預(yù)測(cè)未來(lái)。前面提到的語(yǔ)句「我把碗放好了」有助于智能體更好地預(yù)測(cè)未來(lái)的觀察結(jié)果（即，如果它采取行動(dòng)打開(kāi)櫥柜，它將在那里看到碗）。
我們遇到的很多語(yǔ)言可以通過(guò)這種方式與視覺(jué)體驗(yàn)聯(lián)系起來(lái)。先前的知識(shí)，比如「扳手可以用來(lái)擰緊螺母」，幫助智能體預(yù)測(cè)環(huán)境變化。諸如「包裹在外面」的陳述有助于智能體預(yù)測(cè)未來(lái)的觀察結(jié)果。這個(gè)框架還將標(biāo)準(zhǔn)指令遵循歸入預(yù)測(cè)范疇：指令幫助智能體預(yù)測(cè)自己將如何受到獎(jiǎng)勵(lì)。類(lèi)似于下一個(gè) token 預(yù)測(cè)允許語(yǔ)言模型形成關(guān)于世界知識(shí)的內(nèi)部表示，研究者假設(shè)預(yù)測(cè)未來(lái)的表示為智能體理解語(yǔ)言以及它與世界的關(guān)系提供了豐富的學(xué)習(xí)信號(hào)。

基于此，他們提出了 Dynalang，一種從在線經(jīng)驗(yàn)中學(xué)習(xí)語(yǔ)言和圖像世界模型，并利用該模型學(xué)習(xí)如何行動(dòng)的智能體。
Dynalang 將學(xué)習(xí)用語(yǔ)言對(duì)世界建模（帶有預(yù)測(cè)目標(biāo)的監(jiān)督學(xué)習(xí)）與學(xué)習(xí)根據(jù)該模型采取行動(dòng)（帶有任務(wù)獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)）分離開(kāi)來(lái)。該世界模型接收視覺(jué)和文本輸入作為觀察模態(tài)，并將它們壓縮到潛在空間。研究者通過(guò)在線收集的經(jīng)驗(yàn)訓(xùn)練世界模型，使其能夠預(yù)測(cè)未來(lái)的潛在表示，同時(shí)智能體在環(huán)境中執(zhí)行任務(wù)。他們通過(guò)將世界模型的潛在表示作為輸入，訓(xùn)練策略來(lái)采取最大化任務(wù)獎(jiǎng)勵(lì)的行動(dòng)。由于世界建模與行動(dòng)分離，Dynalang 可以在沒(méi)有行動(dòng)或任務(wù)獎(jiǎng)勵(lì)的單模態(tài)數(shù)據(jù)（僅文本或僅視頻數(shù)據(jù)）上進(jìn)行預(yù)訓(xùn)練。
此外，他們的框架還可以統(tǒng)一語(yǔ)言生成：智能體的感知可以影響智能體的語(yǔ)言模型（即其對(duì)未來(lái) token 的預(yù)測(cè)），使其能夠通過(guò)在動(dòng)作空間輸出語(yǔ)言來(lái)描述環(huán)境。

論文鏈接：https://arxiv.org/pdf/2308.01399.pdf項(xiàng)目主頁(yè)：https://dynalang.github.io/代碼鏈接：https://github.com/jlin816/dynalang
研究者在具有不同類(lèi)型語(yǔ)言上下文的多樣化環(huán)境中對(duì) Dynalang 進(jìn)行了評(píng)估。在一個(gè)多任務(wù)家庭清潔環(huán)境中，Dynalang 學(xué)會(huì)利用關(guān)于未來(lái)觀察、環(huán)境動(dòng)態(tài)和修正的語(yǔ)言提示，更高效地完成任務(wù)。在 Messenger 基準(zhǔn)測(cè)試中，Dynalang 可以閱讀游戲手冊(cè)來(lái)應(yīng)對(duì)最具挑戰(zhàn)性的游戲階段，優(yōu)于特定任務(wù)的架構(gòu)。在視覺(jué) - 語(yǔ)言導(dǎo)航中，研究者證明 Dynalang 可以學(xué)會(huì)在視覺(jué)和語(yǔ)言復(fù)雜的環(huán)境中遵循指令。
Dynalang 學(xué)會(huì)使用語(yǔ)言來(lái)預(yù)測(cè)未來(lái)的（文本 + 圖像）觀察結(jié)果和獎(jiǎng)勵(lì)，從而幫助解決任務(wù)。在這里，研究者展示了在 HomeGrid 環(huán)境中真實(shí)的模型預(yù)測(cè)結(jié)果。智能體在接收環(huán)境中的視頻和語(yǔ)言觀察的同時(shí)，探索了各種房間。根據(jù)過(guò)去的文本「瓶子在客廳」，在時(shí)間步 61-65，智能體預(yù)測(cè)將在客廳的最后一個(gè)角落看到瓶子。根據(jù)描述任務(wù)的文本「拿起瓶子」，智能體預(yù)測(cè)將因?yàn)槟闷鹌孔佣@得獎(jiǎng)勵(lì)。智能體還可以預(yù)測(cè)未來(lái)的文本觀察：在時(shí)間步 30，給定前半句「盤(pán)子在」，并觀察到櫥柜上的盤(pán)子，模型預(yù)測(cè)下一個(gè)最可能的 token 是「廚房」。
研究者考慮了一系列具有視覺(jué)輸入和多樣化語(yǔ)言的環(huán)境。HomeGrid 是一個(gè)具有指令和多樣化提示的具有挑戰(zhàn)性的視覺(jué)網(wǎng)格世界。Messenger 是一個(gè)具有符號(hào)輸入的基準(zhǔn)測(cè)試，包含數(shù)百個(gè)人工編寫(xiě)的游戲手冊(cè)，需要進(jìn)行多次推理。Habitat 是一個(gè)模擬逼真的 3D 家居環(huán)境，用于視覺(jué) - 語(yǔ)言導(dǎo)航，在其中智能體必須在數(shù)百個(gè)場(chǎng)景中定位物體。LangRoom 是一個(gè)簡(jiǎn)單的視覺(jué)網(wǎng)格世界，具有部分可觀察性，智能體需要同時(shí)生成動(dòng)作和語(yǔ)言。
詳解 Dynalang 工作原理
使用語(yǔ)言來(lái)理解世界很自然地符合世界建模范式。這項(xiàng)工作構(gòu)建在 DreamerV3 的基礎(chǔ)之上，DreamerV3 是一種基于模型的強(qiáng)化學(xué)習(xí)智能體。Dynalang 不斷地從經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)，這些數(shù)據(jù)是智能體在環(huán)境中執(zhí)行任務(wù)時(shí)收集到的。
如下圖（左）所示，在每個(gè)時(shí)間步，世界模型將文本和圖像壓縮成潛在表示。通過(guò)這個(gè)表示，模型被訓(xùn)練用于重建原始觀察結(jié)果、預(yù)測(cè)獎(jiǎng)勵(lì)，并預(yù)測(cè)下一個(gè)時(shí)間步的表示。直觀地說(shuō)，世界模型根據(jù)它在文本中讀到的內(nèi)容，學(xué)習(xí)它應(yīng)該期望在世界中看到什么。
如下圖（右）所示，Dynalang 通過(guò)在壓縮的世界模型表示之上訓(xùn)練策略網(wǎng)絡(luò)來(lái)選擇行動(dòng)。它通過(guò)來(lái)自世界模型的想象的模擬結(jié)果進(jìn)行訓(xùn)練，并學(xué)會(huì)采取能夠最大化預(yù)測(cè)獎(jiǎng)勵(lì)的行動(dòng)。

與之前逐句或逐段消耗文本的多模態(tài)模型不同，研究者設(shè)計(jì)的 Dynalang 將視頻和文本作為一個(gè)統(tǒng)一的序列來(lái)建模，一次處理一幀圖像和一個(gè)文本 token。直觀來(lái)說(shuō)，這類(lèi)似于人類(lèi)在現(xiàn)實(shí)世界中接收輸入的方式 —— 作為一個(gè)單一的多模態(tài)流，人需要時(shí)間來(lái)聆聽(tīng)語(yǔ)言。將所有內(nèi)容建模為一個(gè)序列使得模型可以像語(yǔ)言模型一樣在文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，并提高強(qiáng)化學(xué)習(xí)的性能。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專(zhuān)欄

用語(yǔ)言建模世界：UC伯克利多模態(tài)世界模型利用語(yǔ)言預(yù)測(cè)未來(lái)（1）

相關(guān)推薦

技術(shù)專(zhuān)區(qū)