用語言建模世界：UC伯克利多模態(tài)世界模型利用語言預(yù)測未來（3）

發(fā)布人：機(jī)器之心時間：2023-08-07 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

Habitat 中的指令遵循

研究者還展示了 Dynalang 能夠處理逼真的視覺觀察，并在 Habitat 中執(zhí)行指令跟隨。智能體必須遵循自然語言指令，在家庭逼真掃描中導(dǎo)航到目標(biāo)位置。在 Dynalang 中，指令遵循可以統(tǒng)一在相同的預(yù)測框架中，將其視為未來獎勵預(yù)測。

基于 LangRoom 的語言生成
就像語言可以影響智能體對將要看到的事物的預(yù)測一樣，智能體觀察到的內(nèi)容也會影響它對將要聽到的語言的期望（例如，關(guān)于它所看到的內(nèi)容的真實陳述）。通過在 LangRoom 中將語言輸出到動作空間，研究者展示了 Dynalang 可以生成與環(huán)境相關(guān)聯(lián)的語言，從而進(jìn)行具身問答。LangRoom 是一個簡單的視覺網(wǎng)格世界，具有部分可觀察性，智能體需要在其中產(chǎn)生運(yùn)動動作和語言。

文本預(yù)訓(xùn)練
由于使用語言進(jìn)行世界建模與基于世界模型的行動學(xué)習(xí)解耦，Dynalang 可以使用離線數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，而無需行動或獎勵標(biāo)簽。這種能力使得 Dynalang 能夠從大規(guī)模的離線數(shù)據(jù)集中受益，全部都在單一的模型架構(gòu)內(nèi)實現(xiàn)。研究者使用僅包含文本數(shù)據(jù)的數(shù)據(jù)對 Dynalang 進(jìn)行預(yù)訓(xùn)練，從零開始學(xué)習(xí) token 嵌入。在通用文本數(shù)據(jù)（TinyStories，2M 個短故事）上預(yù)訓(xùn)練模型，提高了模型在 Messenger 上的下游強(qiáng)化學(xué)習(xí)任務(wù)表現(xiàn)，超過了使用預(yù)訓(xùn)練的 T5 嵌入的結(jié)果。

研究者表示，盡管他們的工作專注于用于在世界中行動的語言理解，但它也可以像一個僅文本語言模型一樣從世界模型中生成文本。研究者在潛在空間中對預(yù)訓(xùn)練的 TinyStories 模型進(jìn)行模擬的抽樣，然后在每個時間步驟從表示中解碼 token 觀察。盡管生成的文本質(zhì)量仍然低于當(dāng)前語言模型的水平，但模型生成的文本令人驚訝地連貫。他們認(rèn)為將語言生成和行動統(tǒng)一在一個智能體架構(gòu)中是未來研究的一個令人興奮的方向。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

用語言建模世界：UC伯克利多模態(tài)世界模型利用語言預(yù)測未來（3）

相關(guān)推薦

技術(shù)專區(qū)