用語言建模世界:UC伯克利多模態(tài)世界模型利用語言預(yù)測未來(3)
研究者還展示了 Dynalang 能夠處理逼真的視覺觀察,并在 Habitat 中執(zhí)行指令跟隨。智能體必須遵循自然語言指令,在家庭逼真掃描中導(dǎo)航到目標(biāo)位置。在 Dynalang 中,指令遵循可以統(tǒng)一在相同的預(yù)測框架中,將其視為未來獎勵預(yù)測。
基于 LangRoom 的語言生成
就像語言可以影響智能體對將要看到的事物的預(yù)測一樣,智能體觀察到的內(nèi)容也會影響它對將要聽到的語言的期望(例如,關(guān)于它所看到的內(nèi)容的真實陳述)。通過在 LangRoom 中將語言輸出到動作空間,研究者展示了 Dynalang 可以生成與環(huán)境相關(guān)聯(lián)的語言,從而進(jìn)行具身問答。LangRoom 是一個簡單的視覺網(wǎng)格世界,具有部分可觀察性,智能體需要在其中產(chǎn)生運(yùn)動動作和語言。
文本預(yù)訓(xùn)練
由于使用語言進(jìn)行世界建模與基于世界模型的行動學(xué)習(xí)解耦,Dynalang 可以使用離線數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,而無需行動或獎勵標(biāo)簽。這種能力使得 Dynalang 能夠從大規(guī)模的離線數(shù)據(jù)集中受益,全部都在單一的模型架構(gòu)內(nèi)實現(xiàn)。研究者使用僅包含文本數(shù)據(jù)的數(shù)據(jù)對 Dynalang 進(jìn)行預(yù)訓(xùn)練,從零開始學(xué)習(xí) token 嵌入。在通用文本數(shù)據(jù)(TinyStories,2M 個短故事)上預(yù)訓(xùn)練模型,提高了模型在 Messenger 上的下游強(qiáng)化學(xué)習(xí)任務(wù)表現(xiàn),超過了使用預(yù)訓(xùn)練的 T5 嵌入的結(jié)果。
研究者表示,盡管他們的工作專注于用于在世界中行動的語言理解,但它也可以像一個僅文本語言模型一樣從世界模型中生成文本。研究者在潛在空間中對預(yù)訓(xùn)練的 TinyStories 模型進(jìn)行模擬的抽樣,然后在每個時間步驟從表示中解碼 token 觀察。盡管生成的文本質(zhì)量仍然低于當(dāng)前語言模型的水平,但模型生成的文本令人驚訝地連貫。他們認(rèn)為將語言生成和行動統(tǒng)一在一個智能體架構(gòu)中是未來研究的一個令人興奮的方向。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。