博客專欄

EEPW首頁 > 博客 > Gato之后,谷歌也推出「通才型」智能體Multi-Game Decision Transformers

Gato之后,谷歌也推出「通才型」智能體Multi-Game Decision Transformers

發(fā)布人:機器之心 時間:2022-06-16 來源:工程師 發(fā)布文章
在強化學習領(lǐng)域,「大力出奇跡」行得通?


在自然語言處理、計算機視覺和二者的交叉領(lǐng)域中,通過訓練大量與任務無關(guān)的數(shù)據(jù)集,建立大規(guī)模的通用模型來解決許多任務,已經(jīng)成為主流方法。這些模型可以適應新的任務(例如翻譯) ,利用不相關(guān)的數(shù)據(jù)(例如使用高資源語言來改進低資源語言的翻譯) ,甚至可以通過將圖像投影到語言空間來納入新的模式。
這些方法的成功很大程度上來自于可擴展模型架構(gòu)、大量未標注的任務無關(guān)數(shù)據(jù)以及高性能計算基礎設施的不斷改進。至關(guān)重要的是,標度律表明,規(guī)模帶來的性能提升尚未達到飽和點。
在最近的一項工作中,谷歌研究院的成員們提出,類似的進展在強化學習領(lǐng)域是可能發(fā)生的,并且他們采取可擴展的方法的初步步驟,生成了表現(xiàn)優(yōu)越的通才型智能體。與視覺和語言領(lǐng)域相反,強化學習通常倡導使用更小的模型,模型也通常用于解決單一任務,或在同一環(huán)境中的多個任務。重要的是,跨越多種環(huán)境的訓練的研究數(shù)量并不多,很少有人研究橫跨不同動力學、獎勵、視覺效果和智能體實施方式的東西。
圖片
論文鏈接:https://arxiv.org/pdf/2205.15241.pdf
具體地說,研究者調(diào)研了是否可以從大量的專家和非專家經(jīng)驗中訓練一個單一的模型(具有單一的一組參數(shù))在多種環(huán)境中行動。他們在一組 41 個 Atari 游戲上進行訓練,用來滿足多樣性方面的要求,并提出了一個問題:「模型能從玩很多視頻游戲的過程中學到一些通用的東西嗎?」
為了訓練這個模型,研究者只使用了先前從 Agarwal et al. [1]中收集到的軌跡,但是交互式地評估了本研究的智能體。研究者表示,他們并不是在追求特定游戲智能體所能達到的精通程度或效率,因為這項研究仍處于早期階段。相反,他們要探索的是,在語言和視覺領(lǐng)域觀察到的相同趨勢,是否也適用于大規(guī)模的通才型強化學習?
研究發(fā)現(xiàn),在對離線專家數(shù)據(jù)集和非專家數(shù)據(jù)集進行訓練之后,智能體可以在所有游戲中同時達到人類級別性能的 126%,如圖 1 所示。此外,研究者還發(fā)現(xiàn)了與語言和視覺領(lǐng)域相似的趨勢:用很少的數(shù)據(jù)快速適應從未見過的游戲(第 4.5 節(jié)) ,性能和模型大小之間的冪律關(guān)系(第 4.4 節(jié)) ,以及為更大的模型提供更快的訓練進度。
圖片
值得注意的是,并非所有現(xiàn)有的多環(huán)境訓練方法都有效。他們研究了幾種方法,包括將問題處理為基于離線決策 Transformer 的序列建模 [14,34]、在線 RL [51]、離線時間差分方法[41]、對比表征[54] 和行為克隆[58]。
研究者發(fā)現(xiàn),基于決策 Transformer 的模型在多環(huán)境下提供了最好的性能和擴展特性。然而,為了實現(xiàn)對專家和非專家軌跡的訓練,有必要使用從語言建模引導生成技術(shù)來生成專家級別的動作,這與標準的決策 Transformer 有很大的不同。
圖片
實驗
為了回答一系列假設提問,研究者進行了多項實驗,如下:
不同的在線和離線方法在多博弈體制中的表現(xiàn)如何?
研究比較了多博弈機制和單游戲機制下不同在線和離線算法,發(fā)現(xiàn)單游戲?qū)<夷P腿匀皇亲罡咝У摹T诙嗖┺耐ㄓ媚P椭?,多博弈決策 Transformer 模型最接近專家性能,多博弈在線 RL 與非 Transformer 模型排在第二位,而離線非 Transformer 模型很難獲得好的表現(xiàn)。
可以注意到,多博弈在線 C51 DQN 中位數(shù)得分為 68% (附錄 D) ,這與多博弈 Impala 中位數(shù)得分為 70% 的得分相似,這是根據(jù) [20] 報告的結(jié)果計算得出的。
不同的方法如何與模型尺寸相比較?
在大型語言和視覺模型中,最低可實現(xiàn)的訓練損失通常隨著模型大小的增加而可預測地減少。Kaplan et al. [37]證明了一個語言模型的容量 (next-token 自回歸生成模型的 NLP 術(shù)語) 與其性能之間的經(jīng)驗冪律關(guān)系(在對抗數(shù)據(jù)上的負對數(shù)似然)。這些趨勢在許多數(shù)量級的模型尺寸中得到了驗證,包括從幾百萬參數(shù)的模型到數(shù)千億參數(shù)的模型。
研究者調(diào)查了交互式游戲中的表現(xiàn)是否存在類似的趨勢(而不僅僅是訓練損失),并顯示類似的冪律性能趨勢,如圖 5(a)。多博弈決策 Transformer 的性能實現(xiàn)了兩個數(shù)量級的增加,而其他方法要么飽和,要么性能增長緩慢得多。他們還發(fā)現(xiàn),較大的模型訓練更快,在觀察相同數(shù)量的 token 后,能達到更高的游戲性能。附錄 G 中進一步討論了這些結(jié)果。
圖片
不同的方法轉(zhuǎn)換到新游戲的效果如何?
盡管雅達利游戲是一項自然而且動機良好的任務,但是由于它與人類如何將知識轉(zhuǎn)移到新游戲的相關(guān)性問題,對于快速適應新游戲的預訓練還沒有被廣泛探討。Nachum 和 Yang 針對 Atari 的大型離線數(shù)據(jù)和小型專家數(shù)據(jù)進行了預訓練,并與基于互模擬的一系列狀態(tài)表征學習目標進行了比較,但是他們的預訓練和微調(diào)使用的是同一個游戲。相反,本文研究者感興趣的是經(jīng)過訓練的智能體遷移到新游戲的能力。
圖 6 展示了對抗游戲中的微調(diào)性能。帶有 DT 目標的預訓練在所有游戲中表現(xiàn)最好,所有預訓練的方法都比從零開始的訓練有效,這證實了本研究的假設,即針對其他游戲的預訓練確實有助于智能體快速學習一項新游戲。CPC 和 BERT 的表現(xiàn)不如 DT,這表明僅僅學習狀態(tài)表征不足以達到理想的遷移效果。雖然 ACL 為 BERT 增加了一個動作預測輔助損失,但效果不明顯,這表明在離線數(shù)據(jù)上正確建模動作對于獲得良好的傳輸性能非常重要。此外,研究者還發(fā)現(xiàn)微調(diào)性能會隨著 DT 模型變大而提高,而 CQL 微調(diào)性能與模型大小并不一致(參見圖 5b)。
圖片
多博弈決策 Transformer 是否改進了訓練數(shù)據(jù)?
研究者想要評估的是,帶有專家行動推理的決策 Transformer 是否能夠超越最好的演示在訓練中展現(xiàn)的能力。為了做到這一點,研究者看了表現(xiàn) top 3 的決策 Transformer 模型的 rollout。他們使用了 top 3 的 rollout,而不是所有 rollout 的平均值,以更公平地比較最好的演示,而不是一個普通的專家演示。圖 7 中展示了對比單個游戲的最佳演示得分提高的百分比,在一些比賽中,實現(xiàn)了訓練數(shù)據(jù)的顯著改善。
圖片
最佳行為推理是否改進了行為克???
圖 8 展示了所有游戲得分的平均值和標準差。雖然行為克隆有時可能會產(chǎn)生高回報的 episode,但這種情況此時不太可能發(fā)生。研究者發(fā)現(xiàn),在 41 個游戲中,有 31 個游戲的決策 Transformer 的性能優(yōu)于行為克隆。
圖片
專家和非專家數(shù)據(jù)混合訓練是否比僅專家訓練更有益?
與從專家示范中學習相比,從包括一些專家數(shù)據(jù)但主要是非專家數(shù)據(jù)的大型多樣化數(shù)據(jù)集中學習有助于學習和提高性能。為了驗證這個假設,研究者根據(jù) episodic returns 過濾了每個游戲的訓練數(shù)據(jù),并且只保留前 10% 的軌跡,以生成一個專家的數(shù)據(jù)集 (詳情見附錄 E)。他們使用了這個專家數(shù)據(jù)集來訓練多博弈決策 Transformer(DT-40M) 和基于 Transformer 的行為克隆模型(BC-40M)。圖 9 比較了這些模型訓練的專家數(shù)據(jù)和 DT-40M 訓練的所有數(shù)據(jù)。
圖片
使用 Transformer 架構(gòu)有什么好處?
決策 Transformer 是一個 Upside-Down RL (UDRL)實現(xiàn),它使用 Transformer 體系架構(gòu),并將 RL 視為序列建模問題。為了理解 Transformer 體系架構(gòu)的好處,研究者將其與使用前饋、卷積 Impala 網(wǎng)絡的 UDRL 實現(xiàn)進行比較。
圖片
圖 10 展示了使用 Impala 架構(gòu)的決策 Transformer 相對于 UDRL 的明顯優(yōu)勢。在比較 UDRL (Impla)和 CQL (在評估的每個模型尺寸上使用相同的 Impla)時,可以觀察到 UDRL (impla)優(yōu)于 CQL。結(jié)果表明,本文方法的好處不僅來自于使用的網(wǎng)絡架構(gòu),同時來自于 UDRL 公式。
盡管由于設計空間的因素,將 Transformer 與所有可能的卷積架構(gòu)進行比較是不可行的,但研究者相信這些經(jīng)驗性的結(jié)果仍然顯示了一個明顯的趨勢,對于 UDRL 和 Transformer 架構(gòu)都是有益的。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉