強化學(xué)習(xí)機器人也有很強環(huán)境適應(yīng)能力,伯克利AI室驗室賦能元訓(xùn)練+在線自適應(yīng)
在現(xiàn)實生活中,人類可以輕易地適應(yīng)環(huán)境的變化,但機器人在適應(yīng)力方面卻表現(xiàn)得一般,要如何讓機器人像人一樣能夠快速適應(yīng)現(xiàn)實世界呢?加州大學(xué)伯克利分校人工智能實驗室 BAIR 近期介紹了自己研究具有很高的環(huán)境適應(yīng)能力的機器人的最新成果,雷鋒網(wǎng)全文編譯如下。
本文引用地址:http://butianyuan.cn/article/201905/400667.htm圖一【 圖片來源:BERKELEY BAIR 所有者:BERKELEY BAIR 】
人類能夠無縫地適應(yīng)環(huán)境的變化:成年人能夠在幾秒內(nèi)學(xué)會拄拐走路;人們幾乎在瞬間可以撿起意料之外的重物體;不用重新學(xué)走路,兒童也能夠讓自己的步法快速適應(yīng)從平地到上坡的轉(zhuǎn)變。這種適應(yīng)力在現(xiàn)實世界中起著很重要的作用。
另一方面,機器人通常被部署了固定行為(無論編碼還是學(xué)習(xí)),這讓它們在特定的環(huán)境中做的很好,但也導(dǎo)致了它們在其他方面做不好:系統(tǒng)故障、遇到陌生地帶或是碰上環(huán)境改變(比如風(fēng))、需要處理有效載荷或是其他意料之外的變化。BAIR 最新研究的想法是,在目前階段,預(yù)測和觀察之間的不匹配應(yīng)該告訴機器人,讓它去更新它的模型,去更精確地描述現(xiàn)狀。舉個例子,當我們意識到我們的車在路上打滑時(如圖二),這會告知我們,我們的行為出現(xiàn)了意料之外的不同影響,因此,這讓我們相應(yīng)地規(guī)劃我們后續(xù)的行動。要讓機器人能夠更好地適應(yīng)現(xiàn)實世界,就要讓它們能夠利用它們過去的經(jīng)驗,擁有快速地、靈活地適應(yīng)的能力,這是重要的一點。為此,BAIR 開發(fā)了一個基于模型的快速自適應(yīng)元強化學(xué)習(xí)算法。
圖二【 圖片來源:BERKELEY BAIR 所有者:BERKELEY BAIR 】
快速適應(yīng)
先前的工作使用的是試錯適應(yīng)方法(Cully et al., 2015)以及自由模型的元強化學(xué)習(xí)方法(Wang et al., 2016; Finn et al., 2017),通過一些訓(xùn)練,讓智能體去適應(yīng)。然而,BAIR 研究人員的工作是要讓適應(yīng)能力發(fā)揮到極致。人類的適應(yīng)不需要在新設(shè)置下體驗幾回,這種適應(yīng)是在線發(fā)生的,僅在幾個時間步內(nèi)(即毫秒),太快了以至于不能被注意到。
通過在基于模型學(xué)習(xí)設(shè)置中適應(yīng)元學(xué)習(xí)(下文會討論),BAIR研究人員實現(xiàn)了這種快速適應(yīng)。用于更新模型的數(shù)據(jù)應(yīng)該在基于模型中設(shè)置,而不是根據(jù)推算過程中獲得的獎勵而進行調(diào)整,根據(jù)近期經(jīng)驗,這些數(shù)據(jù)以模型預(yù)測錯誤的形式在每一個時間步長中發(fā)揮作用。這個基于模型的方法能夠讓機器人利用僅有的少量近期數(shù)據(jù),有意圖地更新模型。
方法概述
圖三【 圖片來源:BERKELEY BAIR 所有者:BERKELEY BAIR 】
BAIR研究人員的方法遵循圖三中的普適公式,利用對近期數(shù)據(jù)的觀察去自適應(yīng)模型,類似于自適應(yīng)控制的總體框架(Sastry and Isidori, 1989; ?str?m and Wittenmark, 2013)。然而,真正的挑戰(zhàn)是,當模型是復(fù)雜的、非線性的、高容量的函數(shù)近似者(如神經(jīng)網(wǎng)絡(luò))時,模型該如何成功地自適應(yīng)。為了進行有意義的學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)需要很多數(shù)據(jù),因此,在模型權(quán)重上實行SGD是無效的。
因此,通過在(元)訓(xùn)練時間里明確地按照這個適應(yīng)目標進行培訓(xùn),能夠在測試的時候快速自適應(yīng),如下節(jié)所述。在多種不同設(shè)置的數(shù)據(jù)中進行元訓(xùn)練,一旦得到了一個善于自適應(yīng)的先驗?zāi)P停?quán)重用θ?來表示)之后,這個機器人就能夠在每個時間步內(nèi)(圖三)根據(jù)這個 θ?來適應(yīng),把先驗?zāi)P秃彤斍暗慕?jīng)驗相結(jié)合,把它的模型調(diào)整到適合當前狀況的樣子,從而實現(xiàn)了快速在線自適應(yīng)。
元訓(xùn)練:
給定任意時間步長t,我們處于st階段,我們在at時刻采取措施,根據(jù)底層動力學(xué)函數(shù)st+1=f(st,at),我們最終將得到st+1的結(jié)果。對我們來說,真實的動態(tài)是未知的,所以我們反而想要擬合一些學(xué)習(xí)過的動力學(xué)模型s^t+1=fθ(st,at),通過觀察表單(st,at,st+1)的數(shù)據(jù)點,做出盡可能好的預(yù)測。為了執(zhí)行行為選擇,策劃者能夠利用這個評估過的動態(tài)模型。
假定在首次展示過程中,任何細節(jié)和設(shè)置都能夠在任何時間步長內(nèi)發(fā)生改變,我們將把暫時接近的時間步看做能夠告訴我們近況的“任務(wù)”細節(jié):在任何空間狀態(tài)下運行,持續(xù)的干擾,嘗試新的目標/獎勵,經(jīng)歷系統(tǒng)故障等等。因此,為了模型能夠在規(guī)劃上變成最有用的模型,BAIR研究人員想要利用近期觀察到的數(shù)據(jù)進行首次更新。
在訓(xùn)練時間里(圖四),這個總和是選擇一個連續(xù)的(M+K)數(shù)據(jù)點的序列,使用第一個M來更新模型權(quán)重,從θ到 θ′,然后優(yōu)化新的 θ′, 讓它擅長為下一個K時間步預(yù)測狀態(tài)轉(zhuǎn)換。在利用過去K點的信息調(diào)整權(quán)重后,這個新表述的損失函數(shù)代表未來K點的預(yù)測誤差。
【 圖片來源:BERKELEY BAIR 所有者:BERKELEY BAIR 】
換句話說, θ不需要導(dǎo)致好的動態(tài)預(yù)測。相反,它需要能夠使用具體任務(wù)的數(shù)據(jù)點,將自身快速適應(yīng)到新的權(quán)重中去,依靠這個新的權(quán)重得到好的動態(tài)預(yù)測結(jié)果。有關(guān)此公式的更多直觀信息,可參閱MAML blog post。
圖四【 圖片來源:BERKELEY BAIR 所有者:BERKELEY BAIR 】
模擬實驗
BAIR研究人員在模擬機器人系統(tǒng)上進行實驗,測試他們的方法在環(huán)境中適應(yīng)瞬間變化的能力,并且在訓(xùn)練環(huán)境之外,這種方法是否也能夠泛化。值得注意的是,BAIR研究人員對所有智能體進行任務(wù)/環(huán)境分布的元訓(xùn)練(詳見本文),但是研究人員在測試的時候評估了它們對未知的和不斷變化的環(huán)境的適應(yīng)能力。圖五的獵豹機器人在不同隨機浮力的漂浮板上訓(xùn)練,然后在一個水里具有不同浮力的漂浮板上進行測試。這種環(huán)境表明不僅需要適應(yīng),還需要快速/在線適應(yīng)。圖六通過一個有不同腿部殘疾的螞蟻機器人做實驗,也表明了在線適應(yīng)的必要性,但是在首次展示的時候,一條看不見的腿半途發(fā)生了故障。在下面的定性結(jié)果中,BAIR研究人員將基于梯度的適應(yīng)學(xué)習(xí)者(‘GrBAL’)和標準的基于模型的學(xué)習(xí)者(‘MB’)進行比較,這個基于模型的學(xué)習(xí)者是在同樣的訓(xùn)練任務(wù)變化但是沒有明確的適應(yīng)機制中進行訓(xùn)練的。
圖五【 圖片來源:BERKELEY BAIR 所有者:BERKELEY BAIR 】
圖六【 圖片來源:BERKELEY BAIR 所有者:BERKELEY BAIR 】
這個基于模型的元強化學(xué)習(xí)方法的快速適應(yīng)能力讓這個模擬機器人系統(tǒng)在表現(xiàn)和/或樣本效率方面相比之前的最好的方法取得了顯著的提升,以及在這同一個方法的對照實驗中,有在線適應(yīng)相比沒有在線適應(yīng)、有元訓(xùn)練相比沒有元訓(xùn)練、有動態(tài)模型相比沒有動態(tài)模型,都可以看到系統(tǒng)表現(xiàn)和/或樣本效率的提升。這些定量比較的詳情可參閱論文。
硬件實驗
圖七①【 圖片來源:BERKELEY BAIR 所有者:BERKELEY BAIR 】
圖七②【 圖片來源:BERKELEY BAIR 所有者:BERKELEY BAIR 】
不僅要強調(diào)元強化學(xué)習(xí)方法的樣本效率,而且還要強調(diào)在現(xiàn)實世界中快速在線適應(yīng)的重要性,BAIR研究人員在一個真實的動態(tài)的有足微型機器人演示了這個方法(見圖七)。這個小型的6足機器人以高度隨機和動態(tài)運動的形式,展示了一個建模和控制的挑戰(zhàn)。這個機器人是一個優(yōu)秀的在線適應(yīng)候選人,原因有很多:構(gòu)造這個機器人使用了快速制造技術(shù)和許多定制設(shè)計步驟,這讓它不可能每次都復(fù)制相同的動力學(xué),它的連桿機構(gòu)和其他身體部位會隨著時間的推移而退化,并且,它移動的速度非常快,并且會隨著地形的變化而進行動態(tài)改變。
BAIR的研究人員們在多種不同的地形上元訓(xùn)練了這個步行機器人,然后他們測試了這個智能體在線適應(yīng)新任務(wù)(在運行的時候)的學(xué)習(xí)的能力,包括少了一條腿走直線任務(wù)、從未見過的濕滑地形和斜坡、位姿估計中帶有校正錯誤或誤差,以及首次讓它牽引載荷。在硬件實驗中,BAIR的研究人員們把他們的方法和兩個方法做了比較,1,標準的基于模型學(xué)習(xí)(‘MB’)的方法,這個方法既沒有自適應(yīng)也沒有元學(xué)習(xí);2,一個帶有適應(yīng)能夠力的動態(tài)評估模型(‘MB’+“DE”),但它的適應(yīng)能力是來自非元學(xué)習(xí)得到的先驗。結(jié)果(圖8-10)表明,不僅需要適應(yīng)力,而且需要從顯式的元學(xué)習(xí)得到的先驗進行適應(yīng)。
圖八【 圖片來源:BERKELEY BAIR 所有者:BERKELEY BAIR 】
圖九【 圖片來源:BERKELEY BAIR 所有者:BERKELEY BAIR 】
圖十【 圖片來源:BERKELEY BAIR 所有者:BERKELEY BAIR 】
通過有效地在線適應(yīng),在少了一條腿走直線的實驗中,BAIR的方法阻止了漂移,阻止了滑下斜坡,解釋了位姿錯誤校準,以及調(diào)整到牽引有效載荷。值得注意的是,這些任務(wù)/環(huán)境和在元訓(xùn)練階段學(xué)習(xí)的運動行為有足夠的共性,從先前的知識(不是從零開始學(xué)習(xí))中提取信息是有用的,但是他們的差異很大,需要有效的在線適應(yīng)才能成功。
圖十一【 圖片來源:BERKELEY BAIR 所有者:BERKELEY BAIR 】
未來方向
通過使用元學(xué)習(xí),這項工作能夠讓高容量神經(jīng)網(wǎng)絡(luò)動態(tài)模型在線適應(yīng)。從以前的元學(xué)習(xí)開始,通過讓模型的局部微調(diào),BAIR研究人員排除了對精確全球模型的需求,而且能夠快速適應(yīng)到新情景中,例如意料之外的環(huán)境變化。盡管BAIR研究人員展現(xiàn)了模擬和硬件在不同任務(wù)中的適應(yīng)結(jié)果,但是,仍存在許多相關(guān)的改進途徑。
首先,雖然這種設(shè)置很強大,它總是從提前訓(xùn)練的先驗中進行微調(diào),但這個方法有一個限制,就是即使看了幾遍這個新的設(shè)置,也會得到像第一次看到的同樣的表現(xiàn)。在后續(xù)工作中,BAIR研究人員將采取措施,精確地解決這個隨時間而變得嚴重的問題,同時不要也因為試驗了新技能而忘記舊技能。
另一個提高的領(lǐng)域包含了制定條件或分析性能,以及適應(yīng)的限制:鑒于前面所包含的知識,什么是能夠適應(yīng)的?什么是不能夠適應(yīng)的?舉個例子,兩個人正在學(xué)騎自行車,誰會突然在路面滑行呢?假定這兩個人之前都沒騎過自行車,因此他們也不可能從自行車上摔下來過。在這個實驗中,第一個人A可能會摔倒,手腕受傷,然后需要進行幾個月的物理治療。相反,另一個人B可能借鑒與他先前學(xué)過的武術(shù)知識,從而執(zhí)行了一個良好的“跌倒”程序(也就是說,摔倒的時候翻滾背部來緩沖而不是嘗試用手腕來減弱下降的力量)。這就是一個實例,當這兩個人都在嘗試執(zhí)行一項新任務(wù)的時候,那些他們先前知識中的其他經(jīng)驗會顯著地影響他們適應(yīng)嘗試的結(jié)果。因此,在現(xiàn)有的知識下,有某種機制來理解適應(yīng)的局限性,應(yīng)該會很有趣。
原論文地址:https://arxiv.org/abs/1803.11347(已被 ICLR 2019 接收)
項目主頁:https://sites.google.com/berkeley.edu/metaadaptivecontrol
代碼開源地址:https://github.com/iclavera/learning_to_adapt
雷鋒網(wǎng)注:本文編譯自BERKELEY BAIR
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
原文章地址為強化學(xué)習(xí)機器人也有很強環(huán)境適應(yīng)能力,伯克利AI室驗室賦能元訓(xùn)練+在線自適應(yīng)
評論