新聞中心

EEPW首頁 > 機器人 > 業(yè)界動態(tài) > 25分鐘訓(xùn)練機器人學(xué)會6個動作,伯克利開發(fā)高效機器人操縱框架

25分鐘訓(xùn)練機器人學(xué)會6個動作,伯克利開發(fā)高效機器人操縱框架

作者:蕾師師 時間:2021-01-04 來源:量子位 收藏

量子位 報道 | 公眾號 QbitAI

本文引用地址:http://butianyuan.cn/article/202101/421756.htm

  這個機械臂正在完成夠、拿、移、推、點、開等6個動作。

  

  而且動作嫻熟,還不存在失誤。

  更令人意外的是,訓(xùn)練這個機械臂,只花了短短25分鐘

  即使有人為干擾,它也能夠成功完成抓取動作。

  

  還能抓起以前沒有見過的物體形狀。

  

  這就是來自加州大學(xué)伯克利分校的一項新研究——高效機器操作框架Framework for Efficient Robotic Manipulation(FERM),專門對機械臂進行高效率操作的算法訓(xùn)練。

  FERM為什么比其他方法效率高?

  目前來看,大多數(shù)針對機器人訓(xùn)練的的RL算法效率都不是很好。

  采用稀疏獎勵的方法訓(xùn)練Dota5游戲的人機操作,使之成為達到人類玩家的高手水平,需要花180年的游戲時間。

  訓(xùn)練一個機械臂的手勢,則需要上千萬的模擬學(xué)習(xí)的樣本和兩周的訓(xùn)練時間。

  Sim2Real模擬學(xué)習(xí)這兩個方法稍微好點。Sim2Real需要接受模擬訓(xùn)練,再將訓(xùn)練結(jié)果運用到現(xiàn)實事例中。

  模擬學(xué)習(xí)則需要通過一系列的專業(yè)訓(xùn)練示范案例和監(jiān)督學(xué)習(xí),才能得出最后的訓(xùn)練策略,實驗結(jié)果非常依賴于輸入示范案例的質(zhì)量。

  FERM優(yōu)勢在于,既沒有依靠模擬訓(xùn)練轉(zhuǎn)換到現(xiàn)實,也不用高度依賴于輸入的示范案例的質(zhì)量。

  而是基于非監(jiān)督性表征學(xué)習(xí)和數(shù)據(jù)擴張技術(shù),使用了pixel-based RL。

  因此,它僅僅需要10個Demo,25分鐘的訓(xùn)練時間,就可以讓機器人學(xué)會六個動作。

  FERM具體怎么訓(xùn)練?

  FERM采用了基于像素的強化學(xué)習(xí)(pixel-based RL)方法。

  

  具體而言,先收集小部分演示數(shù)據(jù),并且將這些數(shù)據(jù)存放在“回放緩沖區(qū)”上。

  然后,用觀察結(jié)果結(jié)合對比損失量,來對編碼器進行預(yù)訓(xùn)練。

  而后,編碼器和“回放緩沖區(qū)”運用一種線下的數(shù)據(jù)來加強RL算法,對RL智能體進行訓(xùn)練。

  在論文中,研究人員總結(jié)了FERM主要優(yōu)點:

  1、高效率:FERM可以學(xué)習(xí)6種不同操作任務(wù)的最優(yōu)策略,在15-50分鐘的訓(xùn)練時間內(nèi)完成每項任務(wù)。

  2、簡單統(tǒng)一的框架:框架結(jié)合現(xiàn)有的組成部分,將無監(jiān)督的預(yù)訓(xùn)練和在線RL與數(shù)據(jù)擴充成一個單一高效的框架。

  3、常規(guī)輕量設(shè)置:實施起來只需要一個機器人、一個GPU、兩個攝像頭、幾個演示,以及稀疏獎勵函數(shù)等等。

  

  具體的實驗結(jié)果如何?

  實驗結(jié)果

  這項實驗采用像素觀察的方法執(zhí)行了一系列任務(wù)。下圖的每一欄顯示了初始、中間、結(jié)果等三個狀態(tài)。只有當(dāng)機器人完成任務(wù)時,才會獲得稀疏獎勵。

  

  這個訓(xùn)練算法的效率可謂很高了。具體完成時間如下圖表格所示,在30分鐘左右,它就可以讓機器人學(xué)習(xí)操作任務(wù)。而簡單的“夠”(Reach)動作,則只需要三分鐘。

  

  實驗結(jié)果稱,它不需要很多的Demo,也不需要到大量的設(shè)備,首次完成任務(wù)的平均時間為11分鐘,并且可以在25分鐘內(nèi)訓(xùn)練出25分鐘學(xué)會6個動作,伯克利開發(fā)高效機器人6個機械動作。

  所以研究人員驕傲地說:

  

“據(jù)我們所知,F(xiàn)ERM是第一個能在不到一小時的時間內(nèi),能通過像素點直接完成來自不同組、采用稀疏獎勵方法的機器操作任務(wù)。”

  而根據(jù)相關(guān)報告,未來十年,制造業(yè)將需要460萬個崗位。許多制造商也都在轉(zhuǎn)向自動化生產(chǎn),機械自動化將占比越來越高。FERM這樣的高效訓(xùn)練框架,可謂是制造業(yè)福音。

  參考鏈接:
https://venturebeat.com/2020/12/16/new-framework-can-train-a-robotic-arm-on-6-grasping-tasks-in-less-than-an-hour/



關(guān)鍵詞: 訓(xùn)練機器人 操縱框架

評論


技術(shù)專區(qū)

關(guān)閉