垃圾分類不用愁機(jī)器人來(lái)幫你

作者：時(shí)間：2019-11-24 來(lái)源：快科技

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

從上海，到北京，每個(gè)城市都在搞垃圾分類。

本文引用地址：http://butianyuan.cn/article/201911/407407.htm

干垃圾、濕垃圾、有害垃圾，豬不能吃、豬能吃、豬吃了會(huì)死……你是不是還在為這些垃圾分別是什么而苦惱呢？

要是能自動(dòng)給垃圾分類就好了。

Alphabet X，就是之前孵化了無(wú)人車的Google X，終于造出了垃圾分類機(jī)器人。

這些機(jī)器人可以把垃圾分類、把分錯(cuò)類的垃圾放到正確的地方，還能在辦公室里游走撿垃圾。

比如，放錯(cuò)地方的礦泉水瓶，機(jī)器人可以撿起來(lái)放到正確的地方去：

放錯(cuò)地方的易拉罐，也要讓它和別的罐罐在一起：?

他們?cè)贏lphabet公司的辦公室測(cè)試后，發(fā)現(xiàn)這臺(tái)機(jī)器人可以顯著降低垃圾造成的污染，將本能回收利用卻被送去垃圾填埋場(chǎng)的垃圾占比從20%降到不到5%。

怎么做到的

想讓機(jī)器人學(xué)會(huì)垃圾分類，需要用到感知、移動(dòng)和操作，借助計(jì)算機(jī)視覺(jué)技術(shù)進(jìn)行感知以及幫助機(jī)器人前行的自動(dòng)駕駛能力都是業(yè)界熟悉的，但如何學(xué)會(huì)在復(fù)雜環(huán)境中用“手”拉開(kāi)柜子、打開(kāi)抽屜、撿走垃圾則是必須要讓機(jī)器自行學(xué)會(huì)的操作。

因此，Alphabet X用到了三個(gè)方法來(lái)讓機(jī)器人學(xué)會(huì)靈活用“手”。

跟人類學(xué)習(xí)

第一種是跟人類學(xué)習(xí)，模仿人類的動(dòng)作和做法。

這里就用到了Play-LMP算法，它在沒(méi)有特定數(shù)據(jù)集訓(xùn)練的情況下，讓機(jī)器人跟人類的演示學(xué)習(xí)，最終實(shí)現(xiàn)平均成功率85.5%。

學(xué)出來(lái)的成績(jī)，大概是這樣的，左邊是任務(wù)要求，右邊是執(zhí)行過(guò)程：

跟其他機(jī)器人學(xué)習(xí)

和其他機(jī)器人學(xué)習(xí)是通過(guò)無(wú)模型的強(qiáng)化學(xué)習(xí)，讓許多個(gè)機(jī)器人共享經(jīng)驗(yàn)。

具體的實(shí)現(xiàn)方式是這樣的：

讓機(jī)器人學(xué)習(xí)借助門(mén)把手開(kāi)門(mén)這個(gè)技巧，一起學(xué)習(xí)的每個(gè)機(jī)器人都裝了一份神經(jīng)網(wǎng)絡(luò)，并且他們每臺(tái)機(jī)器人都連到了一個(gè)中央服務(wù)器上。

每個(gè)機(jī)器人開(kāi)始對(duì)著這個(gè)門(mén)和門(mén)把手琢磨，摸索著考慮怎么開(kāi)。

這個(gè)過(guò)程中，每個(gè)機(jī)器人每一步的行動(dòng)和結(jié)果都被傳輸?shù)奖澈蟮闹醒敕?wù)器上，中央服務(wù)器里的神經(jīng)網(wǎng)絡(luò)就開(kāi)始借助這些傳輸來(lái)的經(jīng)驗(yàn)，迭代改進(jìn)神經(jīng)網(wǎng)絡(luò)。

這樣整個(gè)過(guò)程就好像司令部派了幾個(gè)士兵出去偵查，再把每個(gè)士兵送回來(lái)的線索匯總，形成整體的作戰(zhàn)思路，再告訴士兵們應(yīng)該如何如何行動(dòng)。

所以改進(jìn)之后，機(jī)器人們就都學(xué)會(huì)了開(kāi)門(mén)這項(xiàng)技能。

在云端學(xué)習(xí)

機(jī)器人要撿垃圾，必須學(xué)會(huì)靈活的使用自己的“手”來(lái)抓東西，要不斷的練習(xí)，有大量數(shù)據(jù)來(lái)訓(xùn)練模型才可以。

現(xiàn)實(shí)世界里，機(jī)器人一天只能練習(xí)5000次抓取，數(shù)據(jù)量是遠(yuǎn)遠(yuǎn)不夠的。

而借助隨機(jī)到規(guī)范適應(yīng)網(wǎng)絡(luò)（Randomized-to-Canonical Adaptation Networks，簡(jiǎn)稱RCANs），在云中模擬訓(xùn)練的數(shù)據(jù)就可以用在模型的實(shí)際訓(xùn)練中，這樣機(jī)器人抓物體的成功率就提升到了70%。

之后，再結(jié)合5000次在現(xiàn)實(shí)世界抓取的數(shù)據(jù)，對(duì)模型進(jìn)行微調(diào)，成功率就到了91%。

這個(gè)過(guò)程，相當(dāng)于在真實(shí)世界抓了58萬(wàn)次的結(jié)果，一下子省了99%的練習(xí)次數(shù)。

這樣，原來(lái)需要花3個(gè)月的時(shí)間來(lái)訓(xùn)練機(jī)器人學(xué)習(xí)抓取，現(xiàn)在只要不到一天就可以了。

開(kāi)發(fā)人員每天觀察機(jī)器人的垃圾分類工作，并標(biāo)注正確和錯(cuò)誤。AI程序每晚根據(jù)標(biāo)注內(nèi)容，自動(dòng)模擬更新數(shù)千個(gè)模塊的數(shù)據(jù)。第二天，更新的結(jié)果會(huì)被重新整合到機(jī)器人軟件中，并再次開(kāi)啟新的學(xué)習(xí)周期，日復(fù)一日地改善性能。

經(jīng)數(shù)月學(xué)習(xí)，分類機(jī)器人的垃圾污染率從20%降至5%。垃圾污染率，即垃圾中混入不正確分類物料的比例。

機(jī)器人頭部的視覺(jué)傳感器可掃描環(huán)境并識(shí)別物體，內(nèi)部設(shè)有多個(gè)攝像頭，可使頭部和雙臂獨(dú)立工作。機(jī)器人還會(huì)對(duì)掃描到的物品進(jìn)行顏色編碼，并識(shí)別可能需要移動(dòng)、清理或丟棄的物品。