博客專欄

EEPW首頁(yè) > 博客 > 深度強(qiáng)化學(xué)習(xí)大牛、UC伯克利教授Pieter Abbeel獲2021 ACM計(jì)算獎(jiǎng)

深度強(qiáng)化學(xué)習(xí)大牛、UC伯克利教授Pieter Abbeel獲2021 ACM計(jì)算獎(jiǎng)

發(fā)布人:機(jī)器之心 時(shí)間:2022-04-09 來(lái)源:工程師 發(fā)布文章

AI 大牛吳恩達(dá)的學(xué)生、機(jī)器人學(xué)習(xí)專家、UC 伯克利教授 Pieter Abbeel 摘得了最新一屆 ACM 計(jì)算獎(jiǎng)的榮譽(yù)。

剛剛,ACM 官方宣布將 2021 ACM 計(jì)算獎(jiǎng)(ACM Prize in Computing)授予加州大學(xué)伯克利分校教授 Pieter Abbeel,以表彰他在機(jī)器人學(xué)習(xí)方面的貢獻(xiàn),包括從演示中學(xué)習(xí)和用于機(jī)器人控制的深度強(qiáng)化學(xué)習(xí)。


圖片


在獲獎(jiǎng)公告中,ACM 提到:「Abbeel 率先教會(huì)機(jī)器人從人類演示中學(xué)習(xí)(學(xué)徒學(xué)習(xí))和通過自己的反復(fù)試錯(cuò)學(xué)習(xí)(強(qiáng)化學(xué)習(xí)),這為下一代機(jī)器人技術(shù)奠定了基礎(chǔ)。


ACM 計(jì)算獎(jiǎng)設(shè)立于 2007 年,由 IT 巨頭 Infosys 贊助,獎(jiǎng)金為 25 萬(wàn)美元,旨在表彰在職業(yè)生涯早期到中期在計(jì)算領(lǐng)域做出基本創(chuàng)新貢獻(xiàn)的研究者,這些貢獻(xiàn)通過其深度和廣泛的影響體現(xiàn)了該學(xué)科的最高成就。


過往獲獎(jiǎng)?wù)甙ü雀?AI 負(fù)責(zé)人 Jeff Dean、AlphaGo 之父 David Silver、量子計(jì)算先驅(qū) Scott Aaronson 等著名計(jì)算機(jī)科學(xué)家。


Abbeel 將于今年 6 月 11 日在舊金山舉行的 ACM 年度頒獎(jiǎng)晚宴上正式獲頒 ACM 計(jì)算獎(jiǎng)。


伯克利大牛 Pieter Abbeel 的研究貢獻(xiàn)


圖片


Pieter Abbeel 現(xiàn)為加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)與電氣工程教授,也是人工智能機(jī)器人公司 Covariant 的聯(lián)合創(chuàng)始人、總裁兼首席科學(xué)家。Abbeel 在比利時(shí)魯汶大學(xué)獲得電氣工程學(xué)士學(xué)位,并在斯坦福大學(xué)獲得計(jì)算機(jī)科學(xué)碩士和博士學(xué)位(師從吳恩達(dá))。


圖片

Abbeel 曾獲得多項(xiàng)榮譽(yù),包括美國(guó)科學(xué)家及工程師總統(tǒng)早期職業(yè)獎(jiǎng)、美國(guó)國(guó)家科學(xué)基金會(huì)早期職業(yè)發(fā)展計(jì)劃獎(jiǎng)和 Diane McEntyre 卓越教學(xué)獎(jiǎng)。此外,Abbeel 還被 MIT Technology Review 評(píng)為 35 歲以下杰出青年創(chuàng)新者,并獲得了機(jī)器人與自動(dòng)化領(lǐng)域的 Dick Volz 最佳美國(guó)博士論文獎(jiǎng)。同時(shí),Abbeel 也是 IEEE Fellow。


在職業(yè)生涯的早期,Abbeel 開發(fā)了新的學(xué)習(xí)技術(shù),以顯著改善機(jī)器人操作。隨著該領(lǐng)域的成熟,研究人員能夠?qū)C(jī)器人進(jìn)行編程,以使其感知、操縱木塊或勺子等剛性物體。然而,通過編程讓機(jī)器人操縱可變形物體(例如布)相對(duì)來(lái)說(shuō)較為困難,因?yàn)檐浶圆牧显诒挥|摸時(shí)的移動(dòng)方式是不可預(yù)測(cè)的。Abbeel 引入了增強(qiáng)機(jī)器人視覺感知、基于物理的跟蹤、控制和從演示中學(xué)習(xí)的新方法。通過結(jié)合這些新方法,Abbeel 開發(fā)了一種能夠折疊毛巾和襯衫等衣服的機(jī)器人,這在當(dāng)時(shí)被認(rèn)為是一個(gè)重要的里程碑。



Abbeel 的貢獻(xiàn)還包括開發(fā)能進(jìn)行手術(shù)縫合、物體檢測(cè)以及在不確定環(huán)境下規(guī)劃軌跡的機(jī)器人。最近,他開創(chuàng)了「少樣本模仿學(xué)習(xí)」,即先讓機(jī)器人接受大量相關(guān)任務(wù)演示的預(yù)訓(xùn)練,然后使其僅通過一次演示就學(xué)會(huì)執(zhí)行一項(xiàng)任務(wù)。


Abbeel 做出重要貢獻(xiàn)的另一個(gè)方向是機(jī)器人深度強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)領(lǐng)域,在該領(lǐng)域中,智能體在獎(jiǎng)勵(lì)的驅(qū)動(dòng)下不斷前進(jìn)(比如贏得一場(chǎng)比賽)。雖然早期的強(qiáng)化學(xué)習(xí)程序非常有效,但它們只能執(zhí)行簡(jiǎn)單的任務(wù)。將強(qiáng)化學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的創(chuàng)新之舉催生了深度強(qiáng)化學(xué)習(xí)這一新領(lǐng)域。與僅使用強(qiáng)化學(xué)習(xí)開發(fā)的程序相比,它可以解決復(fù)雜得多的問題。


Abbeel 在該領(lǐng)域的突破性貢獻(xiàn)是開發(fā)了一種名為「信賴域策略優(yōu)化(Trust Region Policy Optimization)」的深度強(qiáng)化學(xué)習(xí)方法。這種方法穩(wěn)定了強(qiáng)化學(xué)習(xí)過程,使機(jī)器人能夠?qū)W習(xí)一系列模擬的控制技能。通過分享研究結(jié)果、發(fā)布視頻教程以及發(fā)布開源代碼,Abbeel 幫助建立了一個(gè)研究社區(qū),進(jìn)一步推動(dòng)了用于機(jī)器人的深度學(xué)習(xí)研究,可以讓機(jī)器人執(zhí)行更復(fù)雜的任務(wù)。


Abbeel 還做出了其他幾項(xiàng)開創(chuàng)性的貢獻(xiàn),包括:


  • generalized advantage estimation,這使得第一個(gè) 3D 機(jī)器人運(yùn)動(dòng)學(xué)習(xí)成為可能;

  • soft-actor critic,這是迄今為止最流行的深度強(qiáng)化學(xué)習(xí)算法之一;

  • domain randomization,它展示了在適當(dāng)隨機(jī)化的模擬器中進(jìn)行的學(xué)習(xí)如何能夠很好地泛化到現(xiàn)實(shí)世界;

  • hindsight experience replay,這對(duì)獎(jiǎng)勵(lì)稀疏 / 目標(biāo)導(dǎo)向的環(huán)境中的深度強(qiáng)化學(xué)習(xí)很有幫助。



ACM 主席 Gabriele Kotsis 表示:「教機(jī)器人學(xué)習(xí)可以推動(dòng)許多行業(yè)的重大進(jìn)步,包括手術(shù)、制造、航運(yùn)、自動(dòng)駕駛等。Pieter Abbeel 是新一代研究人員中公認(rèn)的引領(lǐng)者,他們正在利用最新的機(jī)器學(xué)習(xí)技術(shù)徹底改變這一領(lǐng)域。Abbeel 做出了跨越式的研究貢獻(xiàn),同時(shí)還慷慨地分享了他的知識(shí),建立了一個(gè)同行社區(qū),致力于將機(jī)器人提升到令人興奮的新能力水平。他的工作體現(xiàn)了 ACM 計(jì)算獎(jiǎng)旨在表彰具有『深度、影響力和廣泛影響』的杰出工作的初衷?!?/span>


Infosys 首席執(zhí)行官 Salil Parekh 表示:「很榮幸能表彰 Pieter Abbeel 獲得 2021 年 ACM 計(jì)算獎(jiǎng),隨著機(jī)器人與人工智能相結(jié)合的創(chuàng)新方式不斷涌現(xiàn),機(jī)器人領(lǐng)域有望取得更大的進(jìn)步,我們相信像 Abbeel 這樣的研究人員將有助于該領(lǐng)域取得下一個(gè)重大進(jìn)展。」


獲獎(jiǎng)后,Pieter Abbeel 在社交媒體上表示:「我感到無(wú)比榮幸。非常感謝所有讓這一切成為可能的合作者,感謝我的學(xué)生、同事、碩士及博士階段的導(dǎo)師。」


參考鏈接:https://awards.acm.org/about/2021-acm-prize


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉