DeepMind又搞了個大事情！讓人工智能像人一樣學(xué)習(xí)

作者：時間：2017-03-17 來源：騰訊科技

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　通過開發(fā)出一款能夠在任務(wù)中不斷學(xué)習(xí)的人工智能程序，研究人員已克服了人工智能的主要障礙之一。

本文引用地址：http://www.butianyuan.cn/article/201703/345366.htm

　　由谷歌旗下人工智能公司DeepMind開發(fā)的這款程序，已經(jīng)完成了一系列不同的任務(wù)，且表現(xiàn)的幾乎像人類一樣出色。更為重要和獨(dú)特的是，這個人工智能程序不會忘記先前解決問題的方法，能夠使用學(xué)習(xí)到的知識解決新問題。

　　在遇到新挑戰(zhàn)時，目前的人工智能就無法發(fā)揮出人類的一般智力，且它對過去課程的使用更為有限。但如果研究人員想要開發(fā)與人類智力匹敵的強(qiáng)人工智能(Artificial General Intelligence)機(jī)器，就必須得解決人工智能無法發(fā)揮出人類一般智力的問題。

　　“如果我們有更聰明、更有用的電腦程序，那么它們就必須得有按順序?qū)W習(xí)的能力，”DeepMind的研究人員詹姆斯·柯克帕特里克(James Kirkpatrick)表示。

　　對人類而言，牢記舊技能并把它應(yīng)用到新任務(wù)是很自然的事情。一個經(jīng)常滑旱冰的人很快便能掌握溜冰的技巧，因為一種技能能夠幫助其它的技能。但是對人工智能研究人員來說，把這種能力植入到計算機(jī)當(dāng)中的難度相當(dāng)大。人工智能程序通常只能針對一個任務(wù)，僅僅是一個任務(wù)。

　　這個問題的出現(xiàn)是因為人工智能倚重工作的方式。絕大多數(shù)的人工智能是基于稱為神經(jīng)網(wǎng)絡(luò)的程序，經(jīng)過無數(shù)次的試驗和錯誤，學(xué)習(xí)如何執(zhí)行如下棋、打撲克等任務(wù)。一旦訓(xùn)練神經(jīng)網(wǎng)絡(luò)下棋，它只有在覆蓋了學(xué)習(xí)到的博弈技巧之后才能學(xué)習(xí)其它游戲的技巧。這也被人工智能研究人員稱為“毀滅性的遺忘。”

　　如果不具備在一個技巧之上掌握另一個技巧的能力，人工智能就永遠(yuǎn)無法像人類一樣，或是有足夠的靈活性去解決人類能夠解決的新問題。“人類和動物會一個問題接著一個問題的學(xué)習(xí)，這是建立在他們以前所學(xué)知識的基礎(chǔ)之上、讓他們不斷學(xué)習(xí)的關(guān)鍵因素，”柯克帕特里克說。

　　為了開發(fā)新型人工智能，研究人員借鑒了神經(jīng)科學(xué)的研究成果，它表明動物在不斷學(xué)習(xí)的同時，會在大腦中保留過去所學(xué)的重要技能。對于動物的生存而言，通過躲避捕食者學(xué)到的經(jīng)驗至關(guān)重要。如果老鼠尋找食物的技能被抹去，那么它就不會長時間的生存。

　　DeepMind的人工智能用簡單的方式借鑒了大腦學(xué)習(xí)的狀態(tài)。當(dāng)它從一個任務(wù)轉(zhuǎn)向另一個任務(wù)時，它會計算出在神經(jīng)網(wǎng)絡(luò)中的哪個連接對已學(xué)到的任務(wù)最為重要。然后在學(xué)習(xí)下一個技能時，很難對已學(xué)內(nèi)容進(jìn)行改變。“當(dāng)網(wǎng)絡(luò)能夠再利用已學(xué)到的知識時，它會這樣做，”柯克帕特里克說。

　　研究人員讓人工智能隨機(jī)玩10款經(jīng)典的Atari游戲。他們發(fā)現(xiàn)，在每款游戲上花費(fèi)數(shù)天之后，人工智能在7款游戲中的表現(xiàn)已同人類玩家相同。如果不采用新記憶鞏固法，人工智能只能玩其中的一款游戲。

　　在觀察人工智能玩游戲的過程中，科學(xué)家們發(fā)現(xiàn)了一些有趣的策略。舉例來說，當(dāng)人工智能玩賽車游戲Enduro時，它會把夜間、白天、雪地等環(huán)境當(dāng)作是不同的任務(wù)來對待。

　　研究人員在在國際權(quán)威綜合學(xué)術(shù)期刊《美國科學(xué)院院報》(Proceedings of the National Academy of Sciences of the United States of America， PNAS)發(fā)表的論文中，詳細(xì)描述了新人工智能如何使用過去學(xué)到的經(jīng)驗來解決問題。不過目前尚不清楚使用過去的經(jīng)驗?zāi)芊褡屓斯ぶ悄鼙憩F(xiàn)的更加優(yōu)異。雖然DeepMind開發(fā)的人工智能程序能夠玩不同的游戲，但技術(shù)卻沒有像專用的人工智能那樣出色。“我們已經(jīng)證明它可以按順序?qū)W習(xí)任務(wù)，但我們沒有表明因為按順序?qū)W習(xí)它就能變得更好，它依然有改進(jìn)的空間，”柯克帕特里克說。

　　“我們知道連續(xù)學(xué)習(xí)非常重要，但我們還沒有進(jìn)入展示人類和動物利用所學(xué)能夠做些什么的下一個階段。這仍需要很長的路要走，但我們知道它是無法逾越的障礙，”柯克帕特里克說。“多用途人工智能的發(fā)展仍需要很長時間，該領(lǐng)域仍有許多的挑戰(zhàn)未得到解決。其中的難題之一是建立能夠?qū)W習(xí)處理新任務(wù)和挑戰(zhàn)的系統(tǒng)，同時保留已經(jīng)學(xué)會的能力。這項研究目前仍處于初期，它能夠及時幫助我們建立問題--解決系統(tǒng)，從而更靈活，更有效地學(xué)習(xí)。”

　　西英格蘭大學(xué)布里斯托爾機(jī)器人實驗室教授艾倫·溫菲爾德(Alan Winfield)就此表示，DeepMind的工作“令人驚訝”，但補(bǔ)充說：“我不認(rèn)為它能夠讓我們更接近強(qiáng)人工智能，因為這項研究并未向我們表明人工智能如何把學(xué)習(xí)到的經(jīng)驗應(yīng)用到另一項任務(wù)當(dāng)中。”