“全能棋王”AlphaZero 背后的真正啟示：直覺是如何戰(zhàn)勝邏輯的

作者：時(shí)間：2017-12-18 來(lái)源：DeepTech

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

編者按：AlphaZero 革命性的啟示：復(fù)雜的邏輯思想可以通過(guò)直覺機(jī)器來(lái)完成。

　　現(xiàn)代文明和科技已經(jīng)使得我們的直覺不斷退化。絕大多數(shù)人都沒有意識(shí)到直覺的價(jià)值甚至沒有意識(shí)到它的存在。作為復(fù)雜計(jì)算的基礎(chǔ)，直覺是一種很容易被忽視的非常規(guī)方法。這種非常規(guī)性使得許多研究人員忽視它的潛力。

本文引用地址：http://www.butianyuan.cn/article/201712/373152.htm

　　我在人工智能領(lǐng)域所做的工作圍繞“先進(jìn)的認(rèn)知機(jī)器將使用直覺作為其智力基礎(chǔ)”這一想法。我們?nèi)祟惖乃枷霝橐话慊闹橇μ峁┝顺渥愕淖C據(jù)。人類本質(zhì)上是直覺機(jī)器，而我們理性(和自覺)的自我只是基于直覺的機(jī)器之上的一個(gè)模擬。這與笛卡爾的名言“我思故我在”形成鮮明的對(duì)比，意味著我們的理性思維就是把我們與其他所有生物區(qū)分開的東西。

　　我們因此在認(rèn)知上有了偏見，要求技術(shù)和方法由邏輯機(jī)器驅(qū)動(dòng)。這就是 Good Old Fashioned AI (GOFAI) 在過(guò)去幾十年間失敗的原因，它從一開始就試圖通過(guò)邏輯范式來(lái)解決智力問(wèn)題。

　　一個(gè)關(guān)于直覺的機(jī)器的反直覺的預(yù)想就是“邏輯思維如何從直覺機(jī)器中產(chǎn)生呢?”自 2012 年以來(lái)，我們已經(jīng)見證了深度學(xué)習(xí)技術(shù)令以難以置信的進(jìn)步。深度學(xué)習(xí)網(wǎng)絡(luò)就是直覺機(jī)器。深度學(xué)習(xí)網(wǎng)絡(luò)通過(guò)歸納來(lái)進(jìn)行推理或者作出預(yù)測(cè)。深度學(xué)習(xí)系統(tǒng)已經(jīng)能夠執(zhí)行通常保留給生物大腦的任務(wù)了。已知對(duì)于傳統(tǒng)計(jì)算來(lái)說(shuō)難以進(jìn)行的任務(wù)，例如面部和語(yǔ)音識(shí)別，可以由這些機(jī)器以超越人類的水平執(zhí)行。

　　然而，深度學(xué)習(xí)網(wǎng)絡(luò)無(wú)法執(zhí)行長(zhǎng)除法等邏輯任務(wù)。人們不應(yīng)該指望能夠教導(dǎo)一個(gè)動(dòng)物(比如你的寵物狗)加減，更不用說(shuō)乘法。然而，人類的大腦卻可以執(zhí)行各類這樣的邏輯問(wèn)題。我們不得不問(wèn)，洞穴人能做乘法嗎?我們是天生就具備先進(jìn)的邏輯認(rèn)知能力，還是說(shuō)那是我們作為先進(jìn)文明的結(jié)果而學(xué)到的能力?

　　要實(shí)現(xiàn)更一般化的人工智能需要跨越的巨大鴻溝就是所謂的“語(yǔ)義鴻溝”。我們要如何將深度學(xué)習(xí)(低階語(yǔ)義)系統(tǒng)與邏輯(高階語(yǔ)義)系統(tǒng)的能力融合在一起?

　　人類思維能夠發(fā)揮邏輯推理的偉大功績(jī)。如果我們的思維機(jī)器都是基于直覺的，那么它是如何做到這一點(diǎn)的呢?我要在這里假設(shè)我們沒有任何天生的邏輯裝置。在我們已經(jīng)存在于這個(gè)星球上的短時(shí)間內(nèi)，現(xiàn)代智人不大可能發(fā)展出這種認(rèn)知機(jī)制。因此，為了消除語(yǔ)義鴻溝，我們需要使用只基于直覺的機(jī)制來(lái)彌合。這意味著我們不需要將邏輯組件與直覺組件進(jìn)行融合。我們所需要一切的就只是直覺組件。

　　因此我們需要充分的證據(jù)來(lái)證明，復(fù)雜的邏輯思想可以通過(guò)直覺機(jī)器來(lái)完成。

　　這才是 AlphaZero 革命性的啟示。AlphaZero 是 DeepMinds Go play 程序的最新版本。我之前介紹過(guò) AlphaGoZero 如何可以從零開始掌握圍棋的玩法(不需要人類的經(jīng)驗(yàn))。西方人從來(lái)沒有玩過(guò)圍棋的游戲，根本就不理解它。所以 DeepMind 的 AlphaGoZero 成就的相關(guān)性已經(jīng)被消除了。我們不明白這個(gè)成就的重要性。然而，圍棋一直被認(rèn)為是一個(gè)直覺游戲。所以一個(gè)基于直覺的機(jī)器掌握了這項(xiàng)游戲并不令人驚訝。

　　什么?DeepMind 的新化身(AlphaZero)卻能做的就是玩國(guó)際象棋?這對(duì)很多人來(lái)說(shuō)仍沒有什么令人驚訝的，自 1996 年 IBM 的 DeepBlue 擊敗卡斯帕羅夫以來(lái)，這個(gè)游戲就被“解決”了。對(duì)于外行來(lái)說(shuō)，AlphaZero 只花了幾個(gè)小時(shí)就能從頭開始掌握國(guó)際象棋游戲也沒什么值得注意的。甚至 AlphaZero 在 100 場(chǎng)比賽中能夠摧毀最好的國(guó)際象棋程序 Stockfish 也并不值得注意。

　　真正了不起的是 AlphaZero 在消解更合乎邏輯的對(duì)手方面所起的作用。為了讓你理解，我會(huì)引用一些象棋社區(qū)的評(píng)價(jià)。

　　它接近“類型 B”，按照克勞德·香農(nóng)和艾倫·圖靈的夢(mèng)想，用類似于人類的方法來(lái)下棋，而不是蠻橫的力量。

　　—?Gary Kasparov.

　　我總是在想，如果有一個(gè)超級(jí)先進(jìn)的物種降落在地球上并向我們展示他們?nèi)绾蜗缕澹菍⑹窃鯓拥那闆r?，F(xiàn)在我覺得我知道了。

　　—?Peter Heine Nielsen

　　它的棋路不像人類，但也不像程序。它以第三種方式，可以說(shuō)是外星人的方式下棋。

　　?—?Demis Hassabis(DeepMind 創(chuàng)始人，國(guó)際象棋愛好者)

　　對(duì)于那些了解國(guó)際象棋的玩家來(lái)說(shuō)，最好的辦法就是觀看 AlphaZero 和 Stockfish 的實(shí)戰(zhàn)。你會(huì)看到的是一個(gè)基于直覺的系統(tǒng)如何拆解基于邏輯的對(duì)手。以下是游戲及專家評(píng)論：

　　AlphaZero 國(guó)際象棋的走法非常不同。為了獲得優(yōu)勢(shì)超過(guò)對(duì)手的位置，它愿意犧牲一些棋子。它正在發(fā)揮一種國(guó)際象棋柔道，利用對(duì)手的對(duì)短期利益的熱切渴望來(lái)對(duì)抗它。它將對(duì)手置于國(guó)際象棋中稱為“被迫強(qiáng)制”的地位，無(wú)論如何走動(dòng)都只會(huì)導(dǎo)致更糟糕的結(jié)果。

　　國(guó)際象棋的游戲似乎更具整體性，所有棋子都以高度協(xié)調(diào)的方式移動(dòng)。AlphaGo zero 所進(jìn)行的游戲最大限度地發(fā)揮了它的創(chuàng)造力，而它的邏輯對(duì)手無(wú)法超脫短期收益。它不僅在用一種不可想象的方式來(lái)玩國(guó)際象棋，而且這種方式將被置于令所有人驚嘆的位置上。

　　關(guān)于 AlphaZero 的論文在最近結(jié)束的 NIPS 2017 大會(huì)上發(fā)表。那是一篇很短的論文，主體部分只有 7 頁(yè)長(zhǎng)。它提供了廣泛的關(guān)于如何評(píng)估棋盤上的落子位置和決定下一步走法的有趣的細(xì)節(jié)。

　　和 Stockfish 每秒搜索 7 千萬(wàn)位置相比，AlphaZero 每秒只搜索 8 萬(wàn)個(gè)位置。

　　直覺機(jī)器使用的評(píng)估比邏輯對(duì)手少 1,000 倍。

　　你在這里與 AlphaZero 共同見證的是對(duì)我關(guān)于直覺機(jī)器和他們執(zhí)行邏輯推理的能力的原始論證的驗(yàn)證。這是被鏈接的語(yǔ)義鴻溝。這是一個(gè)極其艱巨的通用人工智能的里程碑正在以創(chuàng)紀(jì)錄的速度被超越。我想 AI 界的任何人都期望這樣的進(jìn)展能夠迅速地實(shí)現(xiàn)。現(xiàn)在這樣的事情已經(jīng)發(fā)生了，人工智能的風(fēng)景將被永遠(yuǎn)改變。

新聞中心

“全能棋王”AlphaZero 背后的真正啟示：直覺是如何戰(zhàn)勝邏輯的

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)