“全能棋王”AlphaZero 背后的真正啟示:直覺(jué)是如何戰(zhàn)勝邏輯的
現(xiàn)代文明和科技已經(jīng)使得我們的直覺(jué)不斷退化。絕大多數(shù)人都沒(méi)有意識(shí)到直覺(jué)的價(jià)值甚至沒(méi)有意識(shí)到它的存在。作為復(fù)雜計(jì)算的基礎(chǔ),直覺(jué)是一種很容易被忽視的非常規(guī)方法。這種非常規(guī)性使得許多研究人員忽視它的潛力。
本文引用地址:http://butianyuan.cn/article/201712/373152.htm我在人工智能領(lǐng)域所做的工作圍繞“先進(jìn)的認(rèn)知機(jī)器將使用直覺(jué)作為其智力基礎(chǔ)”這一想法。我們?nèi)祟惖乃枷霝橐话慊闹橇μ峁┝顺渥愕淖C據(jù)。人類本質(zhì)上是直覺(jué)機(jī)器,而我們理性(和自覺(jué))的自我只是基于直覺(jué)的機(jī)器之上的一個(gè)模擬。這與笛卡爾的名言“我思故我在”形成鮮明的對(duì)比,意味著我們的理性思維就是把我們與其他所有生物區(qū)分開的東西。
我們因此在認(rèn)知上有了偏見(jiàn),要求技術(shù)和方法由邏輯機(jī)器驅(qū)動(dòng)。這就是 Good Old Fashioned AI (GOFAI) 在過(guò)去幾十年間失敗的原因,它從一開始就試圖通過(guò)邏輯范式來(lái)解決智力問(wèn)題。
一個(gè)關(guān)于直覺(jué)的機(jī)器的反直覺(jué)的預(yù)想就是“邏輯思維如何從直覺(jué)機(jī)器中產(chǎn)生呢?”自 2012 年以來(lái),我們已經(jīng)見(jiàn)證了深度學(xué)習(xí)技術(shù)令以難以置信的進(jìn)步。深度學(xué)習(xí)網(wǎng)絡(luò)就是直覺(jué)機(jī)器。深度學(xué)習(xí)網(wǎng)絡(luò)通過(guò)歸納來(lái)進(jìn)行推理或者作出預(yù)測(cè)。深度學(xué)習(xí)系統(tǒng)已經(jīng)能夠執(zhí)行通常保留給生物大腦的任務(wù)了。已知對(duì)于傳統(tǒng)計(jì)算來(lái)說(shuō)難以進(jìn)行的任務(wù),例如面部和語(yǔ)音識(shí)別,可以由這些機(jī)器以超越人類的水平執(zhí)行。
然而,深度學(xué)習(xí)網(wǎng)絡(luò)無(wú)法執(zhí)行長(zhǎng)除法等邏輯任務(wù)。人們不應(yīng)該指望能夠教導(dǎo)一個(gè)動(dòng)物(比如你的寵物狗)加減,更不用說(shuō)乘法。然而,人類的大腦卻可以執(zhí)行各類這樣的邏輯問(wèn)題。我們不得不問(wèn),洞穴人能做乘法嗎?我們是天生就具備先進(jìn)的邏輯認(rèn)知能力,還是說(shuō)那是我們作為先進(jìn)文明的結(jié)果而學(xué)到的能力?
要實(shí)現(xiàn)更一般化的人工智能需要跨越的巨大鴻溝就是所謂的“語(yǔ)義鴻溝”。我們要如何將深度學(xué)習(xí)(低階語(yǔ)義)系統(tǒng)與邏輯(高階語(yǔ)義)系統(tǒng)的能力融合在一起?
人類思維能夠發(fā)揮邏輯推理的偉大功績(jī)。如果我們的思維機(jī)器都是基于直覺(jué)的,那么它是如何做到這一點(diǎn)的呢?我要在這里假設(shè)我們沒(méi)有任何天生的邏輯裝置。在我們已經(jīng)存在于這個(gè)星球上的短時(shí)間內(nèi),現(xiàn)代智人不大可能發(fā)展出這種認(rèn)知機(jī)制。因此,為了消除語(yǔ)義鴻溝,我們需要使用只基于直覺(jué)的機(jī)制來(lái)彌合。這意味著我們不需要將邏輯組件與直覺(jué)組件進(jìn)行融合。我們所需要一切的就只是直覺(jué)組件。
因此我們需要充分的證據(jù)來(lái)證明,復(fù)雜的邏輯思想可以通過(guò)直覺(jué)機(jī)器來(lái)完成。
這才是 AlphaZero 革命性的啟示。AlphaZero 是 DeepMinds Go play 程序的最新版本。我之前介紹過(guò) AlphaGoZero 如何可以從零開始掌握圍棋的玩法(不需要人類的經(jīng)驗(yàn))。西方人從來(lái)沒(méi)有玩過(guò)圍棋的游戲,根本就不理解它。所以 DeepMind 的 AlphaGoZero 成就的相關(guān)性已經(jīng)被消除了。我們不明白這個(gè)成就的重要性。然而,圍棋一直被認(rèn)為是一個(gè)直覺(jué)游戲。所以一個(gè)基于直覺(jué)的機(jī)器掌握了這項(xiàng)游戲并不令人驚訝。
什么?DeepMind 的新化身(AlphaZero)卻能做的就是玩國(guó)際象棋?這對(duì)很多人來(lái)說(shuō)仍沒(méi)有什么令人驚訝的,自 1996 年 IBM 的 DeepBlue 擊敗卡斯帕羅夫以來(lái),這個(gè)游戲就被“解決”了。對(duì)于外行來(lái)說(shuō),AlphaZero 只花了幾個(gè)小時(shí)就能從頭開始掌握國(guó)際象棋游戲也沒(méi)什么值得注意的。甚至 AlphaZero 在 100 場(chǎng)比賽中能夠摧毀最好的國(guó)際象棋程序 Stockfish 也并不值得注意。
真正了不起的是 AlphaZero 在消解更合乎邏輯的對(duì)手方面所起的作用。為了讓你理解,我會(huì)引用一些象棋社區(qū)的評(píng)價(jià)。
它接近“類型 B”,按照克勞德·香農(nóng)和艾倫·圖靈的夢(mèng)想,用類似于人類的方法來(lái)下棋,而不是蠻橫的力量。
—?Gary Kasparov.
我總是在想,如果有一個(gè)超級(jí)先進(jìn)的物種降落在地球上并向我們展示他們?nèi)绾蜗缕?,那將是怎樣的情況?,F(xiàn)在我覺(jué)得我知道了。
—?Peter Heine Nielsen
它的棋路不像人類,但也不像程序。它以第三種方式,可以說(shuō)是外星人的方式下棋。
?—?Demis Hassabis(DeepMind 創(chuàng)始人,國(guó)際象棋愛(ài)好者)
對(duì)于那些了解國(guó)際象棋的玩家來(lái)說(shuō),最好的辦法就是觀看 AlphaZero 和 Stockfish 的實(shí)戰(zhàn)。你會(huì)看到的是一個(gè)基于直覺(jué)的系統(tǒng)如何拆解基于邏輯的對(duì)手。以下是游戲及專家評(píng)論:
AlphaZero 國(guó)際象棋的走法非常不同。為了獲得優(yōu)勢(shì)超過(guò)對(duì)手的位置,它愿意犧牲一些棋子。它正在發(fā)揮一種國(guó)際象棋柔道,利用對(duì)手的對(duì)短期利益的熱切渴望來(lái)對(duì)抗它。它將對(duì)手置于國(guó)際象棋中稱為“被迫強(qiáng)制”的地位,無(wú)論如何走動(dòng)都只會(huì)導(dǎo)致更糟糕的結(jié)果。
國(guó)際象棋的游戲似乎更具整體性,所有棋子都以高度協(xié)調(diào)的方式移動(dòng)。AlphaGo zero 所進(jìn)行的游戲最大限度地發(fā)揮了它的創(chuàng)造力,而它的邏輯對(duì)手無(wú)法超脫短期收益。它不僅在用一種不可想象的方式來(lái)玩國(guó)際象棋,而且這種方式將被置于令所有人驚嘆的位置上。
關(guān)于 AlphaZero 的論文在最近結(jié)束的 NIPS 2017 大會(huì)上發(fā)表。那是一篇很短的論文,主體部分只有 7 頁(yè)長(zhǎng)。它提供了廣泛的關(guān)于如何評(píng)估棋盤上的落子位置和決定下一步走法的有趣的細(xì)節(jié)。
和 Stockfish 每秒搜索 7 千萬(wàn)位置相比,AlphaZero 每秒只搜索 8 萬(wàn)個(gè)位置。
直覺(jué)機(jī)器使用的評(píng)估比邏輯對(duì)手少 1,000 倍。
你在這里與 AlphaZero 共同見(jiàn)證的是對(duì)我關(guān)于直覺(jué)機(jī)器和他們執(zhí)行邏輯推理的能力的原始論證的驗(yàn)證。這是被鏈接的語(yǔ)義鴻溝。這是一個(gè)極其艱巨的通用人工智能的里程碑正在以創(chuàng)紀(jì)錄的速度被超越。我想 AI 界的任何人都期望這樣的進(jìn)展能夠迅速地實(shí)現(xiàn)。現(xiàn)在這樣的事情已經(jīng)發(fā)生了,人工智能的風(fēng)景將被永遠(yuǎn)改變。
評(píng)論