新聞中心

EEPW首頁(yè) > 業(yè)界動(dòng)態(tài) > 【E課堂】一文帶你了解谷歌AlphaGo是怎樣煉成的?

【E課堂】一文帶你了解谷歌AlphaGo是怎樣煉成的?

作者: 時(shí)間:2017-04-11 來(lái)源:網(wǎng)易智能 收藏

  李世石對(duì)戰(zhàn)慘敗之后,期待中國(guó)選手柯潔為人類(lèi)圍棋而戰(zhàn)的呼聲就越來(lái)越高,從未停止!

本文引用地址:http://butianyuan.cn/article/201704/346432.htm

  如今,柯潔終于來(lái)到舞臺(tái)中央,將于5月23日-27日在中國(guó)烏鎮(zhèn)圍棋峰會(huì)與一戰(zhàn)高下!屆時(shí),與世界排名第一的柯潔將完成三番棋對(duì)弈,此次比賽除了AlphaGo與柯潔的世紀(jì)對(duì)戰(zhàn)之外,還會(huì)采用團(tuán)隊(duì)賽、配對(duì)賽的多種形式,中國(guó)圍棋代表隊(duì)其他成員也將參與。那么,AlphaGo究竟是什么?它是如何煉成的?網(wǎng)易智能帶您一一解讀。

  歡迎參與投票對(duì)于這次人機(jī)大戰(zhàn),你看好柯潔還是AlphaGo

  毫無(wú)懸念!AlphaGo穩(wěn)贏。

  柯潔水平高超,我認(rèn)為柯潔贏。

  一半一半吧,我還沒(méi)想好。 查看結(jié)果起止時(shí)間:2017-04-10 至 2017-04-17

  AlphaGo是什么?

  AlphaGo是第一個(gè)擊敗人類(lèi)職業(yè)圍棋選手,第一個(gè)戰(zhàn)勝世界冠軍的程序,是圍棋史上最具實(shí)力的選手之一。2016年3月,在全世界超過(guò)一億觀眾的關(guān)注下,Alpha Go經(jīng)過(guò)3局對(duì)弈,最終以4比1的總比分戰(zhàn)勝了圍棋世界冠軍李世石,這場(chǎng)比賽成為了人工智能領(lǐng)域的一個(gè)重要里程碑。

  

一文帶你了解谷歌AlphaGo是怎樣煉成的?

 

  過(guò)去曾有專(zhuān)家預(yù)測(cè)人工智能需要十年的時(shí)間才有可能戰(zhàn)勝人類(lèi)職業(yè)選手,在這場(chǎng)比賽之后,AlphaGo憑借其"充滿創(chuàng)意而又機(jī)智"的下法,躋身圍棋界最高職業(yè)稱(chēng)號(hào)——職業(yè)九段行列,成為歷史上首個(gè)獲得這一榮譽(yù)的非人類(lèi)棋手。近期,AlphaGo的升級(jí)版本以“Master/Magister”的稱(chēng)謂與世界頂級(jí)的圍棋選手進(jìn)行60場(chǎng)線上快棋賽,并取得了全勝的出色戰(zhàn)績(jī)。

  AlphaGo是如何進(jìn)行訓(xùn)練的?

  一直以來(lái),圍棋就被認(rèn)為是傳統(tǒng)游戲中,對(duì)人工智能而言最具挑戰(zhàn)性的項(xiàng)目,這不僅僅是因?yàn)閲灏她嫶蟮乃阉骺臻g,更是因?yàn)閷?duì)于落子位置的評(píng)估難度已遠(yuǎn)運(yùn)超過(guò)了簡(jiǎn)単的啟發(fā)式算法。為了應(yīng)對(duì)圍棋的巨大復(fù)雜性,AlphaGo采用了一種新穎的機(jī)器學(xué)習(xí)技術(shù),結(jié)合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì),通過(guò)訓(xùn)練形成一個(gè)策略網(wǎng)絡(luò)(policy network),將棋盤(pán)上的局勢(shì)作為輸入信息,并對(duì)所有可行的落子位置生成一個(gè)概率分布。

  

一文帶你了解谷歌AlphaGo是怎樣煉成的?

 

  然后,訓(xùn)練出一個(gè)價(jià)值網(wǎng)絡(luò)(value network)對(duì)自我對(duì)弈進(jìn)行預(yù)測(cè),以-1(對(duì)手的絕對(duì)勝利)到1(AlphaGo的絕對(duì)勝利)的標(biāo)準(zhǔn),預(yù)測(cè)所有可行落子位置的結(jié)果。這兩個(gè)網(wǎng)絡(luò)自身都十分強(qiáng)大,而AlphaGo將這兩種網(wǎng)絡(luò)整合進(jìn)基于概率的蒙特卡羅樹(shù)搜索(NCTS)中,實(shí)現(xiàn)了它真正的優(yōu)勢(shì)。最后,新版的AlphaGo產(chǎn)生大量自我對(duì)弈棋局,為下一代版本提供了訓(xùn)練數(shù)據(jù),此過(guò)程循環(huán)往復(fù)。

  

一文帶你了解谷歌AlphaGo是怎樣煉成的?

 

  注意!此過(guò)程循環(huán)往復(fù),我們?nèi)祟?lèi)需要吃飯休息,而這個(gè)比你聰明的選手還比你勤奮!

  Alpha Go如何決定落子?

  

一文帶你了解谷歌AlphaGo是怎樣煉成的?

 

  

一文帶你了解谷歌AlphaGo是怎樣煉成的?

 

  在獲取棋局信息后,Alpha Go會(huì)根據(jù)策略網(wǎng)絡(luò)(policy network)探索哪個(gè)位置同時(shí)具備高潛在價(jià)值和高可能性,進(jìn)而決定最佳落子位置。在分配的搜索時(shí)間結(jié)束時(shí),模擬過(guò)程中被系統(tǒng)最頻繁考察的位置將成為Alpha Go的最終選擇。在經(jīng)過(guò)先期的全盤(pán)探索和過(guò)程中對(duì)最佳落子的不斷揣摩后,Alpha Go的搜索算法就能在其計(jì)算能力之上加入近似人類(lèi)的直覺(jué)判斷。



關(guān)鍵詞: 谷歌 AlphaGo

評(píng)論


相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉