人類如何向AlphaGo學(xué)習(xí)出人頭地?
作者 高煥堂 臺(tái)灣VR產(chǎn)業(yè)聯(lián)盟主席、廈門VR/AR榮譽(yù)會(huì)長(zhǎng)兼總顧問(wèn)
本文引用地址:http://butianyuan.cn/article/201804/379049.htm在當(dāng)今AI潮流下,企業(yè)和年輕人,如何出人頭地呢? AI機(jī)器人AlphaGo打敗天下無(wú)敵手,已經(jīng)出人頭地了。人們何不向AlphaGo(及AlphaGo Zero)學(xué)習(xí)呢?
因?yàn)锳lphaGo懂得如何征服自己面對(duì)的巨大不確定性棋局,因而超越了人類頂尖高手。學(xué)習(xí)AlphaGo如何探索機(jī)會(huì)之后,創(chuàng)客就懂得了如何面對(duì)AI的不確定市場(chǎng)。企業(yè)就像AlphaGo一樣,可以超越頂尖的人類競(jìng)爭(zhēng)對(duì)手,出人頭地了。
傳統(tǒng)上,人類的學(xué)習(xí)偏重于“利用”所學(xué)的知識(shí),去發(fā)揮所長(zhǎng),解決問(wèn)題。如果人類(如創(chuàng)客)能從AI強(qiáng)化學(xué)習(xí)得到啟示,強(qiáng)化探索能力,則人人能探索更多可能,得到更多機(jī)會(huì),如圖1所示。
在高度不確定性的環(huán)境里,唯有懂得降低風(fēng)險(xiǎn),才敢大膽探索、提高勝率。一旦你選擇了創(chuàng)客/創(chuàng)業(yè)之路,若能向它學(xué)會(huì)探索機(jī)會(huì)的方法,將會(huì)協(xié)助你在創(chuàng)業(yè)路途上心想事成,鴻圖大展。
1 強(qiáng)化學(xué)習(xí):探索和利用之間找到平衡
強(qiáng)化學(xué)習(xí)(Reinforcement Learning)的算法又稱為近似動(dòng)態(tài)規(guī)劃(approximate dynamic programming,簡(jiǎn)稱ADP)。它在探索(在未知的領(lǐng)域)和利用(現(xiàn)有知識(shí))之間找到平衡。探索就是嘗試以前從未想過(guò)或做過(guò)的事情,以求獲得更高的報(bào)酬。利用就是做當(dāng)前條件下能產(chǎn)生最大回報(bào)的事情。
例如,假設(shè)在你家的附近有十個(gè)餐館,到目前為止,你只在其中的八家餐館吃過(guò)飯,了解了這八家餐館中哪家是最好吃的。如果有一天,你的女朋友來(lái)看你,你想請(qǐng)她去最棒的餐館晚餐。請(qǐng)問(wèn)您會(huì)如何選擇餐館呢?在這個(gè)例子里,利用就意味著你帶她去所知道的八家中最好吃餐館;而探索則是帶她去你從沒(méi)吃過(guò)的第九家或第十家餐館晚餐。
如果你選擇八家中最好吃的餐館,那么,也許第九家或第十家比這八家都好吃呢?反之,如果你選擇第九家或第十家,也許這兩家也可能比那八家都難吃。
那么,你該如何選擇呢?這就是“探索-利用”困境。強(qiáng)化學(xué)習(xí)更接近生物學(xué)習(xí)的本質(zhì),一個(gè)標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)算法必然要包括探索和利用,強(qiáng)化學(xué)習(xí)更接近生物學(xué)習(xí)的本質(zhì)。
谷歌的專家們(即人類老師)已經(jīng)把這種“探索和利用”平衡的技巧(算法)教給了AlphaGo(機(jī)器學(xué)生),讓AlphaGo(及AlphaGo Zero)超越了人類的圍棋頂尖高手。
傳統(tǒng)的人類學(xué)習(xí)是學(xué)以致用(利用所學(xué))為依歸,由于常常受限于現(xiàn)有知識(shí),無(wú)論是人類或機(jī)器學(xué)生都只能得到區(qū)域最優(yōu),如圖2所示。
因此,無(wú)論是機(jī)器學(xué)生或人類學(xué)生,一旦具有強(qiáng)化學(xué)習(xí)能力,都能大大提升其探索未知機(jī)會(huì)的能力,有信心去探索更大的狀態(tài)空間,從而得到全局最優(yōu),讓學(xué)生們成為AI時(shí)代的大贏家,人人能探索更多可能,也捕捉到更多好機(jī)會(huì)。
2 懂得避風(fēng)險(xiǎn),才敢大膽探索、才有熱情創(chuàng)新
大膽探索的同時(shí),必須要有效降低風(fēng)險(xiǎn)。這是AI時(shí)代人類可以向機(jī)器學(xué)習(xí)的重要一課。AI強(qiáng)化學(xué)習(xí)已經(jīng)把這種“探索-利用”最佳平衡的算法效益發(fā)揮出來(lái),然而需要搭配一種降低風(fēng)險(xiǎn)的策略。AlphaGo的目標(biāo)總是將獲勝機(jī)率最大化放在第一位,它會(huì)透過(guò)尋找確定的搜索途徑實(shí)現(xiàn)最低風(fēng)險(xiǎn)的獲勝機(jī)會(huì)。例如,AlphaGo的行為會(huì)傾向?yàn)榱巳俣艞壐嘹A子數(shù),只為了降低不能取勝的風(fēng)險(xiǎn)。
AlphaGo的蒙地卡羅算法給出的是搜索之后的勝率評(píng)估,然后AI會(huì)根據(jù)這個(gè)勝率來(lái)選擇落子點(diǎn)。懂得避免風(fēng)險(xiǎn),才敢大膽探索、熱情創(chuàng)新。因而,AlphaGo能在高度不確定性的圍棋棋局中超越人類高手。俗語(yǔ)說(shuō),商場(chǎng)如戰(zhàn)場(chǎng),它們都跟圍棋競(jìng)賽一樣具有高度的不確定性。因而人們(如企業(yè)家)可以從AlphaGo學(xué)會(huì)如何在商場(chǎng)上,善于面對(duì)如圍棋棋局中高度不確定性的市場(chǎng)環(huán)境,超越其他競(jìng)爭(zhēng)者!
3 與不確定性共舞(Living with uncertainty)
向AlphaGo學(xué)習(xí),有助于提升人們(如學(xué)生)的避風(fēng)險(xiǎn)能力和信心,以便更具備創(chuàng)新精神。就如同,下述這句名言:
“When you focus on problems,you’ll have more problems. When you focus on possibilities,you’ll have more opportunities.”(當(dāng)你專注于問(wèn)題時(shí),您就會(huì)有更多的問(wèn)題;當(dāng)您專注于可能性時(shí),您就會(huì)有更多的機(jī)會(huì)。)
當(dāng)人們一直專注于問(wèn)題時(shí),是基于過(guò)去經(jīng)驗(yàn),評(píng)估具有現(xiàn)實(shí)條件支撐,力求化解問(wèn)題或避免問(wèn)題發(fā)生的或然性(probability),在心中逐漸萌生具有高度的明確感。這種通過(guò)或然性思維而得到地明確感稱為或然性明確感。
大家都知道,當(dāng)面對(duì)不確定情況時(shí),人們總是需要明確感才會(huì)安心。大多數(shù)人習(xí)慣于或然性思維,一直專注于問(wèn)題,力求化解問(wèn)題或避免問(wèn)題發(fā)生的或然性。于是,在心中逐漸萌生具有高度安心的明確感
這種或然性思維得到的明確感稱為或然性明確感,但是,常常會(huì)基于經(jīng)驗(yàn)和現(xiàn)實(shí)而過(guò)濾掉機(jī)率小的可能方案,而失去許多機(jī)會(huì)。
可能性明確感試圖涵蓋未來(lái)各種可能的機(jī)會(huì),避免基于經(jīng)驗(yàn)和現(xiàn)實(shí)而過(guò)濾掉或機(jī)率小的可能方案。然后,逐步探索經(jīng)驗(yàn)和現(xiàn)實(shí)進(jìn)行否證而去蕪存菁,逐漸提升心中的明確感。即面對(duì)復(fù)雜和新的未知世界,培養(yǎng)先容納內(nèi)心的不確定性,規(guī)劃方案并采取行動(dòng)試驗(yàn)(試錯(cuò)),逐漸提升明確性和信心。
可能性意味著或然性很小的事件,有人稱之為“黑天鵝”。它的出現(xiàn),初期并不起眼,經(jīng)過(guò)一段時(shí)間,逐漸產(chǎn)生乘數(shù)效果的巨大效應(yīng)。為什么會(huì)是“當(dāng)你專注于可能性時(shí),你就會(huì)有更多的機(jī)會(huì)”呢? 因?yàn)樯鲜龅囊欢螘r(shí)間是一項(xiàng)寶貴的資產(chǎn),例如,張榮發(fā)先生也是洞悉到物流集裝箱(黑天鵝)而獲得寶貴時(shí)間,并且預(yù)做準(zhǔn)備,因而獲得更多機(jī)會(huì)。而后來(lái)才進(jìn)入的競(jìng)爭(zhēng)者,就因缺乏時(shí)間資源而失去競(jìng)爭(zhēng)力。
大多數(shù)人習(xí)慣于或然性思維者,他們常常成為失去寶貴時(shí)間的后知后覺者,因?yàn)樗麄儠?huì)覺得黑天鵝,還沒(méi)普及流行,尚未成氣候。這種面對(duì)不確定,逐步提升心中的明確感,通稱為與不確定性共舞。人們總是需要明確感才會(huì)安心?;蛉恍悦鞔_感與可能性明確感,其目的是一致的:滿足內(nèi)心所需的明確感。只是手段不同而已。
例如,一只小獅子肚子餓了,依據(jù)成功經(jīng)驗(yàn)奮力去追兔子,只是捕獲的兔子日漸減少(可能兔子變敏感了),有些困惑(明確感降低)。這只小獅子的媽媽就教他:肚子餓了,就閉上眼睛睡大覺,不要亂跑。小獅子滿腦困惑,不確定感急速上升,非常不安。但母命難違,只好勉強(qiáng)為之,果然耳朵變靈敏了,清晰地聽見兔子聲音越來(lái)越近,然后猛然奔出一抓,輕易捕獲,飽餐一頓,繼續(xù)睡大覺。
君不見,身為野獸之王的雄獅、母獅,常??此葡胨X的表情,真是“總裁獅子心”呀! 小獅子專注于問(wèn)題(如肚子餓了),卻引來(lái)更多的問(wèn)題(如追累了,走不動(dòng),引來(lái)生命危險(xiǎn))。媽媽教小獅子不要圍繞問(wèn)題,而專注于可能性(如原來(lái)以為兔子不可能自動(dòng)送上門),反而發(fā)現(xiàn)更多的機(jī)會(huì)(如更容易填飽肚子的新途徑)。
4 結(jié)論
從AlphaGo下圍棋可以發(fā)現(xiàn),在面對(duì)高度不確定性的環(huán)境時(shí),它懂得專注于可能性,探索更多機(jī)會(huì),獲得全局最優(yōu)而出人頭地。人類可以從AlphaGo學(xué)習(xí)到與不確定性共舞的能力,就會(huì)如同小獅子一般,探索到更多贏家之道。
參考文獻(xiàn):
[1] 高煥堂. VR內(nèi)容、素材及其行業(yè)應(yīng)用[J].電子產(chǎn)品世界, 2016(11):88.
[2]王瑩.人工智能的進(jìn)展及發(fā)展建議[J].電子產(chǎn)品世界, 2017(2-3):23-26.
[3]王瑩,王金旺.異構(gòu)計(jì)算帶來(lái)AI視覺新突破[J].電子產(chǎn)品世界, 2017(7):28-29.
本文來(lái)源于《電子產(chǎn)品世界》2018年第5期第76頁(yè),歡迎您寫論文時(shí)引用,并注明出處。
評(píng)論