麻將AI算法能用于投資預測？微軟揭秘如何研發(fā)

作者：時間：2020-07-12 來源：每日經濟新聞

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

去年，時任微軟全球執(zhí)行副總裁沈向洋在2019世界人工智能大會上宣布，微軟亞洲研究院開發(fā)出了世界上最強的“麻將AI”——Suphx，并在國際知名專業(yè)麻將平臺“天鳳”上榮升十段，其實力超越該平臺公開房間頂級人類選手的平均水平。

本文引用地址：http://www.butianyuan.cn/article/202007/415461.htm

游戲是人工智能算法研究的重要試驗田，其環(huán)境的復雜性和信息的不確定性是機器學習的最佳訓練場。

那么麻將AI到底有哪些難點？Suphx在游戲AI領域的跨越性突破具體是如何實現(xiàn)的？麻將AI落地的最終目的又是什么？在2020世界人工智能大會上，《每日經濟新聞》記者嘗試從微軟亞洲研究院方面找到答案。

用麻將AI破譯非完美信息博弈

微軟亞洲研究院副院長潘天佑向記者表示：“大家都知道下圍棋的AlphaGo，牌類游戲相對棋類來說更為困難，而牌類游戲中最復雜的就是中國人的麻將，麻將中蘊含太多不確定因素，但我們的研究員就接受了這樣的挑戰(zhàn)?！?/p>

微軟亞洲研究院副院長劉鐵巖和他的團隊是麻將AI算法的開創(chuàng)者。

“想要訓練AI，把麻將真正打好是一件很困難的事情。”劉鐵巖表示，象棋和圍棋雖然看起來很難，但其實都是完美信息博弈，也就是說對手的所有信息我們都一覽無余。這種情況下，AI可以通過它強大的計算力來枚舉各種可能性，從而找到制勝的策略。

而麻將則完全不同，充滿了隨機性和不確定性。首先玩家只知道自己手里的13張牌和之前打出去的牌，卻無法知道別人的手牌和沒有翻出來的底牌。牌局中存在著大量不可知的隱藏信息，因此麻將屬于非完美信息博弈。

“海量不可見的隱藏信息使得AI很難挖掘出從已知牌面到最優(yōu)策略之間的邏輯鏈路，在非完美信息博弈中，麻將屬于非常復雜的類型?！眲㈣F巖舉了一個例子，麻將牌有136張，在開局時的排列組合是6人德州撲克的10的90次方倍；開局后一個玩家的手牌確定了，但他看不到其他三個玩家的手牌，這些隱藏信息有高達10的48次方種可能。

巨大的狀態(tài)空間和隱藏信息及其帶來的不確定性使AI模型很難使用傳統(tǒng)的蒙特卡羅數(shù)搜索算法。劉鐵巖表示，但從另一角度而言，一旦成功可能會讓AI具備前輩們沒有的新智能。

“微軟亞洲研究院的研究員是一群好奇心很強的人，在這種好奇心的驅動下，我們不斷探索未知，尋求答案，因此決定通過麻將AI來破解非完美信息博弈?！蔽④泚喼扪芯吭菏紫芯繂T秦濤表示，團隊采用的是基于強化學習的自我博弈技術，使得AI能夠自我學習，自我提高。

目的是解決高度復雜的現(xiàn)實問題

棋盤游戲是人類智能的體現(xiàn)，游戲AI成為機器智能尋找突破的陣地。在過去的30年里，AI在象棋、圍棋等游戲中都逐步戰(zhàn)勝了人類。但AI真的已經如此聰明了嗎？

秦濤說：“可能大家不太相信，其實我們這幫研究員都是麻將菜鳥。但是我們也能訓練出非常厲害的麻將AI?！?/p>

在訓練過程中，劉鐵巖團隊利用隱藏的信息，從“上帝視角”對Suphx進行了線下指導?！罢且驗橛刑嗟碾[藏信息，所以我們引入了一個‘上帝視角’，它知道所有的完美信息，可以利用這個完美信息下的最優(yōu)打法來指導Suphx的學習過程。另一方面，完美信息也可以告訴AI，一個牌局的輸贏是因為打得好，還是因為牌面的運氣好，這樣可以提供更有效的學習方向?！?/p>

經過一段時間的線下訓練，Suphx可以在專業(yè)麻將平臺與人類玩家進行線上實戰(zhàn)，實戰(zhàn)中因為手牌和底牌千變萬化，因此Suphx也需要隨機應變。于是，劉鐵巖團隊又提出了動態(tài)自適應技術，使得Suphx能夠在牌局中隨時調整策略，決定何時進攻何時防守，提高勝算。

在微軟亞洲研究院看來，麻將AI不是為了在麻將桌上打敗人類，而是讓人類從另一個角度來看待世界，比如解決問題的全新思路，增強人類智能。就像AI在打麻將時，面對著巨大的不可知信息，我們的生活也會在隨時出現(xiàn)突發(fā)情況或黑天鵝事件。從這個意義上講，麻將比任何棋牌都要更加接近真實世界。

潘天佑表示，“這種機器學習的技術可以應用在更多現(xiàn)實場景中，例如我們將先知教練的算法應用在AI投資領域，場景上和麻將也是有類似之處的，都具有相當豐富的隱藏信息”。

“我們希望AI在非完美信息博弈領域的突破，有助于解決高度復雜的現(xiàn)實問題，幫助人類應對更多更大的挑戰(zhàn)。”劉鐵巖說道。