DeepMind 打造 AI 游戲系統(tǒng)，可以玩****、國際象棋、圍棋等，戰(zhàn)斗力爆表

發(fā)布人：AI科技大本營時間：2021-12-15 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編譯 | 禾木木

出品 | AI科技大本營（ID:rgznai100）

谷歌母公司 Alphabet 的人工智能實驗室 DeepMind 長期以來一直投資于游戲人工智能系統(tǒng)。實驗室的理念是，游戲雖然缺乏明顯的商業(yè)應(yīng)用，但卻是認知和推理能力的獨特相關(guān)挑戰(zhàn)。這使它們成為 AI 進步的有用基準。

與此前開發(fā)的游戲系統(tǒng)不同，DeepMind 創(chuàng)建了一個名為 Player of Games 的系統(tǒng)，是第一個在完全信息游戲以及不完全信息游戲中都能實現(xiàn)強大性能的 AI 算法。與 DeepMind 之前開發(fā)的其他游戲系統(tǒng)，如國際象棋冠軍AlphaZero和星際爭霸 II 的 AlphaStar 不同，博弈者可以在完全信息游戲（例如中國圍棋和國際象棋）和不完全信息游戲（例如，****）中表現(xiàn)出色。

無論是解決交通擁堵問題的道路規(guī)劃，還是合同談判、與顧客溝通等互動任務(wù)，都要考慮和平衡人們的偏好，這與游戲策略非常相似。AI系統(tǒng)可能通過協(xié)調(diào)、合作和群體或組織之間的互動而獲益。像 Player of Games 這樣的系統(tǒng)，能推斷其他人的目標和動機，使其與他人成功合作。

不完全對完全

不完全信息游戲的信息在游戲過程中對玩家是隱藏的，相比之下，完全信息游戲在開始時會展示所有的信息。

要玩好完全的信息游戲，需要相當多的預(yù)見性和計劃。玩家必須處理他們在棋盤上看到的東西，并決定他們的對手可能會做什么，同時努力實現(xiàn)最終的勝利目標。不完全信息游戲則要求玩家考慮隱藏的信息，并思考下一步應(yīng)該如何行動才能獲勝，包括可能的虛張聲勢或組隊對抗對手。

DeepMind 稱，Player of Games是首個“通用且健全的搜索算法”，在完全和不完全的信息游戲中都實現(xiàn)了強大的性能。

Player of Games 有很強通用性，不過不是什么游戲都能玩。參與研究的DeepMind高級研究科學家馬丁·施密德（Martin Schmid）說，在完全信息游戲中，AlphaZero比Player of Games更強大，但在不完全的信息游戲中，就沒有那么厲害。系統(tǒng)需要考慮每個玩家在游戲中的所有可能觀點。雖然在完全信息游戲中只有一個視角，但在不完全信息游戲中可以有很多這樣的視角，例如，****大約有 2,000 個。此外，與 DeepMind AlphaZero 的繼任者 MuZero 不同，Player of Games 也需要了解它所玩的游戲規(guī)則，而 MuZero 可以即時掌握完全信息游戲的規(guī)則。

在其研究中，DeepMind 在國際象棋、圍棋、德州****和戰(zhàn)略棋盤游戲《蘇格蘭場》上的表現(xiàn)，評估了 Player of Games 使用谷歌 TPUv4 加速芯片組進行訓(xùn)練。對于圍棋，它在 AlphaZero 和 Player of Games 之間設(shè)置了 200 場比賽，而對于國際象棋，DeepMind 則讓 Player of Games 和 GnuGo、Pachi 和 Stockfish 以及 AlphaZero 在內(nèi)的頂級系統(tǒng)進行了較量。Player of Games 的德州****比賽使用公開可用的 Slumbot 進行，該算法還與 Joseph Antonius Maria Nijssen 開發(fā)的 PimBot 進行了蘇格蘭場的比賽。DeepMind 的合著稱為“PimBot”。

在國際象棋和圍棋中，Player of Games 被證明在某些配置中比 Stockfish 和 Pachi 更強大，并且它在對抗最強的 AlphaZero 系統(tǒng)時贏得了 0.5% 的比賽。盡管在對陣 AlphaZero 的比賽中損失慘重，但 DeepMind 認為 Player of Games 的表現(xiàn)達到了“頂級人類業(yè)余愛好者”的水平，甚至可能達到了職業(yè)水平。

結(jié)果顯示，Player of Games是一個更好的德州****和蘇格蘭場玩家。與Slumbot對戰(zhàn)時，該算法平均每hand贏得700萬個大盲注（mbb/hand），mbb/hand是每1000 hand贏得大盲注的平均數(shù)量。

同時在蘇格蘭場，DeepMind稱，盡管PimBot有更多機會搜索獲勝的招數(shù)，但Player of Games還是“顯著”擊敗了它。

未來

Schmid 相信 Player of Games 是向真正通用的游戲系統(tǒng)邁出的一大步。

實驗的總體趨勢是，隨著計算資源增加，該算法的性能會更好，Schmid 預(yù)計這種方法將在可預(yù)見的范圍內(nèi)擴展未來。

“人們會認為，受益于AlphaZero的應(yīng)用程序可能也會受益于游戲玩家。”他談道，“讓這些算法更加通用是一項令人興奮的研究。”

參考鏈接：

https://venturebeat.com/2021/12/08/deepmind-makes-bet-on-ai-system-that-can-play-poker-chess-go-and-more/

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。