ICML 2022 | 游戲AI學(xué)會見招拆招,騰訊AI Lab提出「對手建?!顾惴蚣蹽SCU
騰訊 AI Lab「絕藝」團隊提出了一套「對手建?!顾惴蚣?,在游戲場景中可針對當(dāng)前對手動態(tài)智能切換策略。
當(dāng)前業(yè)內(nèi)知名的競技游戲 AI,在與人對抗過程中往往采取固定的策略,這可能會帶來兩方面的性能損耗:[1] 如果這個 “固定” 策略有漏洞并且一旦被人發(fā)現(xiàn),那么這個漏洞就可以被一直復(fù)現(xiàn)。換句話說,采取固定策略的 AI 容易被人“套路”。[2] 采取固定策略的 AI 不能針對不同對手采取不同策略來獲取更高的收益。例如,在二人石頭 - 剪刀 - 布游戲中,如 AI 能針對有出剪刀傾向的對手多出石頭,針對有出石頭傾向的對手多出布,那么理論上 AI 能有更高的性能上限。
對此,騰訊 AI Lab「絕藝」團隊提出了一套 “對手建?!?算法框架,在游戲場景中可針對當(dāng)前對手動態(tài)智能切換策略,實現(xiàn)“見招拆招”。該方法在理論上和實際針對不同對手的實驗中都能取得更高的收益,相關(guān)工作已被機器學(xué)習(xí)頂會 ICML 2022 收錄。
論文鏈接:https://proceedings.mlr.press/v162/fu22b.html
這項工作的核心在于如何在多智能體系統(tǒng)中對其他智能體不可觀察的隱變量(例如策略,喜好,目標,等)進行建模,推測,并在此基礎(chǔ)上調(diào)整自己的決策。因此,該項工作對其他相關(guān)領(lǐng)域也有一定的借鑒意義,如人機協(xié)作,智能交通,金融分析等。尤其在人機協(xié)作環(huán)境中,如果 AI 能高效地推測人的習(xí)慣、喜好和目標,將大幅提升協(xié)作效率。
該項目團隊主要從事棋牌類 AI「絕藝」相關(guān)研究?!附^藝」自 2016 年面世后,已四次奪得世界頂級圍棋賽事冠軍,包括 UEC 杯、AI 龍星戰(zhàn)、騰訊世界人工智能圍棋大賽、世界智能圍棋公開賽等,并自 2018 年起無償擔(dān)任中國國家圍棋隊訓(xùn)練專用 AI。之前,團隊在 1v1 麻將場景提出全新策略優(yōu)化算法 ACH,已被 ICLR 2022 接收。
方法簡介
結(jié)合 Bandit 思想,本文作者提出一種新的對手建??蚣埽篏reedy when Sure and Conservative when Uncertain(GSCU)。GSCU 總體構(gòu)思在于:當(dāng)針對對手能獲得更高收益時,那么 AI 就采用一個實時計算的 “激進” 策略(Greedy Policy)來針對對手;反之,AI 采用一個離線計算好的,最壞情況最好的,“保守”策略(Conservative Policy)。如下圖所示,GSCU 包含兩個離線訓(xùn)練模塊,和一個在線測試模塊。
離線訓(xùn)練模塊一:對手策略 embedding 學(xué)習(xí)。該模塊嘗試學(xué)習(xí)一個 variational embedding 空間來表征任何一個可能的對手策略。該方法具體采用 Conditional Variational Autoencoder (CVAE)的架構(gòu):
就像經(jīng)典詞向量方法 Word2Vec 可以提升后續(xù)各種 NLP 任務(wù)的效率, 我們的策略 embedding 學(xué)習(xí)方法 Policy2Emb 也有望提升所有需要對 policy 做表征的相關(guān)任務(wù)。
本文策略 embedding 學(xué)習(xí)方法 Policy2Emb 與經(jīng)典詞向量方法 Word2Vec 的一個對照
離線訓(xùn)練模塊二:Conditional Reinforcement Learning (RL)。該模塊嘗試學(xué)習(xí)一個 conditional 策略,對于給定的一個對手策略的 embedding z,可以得到一個針對該對手的策略:
在線測試模塊:在線對手策略 embedding 估計,保守 & 激進策略切換。該模塊一方面嘗試在線估計當(dāng)前對手的策略 embedding,另一方面基于 bandit 算法 EXP3 在固定的 “保守” 策略和實時計算的 “激進” 策略兩者之間動態(tài)切換:
同時,我們可以證明:[1] “激進”策略的對戰(zhàn)效果有下限保證; [2] 相比不做對手建模(也就是采用一個 “固定” 策略),我們的對手建模方法 GSCU 不帶來負作用,并有很大可能帶來正收益。
實驗結(jié)果
在對比主流方法的基礎(chǔ)上,GSCU 在經(jīng)典****游戲 Kuhn poker 和 particle 環(huán)境 Predator Prey 上驗證了其優(yōu)越性:
不同方法應(yīng)對不同未知對手的平均性能和最差性能對比
策略 embedding 學(xué)習(xí)算法 Policy2Emb 的實驗結(jié)果:
Policy2Emb 得到的策略 embedding 空間(左)和 Kuhn poker 真實的策略參數(shù)空間(右)
GSCU 中 conditional RL 的學(xué)習(xí)效果:
基于 Policy2Emb 學(xué)習(xí)到的對手策略 embedding,conditional RL 學(xué)習(xí)到的針對性策略可以高效應(yīng)對不同的對手
GSCU 的在線對手策略 embedding 估計效果:
基于 Policy2Emb 學(xué)習(xí)到的 probabilistic decoder,GSCU 在策略 embedding 空間做 Bayesian inference 可以更好地估計對手策略。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。