AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

作者：明敏羿閣時(shí)間：2022-11-23 來(lái)源：量子位

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

AI 都學(xué)會(huì)和人類談判了？還能成功說服人類聽它安排？

本文引用地址：http://www.butianyuan.cn/article/202211/440783.htm

話術(shù)一流到人類完全分辨不出它是 AI。

這就是 Meta AI 的最新成果 ——AI 模型 CICERO（西塞羅），現(xiàn)已登上 Science。

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

嗯，就是和古羅馬著名政治家、演說家西塞羅同名。

研究人員讓這個(gè) AI 西塞羅隱藏身份加入到一個(gè)外交游戲里，82 名人類玩家在 40 場(chǎng)游戲中，都沒有懷疑過它其實(shí)是個(gè) AI。

而且還戰(zhàn)績(jī)斐然，全程平均分達(dá)到 25.8%，是人類玩家平均分的 2 倍，并且最終排名為前 10%。

成果一經(jīng)發(fā)布，就在網(wǎng)上引發(fā)熱議。

有人評(píng)價(jià)：這意味著 AI 在最具人類特點(diǎn)的游戲里戰(zhàn)勝人類，超乎想象…

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

LeCun 都稱它為：里程碑式的研究！

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

目前，模型代碼已在 GitHub 上開源。

真有 AI 縱橫家那感覺了

AI 嘮嗑其實(shí)一直都引人詬病，更別提外交這種需要超高話術(shù)的場(chǎng)景了。

它需要理解對(duì)方的語(yǔ)言、動(dòng)機(jī)，制定自己的話術(shù)策略，并調(diào)整好措辭。

有時(shí)甚至還需要“耍心眼”，故意說一些假話給對(duì)方設(shè)套。

這種超高難度任務(wù)，怎么挑戰(zhàn)？

俗話說一口吃不成胖子。

Meta AI 就想到了先從游戲場(chǎng)景來(lái)切入（畢竟 AI 在玩游戲上是老手了）。

不過和之前棋類或競(jìng)技游戲不同，外交游戲并沒有那么強(qiáng)的規(guī)則性，運(yùn)籌帷幄、隨機(jī)應(yīng)變的環(huán)節(jié)不少。

實(shí)驗(yàn)中用到的游戲是 webDiplomacy（以下用“外交游戲”指代它）。

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

這款游戲的背景是 1901 年的歐洲，7 位玩家每人控制一個(gè)大國(guó)，通過相互合作、協(xié)商，盡可能地占領(lǐng)更多領(lǐng)土。

西塞羅的核心是由一個(gè)對(duì)話引擎和一個(gè)戰(zhàn)略推理引擎共同驅(qū)動(dòng)的。

簡(jiǎn)單理解，這里的對(duì)話引擎和 GPT-3、LaMDA 類似，戰(zhàn)略推理引擎和 AlphaGo 相近。

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

用到的對(duì)話模型，是從一個(gè)類似于 2.7 億參數(shù)的 BART 模型訓(xùn)練而來(lái)。

BART 吸收了 GPT 和 BERT 各自的特點(diǎn)，它比 BERT 更適合文本生成的場(chǎng)景，還能雙向理解上下文語(yǔ)境信息。

具體來(lái)看，研究人員先從互聯(lián)網(wǎng)上獲取文本訓(xùn)練對(duì)話模型，然后再在實(shí)際的外交游戲場(chǎng)景中微調(diào)。

戰(zhàn)略推理引擎用到的是一個(gè)規(guī)劃算法（planning algorithm）。

該算法能夠基于現(xiàn)況計(jì)算出一個(gè)最優(yōu)選擇。再通過強(qiáng)化學(xué)習(xí)訓(xùn)練，懲罰模型做出的“不像人”的策略，以此讓模型給出的策略更合理。

畢竟，在外交游戲中是和人打交道，讓 AI 更像人也是最基本的要求之一。

而且強(qiáng)化學(xué)習(xí)這種迭代式的訓(xùn)練，可以不斷改進(jìn) AI 做出的策略預(yù)測(cè)。比傳統(tǒng)方法中常用的監(jiān)督學(xué)習(xí)（即打標(biāo)簽的方式）效果更好。

實(shí)操中，西塞羅首先會(huì)根據(jù)目前為止的游戲狀態(tài)和對(duì)話，對(duì)每個(gè)人的會(huì)采取的動(dòng)作做一個(gè)初步預(yù)判。

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

接下來(lái)，在不斷地協(xié)商過程中，它都會(huì)不斷地改進(jìn)預(yù)測(cè)，然后使用這些預(yù)測(cè)為自己和合作伙伴設(shè)置一個(gè)共同的目標(biāo)。

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

其次，它會(huì)根據(jù)局勢(shì)狀態(tài)、對(duì)話及其目標(biāo)，從對(duì)話模型中生成幾個(gè)候選消息，使用分類器等過濾機(jī)制過濾掉無(wú)意義的，生成最終的高質(zhì)量輸出文本。

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

例如，以下圖為例，在這一局中，西塞羅扮演“奧地利”。

當(dāng)玩家“意大利”向它詢問意見，自己是否應(yīng)該攻擊土耳其時(shí)，西塞羅會(huì)根據(jù)場(chǎng)上局勢(shì) —— 土耳其正在攻擊俄羅斯，判斷出這是一個(gè)兩面夾擊的好機(jī)會(huì)，然后勸意大利跟進(jìn)攻打土耳其。

這一步既建立了與意大利的伙伴關(guān)系，又消滅了一個(gè)潛在的對(duì)手。

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

不僅如此，談判也是西塞羅的拿手好戲。

這次西塞羅扮演的是“德國(guó)”，與玩家“法國(guó)”一直在交戰(zhàn)。這時(shí)法國(guó)南部同時(shí)受到了意大利的攻擊，于是向西塞羅請(qǐng)求和談。

西塞羅則趁機(jī)獅子大開口，要求法國(guó)歸還侵略的領(lǐng)土，并保證不攻擊荷蘭。雙方在討價(jià)還價(jià)中順利達(dá)成了協(xié)議。

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

就像上述展示的例子一樣，兩個(gè)月間，西塞羅共參與了 40 場(chǎng)外交游戲，與 82 名人類參賽者交鋒。

在每場(chǎng)比賽中，西塞羅都會(huì)發(fā)送和接收平均 130 條消息。

其游戲水平甚至強(qiáng)過了人類：平均得分是人類玩家的 2 倍以上，甚至在玩過一場(chǎng)以上游戲的參與者中也能排到前 10% 。

網(wǎng)友：雖然它表現(xiàn)好但我很害怕

看完西塞羅在外交上的精彩表現(xiàn)，有網(wǎng)友感慨 AI 的發(fā)展速度：

Deep Blue 擊敗了卡斯帕羅夫，Watson 擊敗了智力競(jìng)賽的兩位人類冠軍，現(xiàn)在輪到 Meta AI 敲響馬基雅維利（近代政治思想奠基人）的大門了。

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

還有人表示，這難道是邁向通識(shí)語(yǔ)言大模型的第一步嗎？

LeCun 給出了肯定回復(fù)：

至少語(yǔ)言是基于事實(shí)的。

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

不過由于這款外交游戲以爾虞我詐著稱，不少人也對(duì)此表示擔(dān)憂：

這是直接鼓勵(lì)研究人員開發(fā)更多擅長(zhǎng)騙人的模型。

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

有網(wǎng)友就表示，玩這游戲甚至?xí)ヅ笥雅丁?/span>

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

而從 AI 西塞羅的戰(zhàn)績(jī)來(lái)看，它可以迷惑人類玩家，并且說服人類聽從它的策略。

所以有人就表示，這不是 AI 控制人類的選擇乃至生活？

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

不過 Meta AI 表示，AI 西塞羅不是全沒有失誤的。

并且游戲中也還有很多需要和人類協(xié)作的環(huán)節(jié)，西塞羅的表現(xiàn)同樣很好。

目前，它還只被放在游戲場(chǎng)景中測(cè)試過，并沒有嘗試過在開放語(yǔ)境下和人類談判。

參考鏈接：

[1]https://www.science.org/doi/10.1126/science.ade9097
[2]https://ai.facebook.com/blog/cicero-ai-negotiates-persuades-and-cooperates-with-people/
[3]https://twitter.com/ylecun/status/1595081004108206088

新聞中心

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

網(wǎng)友：雖然它表現(xiàn)好但我很害怕

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

新聞中心

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

網(wǎng)友：雖然它表現(xiàn)好但我很害怕

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

AI 都會(huì)和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果