爭(zhēng)取盟友、洞察人心,最新的Meta智能體是個(gè)談判高手
長(zhǎng)期以來(lái),游戲一直是 AI 進(jìn)步的試驗(yàn)場(chǎng)——從深藍(lán)戰(zhàn)勝國(guó)際象棋大師 Garry Kasparov,到 AlphaGo 對(duì)圍棋的精通程度超越人類,再到 Pluribus 在撲克比賽中擊敗最厲害的玩家。但真正有用的、全能的智能體不能僅僅只會(huì)完棋盤游戲、移動(dòng)移動(dòng)棋子。有人不禁會(huì)問(wèn):我們能否建立一個(gè)更有效、更靈活的智能體,使其能夠像人類一樣使用語(yǔ)言進(jìn)行談判、說(shuō)服并與人合作,以實(shí)現(xiàn)戰(zhàn)略目標(biāo)?
在游戲的歷史上,存在一款經(jīng)典的桌面游戲 Diplomacy,很多人在第一次看到該游戲時(shí),都會(huì)被它地圖式的棋盤嚇一跳。以為它是一個(gè)復(fù)雜的戰(zhàn)爭(zhēng)游戲。其實(shí)不然,這是一款需要調(diào)動(dòng)語(yǔ)言爭(zhēng)取盟友的游戲,遷涉到?jīng)Q策與談判協(xié)商,玩者之間有大量的交流,贏得游戲的關(guān)鍵在人與人之間的互動(dòng)。
現(xiàn)在 Meta 向這一游戲發(fā)起了挑戰(zhàn),他們構(gòu)建的智能體 CICERO,成為首個(gè)在 Diplomacy 中達(dá)到人類水平的 AI。CICERO 通過(guò)在在線版本 webDiplomacy.net 上證明了這一點(diǎn),其中 CICERO 的平均得分是人類玩家的兩倍多,并且在玩過(guò)不止一場(chǎng)游戲的參與者中排名前 10%。
- 論文地址:https://www.science.org/doi/10.1126/science.ade9097
- 主頁(yè)地址:https://ai.facebook.com/research/cicero/diplomacy/
幾十年來(lái),Diplomacy 一直被視為 AI 領(lǐng)域中不可逾越的巨大挑戰(zhàn),因?yàn)檫@款游戲要求玩家理解他人的動(dòng)機(jī)和觀點(diǎn),需要制定復(fù)雜計(jì)劃,調(diào)整策略,并在此基礎(chǔ)上使用自然語(yǔ)言與他人達(dá)成協(xié)議,說(shuō)服別人結(jié)成伙伴關(guān)系和聯(lián)盟等。這些對(duì)智能體來(lái)說(shuō)還是比較困難的,而 CICERO 在使用自然語(yǔ)言與 Diplomacy 玩家進(jìn)行談判方面還是非常有效的。
與國(guó)際象棋和圍棋不同的是,Diplomacy 是一款關(guān)于人而不是棋子的游戲。如果智能體無(wú)法識(shí)別對(duì)手是在虛張聲勢(shì),還是真正的發(fā)起破壞,它就會(huì)很快輸?shù)舯荣?。同樣,如果智能體不能像人一樣交流,表現(xiàn)出同理心,與別人建立關(guān)系,對(duì)游戲侃侃侃談——它就找不到其他愿意與它合作的玩家。
Meta 的這項(xiàng)研究將戰(zhàn)略推理(如 AlphaGo、Pluribus)與自然語(yǔ)言處理( 例如 GPT-3、 BlenderBot 3、LaMDA、OPT-175B)進(jìn)行了結(jié)合。例如,在游戲后期,CICERO 推斷出它將需要一個(gè)特定玩家的支持,然后 CICERO 會(huì)制定一個(gè)策略來(lái)贏得這個(gè)人的青睞。
如何構(gòu)建 CICERO
CICERO 的核心是一個(gè)可控的對(duì)話模型和一個(gè)戰(zhàn)略推理引擎。在游戲的每一點(diǎn),CICERO 都會(huì)查看 game board 及其對(duì)話歷史,并對(duì)其他玩家可能采取的行動(dòng)進(jìn)行建模。然后制定計(jì)劃來(lái)控制語(yǔ)言模型,將它的計(jì)劃告知其他玩家,并為與他們協(xié)調(diào)良好的其他玩家提出合理的行動(dòng)建議。
可控對(duì)話?
為了構(gòu)建一個(gè)可控對(duì)話模型,Meta 從一個(gè)具有 27 億參數(shù)的類 BART 語(yǔ)言模型開(kāi)始,并在來(lái)自互聯(lián)網(wǎng)的文本上進(jìn)行了預(yù)訓(xùn)練,還在 webDiplomacy.net 上對(duì) 40000 多個(gè)人類游戲進(jìn)行了微調(diào)。
實(shí)現(xiàn)過(guò)程主要分為以下幾步:
Step 1:根據(jù) board state 和當(dāng)前對(duì)話,CICERO 對(duì)每個(gè)人將做出什么給出初步預(yù)測(cè)。
Step 2:CICERO 迭代地改進(jìn)初步預(yù)測(cè),然后使用改進(jìn)預(yù)測(cè)為自己和合作伙伴形成一個(gè)意圖。
Step 3:根據(jù) board state、對(duì)話和意圖生成多條候選消息。
?
Step 4:過(guò)濾候選消息,最大化值,并確保彼此之間的意圖一致。
研究者利用一些過(guò)濾機(jī)制進(jìn)一步提高對(duì)話質(zhì)量,比如用訓(xùn)練過(guò)的分類器來(lái)區(qū)分人類和模型生成的文本以確保——對(duì)話是合理的,與當(dāng)前游戲狀態(tài)和以前的信息一致,并且在戰(zhàn)略上是合理的。
對(duì)話意識(shí)戰(zhàn)略和規(guī)劃
在涉及合作的游戲中,智能體需要學(xué)會(huì)模擬人類在現(xiàn)實(shí)生活中實(shí)際會(huì)做什么,而不是將人類看作機(jī)器,讓智能體指揮他們應(yīng)該做什么。因此,Meta 希望 CICERO 制定的計(jì)劃與其他參與者的對(duì)話保持一致。
?
人類建模的經(jīng)典方法是監(jiān)督學(xué)習(xí),即用標(biāo)記的數(shù)據(jù)(如過(guò)去游戲中人類玩家的行動(dòng)數(shù)據(jù)庫(kù))來(lái)訓(xùn)練智能體。然而,純粹依靠監(jiān)督學(xué)習(xí)來(lái)選擇基于過(guò)去對(duì)話的行動(dòng),會(huì)導(dǎo)致智能體相對(duì)較弱,而且很容易被利用。例如,一個(gè)玩家可以告訴智能體「我很高興我們同意你將把你的部隊(duì)從巴黎移走!」由于類似的信息只有在達(dá)成協(xié)議時(shí)才會(huì)出現(xiàn)在訓(xùn)練數(shù)據(jù)中,因此智能體可能真的會(huì)將其部隊(duì)調(diào)離巴黎,即使這樣做是一個(gè)明顯的戰(zhàn)略失誤。
為了解決這個(gè)問(wèn)題,CICERO 運(yùn)行一個(gè)迭代規(guī)劃算法,以平衡對(duì)話的一致性和合理性。智能體首先根據(jù)它與其他玩家的對(duì)話預(yù)測(cè)每個(gè)人在當(dāng)前回合的策略,同時(shí)也預(yù)測(cè)其他玩家認(rèn)為智能體的策略將會(huì)是什么。然后,它將運(yùn)行名為「piKL」的規(guī)劃算法,該算法通過(guò)嘗試選擇在其他玩家預(yù)測(cè)的策略下具有更高期望值的新策略,來(lái)迭代改進(jìn)這些預(yù)測(cè),同時(shí)也嘗試使新的預(yù)測(cè)接近于原始策略預(yù)測(cè)。研究者發(fā)現(xiàn),與單純的監(jiān)督學(xué)習(xí)相比,piKL 能更好地模擬人類游戲,并為智能體帶來(lái)更好的策略。
??
生成自然的、目的型的對(duì)話
在 Diplomacy 中,玩家如何與他人交談甚至比他們?nèi)绾我苿?dòng)棋子更重要。CICERO 在與其他玩家制定戰(zhàn)略時(shí),能夠清楚地、有說(shuō)服力地交流。例如,在一個(gè) demo 中,CICERO 要求一個(gè)玩家立即在棋盤的某個(gè)部分提供支持,同時(shí)向另一個(gè)玩家施加壓力讓其在游戲的后期考慮結(jié)盟。
交流中,CICERO 試圖通過(guò)向三個(gè)不同的玩家提出行動(dòng)建議來(lái)執(zhí)行其戰(zhàn)略。在第二次對(duì)話中,智能體能夠告訴其他玩家為什么他們應(yīng)該合作,以及它將如何對(duì)雙方有利。在第三次對(duì)話中,CICERO 既在征求信息,也在為未來(lái)的行動(dòng)打下基礎(chǔ)。
不足之處
必須承認(rèn),CICERO 有時(shí)也會(huì)產(chǎn)生不一致的對(duì)話,從而破壞其目標(biāo)。在下面的例子中,CICERO 扮演的是奧地利,但智能體要求意大利轉(zhuǎn)移到威尼斯,與它的第一個(gè)信息相矛盾。
讓「Diplomacy」推進(jìn)人類與 AI 互動(dòng)的沙盒
在一個(gè)既涉及合作又涉及競(jìng)爭(zhēng)的游戲中,出現(xiàn)了以目標(biāo)為導(dǎo)向的對(duì)話系統(tǒng),對(duì)于使 AI 與人類的意圖和目標(biāo)相一致方面,這提出了重要的社會(huì)和技術(shù)挑戰(zhàn)?!窪iplomacy」為研究這個(gè)問(wèn)題提供了一個(gè)特別有趣的環(huán)境,因?yàn)橥孢@個(gè)游戲需要與沖突的目標(biāo)搏斗,并將這些復(fù)雜的目標(biāo)轉(zhuǎn)化為自然語(yǔ)言。舉個(gè)簡(jiǎn)單的例子,玩家可能會(huì)選擇在短期利益上做出妥協(xié)來(lái)維持和一個(gè)盟友的關(guān)系,因?yàn)檫@個(gè)盟友有可能在下一回合幫助他們進(jìn)入一個(gè)更好的位置。
雖然 Meta 在這項(xiàng)工作中取得了重大進(jìn)展,但將語(yǔ)言模型與具體意圖有力地結(jié)合起來(lái)的能力,以及決定這些意圖的技術(shù)(和規(guī)范)挑戰(zhàn)仍然是重要的問(wèn)題。通過(guò)開(kāi)源 CICERO 代碼,Meta 希望 AI 研究人員能夠以負(fù)責(zé)任的方式繼續(xù)在這一工作基礎(chǔ)上發(fā)展。團(tuán)隊(duì)表示:「通過(guò)使用對(duì)話模型進(jìn)行零樣本分類,我們已經(jīng)在這個(gè)新領(lǐng)域中邁出了檢測(cè)和刪除有害信息的早期步驟。我們希望「Diplomacy」可以作為一個(gè)安全的沙盒來(lái)推進(jìn)人與 AI 互動(dòng)的研究?!?/span>
未來(lái)方向
雖然目前 CICERO 只能夠玩 Diplomacy 游戲,但這一成就背后的技術(shù)與許多現(xiàn)實(shí)世界的應(yīng)用有關(guān)。例如,通過(guò)規(guī)劃和 RL 控制自然語(yǔ)言的生成,可以緩解人類和 AI 驅(qū)動(dòng)的智能體之間的溝通障礙。
例如,今天的人工智能助手擅長(zhǎng)回答簡(jiǎn)單的問(wèn)題,比如告訴你天氣,但如果他們能保持長(zhǎng)期的對(duì)話,以教你一個(gè)新技能為目標(biāo)呢?
另外,想象一個(gè)視頻游戲,其中 NPC 可以像人一樣計(jì)劃和交談—理解你的動(dòng)機(jī)并相應(yīng)地調(diào)整對(duì)話,幫助你完成攻打城堡的任務(wù)。
這些「夢(mèng)想」,未來(lái)或許都能走進(jìn)現(xiàn)實(shí)。