吊打90%人類,Meta首個「AI外交模型」登上Science!網(wǎng)友:請把小扎送上法庭
幾十年來,外交一直被認(rèn)為是「AI絕不可能接管的工作」。
因?yàn)樗笸婕艺莆?、理解他人的觀點(diǎn)以及背后的動機(jī),制定復(fù)雜的計(jì)劃并及時調(diào)整,然后應(yīng)用語言與他人達(dá)成合作,最后說服他們建立伙伴關(guān)系和聯(lián)盟等。
對溝通、信任和背叛的關(guān)注,使外交與圍棋和國際象棋等更注重規(guī)則的「游戲」截然不同。
然而Meta的最新研究表明:外交官的活兒,AI也很可能能干了!
在2022年8月至10月進(jìn)行的線上外交游戲比賽中,CICERO在所有「選手」中高居前10%。它的平均得分為25.8%,是其82名對手平均得分(12.4%)的兩倍還多。
更加值得一提的是,在實(shí)際的比賽過程中,沒有一名玩家——發(fā)現(xiàn)是人工智能在打比賽!
如今,這項(xiàng)最新成果也以論文的形式發(fā)表在了Science上。
CICERO的推出,必將成為自然語言處理領(lǐng)域的一項(xiàng)重大成就。
因?yàn)檫@預(yù)示著人工智能有潛力「更好、更自然地與人類合作」,代表著人類向AGI邁進(jìn)的一大步。
吊打90%人類,無人發(fā)現(xiàn)AI參與
《外交》是一款七人制經(jīng)典策略游戲,可以說是棋盤游戲Risk、紙牌游戲撲克和電視節(jié)目Survivor的結(jié)合,由美國著名玩具公司孩之寶(Hasbro)于1950年代開發(fā)。
通過對20世紀(jì)初歐洲七大國的「角色扮演」,玩家需要與其他選手建立信任、談判和合作,并盡可能多地占領(lǐng)領(lǐng)土。
為避免因?qū)κ值姆磽舳蛔柚梗婕視较陆涣?、討論潛在的協(xié)調(diào)行動,然后將他們的行動付諸紙上,遵守或違反對其他參與者的承諾。
這樣一款充滿欺騙與權(quán)術(shù)的游戲,也被一些玩家視為失去朋友的理想方式,堪稱「友盡賽」!
正如上文所言,與國際象棋和圍棋等游戲不同,外交是一種更關(guān)乎于「人」而不是「規(guī)則」的游戲。
如果模型無法識別某人可能在虛張聲勢,或者精準(zhǔn)識別其他玩家某步棋中的進(jìn)攻性,它顯然會很快輸?shù)舯荣悺?/span>
同樣,如果它不像一個真人那樣說話,表現(xiàn)出同理心、建立關(guān)系、談?wù)撚螒?,它就不會找到其他愿意與它一起工作的玩家。
在過去的幾十年里,研究人員一直在構(gòu)建一種自然語言交流能力的「AI外交官」。然而因?yàn)檫@一重大挑戰(zhàn)已經(jīng)遠(yuǎn)遠(yuǎn)超出了現(xiàn)有AI的能力范疇,因此從來沒有一名研究員成功過。
直到近期CICERO的橫空出世,才徹底顛覆了這個事實(shí)。
CICERO本質(zhì)上是一臺「聊天機(jī)器人」,可以與其他外交玩家溝通,從而在游戲中采取有效行動。
西塞羅則是一名古羅馬著名政治家、哲學(xué)家、演說家,誕生于公元前106年1月3日,以善于雄辯而聞名于羅馬政界。
Meta將在這款A(yù)I模型取名于此,意義不言而喻。
2022年8月至10月,CICERO在webDiplomacy組織的線上《外交》比賽中,共參加了40場比賽,在所有參與者中成績高居前10%;在打了五場或更多比賽的19人中,西塞羅則排名第二。
40場比賽中,CICERO的平均得分為25.8%,是其他82名對手平均得分(12.4%)的兩倍還多,并將其戰(zhàn)略對話和游戲能力展現(xiàn)得淋漓盡致。
會思考又能表述,如此AI誰能不愛?
CICERO基于一個27億參數(shù)的類BART語言模型,該模型根據(jù)來自互聯(lián)網(wǎng)的文本進(jìn)行預(yù)訓(xùn)練,并使用 webDiplomacy.net上在線玩的4萬多場外交游戲的數(shù)據(jù)集進(jìn)行了擴(kuò)充。
這些數(shù)據(jù)中還包含玩家之間交流時產(chǎn)生的超過1200萬條消息。
CICERO的模型主要由兩部分組成,分別是「戰(zhàn)略推理」和「自然語言處理」。
兩項(xiàng)技術(shù)的整合使CICERO能夠針對玩家的動機(jī)進(jìn)行推理并制定策略,然后使用自然語言進(jìn)行交流,達(dá)成一致以實(shí)現(xiàn)共同目標(biāo),形成聯(lián)盟并協(xié)調(diào)計(jì)劃,主要體現(xiàn)在「合作」、「談判」和「協(xié)調(diào)」三方面。
例如,CICERO可以推斷在游戲的后期,它將需要某個特定玩家的支持,然后制定策略來贏得此人的青睞——甚至識別該玩家的風(fēng)險和機(jī)會。
對話感知策略模塊能夠幫助CICERO預(yù)測其他玩家可能采取的行動,以及別的玩家認(rèn)為CICERO可能采取的行動,給定他們過去的對話和游戲板的狀態(tài)。
由此,CICERO將根據(jù)這些預(yù)測為自己和其他參與者制定互惠互利的計(jì)劃。這些規(guī)劃不僅能讓CICERO找到互利合作的機(jī)會,也能幫助它在無法合作的時候找到有效的舉措。
CICERO中有一個可控對話模型,它與控制對話生成的戰(zhàn)略推理算法相結(jié)合。
可控對話模型允許CICERO在一組精心選擇的計(jì)劃中進(jìn)行對話,通常是對CICERO和其他玩家都有利的計(jì)劃。
CICERO的對話深深植根于正在進(jìn)行的游戲中的自由形式對話中生成的。
例如,CICERO可能會與另一位玩家協(xié)商戰(zhàn)術(shù)計(jì)劃,向盟友保證其意圖,討論游戲中更廣泛的戰(zhàn)略動態(tài),甚至只是進(jìn)行隨意的閑聊——包括幾乎任何人類玩家可能會討論的內(nèi)容。
「西塞羅在使用自然語言與外交人員談判方面非常有效,以至于他們往往更喜歡與西塞羅合作,而不是其他人類參與者?!筂eta在自家的Twitter中表示。
Meta AI副總裁兼首席人工智能科學(xué)家嚴(yán)樂存則認(rèn)為,「能夠在像外交這樣戰(zhàn)略極其復(fù)雜的游戲中上演人類級別的表現(xiàn),預(yù)示了人類與人工智能合作的巨大潛力」。
雖然CICERO只能玩外交,但這項(xiàng)成就背后的技術(shù)卻與許多現(xiàn)實(shí)世界的應(yīng)用息息相關(guān),例如通過規(guī)劃和RL控制自然語言的生成,可以緩解人類與人工智能模型之間的溝通障礙。
例如,今天的人工智能助手只能進(jìn)行簡單的問答,比如告訴你今天的天氣等,但如果他們通過長期對話教你一項(xiàng)新技能呢?
亦或者想象一個視頻游戲,其中的非玩家角色 (NPC) 可以像人們一樣自由計(jì)劃和交談——了解你的動機(jī)并相應(yīng)調(diào)整對話,從而幫助你完成攻城掠地的任務(wù)。
當(dāng)然,就連Meta自己也承認(rèn)「CICERO還不夠完美」——在游戲的某些重要時刻,CICERO經(jīng)常會出現(xiàn)十分離譜的錯誤。
因此,Meta選擇將CICERO的代碼開源發(fā)布,希望借助AI開發(fā)者社區(qū)的力量進(jìn)一步完善它。
網(wǎng)友:請把小扎送上法庭!
全球首款與人類同等水平的「AI外交官」的發(fā)布,也引發(fā)了網(wǎng)友們的熱議。
不少網(wǎng)友紛紛表示:
「實(shí)在太期待這項(xiàng)研究接下來的發(fā)展了。」
「擊敗人類可以說是最人性化的游戲。這簡直太迷人了…」
雖然CICERO初出茅廬,卻也有人對這項(xiàng)「AI黑科技」在現(xiàn)實(shí)生活中的應(yīng)用前景進(jìn)行了展望:
「它能構(gòu)建一個版本來幫助應(yīng)對集體行動挑戰(zhàn)嗎,比如#COP28?」
該網(wǎng)友所言的「COP28」,應(yīng)該是指第28屆聯(lián)合國氣候大會。
在剛剛結(jié)束的27屆氣候大會上,經(jīng)過持續(xù)數(shù)天的緊張談判,各國代表最終同意設(shè)立一個基金機(jī)制,以補(bǔ)償因氣候變化引發(fā)的損失和損害。
此外,CICERO的推出也引發(fā)了不少網(wǎng)友的擔(dān)心,「這將直接激勵研究人員建立擅長欺騙的模型」。
「以模仿人類行為的方式欺騙并贏得外交游戲,可愛又有趣?!?/span>
「真不知道它還能用來做什么?我們需要警覺此類工具的發(fā)展。」
「人工智能很擅長創(chuàng)作藝術(shù)等。但現(xiàn)在,它的說服能力被『激活』了?!?/span>
「如果你能說服一個人,就能控制他們的選擇,從而控制他們的生活?!?/span>
「因此最終結(jié)局會是——AI通過說服來奴役人類!」
最后,也有不少人逗比的網(wǎng)友調(diào)侃道:
「這東西靠譜嗎?西塞羅最終可是被砍了頭的!」
「請將小扎送到海牙(國際法庭)!」
就在前兩天,因?yàn)閷⒅e言陳述為事實(shí),由Meta AI推出的大型語言模型Galactica上線僅3天便倉皇下架。如今CICERO的推出,可謂是再一次在AI科技圈掀起了層層波瀾。