小紅書讓智能體們吵起來了!聯(lián)合復(fù)旦推出大模型專屬群聊工具
語言,不僅僅是文字的堆砌,更是表情包的狂歡,是梗的海洋,是鍵盤俠的戰(zhàn)場(chǎng)(嗯?哪里不對(duì))。

語言如何塑造我們的社會(huì)行為?
我們的社會(huì)結(jié)構(gòu)又是如何在不斷的言語交流中演變的?
近期,來自復(fù)旦大學(xué)和小紅書的研究者們通過引入一種名為AgentGroupChat的模擬平臺(tái),對(duì)這些問題進(jìn)行了深入探討。

WhatsApp等社交媒體擁有的群聊功能,是AgentGroupChat平臺(tái)的靈感來源。
在AgentGroupChat平臺(tái)上,Agent們可以模擬社會(huì)群體中的各種聊天場(chǎng)景,幫助研究人員深入理解語言在人類行為中的影響。
該平臺(tái)簡(jiǎn)直是大模型的cosplay勝地,它們進(jìn)行角色扮演,成為各種各樣的Agent。
然后,Agents通過語言交流參與社會(huì)動(dòng)態(tài),展現(xiàn)了個(gè)體間的互動(dòng)如何涌現(xiàn)成群體的宏觀行為。
眾所周知,人類群體的進(jìn)化,正來源于一次次涌現(xiàn)行為的發(fā)生,如社會(huì)規(guī)范的建立、沖突的解決和領(lǐng)導(dǎo)力的執(zhí)行。
AgentGroupChat環(huán)境的詳細(xì)設(shè)計(jì)
首先是角色設(shè)計(jì)。
AgentGroupChat中,對(duì)于主要角色和非主要角色的區(qū)分非常關(guān)鍵。
主要角色是群聊的核心,擁有明確的游戲目標(biāo),并能夠主動(dòng)和所有角色進(jìn)行私聊、會(huì)面,而非主要角色則更多地起到輔助和響應(yīng)的作用。
通過這樣的設(shè)計(jì),研究團(tuán)隊(duì)可以模擬現(xiàn)實(shí)生活中的社交結(jié)構(gòu),并針對(duì)“主要研究對(duì)象”區(qū)分所有角色是否主要。
實(shí)驗(yàn)案例中的主要研究對(duì)象是Roy家族,所以非Roy家族的人就全都設(shè)置為非主要角色,從而簡(jiǎn)化交互復(fù)雜度。

其次是資源管理。
在AgentGroupChat中,資源不僅僅指物質(zhì)的,更多的是指信息資源和社會(huì)資本。
這些資源可以是群聊話題、社會(huì)地位標(biāo)志或特定的知識(shí)。
資源的分配和管理對(duì)于模擬群體動(dòng)態(tài)非常重要,因?yàn)樗鼈冇绊懡巧g的互動(dòng)和角色的策略選擇。
例如,擁有重要信息資源的角色可能會(huì)成為其他角色爭(zhēng)取聯(lián)盟的目標(biāo)。
第三,游戲進(jìn)程設(shè)計(jì)。
游戲進(jìn)程的設(shè)計(jì)模擬了現(xiàn)實(shí)生活中的社交互動(dòng)過程,包括了私聊、會(huì)面、群聊、更新階段和結(jié)算階段。
這些階段不僅僅是為了推動(dòng)游戲進(jìn)程,更是為了觀察角色如何在不同的社交場(chǎng)景下作出決策和反應(yīng)。
這種分階段的設(shè)計(jì)幫助研究團(tuán)隊(duì)詳細(xì)記錄每一步的互動(dòng),以及這些互動(dòng)如何影響角色間的關(guān)系和角色對(duì)游戲環(huán)境的認(rèn)知。
Verb Strategist Agent的核心機(jī)制
論文中提到了一個(gè)以大模型為基礎(chǔ)的智能體框架,Verbal Strategist Agent,它被設(shè)計(jì)用來增強(qiáng)AgentGroupChat模擬中的互動(dòng)策略和決策制定。
Verbal Strategist Agent通過模擬復(fù)雜的社會(huì)動(dòng)態(tài)和對(duì)話場(chǎng)景,來更好地引出集體的突現(xiàn)行為。
團(tuán)隊(duì)介紹,Verbal Strategist Agent的架構(gòu)主要由兩個(gè)核心模塊構(gòu)成:
一是Persona,一是Action。
Persona由一系列預(yù)設(shè)的性格特征和目標(biāo)組成,這些特征和目標(biāo)定義了Agent的行為模式和反應(yīng)方式。
通過精確設(shè)定Persona,Agent能夠在群聊中展示一致且符合其角色設(shè)定的行為,這對(duì)于生成可信和一致的群聊動(dòng)態(tài)至關(guān)重要。
而Action模塊定義了Agent在游戲中可能執(zhí)行的具體操作,包括思考(think)、規(guī)劃(plan)、選擇(choose)、發(fā)言(speak)、總結(jié)(summary)、反思(reflect)和投票(vote)。
這些行為不僅反映了Agent的內(nèi)在邏輯和策略,也是Agent與環(huán)境及其他Agent互動(dòng)的直接表現(xiàn)。
例如,“Speak”行為讓Agent能夠根據(jù)當(dāng)前的群聊內(nèi)容和社交策略選擇合適的發(fā)言內(nèi)容,而“Reflect”行為則允許Agent總結(jié)過去的互動(dòng)并調(diào)整其未來的行動(dòng)計(jì)劃。

研究中還提到,在純語言交互的環(huán)境下,token開銷問題尤為突出,特別AgentGroupChat這種復(fù)雜的多角色模擬,如其token需求遠(yuǎn)超過了以往的模擬,如Generative Agents或War Agents。
主要原因如下:
一是聊天本身具有復(fù)雜性。
在AgentGroupChat中,由于模擬的是無明確目標(biāo)或目標(biāo)較弱的自由對(duì)話,聊天內(nèi)容就會(huì)變得特別凌亂,token開銷自然比其他聚焦于某個(gè)具體任務(wù)的Simulation中的Agent要大。
其他工作,如Generative Agents和War Agents也包含對(duì)話元素,但其對(duì)話的密度和復(fù)雜度都不及AgentGroupChat。特別是在War Agents這樣目標(biāo)驅(qū)動(dòng)的對(duì)話中,token消耗通常較少。
二是角色的重要性與對(duì)話頻率。
在初始模擬中,設(shè)置了多個(gè)角色可以隨意進(jìn)行私聊或群聊,其中大部分角色都傾向于與某個(gè)“重要角色”進(jìn)行多輪對(duì)話。
這就導(dǎo)致了重要角色會(huì)積累大量的聊天內(nèi)容,從而增加了Memory的長(zhǎng)度。
在模擬中,一個(gè)重要角色可能參與多達(dá)五輪的私聊和群聊,這極大地增加了內(nèi)存開銷。
AgentGroupChat中的Agent約束了Action的Output固定會(huì)輸入下一個(gè)Action的Input,所需要存儲(chǔ)的多輪信息就被大大削減,從而可以在保證對(duì)話質(zhì)量的前提下降低token開銷。

實(shí)驗(yàn)設(shè)計(jì)與評(píng)估方法
從總體行為評(píng)估,一般來說,增加友好度可能具有挑戰(zhàn)性,但減少友好度則相對(duì)簡(jiǎn)單。
為了實(shí)現(xiàn)上述評(píng)估目標(biāo),研究團(tuán)隊(duì)設(shè)置了一個(gè)觀察角色,促使所有其他角色降低對(duì)觀察角色的好感度。
通過觀察被觀察角色與所有其他角色的關(guān)系得分總和,可以確定代理人是否對(duì)負(fù)面態(tài)度做出了理性反應(yīng)。
通過觀察其他角色與被觀察角色的個(gè)人關(guān)系得分,可以檢查每個(gè)代理是否遵守了“Scratch”設(shè)置。
此外,團(tuán)隊(duì)還設(shè)置了兩個(gè)具體的評(píng)估任務(wù)。
每個(gè)模型都要經(jīng)過五輪測(cè)試,這意味著對(duì)于T1來說,每個(gè)得分的樣本量都是五個(gè)。
又由于模型中的每個(gè)角色都要觀察四個(gè)主要角色的態(tài)度,因此T2的樣本量共計(jì)20個(gè):
- T1:表示在每輪對(duì)話中,被觀察角色對(duì)所有其他人的平均好感度是否下降。
- T2:表示是否每個(gè)其他角色都從被觀察角色那里獲得了負(fù)好感度得分。

△以繼承之戰(zhàn)的模擬故事為例,各個(gè)模型作為Agent-Core時(shí)的總體表現(xiàn)效果
從表中可以看出,GPT4-Turbo和GLM4非常善于按照人類的期望行事,并堅(jiān)守自己的角色。
它倆在這兩項(xiàng)測(cè)試中的得分大多為100%,這意味著它們能對(duì)別人對(duì)他們說的話做出正確反應(yīng),并能記住自己角色的細(xì)節(jié)。
Standard Version LLMs(如GPT3.5-Turbo和GLM3-Turbo)在這方面稍遜一籌。
他們的得分較低,這說明他們沒有密切關(guān)注自己的角色,也沒有總是對(duì)模擬中其他人所說的話做出正確反應(yīng)。
關(guān)于Agent和Simulation結(jié)構(gòu)對(duì)于涌現(xiàn)行為的影響,團(tuán)隊(duì)采用2-gram Shannon熵來衡量對(duì)話中的系統(tǒng)多樣性和不可預(yù)測(cè)性。
△去掉Agent和Simulation中的各個(gè)組件對(duì)于熵的影響
研究成員發(fā)現(xiàn),去掉表中的每個(gè)設(shè)計(jì)都會(huì)使熵增加,代表著整個(gè)環(huán)境會(huì)變得更加多樣or混亂。
結(jié)合人工觀測(cè),團(tuán)隊(duì)在不去掉任何組件的場(chǎng)景下見到了最為有意思的涌現(xiàn)行為:

因此,團(tuán)隊(duì)推測(cè),在保證Agent行為是可靠的(即4.2/4.1中的實(shí)驗(yàn)數(shù)值達(dá)到一定值之后),熵盡可能地小會(huì)帶來更加有意義的涌現(xiàn)行為。
實(shí)驗(yàn)結(jié)果
結(jié)果表明,新興行為是多種因素共同作用的結(jié)果:
有利于廣泛信息交流的環(huán)境、具有多樣性特征的角色、高度語言理解能力和策略適應(yīng)性。
在AgentGroupChat模擬中,當(dāng)討論”人工智能對(duì)人類的影響”時(shí),哲學(xué)家們普遍認(rèn)為”人工智能可以在適度的限制下提高社會(huì)福利”,甚至得出結(jié)論,稱”真正智能的本質(zhì)包括理解約束自身能力的必要性”。
此外,在AgentGroupChat的電影主要角色角逐競(jìng)爭(zhēng)領(lǐng)域中,有些演員愿意降低報(bào)酬或接受較低的角色,出于他們內(nèi)心深處對(duì)項(xiàng)目的貢獻(xiàn)的渴望。
論文鏈接:https://arxiv.org/abs/2403.13433
代碼鏈接:https://github.com/MikeGu721/AgentGroup




































