大模型也沖“奧斯卡”:港科大騰訊等提出AI角色扮演全景綜述,四方面剖析關(guān)鍵細(xì)節(jié)
AI界也有了自己的“奧斯卡”,哪家大模型角色扮演更入戲?
來(lái)自香港科技大學(xué)、騰訊、新加坡管理大學(xué)的團(tuán)隊(duì)提出新綜述——
不僅系統(tǒng)性地回顧了角色扮演語(yǔ)言模型的發(fā)展歷程,還對(duì)每個(gè)階段的關(guān)鍵進(jìn)展進(jìn)行了深入剖析,展示了這些進(jìn)展如何推動(dòng)模型逐步實(shí)現(xiàn)更復(fù)雜、更逼真的角色扮演。
AI世界如同不斷擴(kuò)展的“舞臺(tái)”,語(yǔ)言模型則是這個(gè)舞臺(tái)上不斷精進(jìn)的“演員”。
論文從早期簡(jiǎn)單的“人格小品”到如今復(fù)雜而多面的“角色大片”,詳盡描繪了role-playing領(lǐng)域的發(fā)展。
作者不僅對(duì)學(xué)術(shù)界的方法進(jìn)行了詳細(xì)的剖析和總結(jié),還在多個(gè)地方闡述了在工業(yè)界構(gòu)建role-playing LLM的切身經(jīng)驗(yàn),為研究人員提供了明晰的結(jié)構(gòu)和指引。
在接下來(lái)的內(nèi)容中,作者通過(guò)四個(gè)部分詳細(xì)介紹角色扮演語(yǔ)言模型的組成:數(shù)據(jù)、模型與對(duì)齊、Agent架構(gòu)以及評(píng)估方法。
每一個(gè)部分都揭示了角色扮演的關(guān)鍵細(xì)節(jié),以及這些細(xì)節(jié)如何協(xié)同作用,打造出一個(gè)逼真的角色扮演體驗(yàn)。
數(shù)據(jù)
數(shù)據(jù)是角色扮演的劇本,這里,作者們?cè)敿?xì)討論了支撐角色扮演模型的數(shù)據(jù)源。
根據(jù)數(shù)據(jù)是否包含詳細(xì)的character-level的信息,將現(xiàn)有的數(shù)據(jù)分成兩類(lèi):Persona-based Role-Playing (P-RP) 和Character-based Role-Playing(C-RP)。
P-RP數(shù)據(jù)集通常包含粗粒度的角色信息,比如位置、性別等,用于確?;镜慕巧恢滦浴?/p>
相比之下,C-RP數(shù)據(jù)集則包含更為細(xì)致的角色背景信息,如角色屬性、復(fù)雜的關(guān)系網(wǎng)絡(luò)、特定場(chǎng)景及時(shí)間維度的信息,用于創(chuàng)建更深度、個(gè)性化的角色互動(dòng)。
P-RP就像是演員在收到簡(jiǎn)短的角色描述后進(jìn)行即興表演,而C-RP則要求演員融入豐富的背景細(xì)節(jié),比如角色的屬性、關(guān)系和場(chǎng)景,就像深入揣摩一個(gè)電影角色。
作者們還詳細(xì)描述了數(shù)據(jù)構(gòu)造的多種方法:
1)眾包方式(Employing Crowdsourced Workers):通過(guò)雇傭眾包工人來(lái)創(chuàng)建個(gè)性化對(duì)話數(shù)據(jù)集,例如Persona-Chat數(shù)據(jù)集和Focus數(shù)據(jù)集。這些數(shù)據(jù)集通常質(zhì)量較高,但規(guī)模有限。
2)社交媒體數(shù)據(jù)收集(Extracting from Social Media):通過(guò)社交媒體平臺(tái)收集大量用戶對(duì)話數(shù)據(jù),如Pchatbot和PersonalDialog數(shù)據(jù)集。這些數(shù)據(jù)集規(guī)模龐大,但質(zhì)量控制較為困難。
3)從文學(xué)資源中提取(Extracting from Literary Resources):特別是對(duì)于復(fù)雜的角色扮演場(chǎng)景,作者從小說(shuō)、電影等文學(xué)資源中提取角色相關(guān)的對(duì)話和背景信息,例如HPD數(shù)據(jù)集基于《哈利·波特》小說(shuō)。這些數(shù)據(jù)源的語(yǔ)言質(zhì)量非常高,但與日常用戶-AI對(duì)話風(fēng)格之間可能存在差異,影響與真實(shí)用戶交互時(shí)的表現(xiàn)。
4)使用大語(yǔ)言模型生成(LLM as Data Generator):通過(guò)先進(jìn)的大語(yǔ)言模型(如GPT-4)生成角色簡(jiǎn)介和對(duì)話數(shù)據(jù),例如RoleInteract和Rolebench數(shù)據(jù)集。雖然這種方法有效,但可能引入偏差,數(shù)據(jù)質(zhì)量需要手動(dòng)審查和驗(yàn)證。
5)人工角色扮演(Human Role-Playing):通過(guò)雇傭眾包工人根據(jù)特定的角色簡(jiǎn)介進(jìn)行角色扮演,生成對(duì)話數(shù)據(jù)。這種方法數(shù)據(jù)質(zhì)量高,但缺乏多樣性且成本較高。
6)未公開(kāi)資源(Unpublished Resources):特別值得一提的是,作者在數(shù)據(jù)部分詳細(xì)討論了未公開(kāi)資源的獨(dú)特貢獻(xiàn),這也是這篇綜述的一大亮點(diǎn)。
作者們主要列舉了三種:
- 角色扮演論壇:這類(lèi)資源包含了大量的人與人之間的角色扮演數(shù)據(jù),一些著名的論壇包括Blue Moon、NationStates、Aryion、Questionable Questing、Role-Player和Spacebattles。這些論壇中往往包含成人內(nèi)容,因此在使用這些數(shù)據(jù)之前需要進(jìn)行嚴(yán)格的數(shù)據(jù)清洗,以確保其適用于訓(xùn)練角色扮演語(yǔ)言模型。
- 在線角色扮演產(chǎn)品日志:包括一些在線角色扮演產(chǎn)品的日志數(shù)據(jù),如CharacterAI。這些數(shù)據(jù)記錄了用戶在角色扮演過(guò)程中的互動(dòng),但使用這些數(shù)據(jù)需要獲得用戶和產(chǎn)品開(kāi)發(fā)者雙方的雙重授權(quán),數(shù)據(jù)的獲取和使用存在一定的法律和倫理挑戰(zhàn)。
- 同人小說(shuō)社區(qū):例如AO3(Archive of Our Own)這樣的社區(qū),特別是一些著名角色(如哈利·波特)相關(guān)的同人小說(shuō),其數(shù)量是原作的數(shù)千倍。然而,這類(lèi)資源的風(fēng)險(xiǎn)在于存在大量的“角色失真”(Out-of-Character)情況,因?yàn)樽髡咄鶕?jù)自己的偏好加入許多額外的角色特征和情節(jié),可能與原始角色設(shè)定不符。
這些數(shù)據(jù)來(lái)源和構(gòu)造方式的多樣性使得角色扮演模型能夠在各種場(chǎng)景中展現(xiàn)更為豐富和個(gè)性化的表現(xiàn),為模型的開(kāi)發(fā)提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
這些數(shù)據(jù)來(lái)源的多樣性為模型塑造豐富多彩的角色提供了重要支持,但同時(shí)也伴隨著法律和倫理方面的風(fēng)險(xiǎn),需要在使用時(shí)格外謹(jǐn)慎。
模型與對(duì)齊
如果說(shuō)數(shù)據(jù)是劇本,那么模型就是演員,演員如何表現(xiàn)出角色的靈魂,離不開(kāi)對(duì)齊的訓(xùn)練。
在這一部分,作者詳細(xì)分析了角色扮演模型的基礎(chǔ)模型和對(duì)齊方法的演變過(guò)程,從最早的非預(yù)訓(xùn)練模型(Non-pretrained Models)到預(yù)訓(xùn)練語(yǔ)言模型(PLM)和大規(guī)模語(yǔ)言模型(LLMs),這些階段代表了角色扮演模型在架構(gòu)選擇上的重大轉(zhuǎn)變。
基礎(chǔ)模型
基礎(chǔ)模型在設(shè)定角色扮演模型的基本能力方面起到了關(guān)鍵作用。
早期的非預(yù)訓(xùn)練模型是為特定任務(wù)從頭開(kāi)發(fā)的,沒(méi)有大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)的支持。這些模型通常采用定制的架構(gòu),如記憶網(wǎng)絡(luò)或?qū)iT(mén)設(shè)計(jì)的Transformer,用于處理個(gè)人信息的存儲(chǔ)和嵌入融合。
隨著預(yù)訓(xùn)練語(yǔ)言模型(PLM)的引入,模型的基礎(chǔ)能力得到了顯著提升,能夠更好地理解上下文并生成文本,例如BERT、ConvAI2等模型。這些模型利用了大量預(yù)訓(xùn)練數(shù)據(jù),增強(qiáng)了它們?cè)诮巧缪葜械膽?yīng)用能力。
大規(guī)模語(yǔ)言模型(LLM)代表了角色扮演模型的最新前沿,具備前所未有的參數(shù)規(guī)模和預(yù)訓(xùn)練數(shù)據(jù)能力。諸如GPT-4和CharacterGLM等LLMs能夠在極少的提示下保持連貫且具有豐富上下文的對(duì)話,這些模型主要基于解碼器架構(gòu),通過(guò)指令微調(diào)等方式進(jìn)行角色配置,形成特定角色扮演的效果。
這些LLM的出現(xiàn)使得角色扮演的個(gè)性化和連貫性達(dá)到了新的高度。
特別是,作者們以CharacterGLM為例,深入探討了如何優(yōu)化大語(yǔ)言模型以支持角色扮演。
首先,通過(guò)收集角色相關(guān)的對(duì)話訓(xùn)練語(yǔ)料,以及相應(yīng)的角色背景信息,生成豐富的角色化對(duì)話數(shù)據(jù)集。
接著是指令微調(diào)階段,將角色背景信息和對(duì)話數(shù)據(jù)組織成結(jié)構(gòu)化的指令,并通過(guò)多樣化提示進(jìn)行數(shù)據(jù)增強(qiáng),以提高模型生成多樣化、上下文適宜的對(duì)話回復(fù)能力。
最后,模型可能會(huì)通過(guò)自對(duì)齊(Self-Alignment)進(jìn)行進(jìn)一步優(yōu)化,即利用更先進(jìn)的模型的輸出對(duì)較弱模型進(jìn)行訓(xùn)練,并結(jié)合人類(lèi)反饋,以確保角色一致性。這種綜合的方法確保了大語(yǔ)言模型在角色扮演場(chǎng)景中能夠有效地體現(xiàn)并保持角色特質(zhì)。
對(duì)齊方法
對(duì)齊方法旨在確保角色扮演模型的回復(fù)與預(yù)期角色保持一致,分為“參數(shù)調(diào)整”(Parameter-Tuning)和“凍結(jié)參數(shù)”(Parameter-Frozen)兩大類(lèi)。
參數(shù)調(diào)整(Parameter-Tuning)
- 繼續(xù)預(yù)訓(xùn)練(Continue-Pretrain):通過(guò)在目標(biāo)領(lǐng)域的語(yǔ)料上繼續(xù)訓(xùn)練模型,幫助模型獲取角色相關(guān)知識(shí),彌合通用預(yù)訓(xùn)練和下游角色扮演之間的領(lǐng)域差距。例如,ChatPlug和MCP通過(guò)在特定文學(xué)語(yǔ)料上訓(xùn)練模型,捕捉角色特定的敘述和詞匯。
- 監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT):這是最直接的訓(xùn)練方法,通過(guò)將個(gè)人信息與對(duì)話連接起來(lái)進(jìn)行監(jiān)督學(xué)習(xí),使用如注意力路由機(jī)制、記憶網(wǎng)絡(luò)等技術(shù)增強(qiáng)模型對(duì)角色和對(duì)話的理解。代表性工作包括RoleLLM、CharacterLLM和CharacterGLM等。
- 自對(duì)齊(Self-Alignment):通過(guò)使用更強(qiáng)大的模型生成的數(shù)據(jù)對(duì)較弱的模型進(jìn)行微調(diào),例如CharacterGLM和Ditto使用自生成的數(shù)據(jù)進(jìn)一步增強(qiáng)LLMs在角色扮演中的表現(xiàn)。
凍結(jié)參數(shù)(Parameter-Frozen)
- 上下文學(xué)習(xí)(In-Context Learning):通過(guò)提示詞進(jìn)行學(xué)習(xí),例如在提示中配置角色背景信息以模擬特定角色的行為。
- 檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG):結(jié)合檢索機(jī)制,將相關(guān)信息與生成任務(wù)結(jié)合,提高響應(yīng)的相關(guān)性和連貫性。
這些對(duì)齊方法如同不同類(lèi)型的表演訓(xùn)練,從不斷反復(fù)的臺(tái)詞練習(xí)到沉浸式的即興表演,每種方法都在為角色的完美呈現(xiàn)而努力。通過(guò)這些技術(shù),角色扮演語(yǔ)言模型得以在不同場(chǎng)景中展現(xiàn)出更高的表現(xiàn)力和一致性。
Agent架構(gòu)
在Agent架構(gòu)部分,作者將角色扮演語(yǔ)言Agent(RPLAs)比作舞臺(tái)上的演員,涵蓋了記憶、規(guī)劃和行動(dòng)三個(gè)重要模塊。
記憶模塊就像演員的“回憶錄”,幫助Agent記住與用戶或其他Agent的交互細(xì)節(jié);規(guī)劃模塊就像導(dǎo)演的“分鏡頭腳本”,為Agent制定每一步的行動(dòng)計(jì)劃;而行動(dòng)模塊則是演員的“即興表演”,讓Agent能夠靈活使用工具并生成多樣化的響應(yīng)。
通過(guò)這些模塊的協(xié)同運(yùn)作,角色扮演語(yǔ)言Agent得以呈現(xiàn)出更加立體、生動(dòng)的互動(dòng)體驗(yàn)。
RPLAs的設(shè)計(jì)基于三大核心模塊:
記憶模塊(Memory)
記憶模塊是RPLAs的基礎(chǔ),用于在不同的交互場(chǎng)景中保存和調(diào)用重要信息。記憶來(lái)源主要分為兩類(lèi):user-agent 交互和agent-agent交互。
User-agent交互記憶使Agent能夠在長(zhǎng)期互動(dòng)中保持一致性,例如記住用戶的選擇和偏好,而agent-agent交互則用于支持多Agent之間的合作或競(jìng)爭(zhēng),使Agent在復(fù)雜場(chǎng)景中形成更具策略性的行為。
記憶的使用分為檢索型記憶和壓縮型記憶,前者通過(guò)維護(hù)數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)歷史信息,后者通過(guò)壓縮歷史數(shù)據(jù)來(lái)減少存儲(chǔ)需求,增強(qiáng)對(duì)話的一致性和效率。
規(guī)劃模塊(Planning)
規(guī)劃模塊主要用于角色的目標(biāo)設(shè)定和行動(dòng)策略的制定,分為“規(guī)劃制定”和“規(guī)劃反思”兩個(gè)階段。
在規(guī)劃制定階段,Agent會(huì)分析當(dāng)前情境、預(yù)測(cè)可能的未來(lái)狀態(tài),并設(shè)計(jì)一系列符合角色動(dòng)機(jī)的行動(dòng)。規(guī)劃反思則是在行動(dòng)之后對(duì)其有效性進(jìn)行評(píng)估,以確保角色的行為與劇情發(fā)展和角色特征保持一致。
通過(guò)這種反思機(jī)制,RPLAs能夠不斷優(yōu)化自己的行動(dòng)策略,以在未來(lái)的交互中更加符合用戶的期望和故事情節(jié)的發(fā)展。
行動(dòng)模塊(Action)
行動(dòng)模塊是Agent將規(guī)劃付諸實(shí)施的環(huán)節(jié),最常見(jiàn)的形式是生成符合角色特性的對(duì)話。
此外,RPLAs還可以通過(guò)工具(例如搜索相關(guān)API)獲取和整合特定知識(shí),從而豐富對(duì)話內(nèi)容,確保在需要深度領(lǐng)域知識(shí)的場(chǎng)景中提供準(zhǔn)確的信息。
未來(lái),RPLAs還可能擴(kuò)展到具備“具身行動(dòng)”的能力,即在虛擬或增強(qiáng)現(xiàn)實(shí)環(huán)境中與周?chē)h(huán)境進(jìn)行更直接的交互,這將為角色扮演的沉浸感帶來(lái)全新突破。
通過(guò)這三大模塊的協(xié)同運(yùn)作,RPLAs不僅能在對(duì)話中表現(xiàn)出角色特性,還能夠在復(fù)雜場(chǎng)景中主動(dòng)推進(jìn)情節(jié)的發(fā)展,為用戶提供更加動(dòng)態(tài)和有趣的互動(dòng)體驗(yàn)。
評(píng)估
Evaluation是檢驗(yàn)角色扮演是否成功的關(guān)鍵,就像頒獎(jiǎng)典禮上的評(píng)審團(tuán),嚴(yán)格考核演員的表現(xiàn)。作者們從對(duì)話能力、角色一致性、行為一致性和角色吸引力四個(gè)維度總結(jié)和討論了role-playing llm的評(píng)估體系。
評(píng)估方法概述
作者們將角色扮演語(yǔ)言模型的評(píng)估分為三種主要方法:Reference-based Evaluation、Human-based Evaluation和LLM-based Evaluation。
Reference-based Evaluation
這種方法使用參考輸出(即測(cè)試集中的“ground-truth”)來(lái)評(píng)估模型輸出與用戶期望之間的一致性。常用的評(píng)估指標(biāo)包括困惑度(Perplexity, PPL)、BLEU和ROUGE。
這些指標(biāo)用于評(píng)估模型輸出的語(yǔ)言質(zhì)量和與參考的相似度。
然而,這些傳統(tǒng)指標(biāo)在評(píng)估角色扮演的一致性方面存在局限。為了更好地評(píng)估角色一致性,研究人員提出了多選回答格式的評(píng)估方法,要求模型在多個(gè)選項(xiàng)中選擇最符合角色的回答。
Human-based Evaluation
人類(lèi)評(píng)估是評(píng)估角色扮演模型性能的重要方法,特別是在捕捉對(duì)話中微妙的角色特征和用戶參與感方面。
常用的人類(lèi)評(píng)估方法包括打分和排序兩種方式。打分方法要求評(píng)估者根據(jù)特定標(biāo)準(zhǔn)對(duì)模型的響應(yīng)進(jìn)行評(píng)分,而排序方法則要求評(píng)估者對(duì)不同模型的輸出按質(zhì)量進(jìn)行排序。
雖然人類(lèi)評(píng)估能夠提供深刻的洞察,但它也面臨主觀性強(qiáng)、成本高和難以擴(kuò)展的問(wèn)題。
LLM-based Evaluation
隨著大型語(yǔ)言模型(如ChatGPT)的發(fā)展,基于LLM的評(píng)估逐漸受到關(guān)注。通過(guò)使用預(yù)先設(shè)定的評(píng)分標(biāo)準(zhǔn)和示例,大語(yǔ)言模型可以模擬人類(lèi)評(píng)估的過(guò)程,并提供快速的可擴(kuò)展評(píng)估。
然而,基于LLM的評(píng)估在一致性和可靠性方面存在挑戰(zhàn),特別是在評(píng)估角色扮演能力強(qiáng)于評(píng)估模型的場(chǎng)景中表現(xiàn)不佳。
此外,LLM在評(píng)分時(shí)對(duì)順序敏感,往往會(huì)對(duì)順序考前的回復(fù)給予更高的評(píng)分。LLM進(jìn)行評(píng)估的另一缺陷便在于弱LLM很難去評(píng)估更強(qiáng)的LLM,比如gpt3.5難以去評(píng)估gpt4的角色化能力。
作者們還額外強(qiáng)調(diào),學(xué)術(shù)界越來(lái)越依賴(lài)于僅使用LLM去評(píng)估模型的角色化能力,這是完全不夠的。
在作者們的相關(guān)經(jīng)驗(yàn)中,在略微復(fù)雜的角色化場(chǎng)景中發(fā)現(xiàn)LLM-based 評(píng)價(jià)方式和人工評(píng)價(jià)依然還存在較大差距,因此作者們呼吁當(dāng)論文中使用LLM-based 評(píng)價(jià)方式中,應(yīng)該至少在少量樣本上證明LLM-based和人工評(píng)價(jià)的一致性。
評(píng)估維度
評(píng)估角色扮演模型的能力涉及多個(gè)維度,這些維度共同衡量模型在角色扮演中的表現(xiàn)。
對(duì)話能力:衡量模型在對(duì)話中的流暢性、連貫性和語(yǔ)言多樣性。流暢性要求模型輸出的語(yǔ)法正確、結(jié)構(gòu)自然,而語(yǔ)言多樣性則反映模型在用詞上的豐富性,避免重復(fù)和單一化。
角色一致性:評(píng)估模型在整個(gè)互動(dòng)中是否一致地扮演好自己的角色,包括角色的屬性、行為方式等。
行為一致性:關(guān)注角色在對(duì)話中的行為是否符合其設(shè)定,例如對(duì)話風(fēng)格和角色個(gè)性是否始終如一。
角色吸引力:評(píng)估角色的互動(dòng)是否能夠吸引用戶并激發(fā)用戶的興趣和共鳴,例如角色的主動(dòng)性和共情能力。
各種評(píng)估方法的挑戰(zhàn)與討論
雖然上述評(píng)估方法各有其優(yōu)勢(shì),但作者們指出它們也面臨許多挑戰(zhàn)?;趨⒖嫉脑u(píng)估在準(zhǔn)確性和效率方面表現(xiàn)良好,但缺乏對(duì)角色一致性的深度理解。
基于人類(lèi)的評(píng)估盡管能捕捉對(duì)話中的細(xì)微之處,但由于評(píng)估者的主觀性和高昂的成本,難以大規(guī)模應(yīng)用?;贚LM的評(píng)估在成本和可擴(kuò)展性上具有優(yōu)勢(shì),但其一致性和與人類(lèi)評(píng)估的匹配度有待提高。
作者們還強(qiáng)調(diào),無(wú)論采用何種評(píng)估方法,都必須確保方法能夠在特定場(chǎng)景下有效地評(píng)估角色扮演能力。
例如,在進(jìn)行人類(lèi)或LLM評(píng)估時(shí),評(píng)估者需要具備足夠的角色背景知識(shí),否則評(píng)估的準(zhǔn)確性將受到影響。對(duì)話能力是角色語(yǔ)言是否流暢、自然;角色一致性則是角色在整個(gè)互動(dòng)中是否始終如一地扮演好自己的角色;行為一致性關(guān)注角色的舉止是否符合其身份,而角色吸引力則考察角色是否能夠吸引用戶、激發(fā)共鳴。
作者還對(duì)比了基于參考、人工和大語(yǔ)言模型的評(píng)估方法,指出每種方法在不同角色扮演場(chǎng)景中的優(yōu)勢(shì)和不足。
未來(lái)的挑戰(zhàn)與發(fā)展方向
在角色扮演語(yǔ)言模型的發(fā)展過(guò)程中,盡管已有顯著的進(jìn)展,但仍存在許多挑戰(zhàn)需要克服,以實(shí)現(xiàn)更為復(fù)雜和互動(dòng)性更強(qiáng)的敘事體驗(yàn)。在這一部分,作者詳細(xì)總結(jié)了當(dāng)前系統(tǒng)的不足之處,并提出了未來(lái)研究的方向。
評(píng)價(jià)方法的改進(jìn):
目前的參考基準(zhǔn)評(píng)估方法主要集中在語(yǔ)言準(zhǔn)確性和連貫性上,這對(duì)于評(píng)估角色扮演的能力(如角色一致性和敘事吸引力)是遠(yuǎn)遠(yuǎn)不夠的?,F(xiàn)有的評(píng)價(jià)指標(biāo)(如?PPL)雖然在某些方面表現(xiàn)良好,但無(wú)法直接評(píng)估生成的輸出與設(shè)定角色之間的一致性。因此,未來(lái)需要開(kāi)發(fā)更多適用于角色扮演的評(píng)價(jià)方法,特別是能夠捕捉角色之間關(guān)系動(dòng)態(tài)和心理狀態(tài)的深度對(duì)齊方法。
大語(yǔ)言模型(LLM)評(píng)估的局限性:
LLM在進(jìn)行角色評(píng)估時(shí),常常面臨與人類(lèi)評(píng)估結(jié)果不一致的問(wèn)題。例如,當(dāng)LLM評(píng)估它們不熟悉的角色時(shí),準(zhǔn)確性可能會(huì)受到影響。此外,LLM在進(jìn)行評(píng)分時(shí)對(duì)響應(yīng)順序存在敏感性,通常會(huì)優(yōu)先給較長(zhǎng)的響應(yīng)打分較高。因此,未來(lái)的研究需要在評(píng)估過(guò)程中引入更多的細(xì)化機(jī)制,以解決這些一致性和可靠性方面的問(wèn)題。
記憶管理和多模態(tài)集成:
RPLAs的記憶模塊在提供上下文連續(xù)性、角色扮演互動(dòng)和深度敘事參與方面非常重要,但在管理大量數(shù)據(jù)和保持存儲(chǔ)效率上面臨諸多挑戰(zhàn)。此外,多模態(tài)交互(如圖像-文本對(duì))可以顯著增強(qiáng)角色扮演的深度和真實(shí)性,未來(lái)應(yīng)加強(qiáng)多模態(tài)整合,開(kāi)發(fā)更為沉浸的角色扮演體驗(yàn)。
終身學(xué)習(xí)和安全性:
角色扮演語(yǔ)言模型的長(zhǎng)期目標(biāo)是具備終身學(xué)習(xí)能力,使得系統(tǒng)能夠不斷適應(yīng)用戶交互和環(huán)境變化。然而,終身學(xué)習(xí)也帶來(lái)了對(duì)齊和安全性方面的巨大挑戰(zhàn),可能導(dǎo)致系統(tǒng)出現(xiàn)未預(yù)料的有害行為(如獎(jiǎng)勵(lì)黑客和目標(biāo)失調(diào))。未來(lái)的研究需要開(kāi)發(fā)穩(wěn)健的框架,以管理RPLA的學(xué)習(xí)軌跡,確保其發(fā)展始終符合倫理標(biāo)準(zhǔn)和設(shè)計(jì)目標(biāo)。
論文鏈接:https://arxiv.org/abs/2407.11484
項(xiàng)目主頁(yè):https://github.com/nuochenpku/Awesome-Role-Play-Papers