偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tfoot id="1e5jp"></tfoot>

<pre id="1e5jp"><fieldset id="1e5jp"></fieldset></pre>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

ToMAP：賦予大模型「讀心術(shù)」，打造更聰明的AI說服者

2025-06-25 09:19:44

人工智能新聞

本研究提出了 ToMAP，一種融合心智理論的 AI 說服框架，致力于解決當(dāng)前大語言模型在說服任務(wù)中缺乏對(duì)手建模與策略靈活性的問題。

本文第一作者為韓沛煊，本科畢業(yè)于清華大學(xué)計(jì)算機(jī)系，現(xiàn)為伊利諾伊大學(xué)香檳分校（UIUC）計(jì)算與數(shù)據(jù)科學(xué)學(xué)院一年級(jí)博士生，接受 Jiaxuan You 教授指導(dǎo)。其主要研究方向?yàn)椋捍笳Z言模型的安全性及其在復(fù)雜場景中的推理。

說服，是影響他人信念、態(tài)度甚至行為的過程，廣泛存在于人類社會(huì)之中。作為一種常見而復(fù)雜的交流形式，這一頗具挑戰(zhàn)的任務(wù)也自然地成為了日趨強(qiáng)大的大語言模型的試金石。

人們發(fā)現(xiàn)，頂尖大模型能生成條理清晰的說服語段，甚至在 Reddit 等用戶平臺(tái)以假亂真，但大模型在心智感知方面的缺失卻成為了進(jìn)一步發(fā)展說服力的瓶頸。

成功的說服不僅需要清晰有力的論據(jù)，更需要精準(zhǔn)地洞察對(duì)方的立場和思維過程。這種洞察被心理學(xué)稱為「心智理論」（ToM），即認(rèn)識(shí)到他人擁有獨(dú)立的想法、信念和動(dòng)機(jī)，并基于此進(jìn)行推理。這是人類與生俱來的認(rèn)知能力，而大模型在對(duì)話中卻往往缺乏心智感知，這導(dǎo)致了兩個(gè)顯著的缺陷：

模型往往僅圍繞核心論點(diǎn)展開討論，而無法根據(jù)論點(diǎn)之間的聯(lián)系提出新的角度；
模型往往僅關(guān)注并重復(fù)己方觀點(diǎn)，而無法因應(yīng)對(duì)方態(tài)度變化做出策略調(diào)整。

為解決這一問題，伊利諾伊大學(xué)香檳分校的研究者提出了 ToMAP（Theory of Mind Augmented Persuader），一種引入「心智理論」機(jī)制的全新說服模型，讓 AI 更能「設(shè)身處地」從對(duì)方的角度思考，從而實(shí)現(xiàn)更具個(gè)性化、靈活性和邏輯性的說服過程。

論文標(biāo)題：ToMAP: Training Opponent-Aware LLM Persuaders with Theory of Mind
論文地址：https://arxiv.org/pdf/2505.22961
開源代碼倉庫：https://github.com/ulab-uiuc/ToMAP

ToMAP：知己知彼，百戰(zhàn)不殆

ToMAP 創(chuàng)新性地在說服者框架中引入兩大心智模塊：反駁預(yù)測器和態(tài)度預(yù)測器。

反駁預(yù)測器模擬人類在說服中主動(dòng)預(yù)判對(duì)方可能持有的反對(duì)觀點(diǎn)。本文發(fā)現(xiàn)，大模型說服者本身就具備反駁預(yù)測的能力，只需要通過提示詞設(shè)計(jì)「激活」這一能力即可。定性與定量分析顯示，基于模型生成的反駁觀點(diǎn)與真實(shí)被說服者的觀點(diǎn)在語義上高度相似。這讓說服者在對(duì)話中占據(jù)「先發(fā)優(yōu)勢」，從而主動(dòng)化解對(duì)方的疑慮。在主張「素食食譜」的例子中，反駁預(yù)測器能主動(dòng)識(shí)別出「烹飪麻煩」「味道不好」等對(duì)方反對(duì)素食的理由，構(gòu)建出圍繞核心論點(diǎn)的復(fù)合關(guān)系。

僅僅識(shí)別反論點(diǎn)并不能刻畫復(fù)雜對(duì)話中的態(tài)度變化，因此，態(tài)度預(yù)測器進(jìn)一步評(píng)估對(duì)手對(duì)上述反論點(diǎn)的態(tài)度——是堅(jiān)定認(rèn)可，還是中立或已被說服？該模塊以對(duì)話歷史和論點(diǎn)為輸入，利用 BGE-M3 文本編碼器與多層感知機(jī)（MLP）分類器，在對(duì)話過程中動(dòng)態(tài)估算對(duì)方對(duì)各個(gè)論點(diǎn)的態(tài)度傾向，使說服者能有的放矢地展開論證。

實(shí)驗(yàn)表明，預(yù)測器在 5 點(diǎn)預(yù)測上的表現(xiàn)顯著優(yōu)于直接使用大模型推理。例如，在上圖的對(duì)話中，對(duì)方已經(jīng)認(rèn)可素食對(duì)健康的好處，卻提到其并不「享受」素食。這說明其很可能對(duì)素食的味道持保留態(tài)度，為下一輪的說服側(cè)重點(diǎn)提供了關(guān)鍵線索。

兩大預(yù)測器的引入使得說服者在作出決策時(shí)掌握更為豐富的信息：其不僅能預(yù)知對(duì)方可能的反駁意見，還能動(dòng)態(tài)評(píng)估對(duì)方心理狀態(tài)。這有利于其設(shè)計(jì)更多樣化、有針對(duì)性的對(duì)話，切實(shí)有效地影響對(duì)方觀點(diǎn)。

然而，LLM 本身未必能有效利用這些信息，為了充分發(fā)揮上述模塊的優(yōu)勢，ToMAP 采用了強(qiáng)化學(xué)習(xí)（RL）方法，通過大量對(duì)話對(duì)模型進(jìn)行訓(xùn)練。在每輪對(duì)話中，模型會(huì)根據(jù)「說服力得分」進(jìn)行獎(jiǎng)勵(lì)，該得分衡量的是對(duì)方在一輪交互前后態(tài)度的變化。為避免重復(fù)、冗長、格式不當(dāng)?shù)葐栴}，訓(xùn)練還引入了格式獎(jiǎng)勵(lì)、重復(fù)懲罰、超長懲罰等輔助信號(hào)，幫助模型生成通順、有說服力的對(duì)話。

實(shí)驗(yàn)分析：運(yùn)籌帷幄，策略制勝

本文在多種數(shù)據(jù)集與對(duì)手模型上對(duì)說服者模型進(jìn)行了系統(tǒng)測試，評(píng)估對(duì)手模型在 3 輪對(duì)話前后的態(tài)度轉(zhuǎn)變。

結(jié)果顯示，基于 Qwen-2.5-3B 的 ToMAP 模型顯著優(yōu)于基線模型和無心智模塊的 RL 版本。值得注意的是，盡管 ToMAP 僅使用 3B 參數(shù)的小模型，其性能卻超越了多種參數(shù)規(guī)模更大的模型，包括 GPT-4o 與 DeepSeek-R1。這說明即使是規(guī)模較小的模型，在合適的訓(xùn)練配方和模塊設(shè)計(jì)的加持下，也能展現(xiàn)出驚人的說服力。

回顧 ToMAP 模型的訓(xùn)練軌跡，我們得以一窺其能力增長背后的原理。從圖中可以看出，在說服獎(jiǎng)勵(lì)不斷增加的過程中，ToMAP 的重復(fù)度懲罰始終保持在較低水平，說明心智模塊的信息有效地提高了模型輸出的多樣性。

另外，在對(duì)話長度相對(duì)穩(wěn)定的條件下，ToMAP 的思考長度顯著高于基線，表明 RL 賦予了模型深度思考策略的能力，具有不可或缺的作用。另外，ToMAP 更傾向于使用理性和有針對(duì)性策略，而非空洞的情緒煽動(dòng)或權(quán)威引用——策略的改進(jìn)正是其說服力提升的重要原因。

我們還發(fā)現(xiàn)，ToMAP 在長對(duì)話中依然穩(wěn)定提升說服力?；鶞?zhǔn)模型和常規(guī) RL 模型在早期幾輪對(duì)話中效果較好，但隨著對(duì)話輪次增加，說服力趨于飽和甚至下降；相比之下，ToMAP 在 10 輪對(duì)話中依然保持穩(wěn)定增長，顯示出優(yōu)秀的策略調(diào)整能力和論點(diǎn)的多樣性。

結(jié)語：為 AI 注入「人性認(rèn)知」的火花

本研究提出了 ToMAP，一種融合心智理論的 AI 說服框架，致力于解決當(dāng)前大語言模型在說服任務(wù)中缺乏對(duì)手建模與策略靈活性的問題。論文通過「反論點(diǎn)預(yù)測器」模擬人類預(yù)判異議的能力，通過「態(tài)度預(yù)測器」感知對(duì)方態(tài)度的細(xì)微變化，使 AI 在說服過程中更加敏銳與應(yīng)變。通過精心設(shè)計(jì)的強(qiáng)化學(xué)習(xí)機(jī)制，促進(jìn)模型生成內(nèi)容多樣、結(jié)構(gòu)規(guī)范、邏輯清晰的高質(zhì)量論證。

ToMAP 不僅提升了模型的說服能力，在多個(gè)數(shù)據(jù)集和模型組合中顯著超越強(qiáng)大基線，更是在大模型「心智建?！狗较蛏线~出的重要一步。通過主動(dòng)理解對(duì)方認(rèn)知結(jié)構(gòu)與態(tài)度傾向，ToMAP 展現(xiàn)出初步的「社會(huì)認(rèn)知」特征，使得語言模型在復(fù)雜交互任務(wù)中更具人性化與策略性。

總之，ToMAP 不僅是一種有效的說服者訓(xùn)練框架，更是推動(dòng) AI 邁向具備「類人思維模式」的創(chuàng)新嘗試，為構(gòu)建可信、靈活的 AI 交流系統(tǒng)提供了堅(jiān)實(shí)基礎(chǔ)。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營