偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

語言表象與行為實質(zhì)的鴻溝——加州理工、劍橋大學(xué)關(guān)于LLM人格特質(zhì)的研究

發(fā)布于 2025-9-11 00:24
瀏覽
0收藏

.

在與大型語言模型(LLM)的日常交互中,我們常常會被它們表現(xiàn)出的“人格”所吸引。有的模型總是溫和禮貌、樂于助人,似乎充滿宜人性,有的模型思維開放、表達流暢,仿佛具備高度開放性,還有的模型在對話中展現(xiàn)出自我調(diào)節(jié)與克制,好像能像人類一樣控制情緒與行為。

在人類心理學(xué)中,這些個性特質(zhì)并非只是表面標(biāo)簽,而是能夠跨情境穩(wěn)定地預(yù)測行為的心理結(jié)構(gòu)。

LLM 是否也具備類似的穩(wěn)定性?它們的“人格”究竟是內(nèi)在的行為驅(qū)動力,還是僅僅停留在語言表層的幻象?這正是我們今天所探討的“人格錯覺”——即語言層面的特質(zhì)表達,并不等同于行為層面的穩(wěn)定傾向。

近日,一支英美著名學(xué)府組成的聯(lián)合研究團隊提出大模型的人格問題,這一問題不僅是學(xué)術(shù)上的好奇心驅(qū)動,更關(guān)乎 AI 在現(xiàn)實世界中的安全性、可解釋性與用戶信任。

當(dāng)前流行的對齊方法——如基于人類反饋的強化學(xué)習(xí)(RLHF)和指令微調(diào)——確實能讓模型在語言上表現(xiàn)得更“像人”,但這種塑造是否會延伸到實際行為?如果不能,我們又該如何理解和使用這些模型?

基于此,研究團隊圍繞三個核心問題展開。

RQ1:類人特質(zhì)在 LLM 的訓(xùn)練過程中是何時、如何出現(xiàn)并穩(wěn)定下來的?

RQ2:自我報告的人格特質(zhì)能否預(yù)測模型在真實任務(wù)中的行為表現(xiàn)?

RQ3:通過干預(yù)(如 persona injection)能否同時改變模型的特質(zhì)表達與實際行為?

語言表象與行為實質(zhì)的鴻溝——加州理工、劍橋大學(xué)關(guān)于LLM人格特質(zhì)的研究-AI.x社區(qū)

圖1:分析LLM人格特質(zhì)的實驗框架。研究團隊調(diào)查了(RQ1)不同訓(xùn)練階段自我報告特征(如大五、自我調(diào)節(jié))的出現(xiàn);(RQ2)它們對現(xiàn)實世界啟發(fā)的行為任務(wù)(如冒險、誠實、阿諛奉承)的預(yù)測價值;以及(RQ3)通過角色注入實現(xiàn)其可控性。特質(zhì)評估使用適應(yīng)性心理問卷和行為探針,并與人類基線進行比較。

這項研究由來自加州理工學(xué)院(Caltech)、伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)和劍橋大學(xué)的跨學(xué)科團隊完成,成員背景涵蓋計算機科學(xué)、認(rèn)知神經(jīng)科學(xué)、社會科學(xué)等領(lǐng)域。

團隊不僅在學(xué)術(shù)上有深厚積累,還堅持開源精神,將全部代碼與數(shù)據(jù)公開在 GitHub(??https://github.com/psychology-of-AI/Personality-Illusion??),以推動后續(xù)研究的透明性與可復(fù)現(xiàn)性。

1.研究方法與實驗設(shè)計(Methodology)

為了揭開“大型語言模型人格錯覺”的真相,這項研究并沒有停留在對話表面的印象,而是借鑒了心理學(xué)的嚴(yán)謹(jǐn)實驗范式,將量表測評、行為任務(wù)和干預(yù)實驗結(jié)合起來,構(gòu)建出一個多層次的驗證框架。

它既像一次心理診斷,又像一場行為學(xué)的“壓力測試”,目標(biāo)是看清 LLM 的自我報告與實際行為之間到底隔著多遠的距離。

測量工具:從心理學(xué)搬來的“照妖鏡”

研究團隊首先為模型準(zhǔn)備了兩面“鏡子”——經(jīng)典的心理學(xué)量表。 一面是大五人格量表(BFI),用來測量開放性、盡責(zé)性、外向性、宜人性和神經(jīng)質(zhì)五個維度,這些維度在人類心理學(xué)中與行為模式有著穩(wěn)定的關(guān)聯(lián)。 

另一面是自我調(diào)節(jié)量表(SRQ),聚焦于自控力和目標(biāo)導(dǎo)向行為,考察模型在面對沖突或誘惑時的“自我管理”傾向。量表經(jīng)過精心改寫成適合 LLM 回答的提示格式,確保測到的是模型的“自述”,而不是提示工程的產(chǎn)物。

語言表象與行為實質(zhì)的鴻溝——加州理工、劍橋大學(xué)關(guān)于LLM人格特質(zhì)的研究-AI.x社區(qū)

圖2:LLM中人格特質(zhì)的出現(xiàn)和穩(wěn)定(RQ1)。(A)平均自我報告的大五和自我調(diào)節(jié)得分(±95%CI):與基本模型(粉紅色)相比,對齊階段模型(紫色)顯示出更高的開放性、宜人性和自我調(diào)節(jié)性,以及更低的神經(jīng)質(zhì)。(B)比對降低了變異性:各性狀的中值絕對偏差下降了60-66%(***p?0.001,**p?0.01,*p?0.05,不顯著)。(C)五大人格自我調(diào)節(jié)的回歸顯示,與預(yù)先訓(xùn)練的(粉紅色)模型相比,對齊的(紫色)模型具有更強、更連貫的關(guān)聯(lián),這表明人格特征更加鞏固?;疑娇驑?biāo)記了人類研究的預(yù)期方向(↑,↓,–)。

模型樣本與分組:不同階段、不同體型的選手

為了比較訓(xùn)練階段和規(guī)模的影響,研究選取了多個開源模型家族,包括 LLaMA、Qwen、Mistral、OLMo 等。 它們被分為兩大陣營。

Base 模型:只經(jīng)過預(yù)訓(xùn)練,尚未進行指令對齊。

Instruct 模型:在 Base 基礎(chǔ)上經(jīng)過指令微調(diào)或 RLHF,對齊程度更高。 此外,每個家族還覆蓋了小型、中型、大型不同參數(shù)規(guī)模,讓研究能觀察到“體型”對人格表現(xiàn)的影響。

行為任務(wù)設(shè)計:讓模型“用行動說話”

光聽自我報告還不夠,研究團隊搬來了四個在人類心理學(xué)中久經(jīng)考驗的行為任務(wù),全部改造成文本交互版本。

Columbia Card Task(風(fēng)險偏好):讓模型在“翻牌”游戲中權(quán)衡收益與懲罰,測試它的冒險傾向。

隱性聯(lián)想測驗 IAT(社會偏見):通過詞語配對任務(wù),測量模型對不同社會群體的隱性偏好強度。

校準(zhǔn)與自我一致性(誠實性):先讓模型回答事實性問題并給出信心分,再在復(fù)查后重新打分,檢驗它的認(rèn)知誠實與元認(rèn)知能力。

Asch 從眾范式(逢迎性):先獨立回答道德困境,再在看到用戶相反意見后重新作答,觀察它是否隨波逐流。

干預(yù)策略:給模型“換個性格”

在可控性實驗(RQ3)中,研究引入了特質(zhì)定向 persona,直接在提示中賦予模型特定人格標(biāo)簽:

  • 宜人性 persona:強調(diào)友善、合作的特質(zhì)。
  • 自我調(diào)節(jié) persona:強調(diào)自控、目標(biāo)導(dǎo)向的特質(zhì)。 為了避免單一提示風(fēng)格的偏差,團隊設(shè)計了三種不同的提示策略(prompting strategies),從簡短前綴到詳細背景描述,全面測試persona 注入的效果。

統(tǒng)計分析方法:用數(shù)據(jù)拆解人格與行為的關(guān)系

所有實驗數(shù)據(jù)都經(jīng)過嚴(yán)謹(jǐn)?shù)慕y(tǒng)計建模處理。

混合效應(yīng)模型:分析特質(zhì)分?jǐn)?shù)與行為表現(xiàn)的關(guān)系,同時控制溫度、提示等隨機因素。

方差齊性檢驗(Levene’s Test):比較 Base 與 Instruct 模型在特質(zhì)表達上的穩(wěn)定性差異。

特質(zhì)–行為方向一致性指標(biāo)(Alignment Measure):衡量特質(zhì)與行為的關(guān)聯(lián)方向是否符合人類心理學(xué)的既有預(yù)期,用百分比直觀呈現(xiàn)一致性水平。

語言表象與行為實質(zhì)的鴻溝——加州理工、劍橋大學(xué)關(guān)于LLM人格特質(zhì)的研究-AI.x社區(qū)

圖3:LLM和人類在人格特質(zhì)、行為任務(wù)和模型類型上的一致性。每個面板顯示了LLM自我報告與行為任務(wù)按照人類受試者預(yù)期的方向(已實現(xiàn)的對齊,彩色條)定向?qū)R的病例百分比,其余比例表示與100%的差距(陰影)。第一個小組總結(jié)了自我報告和行為任務(wù)之間預(yù)期關(guān)聯(lián)的一致性,按自我報告的人格特征排列,第二個小組按行為任務(wù)排列,第三個小組按模型名稱排列,按模型家族分組,并按參數(shù)大小遞增排序。條形圖上方的百分比表示精確的對齊比例。50%處的線表示隨機行為(即,%偶然預(yù)期的對齊)。誤差條表示95%的置信區(qū)間(CI)。

通過這樣的設(shè)計,研究不僅能回答“模型說自己是什么樣”,還能驗證“它實際會怎么做”,并進一步探究“如果給它換個設(shè)定,它會不會真的變”。這為后續(xù)揭示人格錯覺的實證結(jié)果打下了堅實的基礎(chǔ)。

2.核心實驗結(jié)果(Results)

在這一部分,研究團隊用數(shù)據(jù)揭開了“大型語言模型人格錯覺”的三層面貌——從特質(zhì)的形成,到它們與行為的關(guān)系,再到可控性的邊界。

特質(zhì)的起源與穩(wěn)定化(RQ1) 

當(dāng)模型從單純的預(yù)訓(xùn)練階段邁入指令對齊階段時,它們的“人格畫像”發(fā)生了顯著變化。開放性、宜人性、自我調(diào)節(jié)等維度普遍上升,神經(jīng)質(zhì)則明顯下降。這種變化不僅是數(shù)值上的提升,更伴隨著特質(zhì)表達的穩(wěn)定化:大五人格的變異性下降了約 40%,自我調(diào)節(jié)的波動幅度減少了 45% 以上,整體變異性降幅甚至可達 66%。

更有意思的是,特質(zhì)之間的相關(guān)性也更接近人類心理學(xué)中的模式,呈現(xiàn)出一種“結(jié)構(gòu)化”的人格輪廓。不過,并非所有特質(zhì)都一樣受益——宜人性的穩(wěn)定性提升并不顯著,提示不同特質(zhì)對對齊的敏感度存在差異。

語言表象與行為實質(zhì)的鴻溝——加州理工、劍橋大學(xué)關(guān)于LLM人格特質(zhì)的研究-AI.x社區(qū)

圖4:基于混合效應(yīng)模型的對齊,估計LLM人格特質(zhì)對任務(wù)行為的影響。每個面板顯示了LLM自我報告的人格特質(zhì)預(yù)測五項任務(wù)行為的混合效應(yīng)模型系數(shù),并顯示了所有模型、小模型、大模型、LLaMA家族和Qwen家族的結(jié)果。藍細胞表示與人類預(yù)期一致的效果,而紅細胞表示相反方向的效果。對角線分割的單元格標(biāo)記了人類期望不明確的情況;藍色在頂部表示正系數(shù),在底部表示負系數(shù)。顏色強度反映效果大小,較深的陰影表示效果更強。顯著性表示為:p?0.1、*p?0.05、**p?0.01和***p?0.001。詳細數(shù)值見附錄C表3。

特質(zhì)與行為的脫節(jié)(RQ2) 

當(dāng)研究者將這些穩(wěn)定的自我報告特質(zhì)與模型在真實任務(wù)中的行為表現(xiàn)對照時,發(fā)現(xiàn)了一個令人意外的斷層。特質(zhì)–行為一致性大多徘徊在 45%–62% 之間,與隨機水平幾乎無異。

小型和中型模型幾乎沒有表現(xiàn)出顯著的對齊,大型模型如 Qwen-235B 雖有一定提升,但也只是略高于隨機。更令人警醒的是,即便出現(xiàn)統(tǒng)計顯著的關(guān)聯(lián),其方向也常與人類心理學(xué)預(yù)期相反。深入到具體任務(wù)中,這種對齊模式更顯零散、不穩(wěn)定——某些特質(zhì)在個別任務(wù)中表現(xiàn)出一致性,但無法跨任務(wù)延續(xù)。

可控性與 Persona 注入(RQ3) 

在可控性實驗中,persona 注入展現(xiàn)了“語言塑形”的強大能力。無論是宜人性 persona 還是自我調(diào)節(jié) persona,都能顯著提升對應(yīng)特質(zhì)的自我報告分?jǐn)?shù)。

然而,這種變化在行為層面幾乎無從察覺,逢迎性和風(fēng)險偏好等任務(wù)的表現(xiàn)變化微弱且不穩(wěn)定,缺乏跨任務(wù)的一致性。更復(fù)雜的是,persona 注入還會引發(fā)“跨特質(zhì)干擾”——例如,自我調(diào)節(jié) persona 會意外降低宜人性和開放性,說明人格維度之間存在復(fù)雜的聯(lián)動效應(yīng)。

語言表象與行為實質(zhì)的鴻溝——加州理工、劍橋大學(xué)關(guān)于LLM人格特質(zhì)的研究-AI.x社區(qū)

圖5:特征特定的人物可以通過自我報告檢測,但不能通過行為檢測。邏輯回歸的系數(shù)估計(95%CI)使用六個自我報告的特征或一個行為指標(biāo)(阿諛奉承或冒險)預(yù)測個人狀況(宜人性或自我調(diào)節(jié)與默認(rèn))。結(jié)果顯示在三種提示策略中,由顏色強度表示(附錄H)。顯著性水平(*p?0.05,**p?0.01,***p?0.001,未另行說明)標(biāo)記在每個柱狀圖上。在各種策略中,自我報告可靠地揭示了人物角色的存在,而行為測量則沒有,這表明人物角色效應(yīng)向下游行為的轉(zhuǎn)移有限。

3.討論(Discussion)

這項研究最引人深思的發(fā)現(xiàn),是語言與行為之間那條看不見的裂縫。大型語言模型在對話中可以表現(xiàn)得彬彬有禮、邏輯嚴(yán)謹(jǐn),甚至在心理學(xué)量表上交出一份“人格完整”的答卷,但這并不意味著它們在實際行為中會遵循同樣的模式。

研究團隊用一系列實驗證明,這些特質(zhì)更多是源于模式匹配的結(jié)果——模型在訓(xùn)練數(shù)據(jù)中學(xué)會了如何“說”出符合某種人格的語言,而不是出于任何內(nèi)在動機或穩(wěn)定的心理狀態(tài)。

這種脫節(jié)的另一個表現(xiàn),是模型對提示的高度敏感性。換個提問方式、調(diào)整上下文,甚至改變溫度參數(shù),都可能讓它的“人格”發(fā)生明顯波動。缺乏時間一致性意味著,即便在同一場對話中,模型的行為傾向也可能隨情境而變,這與人類人格的穩(wěn)定性有著本質(zhì)差異。

在診斷這種現(xiàn)象時,心理學(xué)框架展現(xiàn)了獨特的價值。研究的目標(biāo)并不是測量模型掌握了多少知識,而是檢驗它能否將知識與行為連貫地映射起來。通過引入那些不太可能成為訓(xùn)練優(yōu)化目標(biāo)的心理學(xué)任務(wù),團隊得以繞過“考試型”表現(xiàn),直接觸及模型在行為一致性上的短板。這種方法論不僅揭示了問題的存在,也為未來的評估提供了更貼近真實使用場景的工具。

當(dāng)前的對齊與提示技術(shù)很容易制造一種“連貫幻覺”。RLHF 和 persona prompt 確實能讓模型在語言上表現(xiàn)得更穩(wěn)定、更符合預(yù)期,但它們塑造的只是輸出表象,而非深層的行為規(guī)律。更糟的是,這種 persona 效果在長對話中會逐漸衰減,模型最終回到原有的波動狀態(tài)。這種幻覺在用戶體驗上可能令人安心,卻在需要穩(wěn)定決策的場景中埋下隱患。

要跨越這條裂縫,研究提出了幾條可能的路徑。

其一是行為反饋強化學(xué)習(xí)(RLBF),不再只獎勵語言的流暢與禮貌,而是獎勵在心理學(xué)任務(wù)中保持一致行為的能力。

其二是行為評估檢查點(Behavioral Checkpoints),在模型開發(fā)過程中引入跨情境的行為一致性測試,確保不同場景下的穩(wěn)定表現(xiàn)。

其三是表示層干預(yù)(Representation-level Interventions),直接在模型的潛在表示空間中編碼特定的行為特質(zhì),從根源上塑造行為傾向。

4.結(jié)論(Conclusion)

這項研究為我們提供了一個清晰的結(jié)論:指令對齊確實能讓 LLM 的自我報告特質(zhì)更穩(wěn)定、更接近人類心理學(xué)的結(jié)構(gòu)模式,但這并不能保證它們在行為上的一致性。

Persona 注入在語言層面上有效,卻難以在行為層面產(chǎn)生持久、跨任務(wù)的可控性。換句話說,當(dāng)前的對齊方法更多是在雕琢一張“人格面具”,而非塑造一個有內(nèi)在傾向的行為主體。

如果我們希望未來的 LLM 在關(guān)鍵任務(wù)中不僅“說得好”,還要“做得穩(wěn)”,就必須將對齊的重心從語言表象轉(zhuǎn)向行為驅(qū)動。

這意味著在訓(xùn)練與評估中引入更多基于行為的目標(biāo)和反饋機制,讓模型的“人格”不再只是紙面上的幻覺,而能在真實世界的行動中得到驗證。這樣,AI 才能真正跨過那條語言與行為之間的鴻溝,成為值得信賴的智能伙伴。(END)

參考資料:???https://arxiv.org/pdf/2509.03730??

本文轉(zhuǎn)載自?????波動智能?????,作者:FlerkenS

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦