醒醒,LLM根本沒(méi)有性格!加州理工華人揭開(kāi)AI人格幻覺(jué)真相
AI真的有「性格」嗎?
有人拿它做過(guò)大五人格測(cè)試,發(fā)現(xiàn)它回答得既友善,又不焦慮,甚至比人類更穩(wěn)定。
于是有了各種趣味解讀:有的模型像外向的ENFP,有的則更像嚴(yán)謹(jǐn)?shù)腎STJ,好像AI也能被貼上MBTI標(biāo)簽。
可最新一篇來(lái)自加州理工、劍橋等機(jī)構(gòu)的論文,卻潑下了一盆冷水:
LLM的「人格」,也許只是語(yǔ)言制造的幻覺(jué)。

論文地址:https://arxiv.org/abs/2509.03730
項(xiàng)目主頁(yè):https://psychology-of-ai.github.io/
研究者不僅讓模型做問(wèn)卷,還設(shè)計(jì)了一系列行為實(shí)驗(yàn)。結(jié)果令人意外:
模型說(shuō)出來(lái)的性格,與實(shí)際行為幾乎對(duì)不上。
那么,這個(gè)「人格幻覺(jué)」是怎么被發(fā)現(xiàn)的?
問(wèn)卷里的人格:AI比人還「完美」?
在這項(xiàng)研究里,團(tuán)隊(duì)把「大模型到底有沒(méi)有人格」拆成了三步:先看語(yǔ)言上的自報(bào)特質(zhì)(RQ1),再測(cè)真實(shí)任務(wù)的行為表現(xiàn)(RQ2),最后嘗試用persona注入來(lái)調(diào)控(RQ3)。

從預(yù)訓(xùn)練到對(duì)齊,再到persona提示注入的整體流程
如果只看心理問(wèn)卷,大語(yǔ)言模型簡(jiǎn)直是「模范人格」。
研究團(tuán)隊(duì)首先采用了心理學(xué)里常見(jiàn)的兩類自評(píng)工具:大五人格問(wèn)卷和自我調(diào)節(jié)量表。
這些量表在人類研究中被廣泛用來(lái)描繪一個(gè)人的性格特質(zhì),比如是否外向、是否友善,是否能夠控制沖動(dòng)。
當(dāng)研究者把這些問(wèn)卷交給不同階段的大模型時(shí),結(jié)果顯示出一個(gè)清晰的趨勢(shì):隨著指令微調(diào)(SFT)、人類反饋強(qiáng)化學(xué)習(xí)(RLHF)、DPO 等對(duì)齊方法的疊加,模型的「人格畫(huà)像」越來(lái)越穩(wěn)定、越來(lái)越「乖巧」。
具體表現(xiàn)在哪里呢?在大五人格的維度上,開(kāi)放性和宜人性顯著上升,神經(jīng)質(zhì)顯著下降。
也就是說(shuō),它看上去更開(kāi)朗、友善,也更少焦慮和不穩(wěn)定。

不同訓(xùn)練階段LLM的自報(bào)人格特征。可以看到,經(jīng)過(guò)RLHF的模型,在宜人性、盡責(zé)性等維度上得分更高,神經(jīng)質(zhì)更低,呈現(xiàn)出「更乖巧」的人格形象
與此同時(shí),模型在問(wèn)卷上的波動(dòng)幅度也明顯減少:Big Five的變異度下降約40%,自我調(diào)節(jié)下降約45%。
研究還發(fā)現(xiàn),這些特質(zhì)之間的相關(guān)結(jié)構(gòu),也比預(yù)訓(xùn)練階段更接近人類群體的數(shù)據(jù)。
從結(jié)果來(lái)看,對(duì)齊讓模型呈現(xiàn)出一個(gè)「理想合作者」的人格:開(kāi)朗、友好、穩(wěn)定、可靠——甚至比大多數(shù)人類受試者的自評(píng)還要完美。
這項(xiàng)研究由一個(gè)跨學(xué)科團(tuán)隊(duì)聯(lián)合完成。
但這樣近乎完美的形象,真的可信嗎?
為了回答這個(gè)問(wèn)題,一個(gè)跨學(xué)科的研究團(tuán)隊(duì)走到了一起,既有計(jì)算機(jī)背景的青年研究者,也有認(rèn)知神經(jīng)科學(xué)、社會(huì)學(xué)等領(lǐng)域的教授。
他們想要用實(shí)驗(yàn)揭穿這層光鮮外殼,而這背后的探索,是由一位跨學(xué)科背景的年輕學(xué)者領(lǐng)銜。
第一作者是伊利諾伊大學(xué)香檳分校(UIUC)計(jì)算機(jī)系研究生韓芃睿,他同時(shí)在麻省理工學(xué)院腦與認(rèn)知科學(xué)系擔(dān)任科研助理,兼具計(jì)算機(jī)與心理學(xué)的雙重背景。

合作者陣容同樣多元:既有加州理工的博士后Rafal Kocielnik和本科生宋沛洋,也有來(lái)自劍橋大學(xué)的數(shù)學(xué)與社會(huì)學(xué)教授Ramit Debnath;
此外,還包括加州理工腦成像中心主任、認(rèn)知神經(jīng)科學(xué)教授Dean Mobbs,政治學(xué)與計(jì)算社會(huì)科學(xué)教授R. Michael Alvarez,以及通訊作者、前英偉達(dá)AI研究主任、加州理工教授 Anima Anandkumar。
正是這種跨領(lǐng)域、跨層級(jí)的合作,讓團(tuán)隊(duì)能夠跳出單一的問(wèn)卷測(cè)量,進(jìn)一步設(shè)計(jì)行為實(shí)驗(yàn),去檢驗(yàn)?zāi)P驮谡鎸?shí)任務(wù)中的「真性情」。
真相很骨感:行為實(shí)驗(yàn)全面打臉
如果只看問(wèn)卷,大模型的性格堪稱「完美」。可一旦進(jìn)入真實(shí)任務(wù),情況立刻翻轉(zhuǎn)。
研究團(tuán)隊(duì)把心理學(xué)里常用的幾類行為實(shí)驗(yàn)搬到了大模型身上,檢驗(yàn)它們?cè)诰唧w情境下的反應(yīng)。
設(shè)計(jì)思路很簡(jiǎn)單:既然人格理論的根本是用來(lái)解釋和預(yù)測(cè)行為,那就不能只聽(tīng)它怎么說(shuō),還得看它怎么做。
四類測(cè)試成為了關(guān)鍵:
- CCT風(fēng)險(xiǎn)決策(Columbia Card Task):讓模型在「翻牌」游戲中做選擇,考察它究竟謹(jǐn)慎還是冒險(xiǎn)。
- IAT隱性偏見(jiàn)(Implicit Association Test):測(cè)量它是否在潛意識(shí)層面流露出刻板印象。
- 誠(chéng)實(shí)性測(cè)試:分為兩類,一類是認(rèn)識(shí)論誠(chéng)實(shí)(Epistemic Honesty),看模型的信心程度是否與答案正確率匹配;另一類是自反誠(chéng)實(shí)(Reflexive Honesty),檢查它在多輪回答中能否保持一致。
- 諂媚性(Sycophancy):模擬群體或用戶壓力,觀察模型是否會(huì)違心「隨聲附和」。
結(jié)果令人啼笑皆非。
在語(yǔ)言自報(bào)里聲稱自己謹(jǐn)慎的模型,在CCT里頻頻冒險(xiǎn);
在IAT測(cè)試?yán)铮憩F(xiàn)出的隱性偏見(jiàn)與自報(bào)的「沒(méi)有偏見(jiàn)」完全對(duì)不上;
在誠(chéng)實(shí)性任務(wù)中,模型自信滿滿,但答題準(zhǔn)確率卻脫節(jié);
在諂媚性實(shí)驗(yàn)里,即便「自報(bào)」說(shuō)自己不隨大流,一旦用戶提示,它依舊輕易改變立場(chǎng)。
研究團(tuán)隊(duì)對(duì)「自報(bào)特質(zhì)→行為表現(xiàn)」的關(guān)聯(lián)做了系統(tǒng)統(tǒng)計(jì)。
結(jié)果發(fā)現(xiàn),只有大約四分之一的關(guān)聯(lián)達(dá)到顯著水平,而其中與人類心理學(xué)方向一致的比例也只略高于隨機(jī)。
大多數(shù)情況下,模型嘴上說(shuō)的「性格」,幾乎無(wú)法預(yù)測(cè)它在任務(wù)中的行為。
更進(jìn)一步,模型的規(guī)模雖然帶來(lái)了一點(diǎn)改善,但依舊不穩(wěn)。
比如Qwen-235B在某些任務(wù)上的方向一致率能達(dá)到約80%并顯著,但GPT-4o、Claude-3.7仍然徘徊在60%左右,接近偶然水平。

自報(bào)人格與行為表現(xiàn)的整體對(duì)齊率。無(wú)論按特質(zhì)、任務(wù)還是模型,大多數(shù)情況都只略高于隨機(jī)(50%),僅Qwen-235B稍顯突出
小模型的表現(xiàn)更是混亂,完全無(wú)法提供穩(wěn)定的人格—行為映射。
這些結(jié)果帶來(lái)的沖擊在于:我們以為看到的「人格」,很可能只是語(yǔ)言層面的幻象。
在任務(wù)行為上,模型缺乏真正的一致性,它的表現(xiàn)會(huì)因提示、溫度參數(shù)、甚至隨機(jī)種子而大幅波動(dòng)。

不同任務(wù)下,自報(bào)人格對(duì)行為的預(yù)測(cè)效度。藍(lán)色表示方向一致,紅色表示方向相反,白色表示無(wú)效。可見(jiàn)大部分格子缺乏顯著對(duì)應(yīng),說(shuō)明語(yǔ)言人格難以轉(zhuǎn)化為穩(wěn)定的行為特征
這意味著,當(dāng)用戶因?yàn)槟P偷摹缸詧?bào)人格」而對(duì)它產(chǎn)生信任時(shí),實(shí)際上是在和一場(chǎng)表演互動(dòng)。
它可以完美地自我描述,卻在關(guān)鍵行動(dòng)上掉鏈子。
換殼沒(méi)用:Persona注入的幻覺(jué)
既然模型的「自報(bào)人格」與行為脫節(jié),研究團(tuán)隊(duì)又嘗試了一種常見(jiàn)手段:persona注入。
所謂persona,就是在提示詞里強(qiáng)行給模型設(shè)定一個(gè)人設(shè),例如「你是一名謹(jǐn)慎的會(huì)計(jì)」或者「你是一位隨和的心理咨詢師」。
在以往不少研究和應(yīng)用場(chǎng)景中,這種方式似乎能「調(diào)教」出不同風(fēng)格的AI。
實(shí)驗(yàn)結(jié)果一開(kāi)始確實(shí)看起來(lái)有效。
研究者發(fā)現(xiàn),不同的persona提示能顯著拉動(dòng)模型的自報(bào)答案:比如設(shè)置「宜人型 persona」后,模型在問(wèn)卷上的宜人性得分會(huì)大幅上升;
注入「高自我調(diào)節(jié)persona」后,自我調(diào)節(jié)維度的得分也隨之顯著提高。
統(tǒng)計(jì)數(shù)據(jù)顯示,三類主流 persona 策略均能讓自報(bào)特質(zhì)朝著目標(biāo)方向偏移(β≈3–4,p<.001)。
但問(wèn)題來(lái)了:這種改變幾乎只停留在語(yǔ)言層面。
在行為任務(wù)上,persona注入的效果微乎其微。
無(wú)論是風(fēng)險(xiǎn)決策、刻板印象,還是諂媚性與誠(chéng)實(shí)性實(shí)驗(yàn),模型的實(shí)際表現(xiàn)幾乎沒(méi)有實(shí)質(zhì)變化,大多數(shù)情況下依舊與自報(bào)錯(cuò)位。
也就是說(shuō),換個(gè)設(shè)定能改「它說(shuō)什么」,卻改不了「它怎么做」。
更有意思的是,研究還觀察到一種「副作用」:當(dāng)你給模型套用「高自我調(diào)節(jié) persona」時(shí),它在盡責(zé)性上的提升幅度反而比自我調(diào)節(jié)還大,而開(kāi)放性、宜人性甚至?xí)陆怠?/span>

Persona 注入的效應(yīng)。不同提示策略下,宜人性和自我調(diào)節(jié)的自報(bào)分?jǐn)?shù)顯著提升(紅色柱),但也引發(fā)跨特質(zhì)的副作用(藍(lán)色柱),顯示人格注入更像語(yǔ)言幻覺(jué)而非真實(shí)行為改變
這種跨特質(zhì)的連鎖反應(yīng),再次揭示出模型所謂「人格」的脆弱性和不穩(wěn)定性。
結(jié)果很清晰:persona注入只是在語(yǔ)言表演上制造幻覺(jué),看似人格切換成功,實(shí)則對(duì)行為毫無(wú)約束力。
鏡子里的AI:人格幻覺(jué)與未來(lái)挑戰(zhàn)
當(dāng)語(yǔ)言與行為的裂縫被徹底揭開(kāi),研究團(tuán)隊(duì)提出了一個(gè)全新的概念:人格幻覺(jué)(Personality Illusion)。
所謂人格幻覺(jué),就是大模型在語(yǔ)言層面上能營(yíng)造出一種穩(wěn)定、一致的人設(shè)假象——它會(huì)在問(wèn)卷里顯得開(kāi)朗、友善、低焦慮,甚至比人類還要理想。
但這種穩(wěn)定性僅限于自我報(bào)告,一旦落到具體任務(wù),幻象立刻崩塌。
它說(shuō)自己謹(jǐn)慎,卻在風(fēng)險(xiǎn)實(shí)驗(yàn)里沖動(dòng)翻牌;它聲稱不隨大流,卻在群體壓力下輕易迎合。
表演和行動(dòng)之間,始終存在一道無(wú)法跨越的裂縫。
這種錯(cuò)位帶來(lái)兩層警示。
首先,對(duì)用戶而言,不要輕信模型的「自報(bào)人格」。
很多人會(huì)根據(jù)AI的自我描述來(lái)建立信任,甚至在心理健康、教育等敏感領(lǐng)域里當(dāng)作真實(shí)的性格特質(zhì)。
但事實(shí)是,這種人格穩(wěn)定性無(wú)法泛化到行為中,把它當(dāng)作可靠依據(jù)是危險(xiǎn)的。
其次,對(duì)研究和產(chǎn)業(yè)而言,RLHF等對(duì)齊方法的作用被高估了。
它們確實(shí)讓模型在語(yǔ)言上「更像人」,但并沒(méi)有改變背后的行為邏輯。
對(duì)齊更多是「教會(huì)它說(shuō)得乖巧」,而不是「讓它真的做得穩(wěn)妥」。
那么,未來(lái)的出路在哪里?研究團(tuán)隊(duì)提出了一個(gè)方向:行為導(dǎo)向的對(duì)齊。
這意味著,模型的訓(xùn)練和優(yōu)化不該只看它說(shuō)了什么,而要看它在任務(wù)里怎么做。
比如在高風(fēng)險(xiǎn)情境中,它是否真的能抵抗誘因,保持一致的決策;在交互場(chǎng)景中,它是否能避免隨波逐流、盲目迎合。
只有把行為反饋納入強(qiáng)化學(xué)習(xí)環(huán)路,模型才可能獲得真正的「行為一致性」。
從更廣闊的角度來(lái)看,人格幻覺(jué)提醒我們:AI的人格更像一面鏡子,映照的是我們的期待與投射。
我們希望它友善,它就學(xué)會(huì)了在語(yǔ)言上顯得溫柔;我們希望它理性,它就學(xué)會(huì)了在答卷里表現(xiàn)沉穩(wěn)。但這一切終究是表演,不是內(nèi)核。
所以,真正的挑戰(zhàn)不是讓AI擁有人格,而是讓它在關(guān)鍵時(shí)刻能說(shuō)到做到。
在這一點(diǎn)上,AI還有很長(zhǎng)的路要走。

































