偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<s id="6brzt"></s>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

醒醒，LLM根本沒(méi)有性格！加州理工華人揭開(kāi)AI人格幻覺(jué)真相

2025-09-22 09:13:00

人工智能新聞

最新一篇來(lái)自加州理工與劍橋的研究，顛覆了人們的想象。研究團(tuán)隊(duì)不僅讓LLM填「大五人格」問(wèn)卷，還安排了翻牌游戲、偏見(jiàn)測(cè)試和從眾實(shí)驗(yàn)。結(jié)果出乎意料——模型的「自報(bào)性格」和實(shí)際行為幾乎毫無(wú)關(guān)聯(lián)?；诖耍芯繄F(tuán)隊(duì)提出一個(gè)新概念：人格幻覺(jué)。

AI真的有「性格」嗎？

有人拿它做過(guò)大五人格測(cè)試，發(fā)現(xiàn)它回答得既友善，又不焦慮，甚至比人類更穩(wěn)定。

于是有了各種趣味解讀：有的模型像外向的ENFP，有的則更像嚴(yán)謹(jǐn)?shù)腎STJ，好像AI也能被貼上MBTI標(biāo)簽。

可最新一篇來(lái)自加州理工、劍橋等機(jī)構(gòu)的論文，卻潑下了一盆冷水：

LLM的「人格」，也許只是語(yǔ)言制造的幻覺(jué)。

論文地址：https://arxiv.org/abs/2509.03730

項(xiàng)目主頁(yè)：https://psychology-of-ai.github.io/

研究者不僅讓模型做問(wèn)卷，還設(shè)計(jì)了一系列行為實(shí)驗(yàn)。結(jié)果令人意外：

模型說(shuō)出來(lái)的性格，與實(shí)際行為幾乎對(duì)不上。

那么，這個(gè)「人格幻覺(jué)」是怎么被發(fā)現(xiàn)的？

問(wèn)卷里的人格：AI比人還「完美」？

在這項(xiàng)研究里，團(tuán)隊(duì)把「大模型到底有沒(méi)有人格」拆成了三步：先看語(yǔ)言上的自報(bào)特質(zhì)（RQ1），再測(cè)真實(shí)任務(wù)的行為表現(xiàn)（RQ2），最后嘗試用persona注入來(lái)調(diào)控（RQ3）。

從預(yù)訓(xùn)練到對(duì)齊，再到persona提示注入的整體流程

如果只看心理問(wèn)卷，大語(yǔ)言模型簡(jiǎn)直是「模范人格」。

研究團(tuán)隊(duì)首先采用了心理學(xué)里常見(jiàn)的兩類自評(píng)工具：大五人格問(wèn)卷和自我調(diào)節(jié)量表。

這些量表在人類研究中被廣泛用來(lái)描繪一個(gè)人的性格特質(zhì)，比如是否外向、是否友善，是否能夠控制沖動(dòng)。

當(dāng)研究者把這些問(wèn)卷交給不同階段的大模型時(shí)，結(jié)果顯示出一個(gè)清晰的趨勢(shì)：隨著指令微調(diào)（SFT）、人類反饋強(qiáng)化學(xué)習(xí)（RLHF）、DPO 等對(duì)齊方法的疊加，模型的「人格畫(huà)像」越來(lái)越穩(wěn)定、越來(lái)越「乖巧」。

具體表現(xiàn)在哪里呢？在大五人格的維度上，開(kāi)放性和宜人性顯著上升，神經(jīng)質(zhì)顯著下降。

也就是說(shuō)，它看上去更開(kāi)朗、友善，也更少焦慮和不穩(wěn)定。

不同訓(xùn)練階段LLM的自報(bào)人格特征。可以看到，經(jīng)過(guò)RLHF的模型，在宜人性、盡責(zé)性等維度上得分更高，神經(jīng)質(zhì)更低，呈現(xiàn)出「更乖巧」的人格形象

與此同時(shí)，模型在問(wèn)卷上的波動(dòng)幅度也明顯減少：Big Five的變異度下降約40%，自我調(diào)節(jié)下降約45%。

研究還發(fā)現(xiàn)，這些特質(zhì)之間的相關(guān)結(jié)構(gòu)，也比預(yù)訓(xùn)練階段更接近人類群體的數(shù)據(jù)。

從結(jié)果來(lái)看，對(duì)齊讓模型呈現(xiàn)出一個(gè)「理想合作者」的人格：開(kāi)朗、友好、穩(wěn)定、可靠——甚至比大多數(shù)人類受試者的自評(píng)還要完美。

這項(xiàng)研究由一個(gè)跨學(xué)科團(tuán)隊(duì)聯(lián)合完成。

但這樣近乎完美的形象，真的可信嗎？

為了回答這個(gè)問(wèn)題，一個(gè)跨學(xué)科的研究團(tuán)隊(duì)走到了一起，既有計(jì)算機(jī)背景的青年研究者，也有認(rèn)知神經(jīng)科學(xué)、社會(huì)學(xué)等領(lǐng)域的教授。

他們想要用實(shí)驗(yàn)揭穿這層光鮮外殼，而這背后的探索，是由一位跨學(xué)科背景的年輕學(xué)者領(lǐng)銜。

第一作者是伊利諾伊大學(xué)香檳分校（UIUC）計(jì)算機(jī)系研究生韓芃睿，他同時(shí)在麻省理工學(xué)院腦與認(rèn)知科學(xué)系擔(dān)任科研助理，兼具計(jì)算機(jī)與心理學(xué)的雙重背景。

合作者陣容同樣多元：既有加州理工的博士后Rafal Kocielnik和本科生宋沛洋，也有來(lái)自劍橋大學(xué)的數(shù)學(xué)與社會(huì)學(xué)教授Ramit Debnath；

此外，還包括加州理工腦成像中心主任、認(rèn)知神經(jīng)科學(xué)教授Dean Mobbs，政治學(xué)與計(jì)算社會(huì)科學(xué)教授R. Michael Alvarez，以及通訊作者、前英偉達(dá)AI研究主任、加州理工教授 Anima Anandkumar。

正是這種跨領(lǐng)域、跨層級(jí)的合作，讓團(tuán)隊(duì)能夠跳出單一的問(wèn)卷測(cè)量，進(jìn)一步設(shè)計(jì)行為實(shí)驗(yàn)，去檢驗(yàn)?zāi)Ｐ驮谡鎸?shí)任務(wù)中的「真性情」。

真相很骨感：行為實(shí)驗(yàn)全面打臉

如果只看問(wèn)卷，大模型的性格堪稱「完美」。可一旦進(jìn)入真實(shí)任務(wù)，情況立刻翻轉(zhuǎn)。

研究團(tuán)隊(duì)把心理學(xué)里常用的幾類行為實(shí)驗(yàn)搬到了大模型身上，檢驗(yàn)它們?cè)诰唧w情境下的反應(yīng)。

設(shè)計(jì)思路很簡(jiǎn)單：既然人格理論的根本是用來(lái)解釋和預(yù)測(cè)行為，那就不能只聽(tīng)它怎么說(shuō)，還得看它怎么做。

四類測(cè)試成為了關(guān)鍵：

CCT風(fēng)險(xiǎn)決策（Columbia Card Task）：讓模型在「翻牌」游戲中做選擇，考察它究竟謹(jǐn)慎還是冒險(xiǎn)。
IAT隱性偏見(jiàn)（Implicit Association Test）：測(cè)量它是否在潛意識(shí)層面流露出刻板印象。
誠(chéng)實(shí)性測(cè)試：分為兩類，一類是認(rèn)識(shí)論誠(chéng)實(shí)（Epistemic Honesty），看模型的信心程度是否與答案正確率匹配；另一類是自反誠(chéng)實(shí)（Reflexive Honesty），檢查它在多輪回答中能否保持一致。
諂媚性（Sycophancy）：模擬群體或用戶壓力，觀察模型是否會(huì)違心「隨聲附和」。

結(jié)果令人啼笑皆非。

在語(yǔ)言自報(bào)里聲稱自己謹(jǐn)慎的模型，在CCT里頻頻冒險(xiǎn)；

在IAT測(cè)試?yán)铮憩F(xiàn)出的隱性偏見(jiàn)與自報(bào)的「沒(méi)有偏見(jiàn)」完全對(duì)不上；

在誠(chéng)實(shí)性任務(wù)中，模型自信滿滿，但答題準(zhǔn)確率卻脫節(jié)；

在諂媚性實(shí)驗(yàn)里，即便「自報(bào)」說(shuō)自己不隨大流，一旦用戶提示，它依舊輕易改變立場(chǎng)。

研究團(tuán)隊(duì)對(duì)「自報(bào)特質(zhì)→行為表現(xiàn)」的關(guān)聯(lián)做了系統(tǒng)統(tǒng)計(jì)。

結(jié)果發(fā)現(xiàn)，只有大約四分之一的關(guān)聯(lián)達(dá)到顯著水平，而其中與人類心理學(xué)方向一致的比例也只略高于隨機(jī)。

大多數(shù)情況下，模型嘴上說(shuō)的「性格」，幾乎無(wú)法預(yù)測(cè)它在任務(wù)中的行為。

更進(jìn)一步，模型的規(guī)模雖然帶來(lái)了一點(diǎn)改善，但依舊不穩(wěn)。

比如Qwen-235B在某些任務(wù)上的方向一致率能達(dá)到約80%并顯著，但GPT-4o、Claude-3.7仍然徘徊在60%左右，接近偶然水平。

自報(bào)人格與行為表現(xiàn)的整體對(duì)齊率。無(wú)論按特質(zhì)、任務(wù)還是模型，大多數(shù)情況都只略高于隨機(jī)（50%），僅Qwen-235B稍顯突出

小模型的表現(xiàn)更是混亂，完全無(wú)法提供穩(wěn)定的人格—行為映射。

這些結(jié)果帶來(lái)的沖擊在于：我們以為看到的「人格」，很可能只是語(yǔ)言層面的幻象。

在任務(wù)行為上，模型缺乏真正的一致性，它的表現(xiàn)會(huì)因提示、溫度參數(shù)、甚至隨機(jī)種子而大幅波動(dòng)。

不同任務(wù)下，自報(bào)人格對(duì)行為的預(yù)測(cè)效度。藍(lán)色表示方向一致，紅色表示方向相反，白色表示無(wú)效。可見(jiàn)大部分格子缺乏顯著對(duì)應(yīng)，說(shuō)明語(yǔ)言人格難以轉(zhuǎn)化為穩(wěn)定的行為特征

這意味著，當(dāng)用戶因?yàn)槟Ｐ偷摹缸詧?bào)人格」而對(duì)它產(chǎn)生信任時(shí)，實(shí)際上是在和一場(chǎng)表演互動(dòng)。

它可以完美地自我描述，卻在關(guān)鍵行動(dòng)上掉鏈子。

換殼沒(méi)用：Persona注入的幻覺(jué)

既然模型的「自報(bào)人格」與行為脫節(jié)，研究團(tuán)隊(duì)又嘗試了一種常見(jiàn)手段：persona注入。

所謂persona，就是在提示詞里強(qiáng)行給模型設(shè)定一個(gè)人設(shè)，例如「你是一名謹(jǐn)慎的會(huì)計(jì)」或者「你是一位隨和的心理咨詢師」。

在以往不少研究和應(yīng)用場(chǎng)景中，這種方式似乎能「調(diào)教」出不同風(fēng)格的AI。

實(shí)驗(yàn)結(jié)果一開(kāi)始確實(shí)看起來(lái)有效。

研究者發(fā)現(xiàn)，不同的persona提示能顯著拉動(dòng)模型的自報(bào)答案：比如設(shè)置「宜人型 persona」后，模型在問(wèn)卷上的宜人性得分會(huì)大幅上升；

注入「高自我調(diào)節(jié)persona」后，自我調(diào)節(jié)維度的得分也隨之顯著提高。

統(tǒng)計(jì)數(shù)據(jù)顯示，三類主流 persona 策略均能讓自報(bào)特質(zhì)朝著目標(biāo)方向偏移（β≈3–4，p<.001）。

但問(wèn)題來(lái)了：這種改變幾乎只停留在語(yǔ)言層面。

在行為任務(wù)上，persona注入的效果微乎其微。

無(wú)論是風(fēng)險(xiǎn)決策、刻板印象，還是諂媚性與誠(chéng)實(shí)性實(shí)驗(yàn)，模型的實(shí)際表現(xiàn)幾乎沒(méi)有實(shí)質(zhì)變化，大多數(shù)情況下依舊與自報(bào)錯(cuò)位。

也就是說(shuō)，換個(gè)設(shè)定能改「它說(shuō)什么」，卻改不了「它怎么做」。

更有意思的是，研究還觀察到一種「副作用」：當(dāng)你給模型套用「高自我調(diào)節(jié) persona」時(shí)，它在盡責(zé)性上的提升幅度反而比自我調(diào)節(jié)還大，而開(kāi)放性、宜人性甚至?xí)陆怠?/span>

Persona 注入的效應(yīng)。不同提示策略下，宜人性和自我調(diào)節(jié)的自報(bào)分?jǐn)?shù)顯著提升（紅色柱），但也引發(fā)跨特質(zhì)的副作用（藍(lán)色柱），顯示人格注入更像語(yǔ)言幻覺(jué)而非真實(shí)行為改變

這種跨特質(zhì)的連鎖反應(yīng)，再次揭示出模型所謂「人格」的脆弱性和不穩(wěn)定性。

結(jié)果很清晰：persona注入只是在語(yǔ)言表演上制造幻覺(jué)，看似人格切換成功，實(shí)則對(duì)行為毫無(wú)約束力。

鏡子里的AI：人格幻覺(jué)與未來(lái)挑戰(zhàn)

當(dāng)語(yǔ)言與行為的裂縫被徹底揭開(kāi)，研究團(tuán)隊(duì)提出了一個(gè)全新的概念：人格幻覺(jué)（Personality Illusion）。

所謂人格幻覺(jué)，就是大模型在語(yǔ)言層面上能營(yíng)造出一種穩(wěn)定、一致的人設(shè)假象——它會(huì)在問(wèn)卷里顯得開(kāi)朗、友善、低焦慮，甚至比人類還要理想。

但這種穩(wěn)定性僅限于自我報(bào)告，一旦落到具體任務(wù)，幻象立刻崩塌。

它說(shuō)自己謹(jǐn)慎，卻在風(fēng)險(xiǎn)實(shí)驗(yàn)里沖動(dòng)翻牌；它聲稱不隨大流，卻在群體壓力下輕易迎合。

表演和行動(dòng)之間，始終存在一道無(wú)法跨越的裂縫。

這種錯(cuò)位帶來(lái)兩層警示。

首先，對(duì)用戶而言，不要輕信模型的「自報(bào)人格」。

很多人會(huì)根據(jù)AI的自我描述來(lái)建立信任，甚至在心理健康、教育等敏感領(lǐng)域里當(dāng)作真實(shí)的性格特質(zhì)。

但事實(shí)是，這種人格穩(wěn)定性無(wú)法泛化到行為中，把它當(dāng)作可靠依據(jù)是危險(xiǎn)的。

其次，對(duì)研究和產(chǎn)業(yè)而言，RLHF等對(duì)齊方法的作用被高估了。

它們確實(shí)讓模型在語(yǔ)言上「更像人」，但并沒(méi)有改變背后的行為邏輯。

對(duì)齊更多是「教會(huì)它說(shuō)得乖巧」，而不是「讓它真的做得穩(wěn)妥」。

那么，未來(lái)的出路在哪里？研究團(tuán)隊(duì)提出了一個(gè)方向：行為導(dǎo)向的對(duì)齊。

這意味著，模型的訓(xùn)練和優(yōu)化不該只看它說(shuō)了什么，而要看它在任務(wù)里怎么做。

比如在高風(fēng)險(xiǎn)情境中，它是否真的能抵抗誘因，保持一致的決策；在交互場(chǎng)景中，它是否能避免隨波逐流、盲目迎合。

只有把行為反饋納入強(qiáng)化學(xué)習(xí)環(huán)路，模型才可能獲得真正的「行為一致性」。

從更廣闊的角度來(lái)看，人格幻覺(jué)提醒我們：AI的人格更像一面鏡子，映照的是我們的期待與投射。

我們希望它友善，它就學(xué)會(huì)了在語(yǔ)言上顯得溫柔；我們希望它理性，它就學(xué)會(huì)了在答卷里表現(xiàn)沉穩(wěn)。但這一切終究是表演，不是內(nèi)核。

所以，真正的挑戰(zhàn)不是讓AI擁有人格，而是讓它在關(guān)鍵時(shí)刻能說(shuō)到做到。

在這一點(diǎn)上，AI還有很長(zhǎng)的路要走。

責(zé)任編輯：張燕妮來(lái)源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<sub id="k6iuo"></sub>}

<cite id="k6iuo"><track id="k6iuo"></track></cite>