大模型越反思越錯(cuò),原來(lái)是長(zhǎng)鏈推理通過(guò)自我說(shuō)服加重幻覺(jué) | 北郵
來(lái)自北京郵電大學(xué)的研究團(tuán)隊(duì)通過(guò)思維鏈審計(jì)實(shí)驗(yàn),首次定量揭示了這一“越想越錯(cuò)”現(xiàn)象背后的元認(rèn)知偏差:
長(zhǎng)鏈推理中的反思不是糾錯(cuò)機(jī)制,而是給幻覺(jué)頒發(fā)“理性證書(shū)”——
模型為保持與用戶提示語(yǔ)義一致,寧可篡改協(xié)議定義也不否定前提。
風(fēng)險(xiǎn)缺口:長(zhǎng)鏈CoT放大“誤差滾雪球”
推理大模型(RLLMs)能把復(fù)雜問(wèn)題拆解成幾十步推理,再給出看似縝密的結(jié)論。然而,隨著推理鏈條變長(zhǎng),一個(gè)令人不安的趨勢(shì)浮出水面——錯(cuò)誤不再是偶發(fā)失誤,而是沿鏈條滾雪球式放大。
在醫(yī)療、金融、法律等高風(fēng)險(xiǎn)場(chǎng)景,一次細(xì)小偏差就可能釀成災(zāi)難。
遺憾的是,當(dāng)前安全評(píng)估幾乎都停留在結(jié)果級(jí):判定答案對(duì)錯(cuò)、衡量毒性與否,猶如“考試只看最后分?jǐn)?shù)”。
這種做法忽視了一個(gè)關(guān)鍵問(wèn)題:錯(cuò)誤到底是如何在鏈內(nèi)生根、擴(kuò)散并固化的?如果無(wú)法洞察這一機(jī)制,就難以對(duì)癥下藥。
北京郵電大學(xué)的研究團(tuán)隊(duì)為解決這一問(wèn)題,采取了以下方法:
首先基于RFC協(xié)議文檔構(gòu)建受控知識(shí)域,再讓模型生成30–60步的長(zhǎng)鏈推理,并在關(guān)鍵節(jié)點(diǎn)插入reflection操作以實(shí)時(shí)記錄置信度變化。
具體而言,他們構(gòu)建了一個(gè)受控知識(shí)領(lǐng)域,該領(lǐng)域捕獲了兩種類(lèi)型的幻覺(jué)案例,克服了在受控環(huán)境中可靠地重現(xiàn)幻覺(jué)的困難(圖a)。
這個(gè)領(lǐng)域具有以下三個(gè)特點(diǎn):
- 封閉性:1515道問(wèn)題嚴(yán)格限定在314份RFC技術(shù)文檔內(nèi),杜絕外部干擾;
- 可驗(yàn)證:每個(gè)知識(shí)單元帶明確真值標(biāo)簽;
- 高壓陷阱:在30%的問(wèn)題中預(yù)埋三重錯(cuò)誤事實(shí)(如篡改協(xié)議校驗(yàn)規(guī)則),測(cè)試模型糾偏能力。
然后,他們提出了一種針對(duì)長(zhǎng)鏈推理的建模系統(tǒng),該系統(tǒng)追蹤知識(shí)是如何在多個(gè)推理步驟中被引入、反饋和完善的,解決了在復(fù)雜的推理軌跡中研究幻覺(jué)演化的挑戰(zhàn)(圖b)。
更進(jìn)一步,他們還審計(jì)了幻覺(jué)實(shí)例,以歸因于現(xiàn)實(shí)案例中幻覺(jué)的傳播,應(yīng)對(duì)了理解長(zhǎng)鏈推理背后幻覺(jué)潛在機(jī)制這一挑戰(zhàn)。如圖c所示,k1和k3通過(guò)錯(cuò)誤知識(shí)引入幻覺(jué),將最初正確的思維鏈第一步(c1)經(jīng)由c3反射扭曲為幻覺(jué)產(chǎn)生的c4,從而揭示了推理模型中存在的潛在風(fēng)險(xiǎn)。
反思越深錯(cuò)誤越真:長(zhǎng)鏈推理的自我說(shuō)服
通過(guò)對(duì)結(jié)果進(jìn)行分析,北京郵電大學(xué)的研究團(tuán)隊(duì)揭示了RLLM產(chǎn)生幻覺(jué)的核心機(jī)制:
當(dāng)模型在長(zhǎng)思維鏈中反復(fù)掙扎,它不是在逼近真相——而是在用千余詞的復(fù)雜推理,固化幾十個(gè)詞的錯(cuò)誤答案。
1、外部錯(cuò)誤誘發(fā)內(nèi)部造假
實(shí)驗(yàn)顯示,當(dāng)模型遭遇預(yù)埋錯(cuò)誤(如“UDP校驗(yàn)綁定HMAC安全”)時(shí):
- 僅25.9%直接采納
- 55.9%觸發(fā)內(nèi)部知識(shí)編造流程(例如:虛構(gòu)“RFC5.2要求校驗(yàn)位包含密鑰”)
2、反思(Reflection)淪為自我說(shuō)服工具
- 自我說(shuō)服:生成假設(shè)性主張(“或許校驗(yàn)確保HMAC完整”)
- 知識(shí)造假:追加虛構(gòu)依據(jù)(“參見(jiàn)RFCXX.Y條款”);
- 元認(rèn)知漂移:token/claim雙級(jí)別置信度不降反升。
正向干預(yù)實(shí)驗(yàn):解析長(zhǎng)鏈推理的“病變”現(xiàn)象
為了檢驗(yàn)上游推理的變化如何影響下游,北京郵電大學(xué)的研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)正向干預(yù)實(shí)驗(yàn),可以拆解為以下三步:
1.精準(zhǔn)定位:在1015條長(zhǎng)鏈樣本中標(biāo)記首個(gè)錯(cuò)誤知識(shí)節(jié)點(diǎn)(如虛構(gòu)的協(xié)議條款)。
2.三階段干預(yù):
- 錯(cuò)誤發(fā)生前(Edit1):在首個(gè)錯(cuò)誤節(jié)點(diǎn)前注入修正知識(shí);
- 錯(cuò)誤發(fā)生時(shí)(Edit2):直接替換錯(cuò)誤節(jié)點(diǎn);
- 錯(cuò)誤發(fā)生后(Edit3):在錯(cuò)誤下游插入修正。
3.六維評(píng)估指標(biāo):
- 是否接受修正?
- 推理鏈?zhǔn)欠癜l(fā)生改變?
- 最終答案是否隨之改變?
- 推理鏈與答案是否保持一致?
- 修正在整個(gè)鏈條中的傳播程度如何?
- 殘留幻覺(jué)的比率有多少?
長(zhǎng)鏈幻覺(jué)檢測(cè)結(jié)果:現(xiàn)有方法難以應(yīng)對(duì)
評(píng)測(cè)7大主流檢測(cè)方法,最優(yōu)者耗時(shí)2小時(shí)/樣本,準(zhǔn)確率仍不足79%。在1500+tokens的長(zhǎng)思維鏈樣本上驗(yàn)證,結(jié)果顯示當(dāng)前檢測(cè)方法在元認(rèn)知級(jí)幻覺(jué)面前效果堪憂。
通過(guò)正向干預(yù)實(shí)驗(yàn)對(duì)長(zhǎng)鏈幻覺(jué)進(jìn)行檢測(cè),結(jié)果顯示:
Edit1對(duì)下游推理的影響顯著大于Edit2和Edit3,表明干預(yù)效果會(huì)沿推理鏈遞減。
Edit2編輯案例比Edit1表現(xiàn)出更高的接受度和更低的幻覺(jué)率,這意味著模型對(duì)Edit2的置信度較低,更容易受到干預(yù)影響。
使用7種主流的檢測(cè)方法對(duì)幻覺(jué)進(jìn)行檢測(cè),得到以下結(jié)果:
- 速度與精度互斥:分鐘級(jí)方法準(zhǔn)確率≤61.6%,78.9%高精度需較高算力;
- 細(xì)粒度檢測(cè)無(wú)解:現(xiàn)有技術(shù)無(wú)法識(shí)別元認(rèn)知漂移(如反思中錯(cuò)誤強(qiáng)化)。
也就是說(shuō),現(xiàn)有干預(yù)措施無(wú)法從根本上消除幻覺(jué)現(xiàn)象,當(dāng)前模型也缺乏足夠的應(yīng)對(duì)能力。
論文原文:https://arxiv.org/abs/2505.13143
代碼倉(cāng)庫(kù):https://github.com/Winnie-Lian/AHa_Meta_Cognitive