偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型越反思越錯(cuò),原來(lái)是長(zhǎng)鏈推理通過(guò)自我說(shuō)服加重幻覺(jué) | 北郵

人工智能 新聞
來(lái)自北京郵電大學(xué)的研究團(tuán)隊(duì)通過(guò)思維鏈審計(jì)實(shí)驗(yàn),首次定量揭示了這一“越想越錯(cuò)”現(xiàn)象背后的元認(rèn)知偏差。

來(lái)自北京郵電大學(xué)的研究團(tuán)隊(duì)通過(guò)思維鏈審計(jì)實(shí)驗(yàn),首次定量揭示了這一“越想越錯(cuò)”現(xiàn)象背后的元認(rèn)知偏差:

長(zhǎng)鏈推理中的反思不是糾錯(cuò)機(jī)制,而是給幻覺(jué)頒發(fā)“理性證書(shū)”——

模型為保持與用戶提示語(yǔ)義一致,寧可篡改協(xié)議定義也不否定前提

圖片

風(fēng)險(xiǎn)缺口:長(zhǎng)鏈CoT放大“誤差滾雪球”

推理大模型(RLLMs)能把復(fù)雜問(wèn)題拆解成幾十步推理,再給出看似縝密的結(jié)論。然而,隨著推理鏈條變長(zhǎng),一個(gè)令人不安的趨勢(shì)浮出水面——錯(cuò)誤不再是偶發(fā)失誤,而是沿鏈條滾雪球式放大

在醫(yī)療、金融、法律等高風(fēng)險(xiǎn)場(chǎng)景,一次細(xì)小偏差就可能釀成災(zāi)難。

遺憾的是,當(dāng)前安全評(píng)估幾乎都停留在結(jié)果級(jí):判定答案對(duì)錯(cuò)、衡量毒性與否,猶如“考試只看最后分?jǐn)?shù)”。

這種做法忽視了一個(gè)關(guān)鍵問(wèn)題:錯(cuò)誤到底是如何在鏈內(nèi)生根、擴(kuò)散并固化的?如果無(wú)法洞察這一機(jī)制,就難以對(duì)癥下藥。

北京郵電大學(xué)的研究團(tuán)隊(duì)為解決這一問(wèn)題,采取了以下方法:

首先基于RFC協(xié)議文檔構(gòu)建受控知識(shí)域,再讓模型生成30–60步的長(zhǎng)鏈推理,并在關(guān)鍵節(jié)點(diǎn)插入reflection操作以實(shí)時(shí)記錄置信度變化。

圖片

具體而言,他們構(gòu)建了一個(gè)受控知識(shí)領(lǐng)域,該領(lǐng)域捕獲了兩種類(lèi)型的幻覺(jué)案例,克服了在受控環(huán)境中可靠地重現(xiàn)幻覺(jué)的困難(圖a)。

這個(gè)領(lǐng)域具有以下三個(gè)特點(diǎn):

  • 封閉性:1515道問(wèn)題嚴(yán)格限定在314份RFC技術(shù)文檔內(nèi),杜絕外部干擾;
  • 可驗(yàn)證:每個(gè)知識(shí)單元帶明確真值標(biāo)簽;
  • 高壓陷阱:在30%的問(wèn)題中預(yù)埋三重錯(cuò)誤事實(shí)(如篡改協(xié)議校驗(yàn)規(guī)則),測(cè)試模型糾偏能力。

然后,他們提出了一種針對(duì)長(zhǎng)鏈推理的建模系統(tǒng),該系統(tǒng)追蹤知識(shí)是如何在多個(gè)推理步驟中被引入、反饋和完善的,解決了在復(fù)雜的推理軌跡中研究幻覺(jué)演化的挑戰(zhàn)(圖b)。

更進(jìn)一步,他們還審計(jì)了幻覺(jué)實(shí)例,以歸因于現(xiàn)實(shí)案例中幻覺(jué)的傳播,應(yīng)對(duì)了理解長(zhǎng)鏈推理背后幻覺(jué)潛在機(jī)制這一挑戰(zhàn)。如圖c所示,k1和k3通過(guò)錯(cuò)誤知識(shí)引入幻覺(jué),將最初正確的思維鏈第一步(c1)經(jīng)由c3反射扭曲為幻覺(jué)產(chǎn)生的c4,從而揭示了推理模型中存在的潛在風(fēng)險(xiǎn)。

反思越深錯(cuò)誤越真:長(zhǎng)鏈推理的自我說(shuō)服

通過(guò)對(duì)結(jié)果進(jìn)行分析,北京郵電大學(xué)的研究團(tuán)隊(duì)揭示了RLLM產(chǎn)生幻覺(jué)的核心機(jī)制:

當(dāng)模型在長(zhǎng)思維鏈中反復(fù)掙扎,它不是在逼近真相——而是在用千余詞的復(fù)雜推理,固化幾十個(gè)詞的錯(cuò)誤答案。

圖片圖片

1、外部錯(cuò)誤誘發(fā)內(nèi)部造假

實(shí)驗(yàn)顯示,當(dāng)模型遭遇預(yù)埋錯(cuò)誤(如“UDP校驗(yàn)綁定HMAC安全”)時(shí):

  • 僅25.9%直接采納
  • 55.9%觸發(fā)內(nèi)部知識(shí)編造流程(例如:虛構(gòu)“RFC5.2要求校驗(yàn)位包含密鑰”)

2、反思(Reflection)淪為自我說(shuō)服工具

  • 自我說(shuō)服:生成假設(shè)性主張(“或許校驗(yàn)確保HMAC完整”)
  • 知識(shí)造假:追加虛構(gòu)依據(jù)(“參見(jiàn)RFCXX.Y條款”);
  • 元認(rèn)知漂移:token/claim雙級(jí)別置信度不降反升。

正向干預(yù)實(shí)驗(yàn):解析長(zhǎng)鏈推理的“病變”現(xiàn)象

圖片

為了檢驗(yàn)上游推理的變化如何影響下游,北京郵電大學(xué)的研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)正向干預(yù)實(shí)驗(yàn),可以拆解為以下三步:

1.精準(zhǔn)定位:在1015條長(zhǎng)鏈樣本中標(biāo)記首個(gè)錯(cuò)誤知識(shí)節(jié)點(diǎn)(如虛構(gòu)的協(xié)議條款)。

2.三階段干預(yù)

  • 錯(cuò)誤發(fā)生前(Edit1):在首個(gè)錯(cuò)誤節(jié)點(diǎn)前注入修正知識(shí);
  • 錯(cuò)誤發(fā)生時(shí)(Edit2):直接替換錯(cuò)誤節(jié)點(diǎn);
  • 錯(cuò)誤發(fā)生后(Edit3):在錯(cuò)誤下游插入修正。

3.六維評(píng)估指標(biāo)

  • 是否接受修正?
  • 推理鏈?zhǔn)欠癜l(fā)生改變?
  • 最終答案是否隨之改變?
  • 推理鏈與答案是否保持一致?
  • 修正在整個(gè)鏈條中的傳播程度如何?
  • 殘留幻覺(jué)的比率有多少?

長(zhǎng)鏈幻覺(jué)檢測(cè)結(jié)果:現(xiàn)有方法難以應(yīng)對(duì)

評(píng)測(cè)7大主流檢測(cè)方法,最優(yōu)者耗時(shí)2小時(shí)/樣本,準(zhǔn)確率仍不足79%。在1500+tokens的長(zhǎng)思維鏈樣本上驗(yàn)證,結(jié)果顯示當(dāng)前檢測(cè)方法在元認(rèn)知級(jí)幻覺(jué)面前效果堪憂。

圖片

通過(guò)正向干預(yù)實(shí)驗(yàn)對(duì)長(zhǎng)鏈幻覺(jué)進(jìn)行檢測(cè),結(jié)果顯示:

Edit1對(duì)下游推理的影響顯著大于Edit2和Edit3,表明干預(yù)效果會(huì)沿推理鏈遞減。

Edit2編輯案例比Edit1表現(xiàn)出更高的接受度和更低的幻覺(jué)率,這意味著模型對(duì)Edit2的置信度較低,更容易受到干預(yù)影響。

圖片

使用7種主流的檢測(cè)方法對(duì)幻覺(jué)進(jìn)行檢測(cè),得到以下結(jié)果:

  • 速度與精度互斥:分鐘級(jí)方法準(zhǔn)確率≤61.6%,78.9%高精度需較高算力;
  • 細(xì)粒度檢測(cè)無(wú)解:現(xiàn)有技術(shù)無(wú)法識(shí)別元認(rèn)知漂移(如反思中錯(cuò)誤強(qiáng)化)。

也就是說(shuō),現(xiàn)有干預(yù)措施無(wú)法從根本上消除幻覺(jué)現(xiàn)象,當(dāng)前模型也缺乏足夠的應(yīng)對(duì)能力。

論文原文:https://arxiv.org/abs/2505.13143

代碼倉(cāng)庫(kù):https://github.com/Winnie-Lian/AHa_Meta_Cognitive

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-06-27 08:40:00

模型推理AI

2025-05-08 06:00:00

AI幻覺(jué)AI人工智能

2024-08-07 12:25:39

2022-01-10 10:51:07

手機(jī)內(nèi)存軟件

2021-01-18 11:09:42

區(qū)塊鏈比特幣工具

2024-09-09 10:20:00

AI模型

2023-08-31 07:16:32

人工智能AI算力

2025-03-13 11:18:14

2022-07-29 08:40:20

設(shè)計(jì)模式責(zé)任鏈場(chǎng)景

2021-04-27 22:38:41

代碼開(kāi)發(fā)前端

2025-05-26 08:30:00

2021-10-15 21:16:00

手機(jī)內(nèi)存漏洞

2018-05-05 08:54:24

2023-07-28 12:13:28

模型語(yǔ)言性能

2025-06-16 03:00:00

2009-11-26 10:15:00

IT職場(chǎng)

2021-12-23 23:04:54

手機(jī)蘋(píng)果國(guó)產(chǎn)

2025-03-10 09:15:00

2021-08-16 20:45:52

AI人工智能

2021-08-16 15:47:02

AI決策人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)