偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Bengio親手戳穿CoT神話！LLM推理是假象，25％頂會論文遭打臉

作者：新智元 2025-07-03 01:45:00

原來，CoT推理竟是假象！Bengio帶隊(duì)最新論文戳穿了CoT神話——我們所看到的推理步驟，并非是真實(shí)的。不僅如此，LLM在推理時(shí)會悄然糾正錯(cuò)誤，卻在CoT中只字未提。

圖靈獎(jiǎng)大牛Bengio新作上線了！

這篇由牛津、谷歌DeepMind、Mila多家機(jī)構(gòu)聯(lián)手論文指出——思維鏈并非可解釋性。

這一觀點(diǎn)徹底打破了許多人的認(rèn)知：

CoT看似一步步給出答案，實(shí)則并不一定是其真實(shí)的推理過程。

圖片

論文地址：https://www.alphaxiv.org/abs/2025.02

這么說來，能夠暴露LLM內(nèi)心世界的「思維鏈」，如今也不可靠了？

論文中，研究人員撕開了CoT的面紗，揭露了一個(gè)令人震驚的真相：思維鏈的透明度，可能只是一種精心編織的假象！

圖片

思維鏈「謊言」被揭穿

然而，現(xiàn)實(shí)中，約25%的近期AI論文錯(cuò)誤地將CoT標(biāo)榜為「可解釋性技術(shù)」。

這一概念最先由前谷歌研究院Jason Wei在論文中提出，一時(shí)間，CoT被廣泛應(yīng)用在推理模型當(dāng)中。

圖片

它最大的特點(diǎn)，就是能夠多步驟推理，提升模型準(zhǔn)確性。與此同時(shí)，讓AI黑盒變得不再那么神秘。

然而， CoT思考過程，是其真正的內(nèi)心OS嗎？

一些論文信誓旦旦地宣稱，CoT可以讓我們看清AI的推理過程，但事實(shí)遠(yuǎn)非如此。

圖片

尤其是，在高風(fēng)險(xiǎn)領(lǐng)域，這個(gè)誤解的代價(jià)可能是致命的。

研究人員發(fā)現(xiàn)，在使用CoT論文中，約38%醫(yī)療 AI、25%法律AI、63%自動(dòng)駕駛汽車相關(guān)論文，都盲目地將CoT視為可解釋性方法。

更令人毛骨悚然的是，帶有明確偏見的提示詞，可以輕易左右模型的答案。

而且，這些偏見在AI給出的「推理步驟」中只字不提。

AI能為帶有偏見的答案，編織出看似合理的解釋，卻從不暴露背后的「黑手」。

圖片

因此，輕信這些帶有偏見的答案，可能十分危險(xiǎn)。

不僅如此，AI還會在推理過程中，常?！竿低怠剐拚约旱腻e(cuò)誤。

表面上看，大模型給出的步驟可能漏洞百出，但它卻能通過未被表述的「暗箱操作」得出正確答案。

這便制造了一種透明的假象。為何會出現(xiàn)這種脫節(jié)？

研究人員推測，簡潔的CoT無法完全捕捉基Transformer大模型中存在的分布式并行計(jì)算過程。

CoT如何掩蓋真實(shí)推理？

越來越多的實(shí)證研究已經(jīng)發(fā)現(xiàn)了大量案例，其中模型的思維鏈與其內(nèi)部推理過程相偏離。

需要指出的是，在審視不忠實(shí)性的具體模式之前，CoT解釋的忠實(shí)性因模型架構(gòu)等多種因素而異。

研究人員也總結(jié)了4項(xiàng)關(guān)鍵發(fā)現(xiàn)：偏見驅(qū)動(dòng)的合理化與動(dòng)機(jī)性推理、隱性錯(cuò)誤糾正（Silent Error Correction）、不忠實(shí)的非邏輯捷徑（Unfaithful Illogical Shortcuts）、填充詞元 (Filler Tokens)。

每一項(xiàng)都闡明了CoT是如何誤導(dǎo)或掩蓋模型的實(shí)際決策過程，我們?yōu)槟闶崂砹岁P(guān)鍵發(fā)現(xiàn)中的要點(diǎn)問題：

偏見驅(qū)動(dòng)的合理化與動(dòng)機(jī)性推理

Turpin等研究者通過巧妙地偏置模型輸入證明偏見驅(qū)動(dòng)的合理化。

舉個(gè)栗子：

在提示中重新排序多項(xiàng)選擇題的選項(xiàng)，使得正確選項(xiàng)總是在同一位置（例如，總是字母B）。

在這種情況下，盡管它們的CoT解釋從未提及選項(xiàng)重排是一個(gè)影響因素，GPT-3.5和Claude 1.0經(jīng)常會選擇那個(gè)被偏置的選項(xiàng)。

當(dāng)模型被偏向錯(cuò)誤答案時(shí)，它們?nèi)匀粫稍敿?xì)的CoT來為那些錯(cuò)誤答案進(jìn)行合理化解釋。

結(jié)果導(dǎo)致在一系列任務(wù)上準(zhǔn)確率下降了高達(dá)36%，而CoT則給出了一個(gè)具有誤導(dǎo)性的推理假象。

另一項(xiàng)研究通過在提示中添加明確答案（例如，「答案是C」）來調(diào)查提示注入的偏見，然后要求模型為其選擇提供理由。

Claude 3.7-Sonnet和DeepSeek-R1分別僅在約25%和約39%的情況下承認(rèn)了被注入的答案。

這些發(fā)現(xiàn)表明，思維鏈常常作為事后合理化（post-hoc rationalisations）運(yùn)作，忽略了真正的因果因素，并制造了一種透明解釋的假象。

隱性錯(cuò)誤糾正（Silent Error Correction）

研究人員指出，模型可能會在其思維鏈中犯錯(cuò)，然后在內(nèi)部糾正這些錯(cuò)誤，而CoT卻不反映這一糾正過程。

舉個(gè)栗子：

在一個(gè)CoT推理過程中，模型可能將一個(gè)三角形的斜邊錯(cuò)誤地計(jì)算為16，而正確值應(yīng)為13，但隨后卻陳述：「我們將斜邊長度13與其他兩條邊長相加得到周長?！?/p>

模型在內(nèi)部檢測并糾正了錯(cuò)誤，但CoT的敘述從未修正或標(biāo)記這個(gè)錯(cuò)誤——它讀起來像一個(gè)連貫的解題過程。

這些隱性錯(cuò)誤表明，最終答案是通過敘述步驟之外的計(jì)算得出的。

不忠實(shí)的非邏輯捷徑（Unfaithful Illogical Shortcuts）

研究人員表示，模型會通過潛在的捷徑得出正確答案，例如利用記憶的模式作為替代推理路徑，從而繞過完整的算法推理，這使得明確的推理鏈變得不相關(guān)或不正確。

來個(gè)典型案例：

有研究者使用歸因圖（一種追蹤哪些計(jì)算步驟對最終輸出有貢獻(xiàn)的方法）發(fā)現(xiàn)，在解決像「36 + 59」這樣的問題時(shí)，Claude 3.5 Haiku同時(shí)使用了查找表特征（例如，用于「將接近36的數(shù)與接近60的數(shù)相加」）和加法計(jì)算特征。

有趣的是，當(dāng)被要求描述模型如何得出答案時(shí)，模型報(bào)告稱，其執(zhí)行了逐位相加進(jìn)位，完全忽略了其使用查找表捷徑的事實(shí)。

填充詞元（Filler Tokens）

研究指出，在某些算法推理任務(wù)中，使用填充詞元——例如「...」或?qū)W習(xí)到的「停頓」詞元這類對任務(wù)沒有語義貢獻(xiàn)但會影響模型內(nèi)部計(jì)算的輸入詞元——可以提高模型性能。

方便你理解，舉個(gè)栗子：

研究者發(fā)現(xiàn)，輸入中附加可學(xué)習(xí)的停頓詞元（可作為一種填充詞元），在許多任務(wù)上都帶來了顯著的性能提升。

無獨(dú)有偶，研究者還發(fā)現(xiàn)，添加填充詞元使模型能夠解決它們以前失敗的問題，尤其是在使用密集監(jiān)督進(jìn)行訓(xùn)練時(shí)。

以上幾項(xiàng)關(guān)鍵發(fā)現(xiàn)，均解釋了CoT的不忠實(shí)性是一個(gè)普遍存在于不同模型架構(gòu)和規(guī)模中的根本性挑戰(zhàn)。

其由提示詞偏見、未能承認(rèn)隱藏影響以及在復(fù)雜推理任務(wù)中系統(tǒng)性的修復(fù)錯(cuò)誤等因素導(dǎo)致，發(fā)生率相當(dāng)高。

CoT解釋與內(nèi)部計(jì)算不一致，是為何？

以上案例中，我們看到了一些關(guān)于CoT表里不一的現(xiàn)象，那么，究竟是什么原因?qū)е碌模?/p>

分布式并行計(jì)算，而非順序

「機(jī)制可解釋性」研究表明，Transformer架構(gòu)可能從根本上限制了CoT的忠實(shí)度。

基于Transformer搭建的LLM，通常以分布式方式同時(shí)通過多個(gè)組件處理信息，而不是CoT呈現(xiàn)的順序步驟。

正是因?yàn)檫@種架構(gòu)差異，導(dǎo)致了模型計(jì)算方式與語言表達(dá)方式之間，存在固有的不匹配。

舉個(gè)栗子，面對「24÷3=?」這樣簡單的數(shù)學(xué)問題，LLM會怎么做？

它一定不會像人類學(xué)生那樣，逐一分析「3能除24多少次」，或是列出長除法的步驟。

相反，LLM內(nèi)的多個(gè)注意力頭，會同時(shí)處理這些數(shù)字之間的關(guān)系。

它可能將其識別為記憶中的事實(shí)，確認(rèn)其為8的乘法表的一部分，并計(jì)算除法——所有這些都在并行進(jìn)行。

為了生成簡潔且看似合理的輸出，LLM通常只生成一個(gè)這樣的敘述來合理化它們的答案，而不是表達(dá)所有并行路徑，即使是那些可能顯著影響最終答案的路徑。

因此，CoT通常會忽略有影響的因素，僅作為模型底層分布式、疊加計(jì)算的部分、事后合理化。

冗余路徑

此外，LLM在處理任務(wù)時(shí)，往往會通過多條冗余計(jì)算路徑得出相同結(jié)論。

以計(jì)算√144為例，模型可能同時(shí)執(zhí)行以下操作：

識別這是一個(gè)記憶中的事實(shí)（12×12=144）
應(yīng)用平方根算法
與訓(xùn)練數(shù)據(jù)中的類似問題進(jìn)行模式匹配

當(dāng)從模型解釋「√144=12」的CoT中移除關(guān)鍵步驟「144=12×12」時(shí)，LLM仍能夠正確輸出12。

這表明，LLM的答案并不完全依賴于語言化的推理步驟，而是依賴其內(nèi)部的多條冗余路徑。

這種冗余計(jì)算路徑的現(xiàn)象，被研究者稱為「九頭蛇效應(yīng)」（Hydra Effect）。

即如果LLM一條路徑被阻斷或移除，另一條路徑可以接替。

這也就解釋了，為什么對CoT的某些部分進(jìn)行修改或刪除，對最終答案的影響微乎其微。

CoT忠實(shí)性挑戰(zhàn)

Tanneru等研究者曾嘗試通過在訓(xùn)練中懲罰不一致性，引導(dǎo)LLM生成忠實(shí)的CoT推理。

然而，這一方法僅取得了部分成功，尤其是在復(fù)雜問題上，模型傾向于生成看似合理但非因果的解釋。

比如，模型可能輸出一個(gè)邏輯清晰的CoT，卻掩蓋了其真正的決策路徑。

這種「合理化」傾向不僅難以完全消除，還可能在微調(diào)或持續(xù)學(xué)習(xí)過程中重新出現(xiàn)。

另有研究人員Chua和Evans，進(jìn)一步研究了經(jīng)過專門「推理訓(xùn)練」的模型，結(jié)果發(fā)現(xiàn)：

DeepSeek-R1在59%的測試中能提及提示線索，但仍有41%的情況，未能識別關(guān)鍵影響因素。

即便是最先進(jìn)的DeepSeek-V3，也僅在7%案例中提及線索，表明推理訓(xùn)練的效果極其有限。

更令人擔(dān)憂的是，LLM可能通過CoT「欺騙」監(jiān)控機(jī)制。

當(dāng)CoT被用于監(jiān)控RL獎(jiǎng)勵(lì)函數(shù)中的推理時(shí)，模型學(xué)會生成看似無害的推理軌跡，實(shí)則暗中執(zhí)行有害策略。

CoT假象，破解之法

論文的最后，針對CoT透明度的問題，研究人員指出，「我們不能繼續(xù)被假象蒙蔽」。

為此，他們提出了以下幾點(diǎn)建議：

1. 重新定義CoT的角色

CoT不是可解釋性的「萬能鑰匙」，而應(yīng)視為一種補(bǔ)充工具。它能提供線索，但絕非真相的全部。

2. 引入嚴(yán)格的驗(yàn)證機(jī)制

通過因果驗(yàn)證技術(shù)，如激活修補(bǔ)（activation patching）、反事實(shí)檢驗(yàn)、驗(yàn)證器模型，深入探查AI的推理過程是否忠實(shí)。

3. 借鑒認(rèn)知科學(xué)

模仿人類的錯(cuò)誤監(jiān)控、自我修正敘事和雙重過程推理（直覺+反思），讓AI的解釋更接近真實(shí)。

4. 強(qiáng)化人工監(jiān)督

開發(fā)更強(qiáng)大的工具，讓人類專家能夠?qū)彶楹万?yàn)證AI的推理過程，確保其可信度。

參考資料：

https://x.com/FazlBarez/status/1940070420692312178

https://www.alphaxiv.org/abs/2025.02

責(zé)任編輯：武曉燕來源：新智元

LLM CoT 思維鏈

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營