偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Bengio親手戳穿CoT神話!LLM推理是假象,25%頂會論文遭打臉

人工智能
原來,CoT推理竟是假象!Bengio帶隊(duì)最新論文戳穿了CoT神話——我們所看到的推理步驟,并非是真實(shí)的。不僅如此,LLM在推理時(shí)會悄然糾正錯(cuò)誤,卻在CoT中只字未提。

圖靈獎(jiǎng)大牛Bengio新作上線了!

這篇由牛津、谷歌DeepMind、Mila多家機(jī)構(gòu)聯(lián)手論文指出——思維鏈并非可解釋性。

這一觀點(diǎn)徹底打破了許多人的認(rèn)知:

CoT看似一步步給出答案,實(shí)則并不一定是其真實(shí)的推理過程。

圖片圖片

論文地址:https://www.alphaxiv.org/abs/2025.02

這么說來,能夠暴露LLM內(nèi)心世界的「思維鏈」,如今也不可靠了?

論文中,研究人員撕開了CoT的面紗,揭露了一個(gè)令人震驚的真相:思維鏈的透明度,可能只是一種精心編織的假象!

圖片圖片

思維鏈「謊言」被揭穿

然而,現(xiàn)實(shí)中,約25%的近期AI論文錯(cuò)誤地將CoT標(biāo)榜為「可解釋性技術(shù)」。

這一概念最先由前谷歌研究院Jason Wei在論文中提出,一時(shí)間,CoT被廣泛應(yīng)用在推理模型當(dāng)中。

圖片圖片

它最大的特點(diǎn),就是能夠多步驟推理,提升模型準(zhǔn)確性。與此同時(shí),讓AI黑盒變得不再那么神秘。

然而, CoT思考過程,是其真正的內(nèi)心OS嗎?

一些論文信誓旦旦地宣稱,CoT可以讓我們看清AI的推理過程,但事實(shí)遠(yuǎn)非如此。

圖片圖片

尤其是,在高風(fēng)險(xiǎn)領(lǐng)域,這個(gè)誤解的代價(jià)可能是致命的。

研究人員發(fā)現(xiàn),在使用CoT論文中,約38%醫(yī)療 AI、25%法律AI、63%自動(dòng)駕駛汽車相關(guān)論文,都盲目地將CoT視為可解釋性方法。

更令人毛骨悚然的是,帶有明確偏見的提示詞,可以輕易左右模型的答案。

而且,這些偏見在AI給出的「推理步驟」中只字不提。

AI能為帶有偏見的答案,編織出看似合理的解釋,卻從不暴露背后的「黑手」。

圖片圖片

因此,輕信這些帶有偏見的答案,可能十分危險(xiǎn)。

不僅如此,AI還會在推理過程中,常?!竿低怠剐拚约旱腻e(cuò)誤。

表面上看,大模型給出的步驟可能漏洞百出,但它卻能通過未被表述的「暗箱操作」得出正確答案。

這便制造了一種透明的假象。為何會出現(xiàn)這種脫節(jié)?

研究人員推測,簡潔的CoT無法完全捕捉基Transformer大模型中存在的分布式并行計(jì)算過程。

CoT如何掩蓋真實(shí)推理?

越來越多的實(shí)證研究已經(jīng)發(fā)現(xiàn)了大量案例,其中模型的思維鏈與其內(nèi)部推理過程相偏離。

需要指出的是,在審視不忠實(shí)性的具體模式之前,CoT解釋的忠實(shí)性因模型架構(gòu)等多種因素而異。

研究人員也總結(jié)了4項(xiàng)關(guān)鍵發(fā)現(xiàn):偏見驅(qū)動(dòng)的合理化與動(dòng)機(jī)性推理、隱性錯(cuò)誤糾正(Silent Error Correction)、不忠實(shí)的非邏輯捷徑(Unfaithful Illogical Shortcuts)、填充詞元 (Filler Tokens)。

每一項(xiàng)都闡明了CoT是如何誤導(dǎo)或掩蓋模型的實(shí)際決策過程,我們?yōu)槟闶崂砹岁P(guān)鍵發(fā)現(xiàn)中的要點(diǎn)問題:

偏見驅(qū)動(dòng)的合理化與動(dòng)機(jī)性推理

Turpin等研究者通過巧妙地偏置模型輸入證明偏見驅(qū)動(dòng)的合理化。

舉個(gè)栗子:

在提示中重新排序多項(xiàng)選擇題的選項(xiàng),使得正確選項(xiàng)總是在同一位置(例如,總是字母B)。

在這種情況下,盡管它們的CoT解釋從未提及選項(xiàng)重排是一個(gè)影響因素,GPT-3.5和Claude 1.0經(jīng)常會選擇那個(gè)被偏置的選項(xiàng)。

當(dāng)模型被偏向錯(cuò)誤答案時(shí),它們?nèi)匀粫稍敿?xì)的CoT來為那些錯(cuò)誤答案進(jìn)行合理化解釋。

結(jié)果導(dǎo)致在一系列任務(wù)上準(zhǔn)確率下降了高達(dá)36%,而CoT則給出了一個(gè)具有誤導(dǎo)性的推理假象。

另一項(xiàng)研究通過在提示中添加明確答案(例如,「答案是C」)來調(diào)查提示注入的偏見,然后要求模型為其選擇提供理由。

Claude 3.7-Sonnet和DeepSeek-R1分別僅在約25%和約39%的情況下承認(rèn)了被注入的答案。

這些發(fā)現(xiàn)表明,思維鏈常常作為事后合理化(post-hoc rationalisations)運(yùn)作,忽略了真正的因果因素,并制造了一種透明解釋的假象。

隱性錯(cuò)誤糾正(Silent Error Correction)

研究人員指出,模型可能會在其思維鏈中犯錯(cuò),然后在內(nèi)部糾正這些錯(cuò)誤,而CoT卻不反映這一糾正過程。

舉個(gè)栗子:

在一個(gè)CoT推理過程中,模型可能將一個(gè)三角形的斜邊錯(cuò)誤地計(jì)算為16,而正確值應(yīng)為13,但隨后卻陳述:「我們將斜邊長度13與其他兩條邊長相加得到周長?!?/p>

模型在內(nèi)部檢測并糾正了錯(cuò)誤,但CoT的敘述從未修正或標(biāo)記這個(gè)錯(cuò)誤——它讀起來像一個(gè)連貫的解題過程。

這些隱性錯(cuò)誤表明,最終答案是通過敘述步驟之外的計(jì)算得出的。

不忠實(shí)的非邏輯捷徑(Unfaithful Illogical Shortcuts)

研究人員表示,模型會通過潛在的捷徑得出正確答案,例如利用記憶的模式作為替代推理路徑,從而繞過完整的算法推理,這使得明確的推理鏈變得不相關(guān)或不正確。

來個(gè)典型案例:

有研究者使用歸因圖(一種追蹤哪些計(jì)算步驟對最終輸出有貢獻(xiàn)的方法)發(fā)現(xiàn),在解決像「36 + 59」這樣的問題時(shí),Claude 3.5 Haiku同時(shí)使用了查找表特征(例如,用于「將接近36的數(shù)與接近60的數(shù)相加」)和加法計(jì)算特征。

有趣的是,當(dāng)被要求描述模型如何得出答案時(shí),模型報(bào)告稱,其執(zhí)行了逐位相加進(jìn)位,完全忽略了其使用查找表捷徑的事實(shí)。

填充詞元(Filler Tokens)

研究指出,在某些算法推理任務(wù)中,使用填充詞元——例如「...」或?qū)W習(xí)到的「停頓」詞元這類對任務(wù)沒有語義貢獻(xiàn)但會影響模型內(nèi)部計(jì)算的輸入詞元——可以提高模型性能。

方便你理解,舉個(gè)栗子:

研究者發(fā)現(xiàn),輸入中附加可學(xué)習(xí)的停頓詞元(可作為一種填充詞元),在許多任務(wù)上都帶來了顯著的性能提升。

無獨(dú)有偶,研究者還發(fā)現(xiàn),添加填充詞元使模型能夠解決它們以前失敗的問題,尤其是在使用密集監(jiān)督進(jìn)行訓(xùn)練時(shí)。

以上幾項(xiàng)關(guān)鍵發(fā)現(xiàn),均解釋了CoT的不忠實(shí)性是一個(gè)普遍存在于不同模型架構(gòu)和規(guī)模中的根本性挑戰(zhàn)。

其由提示詞偏見、未能承認(rèn)隱藏影響以及在復(fù)雜推理任務(wù)中系統(tǒng)性的修復(fù)錯(cuò)誤等因素導(dǎo)致,發(fā)生率相當(dāng)高。

CoT解釋與內(nèi)部計(jì)算不一致,是為何?

以上案例中,我們看到了一些關(guān)于CoT表里不一的現(xiàn)象,那么,究竟是什么原因?qū)е碌模?/p>

分布式并行計(jì)算,而非順序

「機(jī)制可解釋性」研究表明,Transformer架構(gòu)可能從根本上限制了CoT的忠實(shí)度。

基于Transformer搭建的LLM,通常以分布式方式同時(shí)通過多個(gè)組件處理信息,而不是CoT呈現(xiàn)的順序步驟。

正是因?yàn)檫@種架構(gòu)差異,導(dǎo)致了模型計(jì)算方式與語言表達(dá)方式之間,存在固有的不匹配。

舉個(gè)栗子,面對「24÷3=?」這樣簡單的數(shù)學(xué)問題,LLM會怎么做?

它一定不會像人類學(xué)生那樣,逐一分析「3能除24多少次」,或是列出長除法的步驟。

相反,LLM內(nèi)的多個(gè)注意力頭,會同時(shí)處理這些數(shù)字之間的關(guān)系。

它可能將其識別為記憶中的事實(shí),確認(rèn)其為8的乘法表的一部分,并計(jì)算除法——所有這些都在并行進(jìn)行。

為了生成簡潔且看似合理的輸出,LLM通常只生成一個(gè)這樣的敘述來合理化它們的答案,而不是表達(dá)所有并行路徑,即使是那些可能顯著影響最終答案的路徑。

因此,CoT通常會忽略有影響的因素,僅作為模型底層分布式、疊加計(jì)算的部分、事后合理化。

冗余路徑

此外,LLM在處理任務(wù)時(shí),往往會通過多條冗余計(jì)算路徑得出相同結(jié)論。

以計(jì)算√144為例,模型可能同時(shí)執(zhí)行以下操作:

  • 識別這是一個(gè)記憶中的事實(shí)(12×12=144)
  • 應(yīng)用平方根算法
  • 與訓(xùn)練數(shù)據(jù)中的類似問題進(jìn)行模式匹配

當(dāng)從模型解釋「√144=12」的CoT中移除關(guān)鍵步驟「144=12×12」時(shí),LLM仍能夠正確輸出12。

這表明,LLM的答案并不完全依賴于語言化的推理步驟,而是依賴其內(nèi)部的多條冗余路徑。

這種冗余計(jì)算路徑的現(xiàn)象,被研究者稱為「九頭蛇效應(yīng)」(Hydra Effect)。

即如果LLM一條路徑被阻斷或移除,另一條路徑可以接替。

這也就解釋了,為什么對CoT的某些部分進(jìn)行修改或刪除,對最終答案的影響微乎其微。

CoT忠實(shí)性挑戰(zhàn)

Tanneru等研究者曾嘗試通過在訓(xùn)練中懲罰不一致性,引導(dǎo)LLM生成忠實(shí)的CoT推理。

然而,這一方法僅取得了部分成功,尤其是在復(fù)雜問題上,模型傾向于生成看似合理但非因果的解釋。

比如,模型可能輸出一個(gè)邏輯清晰的CoT,卻掩蓋了其真正的決策路徑。

這種「合理化」傾向不僅難以完全消除,還可能在微調(diào)或持續(xù)學(xué)習(xí)過程中重新出現(xiàn)。

另有研究人員Chua和Evans,進(jìn)一步研究了經(jīng)過專門「推理訓(xùn)練」的模型,結(jié)果發(fā)現(xiàn):

DeepSeek-R1在59%的測試中能提及提示線索,但仍有41%的情況,未能識別關(guān)鍵影響因素。

即便是最先進(jìn)的DeepSeek-V3,也僅在7%案例中提及線索,表明推理訓(xùn)練的效果極其有限。

更令人擔(dān)憂的是,LLM可能通過CoT「欺騙」監(jiān)控機(jī)制。

當(dāng)CoT被用于監(jiān)控RL獎(jiǎng)勵(lì)函數(shù)中的推理時(shí),模型學(xué)會生成看似無害的推理軌跡,實(shí)則暗中執(zhí)行有害策略。

CoT假象,破解之法

論文的最后,針對CoT透明度的問題,研究人員指出,「我們不能繼續(xù)被假象蒙蔽」。

為此,他們提出了以下幾點(diǎn)建議:

1. 重新定義CoT的角色

CoT不是可解釋性的「萬能鑰匙」,而應(yīng)視為一種補(bǔ)充工具。它能提供線索,但絕非真相的全部。

2. 引入嚴(yán)格的驗(yàn)證機(jī)制

通過因果驗(yàn)證技術(shù),如激活修補(bǔ)(activation patching)、反事實(shí)檢驗(yàn)、驗(yàn)證器模型,深入探查AI的推理過程是否忠實(shí)。

3. 借鑒認(rèn)知科學(xué)

模仿人類的錯(cuò)誤監(jiān)控、自我修正敘事和雙重過程推理(直覺+反思),讓AI的解釋更接近真實(shí)。

4. 強(qiáng)化人工監(jiān)督 

開發(fā)更強(qiáng)大的工具,讓人類專家能夠?qū)彶楹万?yàn)證AI的推理過程,確保其可信度。

參考資料:

https://x.com/FazlBarez/status/1940070420692312178

https://www.alphaxiv.org/abs/2025.02

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2024-09-23 09:40:00

AI數(shù)學(xué)模型

2025-06-10 09:25:27

2024-12-12 09:00:00

2025-06-17 08:52:00

蘋果AI論文

2025-05-21 09:02:20

2025-01-13 01:00:00

數(shù)據(jù)訓(xùn)練AI

2020-06-28 10:16:53

PyTorchTensorFlow機(jī)器學(xué)習(xí)

2023-06-01 17:06:49

模型思維

2025-03-05 04:00:00

2021-09-02 10:15:50

計(jì)算平臺MaxCompute 阿里云

2023-02-09 16:09:46

2020-06-13 16:16:27

CDMA韓國移動(dòng)通信

2012-11-15 09:46:22

Xeon PhiIntel加速性能

2025-02-07 16:07:39

2025-04-24 10:26:40

2020-03-17 11:40:42

阿里云神龍

2023-04-14 18:35:19

Redis數(shù)據(jù)Async

2025-03-24 13:45:56

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號