CoT推理大潰敗?哈佛華人揭秘:LLM一思考,立刻就「失智」
DeepSeek-R1火了,推理模型火了,思維鏈(Chain-of-Thought,CoT)火了!
模型很聰明,問(wèn)題是:它還聽(tīng)你的話嗎?思維鏈很好,但代價(jià)呢?
當(dāng)大家以為大語(yǔ)言模型越「會(huì)思考」越靠譜時(shí),來(lái)自哈佛大學(xué)、亞馬遜和紐約大學(xué)的最新研究, 可謂當(dāng)頭棒喝:
思維鏈(Chain-of-Thought)并不總是錦上添花,
有時(shí)候,它會(huì)讓大模型越想越錯(cuò)、越幫越忙!
論文鏈接:https://arxiv.org/abs/2505.11423
他們直截了當(dāng)?shù)刂赋觯?/span>
在需要遵守指令或格式的任務(wù)中,使用CoT推理,模型遵守指令的準(zhǔn)確率會(huì)下降!
例如,Meta-Llama-3-8B在IFEval基準(zhǔn)中:
- 不使用推理時(shí)準(zhǔn)確率:75.2%
- 啟用CoT后:直接跌至59.0%
而且這不是個(gè)例,在多個(gè)模型、多個(gè)任務(wù)上都驗(yàn)證了這個(gè)現(xiàn)象。
不是模型不聰明,是它「想太多」了。
在表1中,研究人員展示了具體的測(cè)評(píng)結(jié)果。
其中綠色與紅色分別標(biāo)識(shí)原始模式與CoT模式的性能。
各改進(jìn)方法列同時(shí)報(bào)告絕對(duì)準(zhǔn)確率及相對(duì)于CoT模式的變化(↑表示提升,↓表示下降),最優(yōu)改進(jìn)方案用加粗字體標(biāo)出。
表1:模型在IFEval和ComplexBench上的指令遵循性能表現(xiàn)
這不是LLM的滑鐵盧,這是推理的自爆現(xiàn)場(chǎng)。
這個(gè)新發(fā)現(xiàn)顛覆了常識(shí):推理越多,表現(xiàn)越差!
表2:推理增強(qiáng)模型與基礎(chǔ)模型性能對(duì)比
表2中綠色標(biāo)注每對(duì)模型中性能較優(yōu)模型,紅色標(biāo)注較差模型。
對(duì)LLM而言,推理到底幫了哪些忙,又添了哪些亂?
四大模式,暗藏玄機(jī)
對(duì)IFEval數(shù)據(jù)集中的全部541個(gè)樣本,以及ComplexBench中的1000多個(gè)樣本,研究人員進(jìn)行了人工分析。
案例分析顯示,雖然存在個(gè)體差異,但成功與失敗案例主要呈現(xiàn)四大重復(fù)模式,具體總結(jié)如下:
推理對(duì)指令遵循的好處:
- 格式和結(jié)構(gòu)遵守:推理提高了對(duì)結(jié)構(gòu)約束的遵循程度,例如生成有效的JSON、用雙引號(hào)包裹輸出或者遵循markdown語(yǔ)法。
- 詞匯和關(guān)鍵詞精確性:推理增強(qiáng)了對(duì)詞匯要求的遵守,包括插入稀有字符(如字母q使用六次)、省略最終標(biāo)點(diǎn)符號(hào)或使用恰好15個(gè)大寫單詞。
推理對(duì)指令遵循的害處:
- 過(guò)度關(guān)注高層次內(nèi)容而忽略簡(jiǎn)單約束:當(dāng)存在多個(gè)約束時(shí),推理通常會(huì)強(qiáng)調(diào)內(nèi)容規(guī)劃而忽視較為簡(jiǎn)單的機(jī)械約束。
常見(jiàn)問(wèn)題包括超出字?jǐn)?shù)限制、未能準(zhǔn)確重復(fù)提示、在僅限小寫字母的任務(wù)中使用大寫字母,或附加不必要的內(nèi)容。 - 自作聰明,畫(huà)蛇添足,擅自加戲:推理經(jīng)常插入冗余或出于好意添加的內(nèi)容——比如解釋、翻譯或強(qiáng)調(diào)——這些都可能破壞約束條件。
典型的行為包括:在「僅外語(yǔ)」輸出中插入英文文本,在「無(wú)逗號(hào)」任務(wù)中包含逗號(hào),向僅需引用的回答后附加評(píng)論,或超出大寫單詞數(shù)量的限制。
總結(jié)一句:你要它聽(tīng)話,它偏偏表演。
真相:CoT分散模型「注意力」
在許多失敗案例中,研究者觀察到模型忽視了某些約束,原因可能是過(guò)度強(qiáng)調(diào)內(nèi)容規(guī)劃,或引入了無(wú)關(guān)的信息。
研究者引入了一個(gè)新指標(biāo):「約束注意力」,來(lái)衡量模型有沒(méi)有關(guān)注任務(wù)中的關(guān)鍵限制條件。
結(jié)果很扎心:
- DeepSeek-R1-Distill:使用CoT時(shí)注意力下降0.161
- Qwen2.5-1.5B-Instruct:下降0.090
CoT推理就像在耳邊說(shuō)「要不你再想想?」
模型真的「想多了」,但忘了你原本說(shuō)了什么。
注意力潰散
在大語(yǔ)言模型中,「注意力機(jī)制」,用來(lái)決定模型在每一步生成中關(guān)注哪些輸入信息最重要。
理想情況下:
如果你讓模型執(zhí)行「按要求格式輸出」「只輸出選項(xiàng)A或B」,那它的注意力就應(yīng)該聚焦在指令里的關(guān)鍵約束詞上,比如「必須輸出A或B」「不得添加解釋」。
然而,CoT推理的引入?yún)s改變了這種聚焦機(jī)制:
當(dāng)你讓模型「一步步來(lái)思考」(即CoT)時(shí),它反而會(huì)被自己的推理內(nèi)容吸引,逐漸忽略最開(kāi)始的指令約束。
這就好比:
模型本該「盯著規(guī)則干活」, 但你讓它「先思考思路」,它反而被自己的「內(nèi)心獨(dú)白」帶偏了。
你給它一張待辦清單,它卻跑去寫日記,寫著寫著忘了要辦啥。
實(shí)證支持:「約束注意力」下降
論文中引入了一個(gè)衡量指標(biāo):約束注意力得分。
具體來(lái)說(shuō),對(duì)于每條指令,首先使用GPT-4o自動(dòng)提取出與各個(gè)約束對(duì)應(yīng)的子字符串,并將這些子字符串映射為提示中的對(duì)應(yīng)token索引。
在生成過(guò)程中,計(jì)算模型對(duì)這些約束相關(guān)token的注意力得分,分別針對(duì)性分析了推理過(guò)程和最終回答兩個(gè)階段,計(jì)算第t步的層平均約束注意力。
每個(gè)模型在每條指令上會(huì)運(yùn)行兩次:
1. 基礎(chǔ)運(yùn)行(Base run):直接從指令生成回答(Instruction→Answer);
2. 推理運(yùn)行(Reasoning run,即CoT):從指令生成思考過(guò)程再生成回答(Instruction→Think→Answer)。
研究人員將注意力下降量定義為基線模式與思維鏈模式的平均約束注意力差值,用來(lái)量化模型在執(zhí)行任務(wù)時(shí),有多少注意力落在了那些「必須遵守」的關(guān)鍵詞或結(jié)構(gòu)限制上。
在IFEval和ComplexBench基準(zhǔn)上,在圖1中可視化了某開(kāi)源模型生成響應(yīng)時(shí)的約束注意力軌跡。
通過(guò)對(duì)數(shù)百個(gè)樣本的分析,研究者觀察到以下普遍規(guī)律:
注意力平坦化現(xiàn)象。
推理過(guò)程會(huì)使約束注意力軌跡趨于平緩;在性能下降的案例中,答案生成階段的約束注意力普遍降低約23%。
注意力增強(qiáng)現(xiàn)象。
當(dāng)推理提升性能時(shí),答案段會(huì)出現(xiàn)明顯的注意力峰值(平均提升15%);這種增強(qiáng)與關(guān)鍵約束的準(zhǔn)確識(shí)別呈正相關(guān)(r=0.62)。
圖1:Qwen2.5-1.5B-Instruct模型在兩個(gè)數(shù)據(jù)集上的約束注意力軌跡示例。自上而下分別展示推理導(dǎo)致持平(TIE)、失?。↙OSE)和成功(WIN)三種情況的對(duì)比。紅色虛線標(biāo)記思維過(guò)程(Thinking)的開(kāi)始位置,綠色虛線標(biāo)記答案生成(Answer)階段的起始點(diǎn)
當(dāng)使用CoT推理時(shí),多款主流模型的這個(gè)分?jǐn)?shù)顯著下降:
- DeepSeek-R1-Distill:下降0.161
- Qwen2.5-1.5B-Instruct:下降0.090
這意味著:模型確實(shí)更少關(guān)注任務(wù)限制,更容易出錯(cuò),比如加了不該加的標(biāo)點(diǎn)、解釋、格式錯(cuò)位等。
圖2展示了在「成功」(WIN)與「失敗」(LOSE)兩類樣本中,這種注意力下降在不同。
數(shù)據(jù)顯示,與未使用推理的情況相比,失敗案例的注意力下降幅度普遍更為顯著。
圖2:Qwen2.5-1.5B-Instruct模型在IFEval數(shù)據(jù)集中,WIN(成功)與LOSE(失敗)案例在各典型層的約束注意力下降值(基線-思維鏈模式)
論文還發(fā)現(xiàn):推理步驟越多,指令遵循能力越差;兩者間的相關(guān)性幾乎為0,長(zhǎng)推理≠高表現(xiàn)!
換句話說(shuō),CoT不是寫論文,不是越長(zhǎng)越有用,反而可能「越寫越偏」。
如何解決?4種緩解策略來(lái)了!
改進(jìn)方法
基于這些發(fā)現(xiàn),研究人員提出四種改進(jìn)方案:
- 上下文學(xué)習(xí):通過(guò)典型錯(cuò)誤示例修正推理偏差,帶來(lái)了小幅度的性能提升;
- 自我反思:引導(dǎo)模型對(duì)推理過(guò)程進(jìn)行自檢。在IFEval數(shù)據(jù)集上,自我反思帶來(lái)了顯著提升;ComplexBench數(shù)據(jù)集上,效果較差。
- 自選擇推理:讓模型自主判斷是否需要推理。在IFEval上,它帶來(lái)了中等程度的提升;在ComplexBench上表現(xiàn)更為出色,所有模型性能均有提升。
- 分類器選擇推理:用訓(xùn)練好的分類器控制推理觸發(fā)。
該方法效果顯著,幾乎在所有模型和兩個(gè)基準(zhǔn)測(cè)試上都帶來(lái)了性能提升,但需要針對(duì)每個(gè)模型單獨(dú)訓(xùn)練分類器,這會(huì)增加額外的開(kāi)發(fā)和運(yùn)維成本。
每種緩解策略在不同的模型能力和任務(wù)復(fù)雜度下都有其優(yōu)缺點(diǎn)。
根據(jù)結(jié)果,研究者推薦如下決策流程:
- 首先評(píng)估任務(wù)指令的復(fù)雜度——可以通過(guò)簡(jiǎn)單的啟發(fā)式規(guī)則或訓(xùn)練好的分類器來(lái)判斷;
- 對(duì)于較簡(jiǎn)單的任務(wù)(如IFEval),推薦使用自我反思或分類器選擇推理;
- 對(duì)于更復(fù)雜或邏輯結(jié)構(gòu)更復(fù)雜的任務(wù)(如ComplexBench),推薦使用自我選擇推理或分類器選擇推理。
總體而言,分類器選擇推理在兩個(gè)基準(zhǔn)測(cè)試中都表現(xiàn)出最穩(wěn)定和最優(yōu)秀的性能,盡管它需要進(jìn)行模型特定的訓(xùn)練。
詳細(xì)結(jié)果見(jiàn)表1和圖3,其中也包括與CoT基線的性能差異對(duì)比。
圖3:跨模型與方法的指令遵循準(zhǔn)確率可視化分析(基于IFEval與ComplexBench基準(zhǔn))
給AI開(kāi)發(fā)者的幾點(diǎn)提醒
- 不是所有任務(wù)都需要推理:簡(jiǎn)單任務(wù)/格式明確的輸入,直接輸出即可。
- 明確提示中的規(guī)則:不要讓模型在推理時(shí)「模糊掉」關(guān)鍵限制。
- 引入判斷機(jī)制:讓模型或分類器判斷是否需要推理。
大模型的「聰明」,該被約束。
在AI開(kāi)發(fā)中,大家喜歡「聰明」的模型,但真正的智能不是亂想,而是:
知道什么時(shí)候該想,什么時(shí)候該閉嘴。
思維鏈依舊重要,但不是萬(wàn)能鑰匙。我們需要重新理解它的邊界與風(fēng)險(xiǎn)。
作者介紹
值得一提的,論文的第一作者兼通訊作者Xiaomin Li。
他目前在哈佛大學(xué)攻讀應(yīng)用數(shù)學(xué)博士學(xué)位。
他的研究方向是機(jī)器學(xué)習(xí)與生成模型的數(shù)學(xué)理論,以及大語(yǔ)言模型的應(yīng)用等。
2020年5月,他以滿績(jī)點(diǎn)的優(yōu)異成績(jī),獲得伊利諾伊大學(xué)厄巴納-香檳分校數(shù)學(xué)理學(xué)學(xué)士與計(jì)算機(jī)科學(xué)工程學(xué)士雙學(xué)位。
同年,他于哈佛大學(xué)攻讀博士學(xué)位,期間他有多段Meta等公司的實(shí)習(xí)經(jīng)歷。