小模型用推理反而性能下降15%!1.6M配對樣本揭示推理能力真相

大家好,我是肆〇柒。在大語言模型領域,推理能力(reasoning)已成為備受推崇的技術亮點。從OpenAI的o1推理系列到開源社區(qū)的Qwen和Mistral模型,業(yè)界紛紛推出推理專用模型,思維鏈(Chain-of-Thought)更是成為標配。然而,一個關鍵問題卻被普遍忽視:推理在什么任務、什么模型規(guī)模下才真正有效?其額外計算成本是否值得?
今天我們一起閱讀一項新發(fā)布的受控研究,它首次系統(tǒng)的回答了這一問題。這項研究是由 Diabolocom、Artefact Research Center、Equall、ISIA Lab(蒙斯大學)與 MICS(巴黎薩克雷大學) 聯(lián)合完成。該研究通過1.6M配對樣本和70k H100 GPU小時的計算資源,構(gòu)建了一個"唯一變量是監(jiān)督格式"的純凈實驗環(huán)境,為模型研發(fā)提供了精準的決策依據(jù)。在模型訓練成本日益高昂的今天,這項研究幫助開發(fā)者避免盲目投入推理訓練,實現(xiàn)資源的精準配置。
為什么需要"受控研究"?
當前研究大多報告"推理模型更強",但這些研究往往混雜了數(shù)據(jù)、規(guī)模、訓練方式等多種變量,難以確定性能提升的真正來源。正如論文指出的:"前沿研究強調(diào)了推理模型的性能,但通常沒有厘清改進的真正來源,這是由于數(shù)據(jù)混合不透明以及監(jiān)督方案不斷變化所致。"
為了解決這一問題,此研究構(gòu)建了一個合成數(shù)據(jù)蒸餾框架(synthetic data distillation framework),用同一教師模型(Qwen3-235B-A22B)生成配對的IFT(指令微調(diào))與推理答案。這種方法確保"只有監(jiān)督格式(IFT與推理)發(fā)生變化,而數(shù)據(jù)和模型容量保持不變",從而實現(xiàn)了一個純凈的受控實驗。
研究使用160萬對配對樣本,覆蓋通用與數(shù)學領域,通過70k H100 GPU小時的計算資源,系統(tǒng)評估了推理對模型性能的貢獻。關鍵在于,對于每一個輸入,研究同時生成了IFT和推理兩種答案,確保了對同一提示生成配對的答案。這種設計消除了數(shù)據(jù)混雜因素,使研究能夠精確歸因性能變化的真正原因。
評估任務被明確劃分為四大類:
- 通用-MC:如mmlu-misc、winogrande、openbookqa(多項選擇題)
- 通用-OE:如squad、coqa、ifeval(開放式問答)
- 數(shù)學-MC:如mmlu-math、mmlu-pro-math、aqua-rat(數(shù)學多項選擇題)
- 數(shù)學-OE:如gsm8k、math-500、aime(開放式數(shù)學問題)
這種任務分類方法揭示了推理能力在不同任務類型上的差異化表現(xiàn),為后續(xù)分析奠定了基礎。
實驗設計:如何構(gòu)建純凈的受控實驗
研究的實驗設計精妙之處在于其嚴格的控制變量法。教師模型Qwen3-235B-A23B具備開關推理模式的能力,能夠?qū)ν惠斎肷膳鋵Φ腎FT和推理答案。學生模型則選用與教師模型家族不同的Qwen2.5系列(0.5B–14B),以減少預訓練偏差。
研究采用兩種訓練策略:
- Sequential訓練:先進行通用領域訓練再進行數(shù)學領域訓練
- Mixed訓練:混合通用和數(shù)學領域數(shù)據(jù)進行訓練
在sequential訓練中,研究測試了四種組合:
1. General-IFT + Math-IFT
2. General-IFT + Math-Reasoning
3. General-Reasoning + Math-IFT
4. General-Reasoning + Math-Reasoning

推理比例對下游性能的影響
上圖展示了推理比例對下游性能的影響。橫軸表示推理比例(0%-100%),縱軸表示準確率,不同顏色線條代表不同規(guī)模的學生模型(0.5B–14B)。該圖表揭示了一個關鍵現(xiàn)象:推理效果在不同任務類型上存在顯著差異。
在數(shù)學-OE任務上,推理比例增加帶來持續(xù)且顯著的性能提升;而在通用-MC任務上,當推理比例超過50%時,性能提升趨于平緩,小模型(0.5B)在推理比例達到25%時就已出現(xiàn)性能下降。這種設計使研究能夠精確評估推理比例與性能之間的關系,為實際應用提供了量化指導。
核心發(fā)現(xiàn)一:推理效果高度依賴任務類型
研究數(shù)據(jù)清晰表明,推理對模型性能的影響存在顯著的任務差異性。

任務對推理的敏感度
上圖直觀展示了"推理幫助最大的是開放式和數(shù)學任務;在通用多項選擇題任務上收益有限或不一致"這一核心發(fā)現(xiàn)。
在數(shù)學-OE任務上,推理效果最為顯著。以gsm8k任務為例,14B推理模型達到85%的準確率,比同等規(guī)模的IFT模型高出約18個百分點;在aime任務上,14B推理模型達到58%的準確率,比IFT模型高出約15個百分點。這表明對于需要多步推導的開放式數(shù)學問題,推理能力確實能帶來質(zhì)的飛躍。
數(shù)學-MC任務也有明顯收益。在mmlu-math任務上,14B推理模型達到78%的準確率,比IFT模型高出約4個百分點;在aqua-rat任務上,14B推理模型達到68%的準確率,比IFT模型高出約3個百分點。雖然多項選擇題不需要生成完整推理過程,但推理訓練似乎幫助模型更好地理解問題本質(zhì)。
通用-OE任務上,推理效果中等。在squad任務上,14B推理模型達到75%的準確率,僅比IFT模型高出約2個百分點;在coqa任務上,14B推理模型達到72%的準確率,比IFT模型高出約3個百分點。這表明對于開放式通用問題,推理能力有一定幫助,但收益不如數(shù)學任務顯著。
在通用-MC任務上,推理收益有限。在winogrande任務上,14B推理模型準確率為72%,與IFT模型基本持平;在openbookqa任務上,14B推理模型準確率為85%,比IFT模型僅高出約1個百分點。對于選擇題等封閉式任務,推理訓練的收益非常有限。
最具沖擊力的發(fā)現(xiàn):小模型(<1.5B)在通用-MC任務上使用推理反而不如IFT。數(shù)據(jù)顯示,在General-MC任務上,0.5B推理模型的準確率比IFT模型低約15個百分點,1.5B推理模型的準確率也比IFT模型低約5個百分點。這表明推理訓練對小模型可能產(chǎn)生負面影響,而不是簡單地"沒有收益"。

任務級推理比例影響
上圖進一步驗證了這一現(xiàn)象:在數(shù)學-OE任務(gsm8k、math-500、aime)上,所有規(guī)模模型的準確率都隨推理比例增加而顯著提升;而在通用-MC任務(winogrande、openbookqa、mmlu-misc)上,小模型(0.5B、1.5B)的準確率隨推理比例增加而下降。
研究明確指出:"與先前的數(shù)據(jù)一致(推理比例為25%和75%時),在僅通過IFT就能獲得高性能的情況下,增加推理比例并不能帶來提升。"這表明推理的價值主要集中在開放式和多步推理密集型任務上,而不是所有類型的任務。對于選擇題等封閉式任務,推理訓練的收益是有限的,甚至可能會產(chǎn)生負面影響。
核心發(fā)現(xiàn)二:模型規(guī)模是推理有效性的關鍵門檻
研究發(fā)現(xiàn)模型規(guī)模是推理有效性的關鍵門檻。最具反直覺的發(fā)現(xiàn):小模型(0.5B–1.5B參數(shù))難以從推理數(shù)據(jù)中獲益,甚至出現(xiàn)"災難性遺忘"。
數(shù)據(jù)顯示,在General-OE任務上,0.5B推理模型的準確率僅為35%,比IFT模型低約10個百分點;1.5B推理模型的準確率為45%,僅比IFT模型高約2個百分點。研究指出:"在順序訓練場景下,0.5B學生模型表現(xiàn)不佳,甚至出現(xiàn)了全局性能下降的情況。"
7B是通用任務的分水嶺:7B以上模型在推理訓練下可突破IFT性能瓶頸。

訓練FLOPs與任務準確率
上圖清晰展示了訓練FLOPs與任務準確率的關系。在數(shù)學任務(mmlu-math、mmlu-pro-math、aqua-rat、gsm8k、math-500、aime)上,推理模型(100%推理比例)的準確率明顯高于IFT模型(0%推理比例),且隨著模型規(guī)模增大,這種差距進一步擴大。而在通用任務(mmlu-misc、winogrande、openbookqa、squad、coqa、ifeval)上,7B以下模型的推理訓練效果不明顯,7B以上模型才開始顯現(xiàn)優(yōu)勢。
具體數(shù)據(jù)表明,3B推理模型在General-OE任務上達到約75%的準確率,與14B IFT模型的性能(約76%)基本持平;14B推理模型在General-OE任務上達到約82%的準確率,遠超14B IFT模型的性能。這意味著推理訓練使較小模型能夠匹配更大規(guī)模IFT模型的性能,實現(xiàn)"以小博大"。
數(shù)學領域門檻更低:1.5B+模型即可從推理中獲益,表明數(shù)學任務對推理更敏感。在Math-OE任務上,1.5B推理模型的性能已超過3B IFT模型,達到約65%的準確率,而3B IFT模型僅為約58%;3B推理模型達到約72%的準確率,比14B IFT模型高出約5個百分點。
研究指出:"在順序訓練場景下,1.5B及以上規(guī)模的模型則能夠保持非特定的推理能力,展現(xiàn)出改進的領域內(nèi)結(jié)果和穩(wěn)健的通用能力平衡。"這表明推理能力的吸收需要足夠的模型容量,小模型難以處理復雜的推理軌跡。
核心發(fā)現(xiàn)三:訓練策略的選擇同樣關鍵
在訓練策略方面,研究對比了sequential和mixed兩種方法。數(shù)據(jù)顯示,General-Reasoning + Math-Reasoning組合表現(xiàn)最佳,General-IFT + Math-Reasoning也能獲得良好效果。
最具警示性的發(fā)現(xiàn):在推理模型的基礎上進行IFT對齊并不能帶來任何收益。對推理模型進行IFT適應是沒有益處的。
具體數(shù)據(jù)表明,在General-Reasoning模型基礎上進行Math-IFT訓練,其在數(shù)學任務上的性能比General-Reasoning + Math-Reasoning組合低約5-8個百分點;而在General-IFT模型基礎上進行Math-Reasoning訓練,其在數(shù)學任務上的性能接近General-Reasoning + Math-Reasoning組合,僅低約1-2個百分點。

推理比例對下游性能的影響
上圖揭示了推理比例與性能的關系:在General-MC任務上,當推理比例超過50%時,性能提升趨于平緩,而小模型(0.5B)在推理比例達到25%時就已出現(xiàn)性能下降。在Math-OE任務上,即使對于0.5B模型,推理比例達到50%時也能獲得最佳性能。
研究特別指出,在順序訓練中,推理和IFT不是簡單的疊加關系。對已經(jīng)經(jīng)過通用推理訓練的模型進行IFT對齊,其性能最多只能達到兩階段IFT的水平,而在小模型上,這種對齊往往會使性能變得更差。這表明推理和IFT之間存在復雜的相互作用,順序和組合方式至關重要。
在aime任務上,General-Reasoning + Math-Reasoning組合的準確率達到58%,而General-Reasoning + Math-IFT組合的準確率僅為50%,差距達8個百分點。這表明推理訓練在數(shù)學任務上具有不可替代的優(yōu)勢。
成本權衡:推理的訓練與推理開銷
在成本權衡方面,研究發(fā)現(xiàn)IFT始終是Pareto最優(yōu)選擇,訓練成本更低。純推理訓練(100%推理比例)效率較低,而25%–75%混合比例可在性能與成本間取得最佳平衡。
推理效率方面,推理輸出顯著長于IFT。

回答長度分析
上圖展示了回答長度分析。在General-OE任務上,推理模型的回答長度平均約為8000-12000 tokens,遠高于IFT模式。在squad任務上,推理模型的平均回答長度為10500 tokens,而IFT模型僅為2500 tokens;在coqa任務上,推理模型的平均回答長度為11200 tokens,而IFT模型僅為2800 tokens。
最具反直覺的發(fā)現(xiàn):錯誤答案往往比正確答案更長。圖8還顯示出,在General-OE任務上,成功案例的回答長度通常短于失敗案例。在squad任務上,正確答案的平均長度為8500 tokens,而錯誤答案的平均長度為11500 tokens;在coqa任務上,正確答案的平均長度為9200 tokens,而錯誤答案的平均長度為12200 tokens。
這一發(fā)現(xiàn)挑戰(zhàn)了"更長回答=更好性能"的常見假設,對推理模型的部署具有重要指導意義。簡單的早停策略可能會失敗,因為有些任務需要更多的token才能產(chǎn)生正確的答案。
隨著模型規(guī)模增大,推理與IFT的計算開銷差異愈發(fā)明顯。

IFT和推理式訓練的學生模型規(guī)模與推理FLOPs的關系。圖中的點表示每個任務類別的平均推理FLOPs,而曲線則展示了相應的對數(shù)線性擴展趨勢
上圖清晰展示了這一現(xiàn)象:推理模型的推理FLOPs隨模型規(guī)模增長的斜率明顯高于IFT模型( vs. )。這意味著大規(guī)模推理模型的計算開銷增長更為陡峭,對資源有限的部署環(huán)境構(gòu)成挑戰(zhàn)。

推理FLOPs與任務準確率
上圖同時揭示了一個重要趨勢:隨著模型規(guī)模增加,所有推理模型都逐漸接近Pareto前沿,而IFT模型往往更早達到性能瓶頸,這解釋了為何推理在更大規(guī)模下變得Pareto最優(yōu)。
關鍵發(fā)現(xiàn):生成長度與任務特性的關系
研究還揭示了生成長度與任務特性的復雜關系。如前所述,錯誤答案往往比正確答案更長,但某些任務確實需要更長的生成長度才能獲得正確答案。

最大生成長度影響
上圖顯示,將最大生成長度從16,384增加到32,768 tokens可提升mmlu-math、math-500和aime等任務的性能。在mmlu-math任務上,14B推理模型的準確率從78%提升到82%;在math-500任務上,從68%提升到73%;在aime任務上,從52%提升到58%。
這揭示了為什么簡單的早停策略可能會失敗,因為有些任務需要更多的tokens才能產(chǎn)生正確的答案。這也表明推理模型能夠很好地超出它們訓練時的長度進行外推。
推理模型具有外推能力,能夠很好地處理超出訓練長度的生成需求。研究測試了基于預算的解碼中止機制,發(fā)現(xiàn)雖然減少了推理FLOPs,但顯著降低了準確性,使性能偏離Pareto前沿。例如,在aime任務上,將最大生成長度限制為16,384 tokens時,14B推理模型的準確率為52%;而將最大生成長度增加到32,768 tokens時,準確率提升到58%。
這一發(fā)現(xiàn)對于部署推理模型時如何設置生成長度上限具有極其重要的指導意義。簡單的早停策略可能會失敗,因為有些任務需要更多的tokens才能產(chǎn)生正確的答案。
上圖已經(jīng)清晰展示了這一現(xiàn)象:在mmlu-math、math-500和aime任務上,隨著模型規(guī)模增大,增加最大生成長度帶來的性能提升更加顯著。例如,在aime任務上,14B模型從16k到32k tokens的準確率提升達到6個百分點,而0.5B模型僅提升2個百分點。
何時該用推理?
基于研究結(jié)果,我們可以構(gòu)建一個清晰的決策框架,幫助開發(fā)者在實際應用中做出明智選擇:
任務類型判斷
首先判斷任務類型是開放式(OE)還是多項選擇題(MC):
- 開放式任務(OE):包括開放式問答、數(shù)學問題等需要生成完整答案的任務
- 多項選擇題任務(MC):包括選擇題、填空題等有明確選項的任務
研究數(shù)據(jù)顯示,推理訓練在開放式任務上普遍有益,而在多項選擇題任務上收益有限。特別地,數(shù)學任務(無論是OE還是MC)都比通用任務更能從推理訓練中獲益。
模型規(guī)模考量
其次考慮模型規(guī)模:
- <1.5B參數(shù):小模型難以從推理訓練中獲益,甚至可能導致性能下降
- 1.5B–7B參數(shù):在數(shù)學任務上可從推理訓練中獲益,在通用任務上收益有限
- ≥7B參數(shù):在開放式任務上顯著受益于推理訓練
在論文中明確指出,在通用任務上,7B是推理有效性的關鍵門檻;在數(shù)學任務上,1.5B模型即可從推理中獲益。這表明不同任務類型對模型規(guī)模的要求不同。
訓練策略選擇
在訓練策略方面,研究提供了明確指導:
- Sequential訓練:General-Reasoning + Math-Reasoning組合表現(xiàn)最佳
- 避免:在推理模型基礎上進行IFT對齊,這種做法是不可取的,因為對推理模型進行IFT適應是沒有任何益處的。
- 混合比例:25%–75%推理比例可在性能與成本間取得最佳平衡
生成長度設置
對于推理模型的部署,生成長度設置至關重要:
- 不要盲目增加生成長度:錯誤答案往往更長,合理設置長度閾值可避免資源浪費
- 數(shù)學任務:適當增加生成長度上限(如從16,384提升至32,768 tokens)可進一步提升性能
- 監(jiān)控實際性能:實施長度限制前,應評估對特定任務準確率的影響
何時該用推理?決策框架
基于研究結(jié)果,我們可以構(gòu)建一個清晰的決策框架:
強烈推薦引入推理訓練的場景
- 任務類型:開放式、數(shù)學/代碼類(特別是OE格式)
- 模型規(guī)模:≥7B(通用任務)或≥1.5B(數(shù)學任務)
- 資源條件:追求性能上限而非極致效率
優(yōu)先擴大IFT模型規(guī)模的場景
- 任務類型:選擇題/事實問答(MC格式)
- 資源條件:資源受限或?qū)ν评硌舆t敏感
- 模型規(guī)模:<1.5B
性價比折中方案
- 混合訓練:采用25%-75%推理比例的混合訓練
- 訓練策略:在推理模型上避免額外進行IFT對齊
- 部署設置:為數(shù)學任務適當增加生成長度上限
總結(jié):超越"推理萬能論"
推理并非萬能的“銀彈”,而是與任務類型、模型規(guī)模和計算成本緊密相關的工具。這項研究提供了一個可復現(xiàn)且可歸因的評估范式,為理性看待當前的“推理熱潮”提供了科學依據(jù)。
在計算資源日益寶貴的當下,這項研究為模型開發(fā)者提供了一個清晰的決策框架。研究發(fā)現(xiàn),推理能力的價值取決于具體的應用場景。對于開放式任務和數(shù)學密集型任務,推理訓練能夠顯著提升模型性能;然而,對于選擇題和事實問答等任務,擴大IFT模型規(guī)模通常是更優(yōu)的選擇。這一發(fā)現(xiàn)有助于避免資源浪費,實現(xiàn)模型能力與任務需求的精準匹配。
研究最終得出結(jié)論:雖然“推理能夠可靠地突破IFT性能的瓶頸”,但這種突破需要在額外的訓練成本和推理成本之間進行權衡。在適合的任務類型和模型規(guī)模條件下,推理訓練確實能夠帶來顯著的收益;而在其他情況下,堅持使用IFT可能是更為明智的選擇。推理信號并非冗余的監(jiān)督信號,而是一種隨著模型規(guī)模增長而價值遞增的互補資源。這表明,將推理能力與IFT的簡潔性相結(jié)合的混合方法可能是未來的發(fā)展方向。
這項研究不僅為當前的模型研發(fā)提供了實用的指導,也為未來的研究指明了方向。未來的研究可以探索推理與IFT的更優(yōu)組合方式,開發(fā)針對小模型的推理適應技術,并在更多特定領域(如代碼、法律推理等)驗證這些發(fā)現(xiàn)。通過這種精細化的資源配置,AI社區(qū)可以更高效地推進大語言模型的發(fā)展,避免盲目追求“推理專用模型”而忽視實際任務需求和資源約束。




































