多模態(tài)后訓(xùn)練反常識:長思維鏈SFT和RL的協(xié)同困境
在語言模型領(lǐng)域,長思維鏈監(jiān)督微調(diào)(Long-CoT SFT)與強化學(xué)習(xí)(RL)的組合堪稱黃金搭檔 —— 先讓模型學(xué)習(xí)思考模式,再用獎勵機制優(yōu)化輸出,性能通常能實現(xiàn)疊加提升。
但華為與香港科大的最新研究發(fā)現(xiàn)了一個出人意料的現(xiàn)象:在多模態(tài)視覺語言模型(VLM)中,這對組合難以實現(xiàn)協(xié)同增益,甚至有時會互相拖后腿。

- 論文標(biāo)題:The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs
- 論文地址:https://www.arxiv.org/abs/2507.07562
推動這項研究的一個關(guān)鍵見解是認(rèn)識到多模態(tài)推理評測與純語言評測存在微妙差異。雖然文本推理任務(wù)通常側(cè)重于邏輯要求高的問題,但多模態(tài)評測通常包含簡單基于感知的問題和復(fù)雜的認(rèn)知推理挑戰(zhàn)。作者假設(shè),這種異質(zhì)性是 Long-CoT SFT 和 RL 在多模態(tài)設(shè)置中表現(xiàn)出不同現(xiàn)象的核心原因。
為探索各種后訓(xùn)練技術(shù)如何影響不同類型問題性能,作者們引入了一個簡單有效的難度分類方法,并基于此構(gòu)建了難度層級細(xì)化后的多模態(tài)推理榜單數(shù)據(jù)集(包括新的 MathVision、MathVerse、MathVista、MMMU val 和 MMStar val)。該方法根據(jù)基線模型 Qwen2.5-VL-Instruct-7B 在五個數(shù)據(jù)集的每個問題上 16 次獨立運行的成功率,將題目分為五個級別(L1-L5),分別代表從簡單到困難:
- L1 (簡單):通過率 ≥ 12/16 (75%)
- L2 (中等偏易):8/16 ≤ 通過率 < 12/16 (50-75%)
- L3 (中等):5/16 ≤ 通過率 < 8/16 (31-50%)
- L4 (中等偏難):2/16 ≤ 通過率 < 5/16 (13-31%)
- L5 (困難):通過率 < 2/16 (13%)
數(shù)據(jù)、模型地址:https://github.com/JierunChen/SFT-RL-SynergyDilemma


長思維鏈 SFT 引導(dǎo)模型反復(fù)演算,專攻難題
長思維鏈 SFT 就像給模型配備了 「超級草稿本」,通過少量帶反思驗證等思考模式的推理樣本訓(xùn)練,讓模型學(xué)會層層拆解復(fù)雜問題:
- 在 L5 級難題上,它能讓 VLM 準(zhǔn)確率顯著提升,尤其擅長處理 MathVision 中的圖文結(jié)合推理難題
- 但在最簡單的 L1 級題目(如 「圖中有幾個紅色圓形」)上,反而比基礎(chǔ)模型表現(xiàn)更差:多余的推理步驟變成 「畫蛇添足」,導(dǎo)致 「搖擺不定」 甚至 「矯枉過正」
- 經(jīng)過 Long-CoT SFT 的模型會頻繁使用 「首先驗證」「其次推導(dǎo)」 等邏輯詞,甚至出現(xiàn) 「這里可能算錯了」 的人類化思考痕跡,雖然邏輯深度增加,但冗余度飆升至原來的數(shù)倍。
RL 強化模型整體性能,能力均衡不偏科
強化學(xué)習(xí)則像給模型裝上 「精準(zhǔn)導(dǎo)航」,通過獎勵機制引導(dǎo)模型輸出高質(zhì)量答案:
- 在所有難度級別(L1-L5)均能實現(xiàn)較為穩(wěn)定的提升,簡單題不翻車,中等題表現(xiàn)穩(wěn)健
- 輸出文本保持了基線模型的高效簡潔,極少出現(xiàn)冗余推理
- 但 RL 的短板也很明顯:在 L5 級難題上的提升不及 Long-CoT SFT,復(fù)雜邏輯鏈的構(gòu)建能力以及反思驗證等認(rèn)知行為無法高效激活

協(xié)同困境:五種組合策略全失效
既然 SFT 強于難題、RL 長于均衡,研究團隊嘗試了五種組合方案,結(jié)果令人意外,所有方法都沒能實現(xiàn) 「1+1>2」 的效果:
- 兩階段(先 SFT,后 RL):回答范式固化于冗長思考,性能困于 SFT 水平,RL 優(yōu)勢難以體現(xiàn)
- 交替式(相鄰訓(xùn)練步數(shù)交替使用 SFT 和 RL,SFT 損失僅應(yīng)用于通過率為零的問題,RL 損失應(yīng)用于其他問題):性能始終卡在兩種方法之間,無法突破單一方法上限
- 漸進式(在訓(xùn)練過程中逐漸減少 SFT 監(jiān)督,過渡到純 RL):顯示出最大的潛力,難題解決能力高于純 RL、媲美純 SFT,但仍是一種折衷,犧牲了部分簡單題目的性能
- 數(shù)據(jù)混合(將 SFT 和 RL 模型的輸出合并到一個統(tǒng)一的數(shù)據(jù)集中,用于后續(xù)訓(xùn)練,其中只有 RL 模型不會做的題目采用 SFT 模型的輸出):模型缺乏題目難度感知能力,導(dǎo)致推理風(fēng)格難以自適應(yīng)切換,在簡單題出現(xiàn)冗長回答和掉點風(fēng)險
- 模型合并(使用線性、TIES 和 SLERP 合并技術(shù)在不同混合比例下的無訓(xùn)練參數(shù)插值):表現(xiàn)出的是性能插值而非疊加增強

其中兩階段、交替式和漸進式的混合訓(xùn)練曲線如圖所示

其他實驗發(fā)現(xiàn)
- 推理軌跡的質(zhì)量比數(shù)據(jù)規(guī)模和模態(tài)匹配更重要。用 1k 條高質(zhì)量文本思維鏈數(shù)據(jù)(來自 s1.1)做 SFT 微調(diào)的效果優(yōu)于用 34k 多模態(tài)推理數(shù)據(jù) Eureka-Distill。
- KL 正則化項有效保持了 RL 長穩(wěn)訓(xùn)練。沒有它,模型容易陷入獎勵崩潰、熵減小和響應(yīng)長度的劇烈波動,最終導(dǎo)致性能不佳。
- 簡單題是 「性能壓艙石」。即便簡單題的歸一化獎勵為零,把它們納入 RL 訓(xùn)練數(shù)據(jù)也至關(guān)重要。它們能通過 KL 約束發(fā)揮作用,避免因?qū)W㈦y題訓(xùn)練而丟失處理簡單題的基礎(chǔ)能力。
未來方向:讓模型學(xué)會 「見題下菜碟」
1. 自適應(yīng)推理:長思維鏈 SFT 帶來的慢思考和 RL 強化的快思考兩種回答范式難以兼容,VLM 的題目異質(zhì)性更是放大了這種沖突,未來研究應(yīng)考慮如何有效實現(xiàn)模型自適應(yīng)推理,對簡單題給出簡潔回答,對難題采用深度推理。
2. 構(gòu)建模型親和的訓(xùn)練數(shù)據(jù):在此項研究中,長思維鏈數(shù)據(jù)是從外部模型蒸餾而來,可能和基線模型存在親和性不足的風(fēng)險。為避免損害模型基礎(chǔ)能力,應(yīng)考慮采用其他方式如提示詞工程自蒸餾構(gòu)建訓(xùn)練數(shù)據(jù)。
3. 分層評估體系:將榜單分為不同難度題目,有助于差異化、針對性地評測和優(yōu)化模型。





































