強(qiáng)化學(xué)習(xí)解決長(zhǎng)上下文推理問題:通義推出QwenLong-L1-32B
近期的推理大模型(LRMs)通過強(qiáng)化學(xué)習(xí)(RL)展現(xiàn)出強(qiáng)大的推理能力,但這些改進(jìn)主要體現(xiàn)在短上下文推理任務(wù)中。相比之下,如何通過強(qiáng)化學(xué)習(xí)擴(kuò)展 LRMs 以有效處理和推理長(zhǎng)上下文輸入,仍然是一個(gè)尚未解決的關(guān)鍵挑戰(zhàn)。
來自阿里巴巴通義實(shí)驗(yàn)室的團(tuán)隊(duì)首先形式化定義長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)范式,并識(shí)別出其中的兩個(gè)核心挑戰(zhàn):次優(yōu)的訓(xùn)練效率與不穩(wěn)定的優(yōu)化過程。
針對(duì)這些問題,團(tuán)隊(duì)提出 QwenLong-L1 長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)框架,通過漸進(jìn)式上下文擴(kuò)展策略逐步提升模型在長(zhǎng)上下文推理任務(wù)上的表現(xiàn),最終在多個(gè)長(zhǎng)文檔問答 benchmarks 上,QwenLong-L1-32B 表現(xiàn)卓越,不僅超越 OpenAI-o3-mini、Qwen3-235B-A22B 等旗艦?zāi)P停c Claude-3.7-Sonnet-Thinking 性能對(duì)標(biāo)。
主要貢獻(xiàn)
1. 定義長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)范式
區(qū)別于短上下文推理強(qiáng)化學(xué)習(xí)促進(jìn)模型利用內(nèi)部知識(shí)推理,長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)需要模型首先定位外部關(guān)鍵信息然后整合內(nèi)部推理。
2. 識(shí)別長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)關(guān)鍵問題
長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)訓(xùn)練效率低,具體表現(xiàn)在(a)獎(jiǎng)勵(lì)收斂較慢,(b)模型輸出熵的顯著降低,限制了優(yōu)化過程中的探索行為。同時(shí),長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)訓(xùn)練不穩(wěn)定,具體表現(xiàn)為(c)KL 散度突刺較多,這是由于(d)較長(zhǎng)的輸出長(zhǎng)度和不均勻的輸入長(zhǎng)度導(dǎo)致方差變大,導(dǎo)致策略更新不穩(wěn)定。
3. 構(gòu)建 QwenLong-L1 長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)框架
基于漸進(jìn)式上下文擴(kuò)展技術(shù)和混合獎(jiǎng)勵(lì)機(jī)制,QwenLong-L1 通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了從短文本到長(zhǎng)文本的穩(wěn)定上下文適應(yīng)。
4. 開源 QwenLong-L1-32B 長(zhǎng)上下文文檔推理大模型
與前沿長(zhǎng)上下文推理大模型相比,QwenLong-L1-32B 實(shí)現(xiàn)了顯著的性能提升,相較于 DeepSeek-R1-Distill-Qwen-32B 平均提升 7.8%,不僅超越 OpenAI-o3-mini、Qwen3-235B-A22B 等旗艦?zāi)P?,更與 Claude-3.7-Sonnet-Thinking 性能對(duì)標(biāo),為長(zhǎng)文本推理優(yōu)化提供了基礎(chǔ)性技術(shù)方案,
核心技術(shù)
基于傳統(tǒng)的短上下文推理強(qiáng)化學(xué)習(xí)框架,QwenLong-L1 主要提出如下改進(jìn):漸進(jìn)式上下文擴(kuò)展技術(shù)和混合獎(jiǎng)勵(lì)機(jī)制。
漸進(jìn)式上下文擴(kuò)展技術(shù)
訓(xùn)練長(zhǎng)上下文推理大模型存在不穩(wěn)定的優(yōu)化動(dòng)態(tài)特性。為解決這些問題,我們提出了一種漸進(jìn)式上下文擴(kuò)展框架,該框架包含:課程引導(dǎo)的分階段強(qiáng)化學(xué)習(xí)策略以穩(wěn)定從短到長(zhǎng)上下文的優(yōu)化過程;難度感知的回顧采樣機(jī)制,優(yōu)先探索復(fù)雜實(shí)例;以及穩(wěn)定的監(jiān)督微調(diào)預(yù)熱階段,在強(qiáng)化學(xué)習(xí)訓(xùn)練前提供穩(wěn)健的初始化基礎(chǔ)。
穩(wěn)健的監(jiān)督微調(diào)預(yù)熱:使用蒸餾的長(zhǎng)上下文推理數(shù)據(jù)在強(qiáng)化學(xué)習(xí)前監(jiān)督微調(diào)模型,獲取穩(wěn)定的初始策略,降低訓(xùn)練過程中的不穩(wěn)定。
課程引導(dǎo)的分階段強(qiáng)化學(xué)習(xí):將強(qiáng)化學(xué)習(xí)訓(xùn)練分為兩階段,階段 I 輸入長(zhǎng)度 20K,階段 II 擴(kuò)展至 60K,逐步適應(yīng)長(zhǎng)上下文。每階段僅訓(xùn)練當(dāng)前長(zhǎng)度區(qū)間的樣本,避免混合長(zhǎng)度導(dǎo)致的優(yōu)化沖突。
難度感知的回顧采樣:根據(jù)樣本平均獎(jiǎng)勵(lì)動(dòng)態(tài)計(jì)算難度,低獎(jiǎng)勵(lì)樣本(高難度)被優(yōu)先保留至后續(xù)階段。階段 II 訓(xùn)練時(shí),包含階段 I 的高難度樣本,強(qiáng)制模型持續(xù)探索復(fù)雜案例。
混合獎(jiǎng)勵(lì)機(jī)制
在數(shù)學(xué)、編程和邏輯推理等短上下文推理任務(wù)中,先前的研究工作通常采用基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)。然而,開放域問答等長(zhǎng)上下文推理任務(wù)因其固有的答案多樣性帶來了獨(dú)特挑戰(zhàn)。在這種情境下,限制性過強(qiáng)的基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制可能會(huì)制約有效答案的多樣性,從而可能影響整體性能。針對(duì)這些局限性,我們提出一種融合規(guī)則驗(yàn)證與模型評(píng)判的混合獎(jiǎng)勵(lì)機(jī)制,通過互補(bǔ)性評(píng)估實(shí)現(xiàn)精確率與召回率的平衡。
規(guī)則獎(jiǎng)勵(lì):通過正則表達(dá)式從模型輸出中提取答案,與標(biāo)準(zhǔn)答案嚴(yán)格匹配。確保答案格式正確性,防止 Reward Hacking。
模型評(píng)判:訓(xùn)練過程采用 Qwen2.5-1.5B-Instruct 作為輕量級(jí)評(píng)判模型,評(píng)估預(yù)測(cè)答案和標(biāo)準(zhǔn)答案之間語義等價(jià)性。
組合策略:最終獎(jiǎng)勵(lì)取規(guī)則與模型評(píng)判的最大值,兼顧精確性與答案多樣性。
實(shí)驗(yàn)發(fā)現(xiàn)
主實(shí)驗(yàn)結(jié)果
相較于 SFT,RL 性能提升顯著:僅需 1.6K 高質(zhì)量樣本在 R1-Distill-Qwen 模型上 RL 后提升明顯,14B 模型平均提升 4.1,32B 模型平均提升 5.1。
在國內(nèi)外旗艦推理模型中處于領(lǐng)先地位:
- QwenLong-L1-14B 模型平均 Pass@1 達(dá)到 68.3,超越 Gemini-2.0-Flash-Thinking, R1-Distill-Qwen-32B, Qwen3-32B;
- QwenLong-L1-32B 模型平均 Pass@1 達(dá)到 70.7,超越 QwQ-Plus, Qwen3-Plus, OpenAI-o3-mini, 與 Claude-3.7-Sonnet-Thinking 持平;
Test-Time Scaling 性能明顯:QwenLong-L1-14B 模型平均 Pass@2 達(dá)到 73.7,超越 DeepSeek-R1 (Pass@1, 72.1), OpenAI-o1-preview (Pass@1, 72.9) 。
SFT 與 RL 的權(quán)衡
探究不同起點(diǎn)模型 RL 后的結(jié)果:Base Model, Short-Context SFT Model (<=20K), Long-Context SFT Model (<=60K)。
有趣發(fā)現(xiàn):
- SFT 和 RL 發(fā)揮著互補(bǔ)作用,SFT 較低代價(jià)到可接受性能,而 RL 對(duì)達(dá)到最佳結(jié)果至關(guān)重要;
- 要實(shí)現(xiàn)最優(yōu)性能,必須優(yōu)先考慮 RL 而不是 SFT,因?yàn)檫^度關(guān)注 SFT 可能使模型陷入局部最優(yōu),從而限制 RL 提升;
長(zhǎng)上下文推理行為的涌現(xiàn)和變化
探索訓(xùn)練過程中推理模式的動(dòng)態(tài)變化:包括長(zhǎng)上下文推理相關(guān)的 Grounding 和通用推理相關(guān)的 Backtracking, Verification, Subgoal Setting 等推理模式。
有趣發(fā)現(xiàn):
- 所有模型都表現(xiàn)出明顯的各類推理模式,且長(zhǎng)上下文相關(guān)的 Grounding 出現(xiàn)頻率最高
- RL 自然地使這些推理模式出現(xiàn)頻率越來越高,最終性能也會(huì)隨之增長(zhǎng)
- SFT 盡管讓推理模式取得了遠(yuǎn)高于 RL 的增加,但轉(zhuǎn)換成的性能提高相較于 RL 有限
結(jié)論
這項(xiàng)研究通過強(qiáng)化學(xué)習(xí)探索了長(zhǎng)上下文推理大模型的開發(fā)。其首先提出長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)范式,并發(fā)現(xiàn)次優(yōu)的訓(xùn)練效率和不穩(wěn)定的優(yōu)化過程等關(guān)鍵問題。
為應(yīng)對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)推出 QwenLong-L1,一個(gè)漸進(jìn)式上下文擴(kuò)展強(qiáng)化學(xué)習(xí)框架。實(shí)驗(yàn)結(jié)果表明 QwenLong-L1 在業(yè)界領(lǐng)先的長(zhǎng)上下文推理大模型中表現(xiàn)優(yōu)異。其中,QwenLong-L1-14B 性能超越 Gemini-2.0-Flash-Thinking 和 Qwen3-32B,而 QwenLong-L1-32B 超越 OpenAI-o3-mini、Qwen3-235B-A22B,甚至與 Claude-3.7-Sonnet-Thinking 達(dá)到同等水平。
我們的分析揭示了長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)的三項(xiàng)關(guān)鍵洞察:漸進(jìn)式上下文擴(kuò)展對(duì)實(shí)現(xiàn)穩(wěn)定適應(yīng)的重要作用、優(yōu)先強(qiáng)化學(xué)習(xí)對(duì)最優(yōu)性能的必要性,以及強(qiáng)化學(xué)習(xí)訓(xùn)練過程中長(zhǎng)文本推理模式的增加對(duì)性能提升的促進(jìn)作用。