偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

強(qiáng)化學(xué)習(xí)解決長(zhǎng)上下文推理問題:通義推出QwenLong-L1-32B

人工智能 新聞
上下文長(zhǎng)度達(dá) 13 萬 token,適用于多段文檔綜合分析、金融、法律、科研等復(fù)雜領(lǐng)域任務(wù)。

近期的推理大模型(LRMs)通過強(qiáng)化學(xué)習(xí)(RL)展現(xiàn)出強(qiáng)大的推理能力,但這些改進(jìn)主要體現(xiàn)在短上下文推理任務(wù)中。相比之下,如何通過強(qiáng)化學(xué)習(xí)擴(kuò)展 LRMs 以有效處理和推理長(zhǎng)上下文輸入,仍然是一個(gè)尚未解決的關(guān)鍵挑戰(zhàn)。

來自阿里巴巴通義實(shí)驗(yàn)室的團(tuán)隊(duì)首先形式化定義長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)范式,并識(shí)別出其中的兩個(gè)核心挑戰(zhàn):次優(yōu)的訓(xùn)練效率與不穩(wěn)定的優(yōu)化過程。

圖片

針對(duì)這些問題,團(tuán)隊(duì)提出 QwenLong-L1 長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)框架,通過漸進(jìn)式上下文擴(kuò)展策略逐步提升模型在長(zhǎng)上下文推理任務(wù)上的表現(xiàn),最終在多個(gè)長(zhǎng)文檔問答 benchmarks 上,QwenLong-L1-32B 表現(xiàn)卓越,不僅超越 OpenAI-o3-mini、Qwen3-235B-A22B 等旗艦?zāi)P停c Claude-3.7-Sonnet-Thinking 性能對(duì)標(biāo)。

圖片

主要貢獻(xiàn)

圖片

1. 定義長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)范式

區(qū)別于短上下文推理強(qiáng)化學(xué)習(xí)促進(jìn)模型利用內(nèi)部知識(shí)推理,長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)需要模型首先定位外部關(guān)鍵信息然后整合內(nèi)部推理。

2. 識(shí)別長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)關(guān)鍵問題

長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)訓(xùn)練效率低,具體表現(xiàn)在(a)獎(jiǎng)勵(lì)收斂較慢,(b)模型輸出熵的顯著降低,限制了優(yōu)化過程中的探索行為。同時(shí),長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)訓(xùn)練不穩(wěn)定,具體表現(xiàn)為(c)KL 散度突刺較多,這是由于(d)較長(zhǎng)的輸出長(zhǎng)度和不均勻的輸入長(zhǎng)度導(dǎo)致方差變大,導(dǎo)致策略更新不穩(wěn)定。

3. 構(gòu)建 QwenLong-L1 長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)框架

基于漸進(jìn)式上下文擴(kuò)展技術(shù)和混合獎(jiǎng)勵(lì)機(jī)制,QwenLong-L1 通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了從短文本到長(zhǎng)文本的穩(wěn)定上下文適應(yīng)。

4. 開源 QwenLong-L1-32B 長(zhǎng)上下文文檔推理大模型

與前沿長(zhǎng)上下文推理大模型相比,QwenLong-L1-32B 實(shí)現(xiàn)了顯著的性能提升,相較于 DeepSeek-R1-Distill-Qwen-32B 平均提升 7.8%,不僅超越 OpenAI-o3-mini、Qwen3-235B-A22B 等旗艦?zāi)P?,更與 Claude-3.7-Sonnet-Thinking 性能對(duì)標(biāo),為長(zhǎng)文本推理優(yōu)化提供了基礎(chǔ)性技術(shù)方案,

核心技術(shù)

基于傳統(tǒng)的短上下文推理強(qiáng)化學(xué)習(xí)框架,QwenLong-L1 主要提出如下改進(jìn):漸進(jìn)式上下文擴(kuò)展技術(shù)和混合獎(jiǎng)勵(lì)機(jī)制。

圖片

漸進(jìn)式上下文擴(kuò)展技術(shù)

訓(xùn)練長(zhǎng)上下文推理大模型存在不穩(wěn)定的優(yōu)化動(dòng)態(tài)特性。為解決這些問題,我們提出了一種漸進(jìn)式上下文擴(kuò)展框架,該框架包含:課程引導(dǎo)的分階段強(qiáng)化學(xué)習(xí)策略以穩(wěn)定從短到長(zhǎng)上下文的優(yōu)化過程;難度感知的回顧采樣機(jī)制,優(yōu)先探索復(fù)雜實(shí)例;以及穩(wěn)定的監(jiān)督微調(diào)預(yù)熱階段,在強(qiáng)化學(xué)習(xí)訓(xùn)練前提供穩(wěn)健的初始化基礎(chǔ)。

穩(wěn)健的監(jiān)督微調(diào)預(yù)熱:使用蒸餾的長(zhǎng)上下文推理數(shù)據(jù)在強(qiáng)化學(xué)習(xí)前監(jiān)督微調(diào)模型,獲取穩(wěn)定的初始策略,降低訓(xùn)練過程中的不穩(wěn)定。 

課程引導(dǎo)的分階段強(qiáng)化學(xué)習(xí):將強(qiáng)化學(xué)習(xí)訓(xùn)練分為兩階段,階段 I 輸入長(zhǎng)度 20K,階段 II 擴(kuò)展至 60K,逐步適應(yīng)長(zhǎng)上下文。每階段僅訓(xùn)練當(dāng)前長(zhǎng)度區(qū)間的樣本,避免混合長(zhǎng)度導(dǎo)致的優(yōu)化沖突。 

圖片

難度感知的回顧采樣:根據(jù)樣本平均獎(jiǎng)勵(lì)動(dòng)態(tài)計(jì)算難度,低獎(jiǎng)勵(lì)樣本(高難度)被優(yōu)先保留至后續(xù)階段。階段 II 訓(xùn)練時(shí),包含階段 I 的高難度樣本,強(qiáng)制模型持續(xù)探索復(fù)雜案例。 

圖片

混合獎(jiǎng)勵(lì)機(jī)制

在數(shù)學(xué)、編程和邏輯推理等短上下文推理任務(wù)中,先前的研究工作通常采用基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)。然而,開放域問答等長(zhǎng)上下文推理任務(wù)因其固有的答案多樣性帶來了獨(dú)特挑戰(zhàn)。在這種情境下,限制性過強(qiáng)的基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制可能會(huì)制約有效答案的多樣性,從而可能影響整體性能。針對(duì)這些局限性,我們提出一種融合規(guī)則驗(yàn)證與模型評(píng)判的混合獎(jiǎng)勵(lì)機(jī)制,通過互補(bǔ)性評(píng)估實(shí)現(xiàn)精確率與召回率的平衡。

規(guī)則獎(jiǎng)勵(lì):通過正則表達(dá)式從模型輸出中提取答案,與標(biāo)準(zhǔn)答案嚴(yán)格匹配。確保答案格式正確性,防止 Reward Hacking。 

圖片

模型評(píng)判:訓(xùn)練過程采用 Qwen2.5-1.5B-Instruct 作為輕量級(jí)評(píng)判模型,評(píng)估預(yù)測(cè)答案和標(biāo)準(zhǔn)答案之間語義等價(jià)性。 

圖片

組合策略:最終獎(jiǎng)勵(lì)取規(guī)則與模型評(píng)判的最大值,兼顧精確性與答案多樣性。 

實(shí)驗(yàn)發(fā)現(xiàn)

主實(shí)驗(yàn)結(jié)果

圖片

相較于 SFT,RL 性能提升顯著:僅需 1.6K 高質(zhì)量樣本在 R1-Distill-Qwen 模型上 RL 后提升明顯,14B 模型平均提升 4.1,32B 模型平均提升 5.1。

在國內(nèi)外旗艦推理模型中處于領(lǐng)先地位:

  • QwenLong-L1-14B 模型平均 Pass@1 達(dá)到 68.3,超越 Gemini-2.0-Flash-Thinking, R1-Distill-Qwen-32B, Qwen3-32B;
  • QwenLong-L1-32B 模型平均 Pass@1 達(dá)到 70.7,超越 QwQ-Plus, Qwen3-Plus, OpenAI-o3-mini, 與 Claude-3.7-Sonnet-Thinking 持平;

圖片

Test-Time Scaling 性能明顯:QwenLong-L1-14B 模型平均 Pass@2 達(dá)到 73.7,超越 DeepSeek-R1 (Pass@1, 72.1), OpenAI-o1-preview (Pass@1, 72.9) 。

SFT 與 RL 的權(quán)衡

圖片

探究不同起點(diǎn)模型 RL 后的結(jié)果:Base Model, Short-Context SFT Model (<=20K), Long-Context SFT Model (<=60K)。

有趣發(fā)現(xiàn):

  • SFT 和 RL 發(fā)揮著互補(bǔ)作用,SFT 較低代價(jià)到可接受性能,而 RL 對(duì)達(dá)到最佳結(jié)果至關(guān)重要;
  • 要實(shí)現(xiàn)最優(yōu)性能,必須優(yōu)先考慮 RL 而不是 SFT,因?yàn)檫^度關(guān)注 SFT 可能使模型陷入局部最優(yōu),從而限制 RL 提升;

長(zhǎng)上下文推理行為的涌現(xiàn)和變化

圖片

探索訓(xùn)練過程中推理模式的動(dòng)態(tài)變化:包括長(zhǎng)上下文推理相關(guān)的 Grounding 和通用推理相關(guān)的 Backtracking, Verification, Subgoal Setting 等推理模式。

有趣發(fā)現(xiàn):

  • 所有模型都表現(xiàn)出明顯的各類推理模式,且長(zhǎng)上下文相關(guān)的 Grounding 出現(xiàn)頻率最高
  • RL 自然地使這些推理模式出現(xiàn)頻率越來越高,最終性能也會(huì)隨之增長(zhǎng)
  • SFT 盡管讓推理模式取得了遠(yuǎn)高于 RL 的增加,但轉(zhuǎn)換成的性能提高相較于 RL 有限

結(jié)論

這項(xiàng)研究通過強(qiáng)化學(xué)習(xí)探索了長(zhǎng)上下文推理大模型的開發(fā)。其首先提出長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)范式,并發(fā)現(xiàn)次優(yōu)的訓(xùn)練效率和不穩(wěn)定的優(yōu)化過程等關(guān)鍵問題。

為應(yīng)對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)推出 QwenLong-L1,一個(gè)漸進(jìn)式上下文擴(kuò)展強(qiáng)化學(xué)習(xí)框架。實(shí)驗(yàn)結(jié)果表明 QwenLong-L1 在業(yè)界領(lǐng)先的長(zhǎng)上下文推理大模型中表現(xiàn)優(yōu)異。其中,QwenLong-L1-14B 性能超越 Gemini-2.0-Flash-Thinking 和 Qwen3-32B,而 QwenLong-L1-32B 超越 OpenAI-o3-mini、Qwen3-235B-A22B,甚至與 Claude-3.7-Sonnet-Thinking 達(dá)到同等水平。

我們的分析揭示了長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)的三項(xiàng)關(guān)鍵洞察:漸進(jìn)式上下文擴(kuò)展對(duì)實(shí)現(xiàn)穩(wěn)定適應(yīng)的重要作用、優(yōu)先強(qiáng)化學(xué)習(xí)對(duì)最優(yōu)性能的必要性,以及強(qiáng)化學(xué)習(xí)訓(xùn)練過程中長(zhǎng)文本推理模式的增加對(duì)性能提升的促進(jìn)作用。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-09-30 14:10:00

2025-06-03 00:00:09

AI長(zhǎng)上下文推理 RL大模型

2024-04-03 10:05:00

LLM性能基準(zhǔn)測(cè)試

2025-02-26 00:16:56

RAGAI服務(wù)

2024-10-11 16:20:00

谷歌AI模型

2024-09-05 08:24:09

2023-10-18 09:25:08

模型推理

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2023-11-13 18:19:54

模型訓(xùn)練

2023-06-15 15:45:42

自然語言語言模型

2012-12-31 10:01:34

SELinuxSELinux安全

2022-09-14 13:13:51

JavaScript上下文

2024-11-20 09:36:00

2025-02-06 10:21:51

2025-02-10 13:50:00

算法模型訓(xùn)練

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達(dá)

2023-06-25 11:30:47

可視化

2022-09-15 08:01:14

繼承基礎(chǔ)設(shè)施基礎(chǔ)服務(wù)

2025-01-22 13:30:00

2024-03-25 00:05:00

開源模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)