偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<dfn id="hyl4x"><button id="hyl4x"></button></dfn>

<tt id="hyl4x"></tt>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

強(qiáng)化學(xué)習(xí)解決長(zhǎng)上下文推理問題：通義推出QwenLong-L1-32B

2025-05-28 11:46:52

人工智能新聞

上下文長(zhǎng)度達(dá) 13 萬 token，適用于多段文檔綜合分析、金融、法律、科研等復(fù)雜領(lǐng)域任務(wù)。

近期的推理大模型（LRMs）通過強(qiáng)化學(xué)習(xí)（RL）展現(xiàn)出強(qiáng)大的推理能力，但這些改進(jìn)主要體現(xiàn)在短上下文推理任務(wù)中。相比之下，如何通過強(qiáng)化學(xué)習(xí)擴(kuò)展 LRMs 以有效處理和推理長(zhǎng)上下文輸入，仍然是一個(gè)尚未解決的關(guān)鍵挑戰(zhàn)。

來自阿里巴巴通義實(shí)驗(yàn)室的團(tuán)隊(duì)首先形式化定義長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)范式，并識(shí)別出其中的兩個(gè)核心挑戰(zhàn)：次優(yōu)的訓(xùn)練效率與不穩(wěn)定的優(yōu)化過程。

針對(duì)這些問題，團(tuán)隊(duì)提出 QwenLong-L1 長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)框架，通過漸進(jìn)式上下文擴(kuò)展策略逐步提升模型在長(zhǎng)上下文推理任務(wù)上的表現(xiàn)，最終在多個(gè)長(zhǎng)文檔問答 benchmarks 上，QwenLong-L1-32B 表現(xiàn)卓越，不僅超越 OpenAI-o3-mini、Qwen3-235B-A22B 等旗艦?zāi)Ｐ停c Claude-3.7-Sonnet-Thinking 性能對(duì)標(biāo)。

主要貢獻(xiàn)

1. 定義長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)范式

區(qū)別于短上下文推理強(qiáng)化學(xué)習(xí)促進(jìn)模型利用內(nèi)部知識(shí)推理，長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)需要模型首先定位外部關(guān)鍵信息然后整合內(nèi)部推理。

2. 識(shí)別長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)關(guān)鍵問題

長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)訓(xùn)練效率低，具體表現(xiàn)在（a）獎(jiǎng)勵(lì)收斂較慢，（b）模型輸出熵的顯著降低，限制了優(yōu)化過程中的探索行為。同時(shí)，長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)訓(xùn)練不穩(wěn)定，具體表現(xiàn)為（c）KL 散度突刺較多，這是由于（d）較長(zhǎng)的輸出長(zhǎng)度和不均勻的輸入長(zhǎng)度導(dǎo)致方差變大，導(dǎo)致策略更新不穩(wěn)定。

3. 構(gòu)建 QwenLong-L1 長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)框架

基于漸進(jìn)式上下文擴(kuò)展技術(shù)和混合獎(jiǎng)勵(lì)機(jī)制，QwenLong-L1 通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了從短文本到長(zhǎng)文本的穩(wěn)定上下文適應(yīng)。

4. 開源 QwenLong-L1-32B 長(zhǎng)上下文文檔推理大模型

與前沿長(zhǎng)上下文推理大模型相比，QwenLong-L1-32B 實(shí)現(xiàn)了顯著的性能提升，相較于 DeepSeek-R1-Distill-Qwen-32B 平均提升 7.8%，不僅超越 OpenAI-o3-mini、Qwen3-235B-A22B 等旗艦?zāi)Ｐ?，更與 Claude-3.7-Sonnet-Thinking 性能對(duì)標(biāo)，為長(zhǎng)文本推理優(yōu)化提供了基礎(chǔ)性技術(shù)方案，

核心技術(shù)

基于傳統(tǒng)的短上下文推理強(qiáng)化學(xué)習(xí)框架，QwenLong-L1 主要提出如下改進(jìn)：漸進(jìn)式上下文擴(kuò)展技術(shù)和混合獎(jiǎng)勵(lì)機(jī)制。

漸進(jìn)式上下文擴(kuò)展技術(shù)

訓(xùn)練長(zhǎng)上下文推理大模型存在不穩(wěn)定的優(yōu)化動(dòng)態(tài)特性。為解決這些問題，我們提出了一種漸進(jìn)式上下文擴(kuò)展框架，該框架包含：課程引導(dǎo)的分階段強(qiáng)化學(xué)習(xí)策略以穩(wěn)定從短到長(zhǎng)上下文的優(yōu)化過程；難度感知的回顧采樣機(jī)制，優(yōu)先探索復(fù)雜實(shí)例；以及穩(wěn)定的監(jiān)督微調(diào)預(yù)熱階段，在強(qiáng)化學(xué)習(xí)訓(xùn)練前提供穩(wěn)健的初始化基礎(chǔ)。

穩(wěn)健的監(jiān)督微調(diào)預(yù)熱：使用蒸餾的長(zhǎng)上下文推理數(shù)據(jù)在強(qiáng)化學(xué)習(xí)前監(jiān)督微調(diào)模型，獲取穩(wěn)定的初始策略，降低訓(xùn)練過程中的不穩(wěn)定。

課程引導(dǎo)的分階段強(qiáng)化學(xué)習(xí)：將強(qiáng)化學(xué)習(xí)訓(xùn)練分為兩階段，階段 I 輸入長(zhǎng)度 20K，階段 II 擴(kuò)展至 60K，逐步適應(yīng)長(zhǎng)上下文。每階段僅訓(xùn)練當(dāng)前長(zhǎng)度區(qū)間的樣本，避免混合長(zhǎng)度導(dǎo)致的優(yōu)化沖突。

難度感知的回顧采樣：根據(jù)樣本平均獎(jiǎng)勵(lì)動(dòng)態(tài)計(jì)算難度，低獎(jiǎng)勵(lì)樣本（高難度）被優(yōu)先保留至后續(xù)階段。階段 II 訓(xùn)練時(shí)，包含階段 I 的高難度樣本，強(qiáng)制模型持續(xù)探索復(fù)雜案例。

混合獎(jiǎng)勵(lì)機(jī)制

在數(shù)學(xué)、編程和邏輯推理等短上下文推理任務(wù)中，先前的研究工作通常采用基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)。然而，開放域問答等長(zhǎng)上下文推理任務(wù)因其固有的答案多樣性帶來了獨(dú)特挑戰(zhàn)。在這種情境下，限制性過強(qiáng)的基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制可能會(huì)制約有效答案的多樣性，從而可能影響整體性能。針對(duì)這些局限性，我們提出一種融合規(guī)則驗(yàn)證與模型評(píng)判的混合獎(jiǎng)勵(lì)機(jī)制，通過互補(bǔ)性評(píng)估實(shí)現(xiàn)精確率與召回率的平衡。

規(guī)則獎(jiǎng)勵(lì)：通過正則表達(dá)式從模型輸出中提取答案，與標(biāo)準(zhǔn)答案嚴(yán)格匹配。確保答案格式正確性，防止 Reward Hacking。

模型評(píng)判：訓(xùn)練過程采用 Qwen2.5-1.5B-Instruct 作為輕量級(jí)評(píng)判模型，評(píng)估預(yù)測(cè)答案和標(biāo)準(zhǔn)答案之間語義等價(jià)性。

組合策略：最終獎(jiǎng)勵(lì)取規(guī)則與模型評(píng)判的最大值，兼顧精確性與答案多樣性。

實(shí)驗(yàn)發(fā)現(xiàn)

主實(shí)驗(yàn)結(jié)果

相較于 SFT，RL 性能提升顯著：僅需 1.6K 高質(zhì)量樣本在 R1-Distill-Qwen 模型上 RL 后提升明顯，14B 模型平均提升 4.1，32B 模型平均提升 5.1。

在國內(nèi)外旗艦推理模型中處于領(lǐng)先地位：

QwenLong-L1-14B 模型平均 Pass@1 達(dá)到 68.3，超越 Gemini-2.0-Flash-Thinking, R1-Distill-Qwen-32B, Qwen3-32B；
QwenLong-L1-32B 模型平均 Pass@1 達(dá)到 70.7，超越 QwQ-Plus, Qwen3-Plus, OpenAI-o3-mini, 與 Claude-3.7-Sonnet-Thinking 持平；

Test-Time Scaling 性能明顯：QwenLong-L1-14B 模型平均 Pass@2 達(dá)到 73.7，超越 DeepSeek-R1 (Pass@1, 72.1), OpenAI-o1-preview (Pass@1, 72.9) 。

SFT 與 RL 的權(quán)衡

探究不同起點(diǎn)模型 RL 后的結(jié)果：Base Model, Short-Context SFT Model (<=20K), Long-Context SFT Model (<=60K)。

有趣發(fā)現(xiàn)：

SFT 和 RL 發(fā)揮著互補(bǔ)作用，SFT 較低代價(jià)到可接受性能，而 RL 對(duì)達(dá)到最佳結(jié)果至關(guān)重要；
要實(shí)現(xiàn)最優(yōu)性能，必須優(yōu)先考慮 RL 而不是 SFT，因?yàn)檫^度關(guān)注 SFT 可能使模型陷入局部最優(yōu)，從而限制 RL 提升；

長(zhǎng)上下文推理行為的涌現(xiàn)和變化

探索訓(xùn)練過程中推理模式的動(dòng)態(tài)變化：包括長(zhǎng)上下文推理相關(guān)的 Grounding 和通用推理相關(guān)的 Backtracking, Verification, Subgoal Setting 等推理模式。

有趣發(fā)現(xiàn)：

所有模型都表現(xiàn)出明顯的各類推理模式，且長(zhǎng)上下文相關(guān)的 Grounding 出現(xiàn)頻率最高
RL 自然地使這些推理模式出現(xiàn)頻率越來越高，最終性能也會(huì)隨之增長(zhǎng)
SFT 盡管讓推理模式取得了遠(yuǎn)高于 RL 的增加，但轉(zhuǎn)換成的性能提高相較于 RL 有限

結(jié)論

這項(xiàng)研究通過強(qiáng)化學(xué)習(xí)探索了長(zhǎng)上下文推理大模型的開發(fā)。其首先提出長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)范式，并發(fā)現(xiàn)次優(yōu)的訓(xùn)練效率和不穩(wěn)定的優(yōu)化過程等關(guān)鍵問題。

為應(yīng)對(duì)這些挑戰(zhàn)，研究團(tuán)隊(duì)推出 QwenLong-L1，一個(gè)漸進(jìn)式上下文擴(kuò)展強(qiáng)化學(xué)習(xí)框架。實(shí)驗(yàn)結(jié)果表明 QwenLong-L1 在業(yè)界領(lǐng)先的長(zhǎng)上下文推理大模型中表現(xiàn)優(yōu)異。其中，QwenLong-L1-14B 性能超越 Gemini-2.0-Flash-Thinking 和 Qwen3-32B，而 QwenLong-L1-32B 超越 OpenAI-o3-mini、Qwen3-235B-A22B，甚至與 Claude-3.7-Sonnet-Thinking 達(dá)到同等水平。

我們的分析揭示了長(zhǎng)上下文推理強(qiáng)化學(xué)習(xí)的三項(xiàng)關(guān)鍵洞察：漸進(jìn)式上下文擴(kuò)展對(duì)實(shí)現(xiàn)穩(wěn)定適應(yīng)的重要作用、優(yōu)先強(qiáng)化學(xué)習(xí)對(duì)最優(yōu)性能的必要性，以及強(qiáng)化學(xué)習(xí)訓(xùn)練過程中長(zhǎng)文本推理模式的增加對(duì)性能提升的促進(jìn)作用。

責(zé)任編輯：張燕妮來源：機(jī)器之心

強(qiáng)化學(xué)習(xí)模型 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<nobr id="1wsd5"><strong id="1wsd5"><p id="1wsd5"></p></strong></nobr>

<center id="1wsd5"><tbody id="1wsd5"><wbr id="1wsd5"></wbr></tbody></center>