偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?

發(fā)布于 2025-6-26 01:02
瀏覽
0收藏

今天分享一篇來(lái)自NVIDIA的研究論文,標(biāo)題為《ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models》(ProRL:長(zhǎng)時(shí)間強(qiáng)化學(xué)習(xí)拓展大型語(yǔ)言模型的推理邊界)。

這篇文章探討了強(qiáng)化學(xué)習(xí)(RL)是否真正能拓展LLM推理上限?還是僅僅優(yōu)化了其基礎(chǔ)模型中已有的高獎(jiǎng)勵(lì)輸出的采樣效率,以及持續(xù)擴(kuò)展RL計(jì)算是否能可靠地提高推理性能。作者通過(guò)引入ProRL(Prolonged Reinforcement Learning)訓(xùn)練方法,證明了通過(guò)有效的RL方法能持續(xù)提升LLM的推理上限。

該方法特點(diǎn)總結(jié)如下:

1.訓(xùn)練穩(wěn)定性與效率:ProRL通過(guò)引入KL散度控制、參考策略重置以及多樣化的任務(wù)集,實(shí)現(xiàn)了長(zhǎng)期的穩(wěn)定訓(xùn)練和持續(xù)的性能提升。

2.卓越的性能表現(xiàn):訓(xùn)練出的Nemotron-Research-Reasoning-Qwen-1.5B模型在各種Pass@k評(píng)估中持續(xù)優(yōu)于基礎(chǔ)模型,包括基礎(chǔ)模型完全失敗的場(chǎng)景。在多個(gè)基準(zhǔn)測(cè)試上,其性能甚至超越或匹敵了更大的DeepSeek-R1-7B模型。

3.泛化能力強(qiáng):模型在訓(xùn)練2000多步后仍持續(xù)改進(jìn),表明RL訓(xùn)練能夠有效利用更多計(jì)算資源,并能很好地泛化到未見(jiàn)過(guò)的分布外(OOD)任務(wù)和難度更高的任務(wù)。

4.證明有效的RL能提升LLM的推理上限:證明了延長(zhǎng)RL訓(xùn)練(ProRL)可以發(fā)現(xiàn)基礎(chǔ)模型中甚至通過(guò)廣泛采樣也無(wú)法獲得的新穎推理策略,從而真正擴(kuò)展了模型的推理能力,而非僅僅優(yōu)化現(xiàn)有能力。

一、概述

?Title:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

?URL:https://arxiv.org/abs/2505.24864v1 (請(qǐng)注意,根據(jù)OCR內(nèi)容,此URL指向一個(gè)未來(lái)日期2025年5月,這可能是OCR的預(yù)印本占位符或特定排版,實(shí)際論文發(fā)表時(shí)URL可能會(huì)有所不同)

?Authors:Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong

?Institution:NVIDIA

?Code:?? https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B??

1 Motivation

? 當(dāng)前研究界普遍存在爭(zhēng)議,即強(qiáng)化學(xué)習(xí)(RL)是否真正擴(kuò)展了語(yǔ)言模型的推理能力,還是僅僅增強(qiáng)了基礎(chǔ)模型中已有的高獎(jiǎng)勵(lì)輸出的采樣效率。

?現(xiàn)有RL研究存在局限性:過(guò)度依賴數(shù)學(xué)等專業(yè)領(lǐng)域進(jìn)行評(píng)估,模型在預(yù)訓(xùn)練和后訓(xùn)練階段可能過(guò)擬合,限制了探索潛力;以及RL訓(xùn)練過(guò)早終止,通常僅進(jìn)行數(shù)百步,模型未能充分探索和發(fā)展新的推理能力。

? 本文希望證明通過(guò)長(zhǎng)時(shí)間的、穩(wěn)定的RL訓(xùn)練,模型可以學(xué)習(xí)到基礎(chǔ)模型即使通過(guò)大量采樣也無(wú)法獲得的全新推理策略

2 Methods

省流版總結(jié):

論文提出了ProRL(Prolonged Reinforcement Learning),一種新穎的訓(xùn)練方法,旨在通過(guò)長(zhǎng)時(shí)間、穩(wěn)定的RL訓(xùn)練來(lái)擴(kuò)展大型語(yǔ)言模型的推理能力。其核心在于解決RL訓(xùn)練中的熵崩潰和不穩(wěn)定性問(wèn)題,并通過(guò)多樣化的任務(wù)和策略優(yōu)化手段,使模型能夠進(jìn)行更深層次的探索和學(xué)習(xí)。

ProRL使得模型能夠進(jìn)行2000步以上的長(zhǎng)時(shí)間訓(xùn)練,并在多樣化的任務(wù)上持續(xù)提升性能,最終開(kāi)發(fā)出Nemotron-Research-Reasoning-Qwen-1.5B,一個(gè)在推理能力上顯著超越其基礎(chǔ)模型(DeepSeek-R1-1.5B)并匹敵甚至超越DeepSeek-R1-7B的模型。

詳細(xì)方法和步驟:

RL算法選擇啥?: 還是采用DeepSeek的GRPO,與PPO不同,GRPO移除了價(jià)值模型,而是基于組分?jǐn)?shù)估計(jì)基線,并通過(guò)最大化其目標(biāo)函數(shù)來(lái)進(jìn)行優(yōu)化。

熵崩潰是什么?如何緩解熵崩潰策略? 針對(duì)RL訓(xùn)練中常見(jiàn)的熵崩潰問(wèn)題(模型輸出分布過(guò)早收斂,限制探索),ProRL采用了多項(xiàng)措施:

?高探索溫度:在rollout階段使用較高的采樣溫度,鼓勵(lì)初期探索。

?解耦剪裁(參考DAPO):引入DAPO算法的解耦剪裁機(jī)制,將PPO目標(biāo)中的上下剪裁邊界作為獨(dú)立超參數(shù)(, )。提高值可以提升先前可能性較低的token的概率,鼓勵(lì)更廣泛的探索,有助于維持熵并減少過(guò)早的模式崩潰。

?動(dòng)態(tài)采樣(參考DAPO):過(guò)濾掉模型能一致成功或失?。?zhǔn)確率1或0)的Prompt,將訓(xùn)練重點(diǎn)放在中等難度示例上,以維持多樣化的學(xué)習(xí)信號(hào)。

?KL正則化:引入KL散度懲罰項(xiàng)  到GRPO目標(biāo)函數(shù)中。這不僅有助于維持熵,還能防止在線策略偏離穩(wěn)定參考策略過(guò)遠(yuǎn),從而穩(wěn)定學(xué)習(xí)并減輕對(duì)虛假獎(jiǎng)勵(lì)信號(hào)的過(guò)擬合。

?ref model重置(當(dāng)出現(xiàn)驗(yàn)證集表現(xiàn)變差時(shí),更新ref model):為解決KL項(xiàng)可能在訓(xùn)練后期主導(dǎo)損失,導(dǎo)致策略更新減弱的問(wèn)題,ProRL周期性地將參考策略模型硬重置為在線策略的最新快照(即減少最新的online model和ref model的差異,降低KL項(xiàng)的影響),并重新初始化優(yōu)化器狀態(tài)。這種策略允許模型在保持KL正則化優(yōu)勢(shì)的同時(shí)繼續(xù)改進(jìn),鼓勵(lì)長(zhǎng)時(shí)間訓(xùn)練。

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?-AI.x社區(qū)

?多樣化訓(xùn)練數(shù)據(jù)集構(gòu)建:構(gòu)建了一個(gè)包含136K個(gè)問(wèn)題的多樣化且可驗(yàn)證的訓(xùn)練數(shù)據(jù)集,涵蓋數(shù)學(xué)、代碼、STEM、邏輯謎題和指令遵循等五大任務(wù)領(lǐng)域。每種任務(wù)類型都配有清晰的獎(jiǎng)勵(lì)信號(hào)(二元或連續(xù)),以實(shí)現(xiàn)訓(xùn)練期間的可靠反饋,鼓勵(lì)泛化能力。

DAPO是啥?主要采用了哪些技術(shù)?

?Clip-Higher:該技術(shù)旨在提升系統(tǒng)的多樣性并避免熵崩潰。傳統(tǒng) PPO 的剪輯機(jī)制限制了策略的探索,Clip-Higher 通過(guò)解耦上下限剪輯范圍,允許更自由地增加低概率 token 的概率,從而鼓勵(lì)探索。

?Dynamic Sampling:動(dòng)態(tài)采樣旨在提高訓(xùn)練效率和穩(wěn)定性。它過(guò)采樣并過(guò)濾掉準(zhǔn)確率等于 1 或 0 的 prompt,保留有效梯度的 prompt,并保持 batch 中 prompt 數(shù)量的穩(wěn)定。在訓(xùn)練前,持續(xù)采樣直到 batch 被準(zhǔn)確率非 0 或 1 的樣本填滿。

?Token-Level Policy Gradient Loss:token級(jí)策略梯度損失對(duì)于長(zhǎng) CoT (Chain-of-Thought) RL 場(chǎng)景至關(guān)重要。原始 GRPO 算法采用樣本級(jí)損失計(jì)算,長(zhǎng)回復(fù)中的 token 對(duì)總損失的貢獻(xiàn)可能不成比例地降低。Token-Level Policy Gradient Loss 使得更長(zhǎng)的序列對(duì)梯度更新有更多影響,并對(duì)每個(gè) token 的獎(jiǎng)勵(lì)變化做出響應(yīng)。

?Overlong Reward Shaping:過(guò)長(zhǎng)獎(jiǎng)勵(lì)塑造旨在減少獎(jiǎng)勵(lì)噪聲并穩(wěn)定訓(xùn)練。對(duì)于被截?cái)嗟倪^(guò)長(zhǎng)樣本,默認(rèn)會(huì)分配懲罰性獎(jiǎng)勵(lì),但這會(huì)引入噪聲。論文提出了 Overlong Filtering 策略來(lái)屏蔽截?cái)鄻颖镜膿p失,并提出了 Soft Overlong Punishment 機(jī)制,對(duì)超過(guò)預(yù)定義最大長(zhǎng)度的回復(fù)施加長(zhǎng)度感知懲罰,以引導(dǎo)模型避免過(guò)長(zhǎng)的回復(fù)。

實(shí)驗(yàn)設(shè)置細(xì)節(jié)是啥?

? 使用??verl??框架進(jìn)行RL訓(xùn)練。

? 采用AdamW優(yōu)化器,學(xué)習(xí)率為??2e-6??。

? 在48個(gè)NVIDIA H100-80GB節(jié)點(diǎn)上進(jìn)行訓(xùn)練,總計(jì)約16k GPU小時(shí)。

? 通過(guò)混合驗(yàn)證集密切監(jiān)控訓(xùn)練進(jìn)度。當(dāng)驗(yàn)證性能停滯或下降時(shí),執(zhí)行參考模型和優(yōu)化器的硬重置。

? 在訓(xùn)練的大部分時(shí)間里,將響應(yīng)長(zhǎng)度限制在8k token以內(nèi),以保持簡(jiǎn)潔和穩(wěn)定的生成。在最后階段,將上下文窗口增加到16k token。

3 Conclusion

?RL確實(shí)能擴(kuò)展推理邊界:長(zhǎng)時(shí)間、穩(wěn)定的強(qiáng)化學(xué)習(xí)(ProRL)能夠使語(yǔ)言模型學(xué)習(xí)到其基礎(chǔ)模型中不存在的、全新的推理策略和解決方案。

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?-AI.x社區(qū)

?ProRL的有效性:ProRL訓(xùn)練的模型(Nemotron-Research-Reasoning-Qwen-1.5B)在數(shù)學(xué)、編碼、STEM、邏輯謎題和指令遵循等多種任務(wù)上顯著優(yōu)于其基礎(chǔ)模型,并在某些情況下達(dá)到或超過(guò)了更大規(guī)?;蝾I(lǐng)域?qū)S媚P偷男阅堋?/p>

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?-AI.x社區(qū)

?推理提升與初始能力和訓(xùn)練時(shí)長(zhǎng)相關(guān):模型推理邊界的改進(jìn)程度與基礎(chǔ)模型在該任務(wù)上的初始能力以及RL訓(xùn)練的持續(xù)時(shí)間密切相關(guān)。RL在基礎(chǔ)模型表現(xiàn)較弱的領(lǐng)域能帶來(lái)更大的提升,且持續(xù)訓(xùn)練能讓RL探索并填充新的解空間區(qū)域。

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?-AI.x社區(qū)

4 Limitation

?計(jì)算資源需求大:ProRL所涉及的長(zhǎng)時(shí)間RL訓(xùn)練過(guò)程需要大量的計(jì)算資源,這可能對(duì)預(yù)算有限的小型組織或研究者構(gòu)成障礙。

?可擴(kuò)展性問(wèn)題:雖然在1.5B參數(shù)模型上取得了成功,但該方法是否能有效擴(kuò)展到更大規(guī)模的模型(如百億或千億參數(shù))尚不明確,更大模型對(duì)計(jì)算資源的需求將更加顯著。

?訓(xùn)練過(guò)程復(fù)雜性:ProRL依賴周期性的參考策略和優(yōu)化器硬重置來(lái)維持訓(xùn)練穩(wěn)定性,這增加了訓(xùn)練過(guò)程的復(fù)雜性,并可能導(dǎo)致與更穩(wěn)定訓(xùn)練方法相比結(jié)果不一致。

?任務(wù)范圍局限性:盡管評(píng)估涵蓋了多樣化的領(lǐng)域,但訓(xùn)練數(shù)據(jù)集仍只代表了所有可能推理任務(wù)的一個(gè)子集。模型在某些分布外任務(wù)上表現(xiàn)出有希望的泛化能力,但不能保證在所有未明確訓(xùn)練的推理領(lǐng)域都有類似的改進(jìn)。


二、總結(jié)

結(jié)論1: ProRL證明RL有效擴(kuò)展了LLM的推理邊界。 通過(guò)長(zhǎng)時(shí)間、穩(wěn)定的RL訓(xùn)練,證明了模型能夠發(fā)現(xiàn)基礎(chǔ)模型中未曾出現(xiàn)的新穎推理策略,并在多項(xiàng)任務(wù)上實(shí)現(xiàn)了超越基礎(chǔ)模型的性能,包括在OOD任務(wù)上的強(qiáng)大泛化能力。

結(jié)論2: ProRL通過(guò)創(chuàng)新技術(shù)確保了RL訓(xùn)練的穩(wěn)定性和效率。 針對(duì)RL訓(xùn)練中常見(jiàn)的熵崩潰和不穩(wěn)定性問(wèn)題,ProRL引入了KL散度控制、Ref Model周期性重置、解耦剪裁和動(dòng)態(tài)采樣等機(jī)制。這些技術(shù)使得模型能夠在長(zhǎng)時(shí)間訓(xùn)練(超過(guò)2000步)中持續(xù)進(jìn)步,有效利用計(jì)算資源,為長(zhǎng)期RL在推理任務(wù)中的應(yīng)用奠定了基礎(chǔ)。

本文轉(zhuǎn)載自??NLP PaperWeekly??,作者:NLP PaperWeekly

標(biāo)簽
已于2025-6-26 09:35:51修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦