偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

震驚!強(qiáng)化學(xué)習(xí)訓(xùn)練后,大模型推理“天花板”反而降低了?清華研究揭示RLVR局限性

發(fā)布于 2025-5-6 07:12
瀏覽
0收藏

大家好,我是HxShine

今天分享一篇來自清華的文章,標(biāo)題為:“Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?” (強(qiáng)化學(xué)習(xí)真的能激勵大型語言模型(LLM)產(chǎn)生超越基礎(chǔ)模型本身的推理能力嗎?)。

這篇文章研究的問題:可驗(yàn)證獎勵的強(qiáng)化學(xué)習(xí)(RLVR)真能夠使LLM持續(xù)自我改進(jìn),獲得超越其對應(yīng)基礎(chǔ)模型的新推理能力嗎?(即強(qiáng)化學(xué)習(xí)能提高base基座模型的天花板嗎?)。研究者通過使用pass@k指標(biāo)(在k次嘗試中通過的比例)并采用非常大的k值,來探索模型在多種模型家族、RL算法和數(shù)學(xué)/編程基準(zhǔn)上的推理能力邊界。

結(jié)論令人驚訝:

1. RLVR訓(xùn)練并未引發(fā)根本上新的推理模式。雖然RL訓(xùn)練的模型在較小的k值(如k=1)下表現(xiàn)優(yōu)于基礎(chǔ)模型,但在足夠大的k值下,基礎(chǔ)模型能夠達(dá)到甚至超過其RL對應(yīng)模型的pass@k分?jǐn)?shù)。這表明RL訓(xùn)練出的模型所使用的推理路徑實(shí)際上已經(jīng)存在于基礎(chǔ)模型的采樣分布中。

2. RL訓(xùn)練通過將模型輸出分布偏向于更有可能獲得獎勵的路徑來提高性能(提升采樣效率),但這同時也限制了模型的探索能力,導(dǎo)致其推理能力邊界相較于基礎(chǔ)模型反而更窄。

3. 與RLVR不同,蒸餾(distillation)能夠真正地為模型引入新知識。

這些發(fā)現(xiàn)揭示了RLVR在提升LLM推理能力方面的關(guān)鍵局限性,提示我們需要重新思考RL訓(xùn)練在推理LLM中的作用,并可能需要尋找更好的訓(xùn)練范式。

一、概述

?Title:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

?URL: https://arxiv.org/abs/2504.13837

?Authors:Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang (清華大學(xué) LeapLab, 上海交通大學(xué))

?Project Page: https://limit-of-RLVR.github.io

1 Motivation

?挑戰(zhàn)普遍認(rèn)知:當(dāng)前普遍認(rèn)為RLVR能讓LLM獲得超越基礎(chǔ)模型的新推理能力。本文旨在嚴(yán)格驗(yàn)證這一假設(shè)是否成立。

?評估方法局限:傳統(tǒng)的評估指標(biāo)(如pass@1或小k值的平均成功率)可能只反映了模型的平均表現(xiàn),而低估了基礎(chǔ)模型在更多嘗試下的潛在推理能力上限。

?探究能力邊界:需要一種更嚴(yán)格的方法來評估和比較基礎(chǔ)模型與RL訓(xùn)練后模型的推理能力邊界,即模型理論上能解決的問題范圍。

2 Methods

省流版總結(jié):

本文通過在數(shù)學(xué)、代碼生成、視覺推理等多個任務(wù)上,使用大k值的pass@k指標(biāo),系統(tǒng)比較了多種基礎(chǔ)LLM(如Qwen-2.5, LLaMA-3.1)與其經(jīng)過RLVR(使用PPO、GRPO等算法)訓(xùn)練后的版本。核心發(fā)現(xiàn)是:基礎(chǔ)模型只要采樣次數(shù)足夠多(k足夠大),就能解決那些之前被認(rèn)為只有RL模型能解決的問題。RLVR的主要作用是提高采樣效率(更容易采樣到正確答案,pass@1更高),但代價是犧牲了探索性,導(dǎo)致其能解決的問題集合(推理邊界)反而小于基礎(chǔ)模型(pass@大k值更低)。研究還利用困惑度分析證明RL模型的推理路徑很可能已包含在基礎(chǔ)模型的分布中,并對比了RLVR與蒸餾,發(fā)現(xiàn)蒸餾更能引入新知識。

詳細(xì)方法和步驟:

為了深入探究強(qiáng)化學(xué)習(xí)(RLVR)對大型語言模型(LLM)推理能力的確切影響,其設(shè)計(jì)了一套嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)方法。

1) 核心在于使用大k值的pass@k指標(biāo)來評估模型的推理能力邊界,即模型在多次嘗試下解決問題的理論上限,而非僅看單次嘗試的平均表現(xiàn)。實(shí)驗(yàn)覆蓋了多種主流LLM基礎(chǔ)模型及其對應(yīng)的RLVR訓(xùn)練版本,涉及數(shù)學(xué)、代碼生成和視覺推理等多個任務(wù)領(lǐng)域。為確保結(jié)果的可靠性,研究不僅采用了統(tǒng)一的評估流程,

2)進(jìn)行了思維鏈(CoT)的有效性驗(yàn)證以排除偶然猜對答案的情況,并運(yùn)用困惑度分析來探究RL訓(xùn)練后模型與基礎(chǔ)模型輸出分布的關(guān)系。

3)研究還系統(tǒng)比較了不同RL算法的效果、RL訓(xùn)練步數(shù)的影響,并將RLVR與模型蒸餾的效果進(jìn)行了直接對比。

詳細(xì)內(nèi)容整理如下:

方法論要素

詳細(xì)說明

核心評估指標(biāo)

Pass@k (at large k):

 使用極大的嘗試次數(shù)k(如256, 1024+)來衡量模型解決問題的能力上限或覆蓋范圍,而非平均性能。采用無偏估計(jì)法計(jì)算。

實(shí)驗(yàn)對象與范圍

模型:

 Qwen-2.5系列 (7B/14B/32B Base), LLaMA-3.1-8B Base及其對應(yīng)的RL訓(xùn)練版本。
RL算法: GRPO, PPO, Reinforce++, RLOO, ReMax, DAPO等。
任務(wù): 數(shù)學(xué)推理 (GSM8K, MATH, AIME24等), 代碼生成 (LiveCodeBench, HumanEval+), 視覺推理 (MathVista)。

評估流程

統(tǒng)一使用Zero-shot prompt進(jìn)行評估,采樣溫度0.6,top-p 0.95,避免few-shot提示干擾。

結(jié)果有效性驗(yàn)證

CoT檢查:

 對高難度問題(如AIME24),手動檢查多次采樣得到的正確答案其思維鏈(CoT)是否合理有效。
問題過濾: 移除容易通過直接猜測解決的問題。

機(jī)理分析工具

困惑度分析 (Perplexity Analysis):

 比較RL模型生成內(nèi)容在基礎(chǔ)模型下的困惑度,與基礎(chǔ)模型自身生成內(nèi)容的困惑度分布,以判斷推理路徑是否源于基礎(chǔ)模型。

對比實(shí)驗(yàn)

RL算法比較:

 在統(tǒng)一框架下比較不同RL算法的性能,并引入采樣效率差距(ΔSE)指標(biāo)。
訓(xùn)練步數(shù)影響: 分析不同訓(xùn)練時長對pass@1和pass@k(大k)的影響。
RL vs 蒸餾: 對比RLVR和模型蒸餾(Distillation)在擴(kuò)展模型推理邊界上的效果差異。

3 Conclusion

1.RLVR未引入新推理能力:RLVR訓(xùn)練的模型所能解決的問題的推理路徑,基本上都已存在于原始基礎(chǔ)模型的潛在輸出中。RLVR沒有激發(fā)根本性的新推理模式。

2.RLVR提升效率但犧牲邊界:RLVR通過偏置采樣分布,提高了采樣到正確答案的效率(表現(xiàn)為pass@k在小k值時更高),但這種優(yōu)化是以犧牲探索性為代價的,導(dǎo)致模型的推理能力邊界(能解決的問題集合上限,表現(xiàn)為pass@k在大k值時更低)相較于基礎(chǔ)模型反而縮小了。

3.基礎(chǔ)模型潛力被低估:只要給予足夠多的嘗試次數(shù)(大k值),基礎(chǔ)模型在解決復(fù)雜推理問題上的上限可能與甚至超過經(jīng)過RLVR訓(xùn)練的模型。

4.RL算法局限與蒸餾的優(yōu)勢:當(dāng)前主流RLVR算法在該問題上表現(xiàn)類似,距離理論最優(yōu)采樣效率(由基礎(chǔ)模型邊界定義)仍有較大差距。相比之下,蒸餾可以將更強(qiáng)教師模型的知識注入基礎(chǔ)模型,從而真正擴(kuò)展其推理能力邊界。

4 Limitation

1.任務(wù)范圍:研究主要集中在具有可驗(yàn)證獎勵的任務(wù)(數(shù)學(xué)、代碼)。其結(jié)論是否能推廣到基于偏好模型進(jìn)行對齊的RLHF任務(wù)(如提升無害性、遵循指令等)尚需進(jìn)一步研究。

2.CoT檢查:手動檢查CoT的有效性雖然進(jìn)行了,但僅限于問題子集和樣本子集,并非完全覆蓋。

3.解決方案探索不足:論文指出了當(dāng)前RLVR的局限性,并暗示需要新的范式(如更好的探索機(jī)制),但并未提出具體的解決方案來克服這種邊界限制。

4.評估成本:使用極大k值的pass@k進(jìn)行評估計(jì)算成本非常高,這限制了能夠在實(shí)驗(yàn)中測試的模型和數(shù)據(jù)集的規(guī)模。

5.基礎(chǔ)模型依賴:既然RL效果受限于基礎(chǔ)模型,那么如何提升基礎(chǔ)模型本身的潛能(pretraining階段)變得更加重要。

二、詳細(xì)內(nèi)容 (圖表總結(jié))

1 RL與Base模型推理效果對比

?問題A:RL提升了找到正確路徑的效率;

?問題B:RL可能丟失基礎(chǔ)模型中存在的正確路徑,導(dǎo)致探索范圍縮小。

? 右圖:隨著RL訓(xùn)練進(jìn)行,pass@1(平均性能)提升,但pass@256(能力邊界)下降。

2 多個數(shù)學(xué)基準(zhǔn)上不同模型Base與RL效果對比

震驚!強(qiáng)化學(xué)習(xí)訓(xùn)練后,大模型推理“天花板”反而降低了?清華研究揭示RLVR局限性-AI.x社區(qū)

結(jié)論:一致顯示:RL在低k時占優(yōu),Base在高k時追上甚至反超RL。

3 Base模型與RL推理模式對比 & 蒸餾模型與RL以及Base模型對比

震驚!強(qiáng)化學(xué)習(xí)訓(xùn)練后,大模型推理“天花板”反而降低了?清華研究揭示RLVR局限性-AI.x社區(qū)

?(左)困惑度分析: RL模型生成的響應(yīng)(Y_RL)在Base模型下的困惑度分布,與Base模型自身生成響應(yīng)(Y_Base)的分布中低困惑度的部分重合,說明Y_RL是Base模型本就“傾向于”生成的路徑,RL并沒有給Base模型帶來新的推理Pattern。

?(右)Base, Instruct, RL, Distilled模型在AIME24和Minerva上的pass@k對比: Distilled模型曲線顯著高于Base模型,而RL模型在高k時低于或接近Base模型。證明蒸餾能擴(kuò)展邊界,RLVR不能。

4 不同RL算法以及不同step的影響

震驚!強(qiáng)化學(xué)習(xí)訓(xùn)練后,大模型推理“天花板”反而降低了?清華研究揭示RLVR局限性-AI.x社區(qū)

?(上)不同RL算法 (GRPO, PPO等) 的pass@k對比及采樣效率差距(ΔSE)。顯示各算法效果差異不大,且ΔSE普遍較大,表明離基礎(chǔ)模型的理論上限還很遠(yuǎn)。

?(下)不同RL訓(xùn)練步數(shù) (150 vs 300 vs 450) 的影響。pass@1隨步數(shù)增加而提升(尤其在訓(xùn)練集上),但pass@256下降,表明推理邊界在縮小,可能存在過擬合。

三、總結(jié)

本文核心觀點(diǎn): 當(dāng)前廣泛應(yīng)用的RLVR(帶可驗(yàn)證獎勵的強(qiáng)化學(xué)習(xí))方法,并不能真正賦予LLM超越其基礎(chǔ)模型固有的、新的推理能力。它的主要作用是提高模型采樣到其本身就能生成的正確推理路徑的效率,但這往往以犧牲探索性、縮小推理能力邊界為代價。

結(jié)論1: RLVR 訓(xùn)練主要提高了 LLM 的采樣效率,使其更容易在少量嘗試內(nèi)找到正確答案,但并未帶來超越基礎(chǔ)模型的新的推理能力或擴(kuò)展可解決問題的范圍。 論文通過 pass@k 指標(biāo)在大 k 值下的評估,以及對生成的思維鏈和困惑度的分析,有力地支持了這一發(fā)現(xiàn),挑戰(zhàn)了 RLVR 能夠持續(xù)提升 LLM 推理上限的普遍觀點(diǎn)。

結(jié)論2: 現(xiàn)有的 RL 算法在提高 LLM 采樣效率方面仍有很大提升空間,且不同的主流 RL 算法(如 PPO, GRPO 等)在效果上差異不大。 研究通過在統(tǒng)一框架下對比多種算法,并量化了采樣效率差距,指出了當(dāng)前 RL 方法的局限性。同時,增加訓(xùn)練步數(shù)可能導(dǎo)致模型過擬合訓(xùn)練集并進(jìn)一步限制其探索能力和推理邊界。

結(jié)論3: 與 RLVR 不同,蒸餾是一種能夠引入新知識并有效擴(kuò)展 LLM 推理能力邊界的訓(xùn)練范式。 論文通過對比蒸餾模型與基礎(chǔ)模型和 RLVR 模型的 pass@k 曲線,展示了蒸餾模型能夠解決基礎(chǔ)模型無法解決的問題,這提示未來的研究可能需要探索 RL 與其他方法的結(jié)合,或者尋找全新的訓(xùn)練范式來真正推動 LLM 推理能力的發(fā)展。

本文轉(zhuǎn)載自?????NLP PaperWeekly?????,作者:NLP PaperWeekly


收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦