RL真讓大模型更會(huì)推理?清華新研究:其能力邊界或仍被基座「鎖死」
近年來,RLVR(可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí))訓(xùn)練大模型在數(shù)學(xué)、代碼等各項(xiàng)任務(wù)中表現(xiàn)驚艷,大模型的推理能力快速提升,強(qiáng)化學(xué)習(xí)因而被視為重要的推手。然而,其中直指核心的重要問題卻懸而未決:強(qiáng)化學(xué)習(xí)真的能讓大模型獲得超越基礎(chǔ)模型的新推理能力嗎?
清華大學(xué)LeapLab團(tuán)隊(duì)聯(lián)合上海交通大學(xué)開展的最新實(shí)證研究,通過實(shí)驗(yàn)現(xiàn)象揭示了一個(gè)值得關(guān)注的問題:當(dāng)前的 RLVR 方法似乎尚未突破基座模型的能力上限。
通過數(shù)學(xué)、代碼、視覺推理三大領(lǐng)域的系統(tǒng)性實(shí)驗(yàn),他們發(fā)現(xiàn)了這一出人意料的現(xiàn)象 —— 引入強(qiáng)化學(xué)習(xí)的模型在某些任務(wù)中的表現(xiàn),竟然不如未使用強(qiáng)化學(xué)習(xí)的基座模型。RLVR 只是將采樣做得更有效率,而其輸出的正確答案,早已藏在基座模型的「基因」里。
- 論文標(biāo)題:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
- 論文鏈接:https://arxiv.org/abs/2504.13837
- 展示頁面:https://limit-of-RLVR.github.io
針對(duì)給定問題,通過從基礎(chǔ)模型和 RLVR 訓(xùn)練模型中重復(fù)采樣生成搜索樹。灰色表示模型不太可能采樣的路徑,黑色表示模型更可能采樣的路徑,綠色表示能獲得正向獎(jiǎng)勵(lì)的正確路徑。
論文的核心發(fā)現(xiàn)是:RLVR 模型中的所有推理路徑均已存在于基礎(chǔ)模型中。
對(duì)于某些問題(如問題 A),RLVR 訓(xùn)練會(huì)偏向獎(jiǎng)勵(lì)路徑的分布,從而提升采樣效率;但代價(jià)是推理范圍的縮減:對(duì)于其他問題(如問題 B),基礎(chǔ)模型包含正確路徑,而 RLVR 模型卻可能丟失該路徑。)
這篇工作刷新了 AI 圈里的「普遍認(rèn)知」:此前各類基于 RLVR 做后訓(xùn)練的大模型,如 OpenAI 的 o1、DeepSeek-R1 等,在各項(xiàng)評(píng)測(cè)中成績顯著,似乎它就能讓大模型實(shí)現(xiàn)「自我進(jìn)化」,賦予模型超越其基座模型的能力。然而,此項(xiàng)研究指出,RLVR 的潛力并不像之前認(rèn)為的那樣強(qiáng)大 —— 它并不能使模型解決基礎(chǔ)模型無法解決的問題。論文一經(jīng)發(fā)出,就獲得國內(nèi)外學(xué)者的廣泛關(guān)注,發(fā)布首日即登頂 Hugging Face 日榜和 alphaxiv 榜首,在 Twitter 上累計(jì)接近 30 萬次瀏覽,引起大量討論。
當(dāng)技術(shù)社區(qū)關(guān)注于 RL 帶來的短期收益時(shí),或許需要此類研究提醒我們:大模型的真正突破,永遠(yuǎn)始于對(duì)本質(zhì)問題的追問。
實(shí)驗(yàn)設(shè)計(jì):用 pass@k 揭開模型的「能力邊界」
一個(gè)很重要的問題是:如何界定模型所能觸及的能力邊界?
傳統(tǒng)評(píng)測(cè)聚焦單次回答準(zhǔn)確率(pass@1)或多次回答平均準(zhǔn)確率。然而,模型在幾次采樣下未能解決問題、采樣更多次后最終成功解決的現(xiàn)象并非個(gè)例,對(duì)這種情況的忽視將會(huì)極大低估模型的真實(shí)潛力。因而,它們都不適合作為所謂「能力邊界」的參照指標(biāo)。
為找到更合適的指標(biāo),研究團(tuán)隊(duì)提出了一個(gè)更本質(zhì)的問題:當(dāng)允許多次嘗試時(shí),模型究竟能解決多少問題? 為此,他們引入 pass@k 指標(biāo):若模型在 k 次采樣中至少生成一次正確答案,則認(rèn)為其具備解決該問題的能力。若 RL 訓(xùn)練真能擴(kuò)展推理能力,我們應(yīng)看到 RL 模型比基座模型解決更多此類問題。為減小直接采樣計(jì)算 pass@k 值可能導(dǎo)致的高方差,他們采用無偏估計(jì)的方法,使用嚴(yán)格定義來確保 pass@k 的可靠性。
多個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試中的基礎(chǔ)模型及其經(jīng)強(qiáng)化學(xué)習(xí)訓(xùn)練的對(duì)應(yīng)模型的 pass@k 曲線,橫軸為采樣次數(shù) k,縱軸為 pass@k 準(zhǔn)確率
研究團(tuán)隊(duì)強(qiáng)調(diào),使用 pass@k 而非大多數(shù)研究采用的多數(shù)表決(majority voting)—— 這并不會(huì)導(dǎo)致結(jié)果無效。他們使用 pass@k 并非為了衡量實(shí)際效率,而是為了探索大語言模型的推理能力邊界。
所謂「能力邊界」是指模型是否具有正確解決某類問題的潛質(zhì),而「效率」是在給定時(shí)間和資源成本下模型的表現(xiàn),因而不能將大模型的「能力邊界」和「效率」混為一談。這項(xiàng)研究從未否定 RL 帶來的「效率」上的提升,而是更深入地發(fā)起對(duì)其能力邊界的探討。
跨領(lǐng)域的一致性:與 RL 相比,基座模型表現(xiàn)出更廣泛的覆蓋能力
實(shí)驗(yàn)中,研究團(tuán)隊(duì)在三個(gè)具有代表性的領(lǐng)域進(jìn)行實(shí)驗(yàn),對(duì)比評(píng)估 RLVR 模型和基座模型的能力邊界。在所有的實(shí)驗(yàn)中,都獲得了以下的核心發(fā)現(xiàn):
- RL 模型在小 k 時(shí)占優(yōu),然而基座模型在大 k 時(shí)逆襲:在數(shù)學(xué)題、代碼生成和視覺推理等任務(wù)中,RL 模型在 pass@1 上的表現(xiàn)顯著優(yōu)于基座模型。而當(dāng)采樣次數(shù)增至數(shù)十或數(shù)百時(shí),在所有基準(zhǔn)測(cè)試和 LLM 模型家族中,基礎(chǔ)模型的表現(xiàn)會(huì)無一例外地逐漸追平強(qiáng)化學(xué)習(xí)訓(xùn)練的模型,并最終實(shí)現(xiàn)反超。
- 答案同源性:驗(yàn)證 RL 模型的正確答案均存在于基座模型的輸出分布中,RL 僅通過調(diào)整概率分布「篩選」高獎(jiǎng)勵(lì)路徑。
數(shù)學(xué)推理
在數(shù)學(xué)推理任務(wù)中,研究團(tuán)隊(duì)在 AIME24、AMC23、MATH500 等多個(gè)基準(zhǔn)上評(píng)估多個(gè) LLM 系列(如 Qwen-2.5 和 LLaMA-3.1)及其經(jīng)過 RL 后訓(xùn)練的變體。
實(shí)驗(yàn)結(jié)果顯示,在兩大 LLM 系列、6 個(gè)數(shù)據(jù)集的總共 24 個(gè)對(duì)比實(shí)驗(yàn)中,基礎(chǔ)模型的能力表現(xiàn)均在采樣次數(shù)增大后追平并反超對(duì)應(yīng)的 RL 模型。
人工檢查推理鏈。數(shù)學(xué)解題,存在著「蒙對(duì)」的可能。為此,研究團(tuán)隊(duì)人工檢查了基座模型正確答案的 CoT 推理過程,發(fā)現(xiàn)對(duì)于大部分題目,基座模型在多次采樣中至少存在一個(gè) CoT 推理過程是正確的,從而確認(rèn)了答案的得出符合邏輯而非隨機(jī)蒙對(duì)。同時(shí)團(tuán)隊(duì)觀察到,基座模型輸出的 CoT 也能很復(fù)雜但邏輯完整,例如通過多次試錯(cuò)調(diào)整解題方法和方程參數(shù),說明基座模型也有輸出長 CoT 和自我反思的能力。
此外,團(tuán)隊(duì)還研究了另一款在 AIME24 上表現(xiàn)優(yōu)異的 RL 模型 Oat-zero。結(jié)果同樣表明,盡管 RL 在初始階段提高了準(zhǔn)確性,但基礎(chǔ)模型仍保持更廣泛的推理覆蓋能力。
代碼生成
值得注意的是,生成的代碼必須通過所有測(cè)試樣例,幾乎不可能蒙對(duì)正確答案,模型必須真正寫出符合邏輯的代碼才能得分。代碼生成任務(wù)的實(shí)驗(yàn)結(jié)果同樣支持前述的核心發(fā)現(xiàn):RLVR 強(qiáng)化學(xué)習(xí)模型 CodeR1-Zero-Qwen2.5-7B 提升了單樣本 pass@1 得分,但在更高采樣次數(shù)(k=128)時(shí)降低了覆蓋范圍。原始模型在更大的 k 值下仍展現(xiàn)出持續(xù)改進(jìn)的潛力,而 RLVR 的性能則趨于穩(wěn)定。
視覺推理
在視覺數(shù)學(xué)推理數(shù)據(jù)集 MathVista 中,RL 訓(xùn)練后的模型在單次回答準(zhǔn)確率上提升顯著,但當(dāng) k 增至 64 次時(shí),基座模型仍展現(xiàn)出更廣的問題覆蓋能力。RLVR 在視覺推理上的改進(jìn)與數(shù)學(xué)和代碼基準(zhǔn)中的表現(xiàn)一致,表明原始模型已涵蓋廣泛的可解決問題范圍,即使在多模態(tài)任務(wù)中也是如此。
以上跨領(lǐng)域的一致性表明,與 RL 相比,基座模型表現(xiàn)出更廣泛的覆蓋能力。RLVR 并未從根本上改變模型的問題解決方式。
深度探索:RL 無法突破基座天花板
通過以上的實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)提高了采樣效率,但縮小了推理能力邊界。
更進(jìn)一步的困惑度(perplexity)分析表明,RLVR 訓(xùn)練模型生成的推理路徑本就存在于基礎(chǔ)模型的輸出分布中,這意味著 RLVR 只是讓模型更偏向高獎(jiǎng)勵(lì)解決方案,而非創(chuàng)造新的推理能力。然而,這種對(duì)獎(jiǎng)勵(lì)路徑的聚焦削弱了模型的探索能力,限制了其在大規(guī)模采樣時(shí)對(duì)可解問題的覆蓋范圍。這些發(fā)現(xiàn)說明 RLVR 并未從根本上突破基礎(chǔ)模型的推理能力,而是以犧牲解決問題的多樣性為代價(jià)來優(yōu)化現(xiàn)有路徑。
那么,不同的 RLVR 算法在此問題上是否表現(xiàn)出差異?對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),各 RLVR 算法表現(xiàn)相似且均遠(yuǎn)未達(dá)最優(yōu)。
研究比較了多種 RL 算法(PPO、GRPO、Reinforce++,RLOO,DAPO, ReMax),發(fā)現(xiàn)它們的采樣效率差距(?SE)衡量的性能差異很小。盡管算法間?SE 存在細(xì)微差別,但所有方法都與最優(yōu)效率存在顯著差距。這表明當(dāng)前以提高采樣效率為目標(biāo)的 RL 方法仍遠(yuǎn)未達(dá)到最優(yōu)性能。
研究團(tuán)隊(duì)還發(fā)現(xiàn),RLVR 與蒸餾訓(xùn)練存在本質(zhì)區(qū)別。RL 僅能提升采樣效率,而蒸餾訓(xùn)練能真正為模型注入新知識(shí)。因此蒸餾模型通過學(xué)習(xí)蒸餾數(shù)據(jù)往往能拓展基礎(chǔ)模型的推理能力邊界,這與能力始終受限于基礎(chǔ)模型的 RLVR 訓(xùn)練模型形成鮮明對(duì)比。
作者答疑
針對(duì) AI 圈對(duì)這項(xiàng)工作的廣泛關(guān)注和困惑,研究團(tuán)隊(duì)在論文網(wǎng)站上精選具有代表性的問題并給出答復(fù),希望能夠更好地闡釋他們的工作。
Q1: 既然隨機(jī)采樣在 k 極大時(shí)也能命中答案,你們關(guān)于「RL 提升 pass@k」的結(jié)論豈非毫無意義?
A1: 并非如此?!噶孔円l(fā)質(zhì)變」。理論上隨機(jī)打字確實(shí)有非零概率生成正確答案(約 1/V^L,V 為詞表大小約 3 萬,L 為輸出長度超 200),但實(shí)際搜索空間堪比天文數(shù)字。關(guān)鍵在于概率量級(jí):若基座模型正確概率為 1/10?-10?,RL 或需百萬次采樣才能找到;但若概率低于 1/101?,RL 幾乎無法突破局部最優(yōu)。我們的實(shí)驗(yàn)顯示,多數(shù)問題在 k=128 或 1024 時(shí)就能觀測(cè)到正確輸出(當(dāng)代算力可及),因此 pass@k 恰恰證明基座模型已具備必要推理路徑。
Q2: RL 將 pass@k 提升為 pass@1 不是常識(shí)嗎?
A2: RLVR 將 pass@k 轉(zhuǎn)為 pass@1 并不意外 —— 這本就是 RL 的設(shè)計(jì)目標(biāo)。但更值得關(guān)注的是:RLVR 在實(shí)驗(yàn)中并未展現(xiàn)出超越性。若基座模型無法解決的問題,RL 訓(xùn)練后依然無解。這清晰揭示了 RL 在推理任務(wù)中的能力上限。此現(xiàn)象與傳統(tǒng) RL(如 Atari 或圍棋)形成鮮明對(duì)比 —— 傳統(tǒng) RL 能通過自我對(duì)弈不斷發(fā)現(xiàn)新策略,而 LLM 的 RL 微調(diào)卻受限于基座模型原有能力。實(shí)際上,RL 微調(diào)模型在 pass@k 上表現(xiàn)反而不如基座模型,這一現(xiàn)象令許多研究者驚訝。
Q3: 論文是否宣稱 RL 完全無法激勵(lì)超越基座模型的推理?
A3:不,我們并未做出如此絕對(duì)論斷。本研究旨在通過系統(tǒng)實(shí)驗(yàn)探討「RL 能否真正擴(kuò)展 LLM 的推理能力」,并為學(xué)界提供新視角。
我們不排除模型規(guī)模與訓(xùn)練數(shù)據(jù)擴(kuò)展可能改變結(jié)果的可能性。事實(shí)上,我們正在基于 DeepSeek-V3-base 與 R1-zero 開展進(jìn)一步研究。
Q4: DeepSeek-Math 已報(bào)道類似結(jié)果,你們的工作有何不同?
A4: DS-Math 確實(shí)觀察到相似趨勢(shì),但其研究僅針對(duì)單一指令微調(diào)模型和兩個(gè)數(shù)學(xué)基準(zhǔn)。我們的工作系統(tǒng)性地考察了零 RL 設(shè)置的純基座模型,覆蓋更多 LLM 家族和多樣化基準(zhǔn)測(cè)試。我們還通過人工分析思維鏈、困惑度分析、不同 RL 算法對(duì)比、蒸餾模型評(píng)估等提供了更全面的 RLVR 能力邊界分析。我們認(rèn)為「RLVR 的推理范圍受限于基座模型」這一現(xiàn)象值得研究社區(qū)深入關(guān)注。
結(jié)語:超越「精耕細(xì)作」,探索「開疆拓土」
清華和上交的這項(xiàng)研究為當(dāng)前火熱的 RL 訓(xùn)練熱潮提供了冷思考:若將 base 模型比作一棵樹,RLVR 只能修剪枝葉使其更整齊,卻無法讓樹長出新的枝干。RLVR 在實(shí)現(xiàn)大模型能力提升的進(jìn)程中究竟能夠扮演怎樣的角色,是我們不得不思考的問題。
該研究可能暗示著,可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)更像是一位精于調(diào)律的樂師,而非譜寫新曲的作曲家。它能將模型已有的潛能雕琢得更加純熟,卻難以賦予其全新的能力維度。能否將當(dāng)前的 RLVR 視作開啟通用智能的萬能密鑰需要我們重新思考。
未來的探索之路,或許更需聚焦于基礎(chǔ)模型自身的架構(gòu)革新 —— 在知識(shí)表征的廣度、認(rèn)知結(jié)構(gòu)的深度以及推理脈絡(luò)的構(gòu)建等方面潛心耕耘,而非僅僅寄望于下游策略的微調(diào)潤色?;P偷摹冈贾腔邸购芸赡鼙坏凸?,知識(shí)蒸餾的思路很可能有更大的用武之地。
真正的「進(jìn)化」,或許需要更根本的范式變革 —— 讓模型不僅能高效利用既有知識(shí),更能主動(dòng)跳出先驗(yàn)去探索未知領(lǐng)域。
作者信息
該論文的一作是清華大學(xué)自動(dòng)化系三年級(jí)博士生 Yue Yang(樂洋),他專注于強(qiáng)化學(xué)習(xí)、世界模型、多模態(tài)大模型和具身智能的研究。他的導(dǎo)師是黃高教授。此前他作為兩位一作之一的論文《How Far is Video Generation from World Model: A Physical Law Perspective》被國內(nèi)外眾多大佬 Yan Lecun,Xie Saining,Kevin Murphy 等轉(zhuǎn)發(fā)。此外他也是 DeeR-VLA 的一作。
另一位一作是清華大學(xué)自動(dòng)化系本科生 Chen Zhiqi(陳之琪),目前在黃高教授團(tuán)隊(duì) LeapLab 實(shí)習(xí)。