偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型推理學(xué)習(xí)新范式!ExGRPO框架:從盲目刷題到聰明復(fù)盤(pán)

人工智能
實(shí)驗(yàn)結(jié)果顯示,與傳統(tǒng)的在線策略RLVR(基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí))方法相比,ExGRPO在不同基準(zhǔn)上均帶來(lái)了一定程度的性能提升。尤其在一些極具挑戰(zhàn)性的任務(wù)(如AIME數(shù)學(xué)競(jìng)賽題)上,提升效果更為明顯,證明了ExGRPO在攻克復(fù)雜推理難題上的有效性。

大模型在強(qiáng)化學(xué)習(xí)過(guò)程中,終于知道什么經(jīng)驗(yàn)更寶貴了!

來(lái)自上海人工智能實(shí)驗(yàn)室、澳門(mén)大學(xué)、南京大學(xué)和香港中文大學(xué)的研究團(tuán)隊(duì),最近提出了一套經(jīng)驗(yàn)管理和學(xué)習(xí)框架ExGRPO——

通過(guò)科學(xué)地識(shí)別、存儲(chǔ)、篩選和學(xué)習(xí)有價(jià)值的經(jīng)驗(yàn),讓大模型在優(yōu)化推理能力的道路上,走得更穩(wěn)、更快、更遠(yuǎn)。

圖片

實(shí)驗(yàn)結(jié)果顯示,與傳統(tǒng)的在線策略RLVR(基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí))方法相比,ExGRPO在不同基準(zhǔn)上均帶來(lái)了一定程度的性能提升。

尤其在一些極具挑戰(zhàn)性的任務(wù)(如AIME數(shù)學(xué)競(jìng)賽題)上,提升效果更為明顯,證明了ExGRPO在攻克復(fù)雜推理難題上的有效性。

而且該研究也揭示了一些有趣的現(xiàn)象,比如滾雪球效應(yīng)。

不過(guò)在展開(kāi)之前,我們先來(lái)回答一個(gè)核心問(wèn)題——

大模型推理的下一步,為什么我們需要“經(jīng)驗(yàn)驅(qū)動(dòng)”的訓(xùn)練方法?

2025年初以來(lái),賦能大模型推理能力的技術(shù)路線以基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Verifiable Rewards)為主導(dǎo)。

簡(jiǎn)單來(lái)說(shuō),就是讓模型像個(gè)學(xué)生一樣,不斷地“刷題”(生成推理步驟),然后由“判卷老師”(獎(jiǎng)勵(lì)模型)來(lái)打分,模型根據(jù)分?jǐn)?shù)高低調(diào)整自己的“解題思路”。

但RLVR存在一個(gè)天然缺陷:經(jīng)驗(yàn)浪費(fèi)。

在標(biāo)準(zhǔn)的RLVR訓(xùn)練中,模型生成的推理軌跡(Rollouts)只會(huì)被使用一次,之后就被丟棄。這意味著模型從來(lái)不會(huì)回頭復(fù)盤(pán),甚至不記得自己是如何答對(duì)或答錯(cuò)的。

以現(xiàn)實(shí)世界作比,它們像一個(gè)只做新題、從不復(fù)習(xí)的學(xué)生。每當(dāng)模型做完一道題,無(wú)論這道題的解法多么精妙、多么有啟發(fā)性,都可能都會(huì)在一次參數(shù)更新后,把這次寶貴的“解題經(jīng)驗(yàn)”忘得一干二凈。

這種“學(xué)完就忘”的模式,由于Rollout代價(jià)昂貴不僅導(dǎo)致了計(jì)算資源浪費(fèi),也讓訓(xùn)練過(guò)程變得非常不穩(wěn)定。

因此,學(xué)會(huì)“溫故而知新”,讓模型根據(jù)“錯(cuò)題本”,把每一次寶貴的成功經(jīng)驗(yàn)都內(nèi)化為自己的能力對(duì)訓(xùn)練效率和能力提升都至關(guān)重要。

值得注意的是,強(qiáng)化學(xué)習(xí)著名學(xué)者David Silver和Richard S. Sutton在《Welcome to the Era of Experience》的Position Paper中提到:

人類數(shù)據(jù)正在用盡,經(jīng)驗(yàn)將是下一個(gè)超級(jí)數(shù)據(jù)源,是能夠?yàn)锳I帶來(lái)能力提升的下一個(gè)突破口。

但是,一個(gè)看似簡(jiǎn)單卻被忽視的問(wèn)題是:

既然經(jīng)驗(yàn)這么重要,那么什么樣的經(jīng)驗(yàn)才值得反復(fù)學(xué)習(xí)?在大模型全面鋪開(kāi)應(yīng)用的當(dāng)下,面對(duì)經(jīng)驗(yàn)這個(gè)超級(jí)數(shù)據(jù)源的增長(zhǎng),其量級(jí)和高復(fù)雜性之高是我們不得不考慮的因素。

針對(duì)這一挑戰(zhàn),ExGRPO框架應(yīng)運(yùn)而生。

圖片圖1. 主流人工智能范式的簡(jiǎn)要時(shí)間軸示意圖??v軸表示該領(lǐng)域總投入和計(jì)算資源中專注于強(qiáng)化學(xué)習(xí)(RL)的比例。截取自David Silver, Richard S. Sutton. Welcome to the Era of Experience.

什么樣的“經(jīng)驗(yàn)”才是好經(jīng)驗(yàn)?

在設(shè)計(jì)一個(gè)“復(fù)習(xí)”系統(tǒng)前,我們首先要搞清楚一個(gè)根本問(wèn)題:

對(duì)一個(gè)正在學(xué)習(xí)推理的模型來(lái)說(shuō),什么樣的“解題經(jīng)驗(yàn)”才是最有價(jià)值的?是不是所有做對(duì)的題目都值得反復(fù)回味?

為了找到答案,該工作進(jìn)行了一系列有趣的探索性實(shí)驗(yàn)(見(jiàn)圖2),并發(fā)現(xiàn),一份“高質(zhì)量”的經(jīng)驗(yàn),其價(jià)值體現(xiàn)在兩個(gè)關(guān)鍵維度上:問(wèn)題的難度解題路徑的質(zhì)量。

問(wèn)題的甜蜜點(diǎn):中等難度的問(wèn)題

作者把模型在訓(xùn)練中遇到的問(wèn)題,根據(jù)它當(dāng)下的“正確率”動(dòng)態(tài)地分成了三類:簡(jiǎn)單題(正確率>75%)、中等題(25%-75%)和難題(<25%)。

然后,分別只用這三類問(wèn)題來(lái)進(jìn)行On-Policy RLVR訓(xùn)練模型。

結(jié)果一目了然:只刷“中等難度”問(wèn)題的模型,最終性能提升最大。

這也符合一般直覺(jué),簡(jiǎn)單題模型通常已經(jīng)掌握了,反復(fù)練習(xí)邊際效益遞減,容易“學(xué)廢”;對(duì)于難題,遠(yuǎn)超模型當(dāng)前能力,強(qiáng)行學(xué)習(xí)容易讓模型“受挫”,產(chǎn)生胡亂猜測(cè)的壞習(xí)慣。

而中等難度的題恰好處于模型的最近發(fā)展區(qū),既有挑戰(zhàn)性,又能通過(guò)努力解決,是學(xué)習(xí)效率最高的甜蜜點(diǎn)。

解題路徑的“自信度”:低熵軌跡

另一方面,同樣是做對(duì)一道題,解題過(guò)程(下文也稱為軌跡)的質(zhì)量也千差萬(wàn)別。

有的解法思路清晰、一步到位;有的則繞來(lái)繞去、充滿了不確定性,甚至可能是蒙對(duì)的。如何量化這種解題思路的質(zhì)量呢?

外部的強(qiáng)模型也許是一個(gè)選擇,但是在訓(xùn)練中使用代價(jià)過(guò)高并且會(huì)拖慢速度。

為了找到可靠的在線代理指標(biāo),作者以較強(qiáng)能力的Qwen3-32B模型作為參考:評(píng)價(jià)推理過(guò)程的對(duì)錯(cuò),并看看有沒(méi)有內(nèi)源性的在線指標(biāo)能夠和外部Judge的判斷正相關(guān)。

在此,作者發(fā)現(xiàn)推理軌跡的Token平均熵是一個(gè)優(yōu)秀的指標(biāo),在所有做對(duì)的題目中,那些推理過(guò)程邏輯更正確的解法,其對(duì)應(yīng)的熵值顯著更低。

進(jìn)一步地,高熵軌跡很多時(shí)候只是幸運(yùn)的瞎猜,反復(fù)學(xué)習(xí)這些軌跡不僅沒(méi)有幫助,反而可能污染模型的邏輯能力。

圖片圖2:模型經(jīng)驗(yàn)=問(wèn)題+對(duì)應(yīng)推理過(guò)程。什么才是“好問(wèn)題”和“好推理過(guò)程”? (a) 使用中等難度問(wèn)題訓(xùn)練的模型性能最佳。(b) 邏輯正確的推理過(guò)程通常表現(xiàn)出更低的熵值。 (c) 中等難度推理正確的熵值也更密集于低熵值區(qū)域。

這樣符合我們的認(rèn)知直覺(jué):在人類學(xué)習(xí)中,難度適中的題目、邏輯清晰的解法,往往是最高效的學(xué)習(xí)材料。太簡(jiǎn)單的題目讓人停滯不前,太難的題目則令人無(wú)從下手。

ExGRPO框架: 為模型打造的“高價(jià)值錯(cuò)題本+溫習(xí)系統(tǒng)”

基于上述洞見(jiàn),作者設(shè)計(jì)了ExGRPO框架,包含了兩個(gè)核心部件:經(jīng)驗(yàn)管理和混合經(jīng)驗(yàn)優(yōu)化。

圖片△圖3:ExGRPO框架概覽:經(jīng)驗(yàn)管理 + 策略優(yōu)化

經(jīng)驗(yàn)管理:精挑細(xì)選,分類歸檔

作者將模型經(jīng)驗(yàn)定義為問(wèn)題+對(duì)應(yīng)推理過(guò)程,分兩個(gè)層級(jí)進(jìn)行經(jīng)驗(yàn)的管理和挑選,具體它分為三步:

1、經(jīng)驗(yàn)收集:ExGRPO會(huì)建立一個(gè)“經(jīng)驗(yàn)回放池”,像一個(gè)巨大的“錯(cuò)題本”,專門(mén)收集模型在訓(xùn)練過(guò)程中所有成功的推理案例。這也是傳統(tǒng)強(qiáng)化學(xué)習(xí)和先前相關(guān)工作中均擁有的基礎(chǔ)機(jī)制。

2、經(jīng)驗(yàn)劃分與存儲(chǔ):根據(jù)每個(gè)問(wèn)題最新的“在線正確率”,將經(jīng)驗(yàn)池中的問(wèn)題動(dòng)態(tài)地劃分到不同的“難度分區(qū)”里。這就像給錯(cuò)題本按章節(jié)和難度進(jìn)行分類。這樣,所有經(jīng)驗(yàn)都被貼上了“簡(jiǎn)單”、“中等”、“困難”的標(biāo)簽,管理起來(lái)一目了然。

同時(shí),為了防止模型在簡(jiǎn)單問(wèn)題上“刷分”而產(chǎn)生過(guò)擬合,ExGRPO還擁有一個(gè)“退休機(jī)制”(Retired Set),將模型已經(jīng)完全掌握(例如連續(xù)多次全部成功解答)的問(wèn)題移出學(xué)習(xí)隊(duì)列,讓模型始終聚焦于更具挑戰(zhàn)性的任務(wù)。

3、經(jīng)驗(yàn)篩選:按照之前分析實(shí)驗(yàn)得到的啟示和洞見(jiàn),ExGRPO從兩個(gè)層次挑選經(jīng)驗(yàn):

  • 問(wèn)題篩選:利用高斯分布概率模型,有偏地優(yōu)先從中等難度的分組中抽取問(wèn)題。這樣能確保模型總是在學(xué)習(xí)效率最高的甜蜜點(diǎn)上。
  • 軌跡篩選:對(duì)于選出的問(wèn)題,如果它歷史上有多個(gè)成功解法,只挑選出當(dāng)前模型看來(lái)熵最低的那一個(gè),也就是最篤定清晰的那個(gè)解法。

通過(guò)這套精細(xì)化管理,確保了每次復(fù)習(xí)的都是最高質(zhì)量的黃金經(jīng)驗(yàn)。

混合策略優(yōu)化目標(biāo):溫故而知新

選好了復(fù)習(xí)材料,接下來(lái)就是如何復(fù)習(xí)經(jīng)驗(yàn)了。

ExGRPO采用了一種混合策略的優(yōu)化目標(biāo),除了對(duì)重要性采樣進(jìn)行修正外,在每一次訓(xùn)練迭代中,Mini-Batch中一部分計(jì)算資源用于讓模型探索全新的問(wèn)題(On-policy),另一部分則用于學(xué)習(xí)從經(jīng)驗(yàn)池中精心篩選出的經(jīng)驗(yàn)(Off-policy)。

巧妙地平衡了探索新知(On-Policy Exploration)和復(fù)習(xí)舊識(shí)(Experience Exploitation)。

圖片圖4:ExGRPO混合策略優(yōu)化目標(biāo)。ρ代表經(jīng)驗(yàn)在Mini-Batch優(yōu)化中的混合比例。

這種“一半時(shí)間學(xué)新,一半時(shí)間復(fù)習(xí)”的模式,讓模型既能不斷拓展認(rèn)知邊界,又能持續(xù)鞏固和內(nèi)化已有的成功經(jīng)驗(yàn),從而在保證訓(xùn)練穩(wěn)定性的同時(shí),極大地提升了學(xué)習(xí)效率。

此外,作者還引入了策略塑形(Policy Shaping)機(jī)制,確保模型在復(fù)習(xí)過(guò)往成功經(jīng)驗(yàn)時(shí),不會(huì)變得過(guò)于僵化,喪失探索創(chuàng)新的能力。

ExGRPO實(shí)驗(yàn)結(jié)果和分析:更強(qiáng)、更穩(wěn)、更高效

作者在6個(gè)不同規(guī)模(1.5B到8B)和架構(gòu)(Qwen、Llama)的模型(Base、Instruct)上,對(duì)ExGRPO進(jìn)行了全面的測(cè)試,涵蓋了從AIME、MATH等數(shù)學(xué)推理的 benchmark,到GPQA、MMLU-Pro等通用推理benchmark。

與傳統(tǒng)的在線策略RLVR方法相比,平均所有模型和測(cè)試集,ExGRPO相對(duì)于On-Policy方法(Dr. GRPO),分別帶來(lái)了+3.5和+7.6個(gè)點(diǎn)的分布內(nèi)、分布外性能提升。

尤其在一些極具挑戰(zhàn)性的任務(wù)(如AIME數(shù)學(xué)競(jìng)賽題)上,提升效果更為明顯,證明了ExGRPO在攻克復(fù)雜推理難題上的有效性。

圖片△表1:ExGRPO在多個(gè)數(shù)學(xué)與通用推理基準(zhǔn)上的性能表現(xiàn)

圖片△圖5:ExGRPO在不同模型架構(gòu)和尺寸上的泛化能力

  • 賦能強(qiáng)模型

即使是在已經(jīng)很強(qiáng)的模型(如經(jīng)過(guò)外部R1軌跡數(shù)據(jù)作為RLVR引導(dǎo)的LUFFY)上進(jìn)行持續(xù)學(xué)習(xí),ExGRPO依然能帶來(lái)穩(wěn)定的性能增益,而標(biāo)準(zhǔn)的在線RL方法反而會(huì)導(dǎo)致性能下降。

  • “救活”弱模型

此外,作者發(fā)現(xiàn)對(duì)于像Llama-3.1 8B Base基模,由于其初始推理能力較弱,標(biāo)準(zhǔn)的On-Policy強(qiáng)化學(xué)習(xí)方法根本無(wú)法進(jìn)行有效訓(xùn)練,很快就會(huì)訓(xùn)練崩潰。

而ExGRPO憑借其經(jīng)驗(yàn)回放機(jī)制,能夠捕捉到早期偶然的lucky hits,并將其作為寶貴的學(xué)習(xí)信號(hào)反復(fù)利用,最終成功地將模型“救活”并穩(wěn)定地提升其性能。

圖片圖6:在Llama-3.1 8B訓(xùn)練過(guò)程中On-Policy與ExGRPO的學(xué)習(xí)動(dòng)態(tài)對(duì)比。ExGRPO能夠穩(wěn)定訓(xùn)練并獲得更高的獎(jiǎng)勵(lì),而On-Policy則容易出現(xiàn)訓(xùn)練崩潰。

此外,該研究也揭示了一些有趣的現(xiàn)象,比如滾雪球效應(yīng)。高熵的經(jīng)驗(yàn)中,經(jīng)常包含著一些看似正確但邏輯上有瑕疵的步驟(比如在數(shù)學(xué)題里濫用代碼塊來(lái)黑箱計(jì)算)。

如果讓模型反復(fù)學(xué)習(xí)這些經(jīng)驗(yàn),就會(huì)像滾雪球一樣,讓錯(cuò)誤的推理習(xí)慣根深蒂固。ExGRPO的經(jīng)驗(yàn)篩選機(jī)制,切斷了這種錯(cuò)誤學(xué)習(xí)的路徑。

迎接“經(jīng)驗(yàn)即媒介”的AI新時(shí)代

正如強(qiáng)化學(xué)習(xí)領(lǐng)域的先驅(qū)David Silver和Richard Sutton所言:

我們正處于一個(gè)新時(shí)期的風(fēng)口浪尖,在這個(gè)時(shí)期,經(jīng)驗(yàn)將成為能力提升的主要媒介。

團(tuán)隊(duì)表示,ExGRPO的核心貢獻(xiàn),是為模型推理能力的提升,提供了一套系統(tǒng)性的、基于經(jīng)驗(yàn)的學(xué)習(xí)框架。有理由相信, Principled Experience Management(有原則的經(jīng)驗(yàn)管理)將成為未來(lái)構(gòu)建更強(qiáng)大、更高效的AI模型訓(xùn)練生態(tài)中的關(guān)鍵一環(huán)。

它不再讓寶貴的成功經(jīng)驗(yàn)付諸東流,而是通過(guò)智能地識(shí)別、管理和重放高價(jià)值經(jīng)驗(yàn),像錯(cuò)題本一般,讓模型真正擁有了“溫故而知新”的能力。

這不僅顯著提升了訓(xùn)練的效率和穩(wěn)定性,也為我們打開(kāi)了通往更強(qiáng)大、更通用的人工智能的一扇新窗。

論文:https://arxiv.org/pdf/2510.02245
Code:https://github.com/ElliottYan/LUFFY/tree/main/ExGRPO
模型:https://huggingface.co/collections/rzzhan/exgrpo-68d8e302efdfe325187d5c96

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2025-06-09 09:32:35

2025-06-26 09:06:59

2025-07-16 10:42:32

2011-07-05 17:45:07

PHP框架

2025-05-30 02:00:00

獎(jiǎng)勵(lì)模型RRMAI

2025-06-13 08:45:00

數(shù)據(jù)模型可視化

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-10-21 09:06:00

2025-10-28 08:46:00

2025-11-04 01:43:00

循環(huán)語(yǔ)言模型架構(gòu)

2025-10-11 09:23:28

RLPT強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)

2025-04-30 16:48:07

2025-05-16 08:44:01

2024-09-04 18:22:11

2023-06-09 07:29:03

模型文本document

2022-05-25 10:28:35

模型AI

2022-11-03 14:13:52

強(qiáng)化學(xué)習(xí)方法

2025-06-10 03:30:00

2019-12-03 09:31:14

編程語(yǔ)言程序員Python

2024-02-01 08:34:30

大模型推理框架NVIDIA
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)