偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

只訓練數(shù)學,卻在物理化學生物戰(zhàn)勝o1!新強化學習算法帶來顯著性能提升,還緩解訓練崩潰問題

人工智能 新聞
來自上海創(chuàng)智學院、上海AI Lab的MM-Eureka系列工作提出了新的強化學習算法CPGD(Clipped Policy Gradient Optimization with Policy Drift)——

只訓練數(shù)學,卻在物理化學生物戰(zhàn)勝o1!強化學習提升模型推理能力再添例證。

來自上海創(chuàng)智學院、上海AI Lab的MM-Eureka系列工作提出了新的強化學習算法CPGD(Clipped Policy Gradient Optimization with Policy Drift)——

相比于傳統(tǒng)GRPO、RLOO等算法顯著緩解了訓練不穩(wěn)定(甚至崩潰)的問題,并帶來顯著性能提升。

在多個基準測試上,使用GRPO訓練的模型在QwenVL2.5-7B基礎上平均提升了6%,而采用CPGD的MM-Eureka-CPGD-7B則進一步將整體提升幅度擴大到11%,驗證了CPGD在穩(wěn)定性與性能上的雙重優(yōu)勢。

具體的,相較基礎模型QwenVL2.5-7B,基于CPGD和15k多模態(tài)數(shù)學數(shù)據(jù)MMK12訓練的模型MM-Eureka-CPGD-7B在MMK12測試集(包括數(shù)學,以及訓練數(shù)據(jù)分布外領域的物理、化學、生物)上平均提升21.8%,在MathVista和MathVision等訓練數(shù)據(jù)分布外領域上也分別提升8.5%與11.4%,展現(xiàn)了優(yōu)異的泛化能力。

模型規(guī)模擴展到MM-Eureka-CPGD-32B上則進一步在MMK12測試集上超越了o1,值得注意的是,盡管MM-Eureka-CPGD-32B只在數(shù)學數(shù)據(jù)集上進行RL訓練,但在物理、化學和生物等學科均超過了o1。

圖片

△不同模型在MMK12測試集中不同學科上的表現(xiàn)

今年2月,他們推出MM-Eureka系列是最早在多模態(tài)領域利用大規(guī)模Rule-based RL復現(xiàn)DeepSeek-R1關鍵能力(例如Visual aha-moment、穩(wěn)定的回答長度增長)的工作之一,并將模型、代碼、高質(zhì)量多模態(tài)數(shù)據(jù)集MMK12、過程獎勵模型MM-PRM全部開源,發(fā)布三個月以來獲得了學術界和開源社區(qū)廣泛關注——模型已被下載超10000次,相關代碼庫獲得超1000 star,論文引用近100次。

近日,MM-Eureka系列工作在底層訓練框架、高質(zhì)量多模態(tài)推理數(shù)據(jù)、高效穩(wěn)定的RL訓練算法和過程獎勵模型等方面持續(xù)耕耘,在近期取得重要進展。

多模態(tài)強化學習框架

基于OpenRLHF,團隊構建了一個高效、可擴展的多模態(tài)強化學習框架,支持Qwen-VL、InternVL等多種模型與RL算法,包括GRPO、REINFORCE++、RLOO,以及提出的新型RL算法CPGD,并已成功訓練出Qwen2.5VL-32B、InternVL2.5-38B等大型模型。

該框架相較于已有方案(如R1-V),具備更強的可擴展性與穩(wěn)定性,為大規(guī)模多模態(tài)強化學習提供了基礎設施支撐。

強化學習訓練的穩(wěn)定性突破:CPGD算法

在第一階段的探索中,團隊發(fā)現(xiàn)移除新策略與參考模型之間的KL散度項后,規(guī)則型強化學習訓練在性能上限和資源效率方面表現(xiàn)更優(yōu)。然而,這也極易導致訓練過程不穩(wěn)定甚至崩潰。

為此,團隊在GRPO算法的基礎上,提出了雙邊裁剪、online filter以及兩階段訓練等應對方案,構建了MM-Eureka-7B與MM-Eureka-32B模型,并獲得良好結果。

盡管上述方法在實踐中有效,但仍存在繁瑣且治標不治本的問題。團隊在深入分析后發(fā)現(xiàn),問題核心在于新舊策略比值的極端高值行為

為此,他們提出新算法CPGD(Clipped Policy Gradient Optimization with Policy Drift),主要特性包括:

策略比值對數(shù)化處理:在原始PPO損失基礎上,團隊將策略比值取對數(shù),以削弱異常高值的影響,使訓練過程更穩(wěn)定,解決了現(xiàn)有的規(guī)則型強化學習方法(如 GRPO、REINFORCE++、RLOO)常面臨訓練崩潰與梯度不穩(wěn)定的問題。

引入策略漂移項(Policy Drift):在損失函數(shù)中引入新舊策略之間的KL散度項,有效約束策略變化幅度。團隊證明了CPGD對策略漂移的控制能力優(yōu)于PPO,并具有理論收斂性保障。

細粒度、可實現(xiàn)的損失函數(shù)形式:團隊設計了按token粒度計算的損失函數(shù),可拆分的裁剪項結合加權優(yōu)勢函數(shù),既便于引入GRPO式歸一化,也兼容online filter策略的等價加權方式。

新型KL估計器:在K3估計器基礎上,團隊構造了新的KL估計方式,以在保持梯度方向準確性的同時緩解高方差問題。

借助CPGD,團隊成功訓練出MM-Eureka-CPGD-7B/32B兩個版本的推理模型,不僅顯著提升了穩(wěn)定性,還進一步提高了性能表現(xiàn)。

值得注意的是,近期Minimax發(fā)布的M1模型中提出的CISPO優(yōu)化算法也提出了相應的訓練不穩(wěn)定瓶頸和基于policy gradient的改進方案,與在五月開源的CPGD算法有異曲同工之妙。

顯著性能提升,泛化能力優(yōu)越

在多個數(shù)據(jù)集上的測試表明,CPGD帶來的性能提升顯著:

  • 相較基礎模型QwenVL2.5-7B,MM-Eureka-CPGD-7B在 MMK12上提升21.8%,在MathVista和MathVision等訓練數(shù)據(jù)分布外領域上也分別提升8.5%與11.4%,展現(xiàn)了較好的泛化能力;
  • 對比主流強化學習算法(GRPO、REINFORCE++、RLOO等),CPGD在穩(wěn)定性、性能和泛化能力上全面領先,;在多個基準測試上,使用GRPO訓練的模型在QwenVL2.5-7B基礎上平均提升了6%,而采用CPGD的MM-Eureka-CPGD-7B則進一步將整體提升幅度擴大到11%;
  • 在與同規(guī)模開源模型對比中,MM-Eureka-CPGD-32B模型已接近閉源模型的表現(xiàn)。

圖片

△不同模型的表現(xiàn)

其中Overall的計算是以QwenVL2.5-7B為基準。表現(xiàn)最佳的模型以粗體顯示,第二好的模型以下劃線顯示(不包括OpenAI-o1/GPT-4o)

圖片

△不同模型的表現(xiàn)

其中Overall的計算是以QwenVL2.5-32B為基準。表現(xiàn)最佳的模型以粗體顯示,第二好的模型以下劃線顯示(不包括OpenAI-o1/GPT-4o)

高質(zhì)量多模態(tài)數(shù)學數(shù)據(jù)集MMK12

為解決現(xiàn)有數(shù)據(jù)集題型單一、答案不準的問題,團隊推出了MMK12數(shù)據(jù)集,覆蓋小學至高中階段、總計超過15000道多模態(tài)數(shù)學推理題,涵蓋幾何、函數(shù)、圖形推理等典型領域。

每道題都包含:

  • 圖文題干與配圖;
  • 標準答案;
  • 結構化的思維鏈(Chain-of-Thought)解題過程。

評測集還額外提供了包含數(shù)學、物理、化學、生物等學科的2000道選擇題,支持跨學科、多模態(tài)推理評測。目前,MMK12已被下載超1700 次,成為多模態(tài)推理任務中的重要基準。

圖片

MM-PRM:自動化過程監(jiān)督,推理路徑更可信

推理不應只關注最終答案,更重要的是每一步是否合理。為此,團隊推出 MM-PRM(多模態(tài)過程獎勵模型),關注模型“如何推理”的過程本身。

三階段全自動過程監(jiān)督流程:

使用500萬條數(shù)據(jù)訓練獲得推理增強的MM-Policy模型;

結合MCTS自動生成超過70萬條推理過程標注;

基于上述數(shù)據(jù)訓練過程獎勵模型MM-PRM,對每一步推理進行評估與引導。

它具備以下優(yōu)勢:

  • 高效生成,無需人工標注:僅用1萬道K12數(shù)學題,即可生成大規(guī)模過程監(jiān)督數(shù)據(jù);
  • 顯著提升推理路徑質(zhì)量:模型推理步驟更加嚴謹,而非僅靠“撞對”答案;
  • 跨任務泛化性強:在MMK12準確率提升近9%,在MathVista、OlympiadBench等挑戰(zhàn)集上同樣表現(xiàn)優(yōu)異;
  • 全模型適用:適配從8B到78B的多種規(guī)模模型;
  • 訓練穩(wěn)定性強:結合小學習率與軟標簽策略,有效降低訓練崩潰風險。

對強化學習與推理能力的思考

推理能力能否脫離知識獨立發(fā)展?

團隊觀察到:強化學習顯著提高了模型在“曾經(jīng)答對過”的問題上的表現(xiàn),但對“始終無法答對”的問題,效果有限。這表明RL主要在優(yōu)化已有知識調(diào)用和推理路徑的組織上發(fā)揮作用,但無法替代知識本身的缺失。

RL比SFT泛化能力更強

通過實驗,他們發(fā)現(xiàn)RL在跨學科任務(如物理、化學、生物)中的泛化能力遠超SFT或CoT-SFT。以數(shù)學與物理為例,RL分別帶來12.8和10.8 分的提升,而其他方法幾乎無效。這進一步說明,強化學習可能是提升模型邏輯推理能力的關鍵路徑。

PRM與RL的結合具備潛力,值得進一步探索

目前的強化學習訓練多聚焦于最終答案的準確性,尚未充分利用推理過程中的中間監(jiān)督信號。團隊認為,PRM有望成為強化學習訓練的重要補充。通過對模型每一步推理過程的打分與引導,PRM可以提供更細粒度的反饋,幫助模型在策略優(yōu)化中更穩(wěn)定地提升推理質(zhì)量與可解釋性。未來,團隊計劃探索將PRM與RL框架相結合,以構建“結果+過程”雙重優(yōu)化的多模態(tài)推理體系。這不僅有助于提升模型在復雜推理任務中的穩(wěn)健性,也可能為構建可控、安全的通用推理能力奠定基礎。

他們在策略優(yōu)化與過程監(jiān)督兩個核心方向,分別推出MM-Eureka-CPGD 與MM-PRM,構建了一套高度自動化、可復現(xiàn)、訓練穩(wěn)定、效果顯著的多模態(tài)推理方案。

該方案實現(xiàn)了準確率與推理長度的穩(wěn)定提升;推理路徑的可控化與解釋性增強,以及在多個任務與模型規(guī)模上的廣泛適配與泛化能力。

目前已開源所有模型、代碼與數(shù)據(jù),并提供完整技術報告,歡迎社區(qū)參與共建。未來,團隊將持續(xù)推進更高水平的多模態(tài)推理訓練與系統(tǒng)化優(yōu)化,敬請關注!

開源代碼:

https://github.com/ModalMinds/MM-EUREKA

https://github.com/ModalMinds/MM-EUREKA/tree/mm-prm

技術報告:

https://arxiv.org/abs/2503.07365

https://arxiv.org/abs/2505.12504

https://arxiv.org/abs/2505.13427

MMK12數(shù)據(jù)集:

https://huggingface.co/datasets/FanqingM/MMK12

模型權重:

https://huggingface.co/FanqingM/MM-Eureka-Qwen-7B

https://huggingface.co/FanqingM/MM-Eureka-Qwen-32B

https://huggingface.co/Zkkkai/CPGD-7B

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-09-18 10:37:00

強化學習AI模型

2025-01-21 09:00:00

2025-05-28 02:25:00

2022-11-02 14:02:02

強化學習訓練

2025-07-09 01:22:00

AI強化學習監(jiān)督學習

2025-02-20 09:11:28

2024-09-13 06:32:25

2025-06-30 09:08:00

2024-09-14 14:00:00

AI模型

2021-07-27 15:55:01

人工智能機器學習技術

2024-03-15 15:26:00

AI數(shù)據(jù)

2025-01-17 13:41:24

2025-06-25 09:28:38

2024-10-11 13:30:00

2023-04-23 10:12:14

算法強化學習

2025-10-23 09:05:50

2020-04-15 16:44:38

谷歌強化學習算法

2025-09-24 08:53:10

2023-05-04 15:53:34

強化學習開發(fā)

2025-03-10 01:00:00

點贊
收藏

51CTO技術棧公眾號