登頂多模態(tài)推理榜MMMU！UCSD新方法超越GPT-5、Gemini

2025-09-19 14:53:34

DreamPRM由加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)開發(fā)，在數(shù)學(xué)推理權(quán)威測(cè)評(píng)榜MMMU上獲得了第一名。

近年來，大語言模型（LLM）在推理能力上的進(jìn)展顯著，其中過程獎(jiǎng)勵(lì)模型（Process Reward Model, PRM）的提出，使得模型能夠在推理鏈條的中間步驟獲得監(jiān)督，從而更穩(wěn)健地選擇合理的解題路徑。

這類方法在文本推理任務(wù)中已經(jīng)取得了良好效果，但在擴(kuò)展至多模態(tài)場(chǎng)景 時(shí)，仍然面臨兩個(gè)突出挑戰(zhàn)：

分布偏移：多模態(tài)輸入空間巨大，訓(xùn)練與推理分布往往存在顯著差異；

數(shù)據(jù)質(zhì)量不均：大規(guī)模訓(xùn)練集不可避免地包含噪聲或低質(zhì)量樣本，降低了有效監(jiān)督信號(hào)。

因此，如何在多模態(tài)推理中有效利用高質(zhì)量樣本，抑制噪聲樣本的負(fù)面影響，成為亟需解決的問題。

針對(duì)于此，研究人員設(shè)計(jì)了新的訓(xùn)練框架，通過雙層優(yōu)化框架，將數(shù)據(jù)樣本的權(quán)重（Instance Weights）作為可學(xué)習(xí)參數(shù)，動(dòng)態(tài)改變數(shù)據(jù)樣本的在訓(xùn)練中的影響。

論文地址：https://arxiv.org/abs/2509.05542

代碼地址：https://github.com/coder-qicao/DreamPRM-1.5

MMMU Leaderboard

論文第一作者為博士生Qi Cao，通訊作者為該校副教授Pengtao Xie。

從DreamPRM到DreamPRM-1.5

從「領(lǐng)域加權(quán)」到「樣本加權(quán)」

此前，研究人員提出了DreamPRM 框架，通過領(lǐng)域級(jí)重加權(quán)（domain reweighting）的方式，在不同數(shù)據(jù)子集之間分配權(quán)重，從而提升訓(xùn)練效果。

在此基礎(chǔ)上，DreamPRM-1.5將加權(quán)粒度進(jìn)一步細(xì)化到單個(gè)訓(xùn)練樣本：

高質(zhì)量樣本獲得更大權(quán)重；
低質(zhì)量或噪聲樣本權(quán)重降低。

這種實(shí)例級(jí)重加權(quán)（instance reweighting）策略，使模型能夠充分挖掘每條數(shù)據(jù)的潛在價(jià)值。

兩種方法：Instance Table和Instance Net

DreamPRM1.5的兩種模型架構(gòu)

為了實(shí)現(xiàn)「樣本級(jí)加權(quán)」，研究人員設(shè)計(jì)了兩種互補(bǔ)方案：

Instance Table

給每個(gè)訓(xùn)練樣本一個(gè)獨(dú)立的權(quán)重參數(shù)；

靈活度高，尤其適合小規(guī)模數(shù)據(jù)集；

缺點(diǎn)是參數(shù)量和樣本數(shù)掛鉤，數(shù)據(jù)一大就很難撐住。

Instance Net

不直接存表，而是用一個(gè)小型MLP網(wǎng)絡(luò)來預(yù)測(cè)每條數(shù)據(jù)的權(quán)重；

參數(shù)量固定，不受數(shù)據(jù)規(guī)模限制；

更適合大規(guī)模訓(xùn)練，泛化能力更強(qiáng)。

這就像兩種「學(xué)習(xí)筆記」方式：Instance Table 像是給每道題都寫一條批注；Instance Net 則像是總結(jié)出一套「看題給分」的規(guī)則。

方法核心

雙層優(yōu)化（Bi-level Optimization）

DreamPRM-1.5 的訓(xùn)練流程采用 雙層優(yōu)化框架：

下層優(yōu)化：利用樣本權(quán)重對(duì) PRM 進(jìn)行更新：

上層優(yōu)化：在元數(shù)據(jù)集上評(píng)估推理表現(xiàn)，并基于反饋動(dòng)態(tài)更新樣本權(quán)重：

這種設(shè)計(jì)確保了權(quán)重的學(xué)習(xí)不是靜態(tài)設(shè)定，而是由推理效果驅(qū)動(dòng)、動(dòng)態(tài)調(diào)整的，從而增強(qiáng)了模型在復(fù)雜任務(wù)中的適應(yīng)性。

生成式獎(jiǎng)勵(lì)模型

面向推理過程的打分機(jī)制

在DreamPRM-1.5中，研究人員采用了生成式獎(jiǎng)勵(lì)模型（Generative Reward Model） 來對(duì)推理過程中的每一步進(jìn)行評(píng)分。其核心思想是：

評(píng)分方式：模型在每一步輸出「+」或「-」，分別表示該步推理是否合理；
打分機(jī)制：通過softmax計(jì)算「+」的概率，將其作為該步驟的置信度；
聚合策略：對(duì)整條推理鏈的步驟分?jǐn)?shù)進(jìn)行聚合（平均），再與標(biāo)準(zhǔn)答案進(jìn)行對(duì)比，用于指導(dǎo)樣本權(quán)重的更新。

這一設(shè)計(jì)的優(yōu)點(diǎn)在于，它不僅能逐步評(píng)估推理鏈條的合理性，還能為實(shí)例重加權(quán) 提供更細(xì)粒度的信號(hào)。

實(shí)驗(yàn)設(shè)計(jì)與實(shí)現(xiàn)細(xì)節(jié)

模型基座：采用InternVL3-1B作為PRM的基礎(chǔ)模型，并在推理階段基于GPT-5-mini進(jìn)行測(cè)試。設(shè)計(jì)了生成式獎(jiǎng)勵(lì)模型的
訓(xùn)練數(shù)據(jù)：從VisualPRM-400k中采樣不同規(guī)模的數(shù)據(jù)（12k、100k）分別訓(xùn)練Instance Table與Instance Net
元數(shù)據(jù)集：使用MMMU-Pro的標(biāo)準(zhǔn)分割（僅使用test set數(shù)據(jù)，以避免與validation set出現(xiàn)重合），生成候選推理鏈作為meta set，用于權(quán)重更新。
訓(xùn)練流程：

a.冷啟動(dòng)：先進(jìn)行一次有監(jiān)督微調(diào)（20k樣本），使模型能夠穩(wěn)定輸出「+/-」標(biāo)記；

b.雙層優(yōu)化：在此基礎(chǔ)上進(jìn)行100k步迭代，采用AdamW優(yōu)化器與余弦學(xué)習(xí)率調(diào)度。

計(jì)算資源：單卡NVIDIA A100，訓(xùn)練約72小時(shí)完成

實(shí)驗(yàn)結(jié)果

在MMMU基準(zhǔn)上的表現(xiàn)

研究人員在MMMU（Massive Multi-discipline Multimodal Understanding） 基準(zhǔn)上對(duì)方法進(jìn)行了系統(tǒng)評(píng)測(cè)。

該基準(zhǔn)涵蓋30個(gè)學(xué)科、183個(gè)子領(lǐng)域，題型覆蓋圖表、地圖、化學(xué)結(jié)構(gòu)等多模態(tài)輸入，是目前最具挑戰(zhàn)性的推理測(cè)試之一。

主要結(jié)果

GPT-5-mini w/ thinking（基線）：80.0%
DreamPRM-1.5（Instance Table）：84.6% （+4.6）
DreamPRM-1.5（Instance Net）：83.6% （+3.6）

對(duì)比分析

No Selection：使用相同數(shù)據(jù)但不做重加權(quán)，僅有 79.1%，驗(yàn)證了實(shí)例加權(quán)的重要性；
VisualPRM：盡管使用完整的 400k 數(shù)據(jù)集，但僅達(dá)到 80.5%，說明數(shù)據(jù)規(guī)模并不能完全彌補(bǔ)質(zhì)量差異；
Self-consistency：經(jīng)典的 test-time scaling 方法為 81.4%，依然低于 DreamPRM-1.5。

整體來看，DreamPRM-1.5 不僅顯著超越了基于 GPT-5-mini 的多種強(qiáng)基線，還在精度上超過了GPT-5（84.2%）和Gemini 2.5 Pro Deep-Think（84.0%）等頂級(jí)閉源模型。

結(jié)論與展望

DreamPRM-1.5將實(shí)例級(jí)重加權(quán)引入多模態(tài)推理訓(xùn)練中，通過雙層優(yōu)化動(dòng)態(tài)調(diào)整樣本權(quán)重，使模型能夠更好地識(shí)別和利用高質(zhì)量數(shù)據(jù)。

主要貢獻(xiàn)體現(xiàn)在：

提出實(shí)例級(jí)重加權(quán)框架，突破了僅在領(lǐng)域級(jí)別加權(quán)的限制；
設(shè)計(jì)了Instance Table 與 Instance Net兩種互補(bǔ)實(shí)現(xiàn)，兼顧小規(guī)模與大規(guī)模訓(xùn)練場(chǎng)景；
在MMMU基準(zhǔn)上取得新的SOTA結(jié)果，超過多個(gè)閉源大模型。

這一結(jié)果表明，在未來的推理模型研究中，數(shù)據(jù)質(zhì)量的精細(xì)利用方式也是值得關(guān)注的重要方面。

更智能的樣本加權(quán)與過程評(píng)分方法，有望成為推動(dòng)多模態(tài)推理進(jìn)一步發(fā)展的關(guān)鍵方向。

責(zé)任編輯：張燕妮來源：新智元