偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="h678i"><p id="h678i"></p></sub>

<sub id="h678i"><p id="h678i"><li id="h678i"></li></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

NeurIPS 25 | GRPO進(jìn)階版來了，GVPO重構(gòu)大模型后訓(xùn)練范式

2025-10-14 13:55:57

人工智能新聞

GVPO 通過避免重要性采樣解決了 GRPO 的穩(wěn)定性難題，并能在理論上提供了唯一最優(yōu)解保證，并且在實驗中表現(xiàn)全面超越現(xiàn)有方法。

大模型后訓(xùn)練（post-training）正在成為 AI 進(jìn)化的關(guān)鍵一環(huán)。從最早的 SFT（監(jiān)督微調(diào)），再到近來大火的 GRPO，一條核心主線貫穿始終：如何讓大模型具有更強(qiáng)的推理能力、更好地對齊人類偏好，同時保持穩(wěn)定和高效。

然而，GRPO 雖然在 DeepSeek-R1 等項目中大放異彩，但其訓(xùn)練不穩(wěn)定、超參數(shù)敏感的問題一直限制其大規(guī)模落地。

現(xiàn)在，作業(yè)幫團(tuán)隊聯(lián)合香港科技大學(xué)（廣州）在 NeurIPS 2025 上提出了全新方法：GVPO（Group Variance Policy Optimization）。GVPO 通過避免重要性采樣解決了 GRPO 的穩(wěn)定性難題，并能在理論上提供了唯一最優(yōu)解保證，并且在實驗中表現(xiàn)全面超越現(xiàn)有方法。

論文標(biāo)題: GVPO: Group Variance Policy Optimization for Large Language Model Post-Training
論文鏈接：https://arxiv.org/abs/2504.19599
作者：張愷晨、洪煜中、鮑軍威、蔣宏飛、宋旸、洪定乾、熊輝
單位：作業(yè)幫教育科技有限公司、香港科技大學(xué)（廣州）

GVPO 設(shè)計動機(jī)

受到 DPO 的啟發(fā)，研究團(tuán)隊也希望在 GRPO 的場景（即每個 prompt 進(jìn)行多次采樣）下，同樣能夠利用 KL 約束下 Reward 最大化的解析解：

但這里存在一個實際困難：公式中涉及的 Z (x)，它需要對所有可能的采樣 y 進(jìn)行期望計算，在實踐中幾乎不可行。為了解決這個問題，研究團(tuán)隊發(fā)現(xiàn)：只要保證同一個 prompt 下所有采樣對應(yīng)的梯度權(quán)重之和為 0，Z (x) 就會自然消掉，從而規(guī)避了這一計算難題。

GVPO 是什么？

基于這一思路，研究團(tuán)隊首先提出了以梯度形式表示的 GVPO Loss:

其中。

研究團(tuán)隊進(jìn)一步分析后發(fā)現(xiàn)，GVPO 擁有非常直觀的物理意義。其 Loss 等價于一個均方誤差損失（MSE Loss）：

其中：

真實值來自實際獎勵的中心距離；
預(yù)測值來自隱式獎勵（由當(dāng)前策略與參考策略推導(dǎo)）。

換句話說，GVPO 在本質(zhì)上是用 MSE Loss 讓「隱式獎勵」去逼近「真實獎勵」。

兩大關(guān)鍵優(yōu)勢

1. 唯一最優(yōu)解保證

基于 GVPO 的 MSE 形式，研究團(tuán)隊從必要性和充分性兩方面嚴(yán)格證明：當(dāng)且僅當(dāng) R_θ=R 時，GVPO 達(dá)到唯一最優(yōu)解。換句話說，GVPO 的理論最優(yōu)解正是 KL 約束下的獎勵最大化的解。這一點在數(shù)學(xué)上確保了算法的有效性與穩(wěn)定性，也為其在實際應(yīng)用中的可靠表現(xiàn)提供了堅實保障。

2. 無須重要性采樣

研究團(tuán)隊進(jìn)一步發(fā)現(xiàn)，GVPO 的唯一最優(yōu)解對訓(xùn)練時的采樣分布幾乎沒有限制。除了常見的和前一步，GVPO 還能適配任意滿足條件的分布 —— 而這種條件在當(dāng)代大模型的 Softmax 解碼過程中天然成立。

這意味著 GVPO 能夠天然支持無需重要性采樣的 off-policy 訓(xùn)練，在充分利用人類專家數(shù)據(jù)、蒸餾數(shù)據(jù)和歷史數(shù)據(jù)的同時，避免了重要性采樣常見的訓(xùn)練不穩(wěn)定問題，從而更契合大規(guī)模工業(yè)級應(yīng)用場景。

三種分析視角：從不同角度理解 GVPO

研究團(tuán)隊發(fā)現(xiàn) GVPO 的核心思想可以從三個互補(bǔ)的分析視角來理解，每一種都對應(yīng)著圖中展示的等價損失函數(shù)：

1. 負(fù)對數(shù)似然視角（NLL）

在這個視角下，GVPO 的損失函數(shù)可以表示為帶權(quán)重的負(fù)對數(shù)似然。一個關(guān)鍵點是：帶 KL 約束的 Policy Gradient 實際上可以看作 GVPO 在 on-policy 采樣下的特例。換句話說，GVPO 不僅涵蓋了傳統(tǒng)策略梯度方法的更新方式，還進(jìn)一步解耦了采樣分布與學(xué)習(xí)策略，從而允許靈活地整合歷史數(shù)據(jù)和異構(gòu)數(shù)據(jù)源，為大模型后訓(xùn)練打開了更高效的訓(xùn)練方式。

2. 均方誤差視角（MSE）

從 MSE 角度看，GVPO 的優(yōu)化目標(biāo)等價于最小化「隱式獎勵中心距離」與「實際獎勵中心距離」的偏差。這一解釋帶來直觀的物理含義：當(dāng)隱式獎勵完全對齊實際獎勵時，損失達(dá)到最小。更重要的是，這種設(shè)計保證了 GVPO 收斂到唯一的、KL 約束下的全局最優(yōu)解，為穩(wěn)定訓(xùn)練提供了理論保證。

3. 強(qiáng)化學(xué)習(xí)視角（RL）

RL 視角揭示了 GVPO 損失函數(shù)的三大組成部分：

組相對獎勵項：推動高回報響應(yīng)占據(jù)更大概率；
方差正則項：自然引入適度探索，避免熵塌縮；
協(xié)方差正則項：作為正則化，抑制策略過度偏離參考策略，保障訓(xùn)練穩(wěn)定性。

這三種視角共同說明：GVPO 既有理論保證，又兼具靈活性和穩(wěn)定性，將復(fù)雜的優(yōu)化過程轉(zhuǎn)化為可解釋的數(shù)學(xué)框架。

實驗結(jié)果：全面勝出

研究團(tuán)隊在數(shù)學(xué)推理任務(wù)上進(jìn)行了系統(tǒng)對比?；Ｐ蜑?Qwen2.5-Math-7B，在 AIME2024、AMC、MATH500、Minerva、OlympiadBench 五個基準(zhǔn)測試中：

GVPO 全面領(lǐng)先，不僅大幅提升基座模型表現(xiàn)，還超過 GRPO 和改進(jìn)版 Dr.GRPO。在復(fù)雜推理任務(wù)中優(yōu)勢尤為明顯。

此外，消融實驗顯示：

GVPO 對超參數(shù) β 不敏感，幾乎無需繁瑣調(diào)參。（Figure 2）
GVPO 在采樣數(shù)量 k 增加時擴(kuò)展性優(yōu)異，并且小模型甚至能靠增加采樣追平大模型表現(xiàn)。（Figure 3）
GVPO 支持混合采樣策略（歷史數(shù)據(jù) + 新數(shù)據(jù)），進(jìn)一步降低成本，并且連接了現(xiàn)代大模型研究和傳統(tǒng)強(qiáng)化學(xué)習(xí)探索策略研究。（Figure 4）

意義與前景

一句話總結(jié)：GVPO 讓后訓(xùn)練從「經(jīng)驗驅(qū)動」走向「理論保證」，既「穩(wěn)」又「強(qiáng)」。

在大模型邁向通用智能的道路上，后訓(xùn)練已經(jīng)成為競爭焦點。GVPO 的提出，可能預(yù)示著下一代后訓(xùn)練的范式轉(zhuǎn)變：

更穩(wěn)定 → 降低大規(guī)模訓(xùn)練的工程風(fēng)險
更靈活 → 支撐更復(fù)雜的數(shù)據(jù)利用場景
更高效 → 在推理和對齊中獲得更佳的性價比

研究團(tuán)隊認(rèn)為，GVPO 為可靠、通用的大模型后訓(xùn)練提供了全新范式。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營