偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

科普向：一文解構(gòu)大模型后訓(xùn)練，GRPO和它的繼任者們的前世今生

2025-09-02 08:57:00

人工智能新聞

GRPO 就像一個(gè)樹(shù)節(jié)點(diǎn)，從這里開(kāi)始開(kāi)枝散葉。

大語(yǔ)言模型的發(fā)展真是日新月異。

從 DeepSeek 橫空出世以來(lái)，其在大模型后訓(xùn)練的創(chuàng)新 GRPO 一躍成為強(qiáng)化學(xué)習(xí)黃金范式。

GRPO 已經(jīng)成為一種大模型通用的強(qiáng)化學(xué)習(xí)算法，能夠用在廣泛的后訓(xùn)練任務(wù)中，甚至包括讓大模型玩 2048：

而就在今年，大模型后訓(xùn)練的研究出現(xiàn)了幾個(gè)重磅結(jié)果，包括 Seed 團(tuán)隊(duì)的 DAPO，Qwen 團(tuán)隊(duì)的 GSPO，微軟團(tuán)隊(duì)的 GFPO 等等，而他們無(wú)一例外都是對(duì) GRPO 范式的改進(jìn)。

看這些名字都繞暈了，GRPO 到底有什么魔力，能讓各大研究團(tuán)隊(duì)繞著它團(tuán)團(tuán)轉(zhuǎn)；GRPO 又有什么缺陷，各大團(tuán)隊(duì)都要在它身上動(dòng)刀？

通過(guò)這篇文章，我們希望能夠深入淺出的解釋大模型后訓(xùn)練的原理，近期的技術(shù)進(jìn)化路線，以期為讀者構(gòu)建一個(gè)完整的知識(shí)體系。

后訓(xùn)練與強(qiáng)化學(xué)習(xí)

很多人會(huì)覺(jué)得，強(qiáng)化學(xué)習(xí)是一個(gè)非常古老的概念，和全新的大模型好似格格不入。

我們先從大模型說(shuō)起。

大眾理解的大語(yǔ)言模型的概念似乎很簡(jiǎn)單，從海量數(shù)據(jù)中自監(jiān)督學(xué)習(xí)出來(lái)的一個(gè)模型，能夠預(yù)測(cè)文本中下一個(gè)出現(xiàn)的詞，從而輸出語(yǔ)言文本。

但這并不完善，這種理解只突出了大模型「預(yù)訓(xùn)練」的過(guò)程，而完全忽略了「后訓(xùn)練」這一重要過(guò)程。

簡(jiǎn)單來(lái)說(shuō)，從海量數(shù)據(jù)中學(xué)習(xí)的過(guò)程稱為「預(yù)訓(xùn)練」，預(yù)訓(xùn)練的結(jié)果是讓模型掌握了通用語(yǔ)言能力，但僅僅如此，模型生成的內(nèi)并不一定符合偏好；可能生成冗長(zhǎng)、不準(zhǔn)確的內(nèi)容；可能不符合應(yīng)用任務(wù)的需求。

換句話說(shuō)，預(yù)訓(xùn)練后的大模型會(huì)說(shuō)話，但不一定會(huì)「說(shuō)對(duì)話」。

因此，「后訓(xùn)練」過(guò)程就極為重要。后訓(xùn)練的主要目標(biāo)是強(qiáng)化模型在特定領(lǐng)域的知識(shí)和應(yīng)用能力，增強(qiáng)了模型的適應(yīng)性和靈活性，使其能夠更好地滿足實(shí)際應(yīng)用場(chǎng)景中的多樣化需求。

而強(qiáng)化學(xué)習(xí)則是在后訓(xùn)練中不可或缺的核心部分。關(guān)于強(qiáng)化學(xué)習(xí)的理解，我們可以參考先前編譯的來(lái)自 Unsloth 團(tuán)隊(duì)的文章。

強(qiáng)化學(xué)習(xí)的核心是「反饋」，目標(biāo)是增加好結(jié)果的出現(xiàn)概率，降低壞結(jié)果的出現(xiàn)概率。

舉個(gè)例子，在吃豆人（Pacman）游戲中：如果吃掉一塊餅干，反饋是加分；如果你碰到敵人，反饋是扣分。

這是最樸素的強(qiáng)化學(xué)習(xí)方式了。我們放到大模型訓(xùn)練當(dāng)中，又該用什么方式給大模型加減分的反饋呢？

我們的核心目標(biāo)是讓大模型輸出符合我們?nèi)蝿?wù)偏好的內(nèi)容，那最簡(jiǎn)單的方式就是人類的反饋。

如果你也這么想，那你的想法和 OpenAI 不謀而合。

在訓(xùn)練 GPT 的時(shí)候，OpenAI 就采用了 RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)）的方法。在該方法中，需要訓(xùn)練一個(gè) agent 來(lái)針對(duì)某個(gè)問(wèn)題（狀態(tài)）生成人類認(rèn)為更有用的輸出。

反饋有了，并非一切萬(wàn)事大吉了。我們通過(guò) RLHF 獲得了反饋，通過(guò)這個(gè)反饋的 Reward 作為一個(gè)絕對(duì)的標(biāo)準(zhǔn)去直接訓(xùn)練模型，會(huì)出現(xiàn)顯著的激勵(lì)不充分和方差過(guò)大的問(wèn)題。

假如有兩個(gè)模型，A 的初始能力顯著比 B 強(qiáng)，通過(guò)直接反饋會(huì)出現(xiàn)：

模型 B 即使從 30 提升到 60，但和模型 A 的 80 相比，仍然顯得很差，優(yōu)化時(shí)它得到的激勵(lì)仍然有限。
模型 A 在追求更高分時(shí)，可能出現(xiàn)一些激進(jìn)的變化，導(dǎo)致 reward 有時(shí)飆升，有時(shí)迅速回落，訓(xùn)練過(guò)程不穩(wěn)定。

PPO 的穩(wěn)定策略

為了在此基礎(chǔ)上穩(wěn)定的實(shí)現(xiàn) RLHF，OpenAI 構(gòu)建了 PPO（Proximal Policy Optimization，近端策略優(yōu)化）機(jī)制，加入了 Critic、CLIP 操作和 Reference Model，在保證策略更新不過(guò)度的同時(shí)，依舊能高效提升性能。現(xiàn)在已經(jīng)成為強(qiáng)化學(xué)習(xí)領(lǐng)域的標(biāo)準(zhǔn)方法之一，幾乎是 RLHF 的默認(rèn)選擇。

針對(duì)第一條問(wèn)題，PPO 引入了 Critic：

通俗來(lái)說(shuō)，我們不再只使用純粹的 Reward 來(lái)反饋，而是設(shè)置一個(gè)「價(jià)值函數(shù)」作為參考，訓(xùn)練目標(biāo)從「Reward」進(jìn)化成「Advantage」：

對(duì)某個(gè)動(dòng)作，如果實(shí)際 Reward 超過(guò)了 Critic 的預(yù)期，就作為獎(jiǎng)勵(lì)，若低于預(yù)期則為負(fù)反饋。優(yōu)化目標(biāo)就變成:

也就是說(shuō)，我們擁有了一個(gè)相對(duì)評(píng)估模型進(jìn)步程度的新范式，而非采用絕對(duì) Reward 反饋。引入 Critic 可以顯著降低訓(xùn)練過(guò)程中的方差，相對(duì)于 Reward 反饋，模型進(jìn)步能獲得的梯度更顯著。

針對(duì)第二條問(wèn)題，PPO 采用了 Clip 策略：

為了避免模型變化過(guò)大導(dǎo)致的不穩(wěn)定，Clip 策略加入了限制條件，在目標(biāo)函數(shù)中可以體現(xiàn)：

其中，

它表示新策略相對(duì)于舊策略，在動(dòng)作上的概率變化幅度。如果這個(gè)比值偏離 1 太多，就會(huì)被限制在一定的范圍內(nèi)，避免模型一次更新的幅度過(guò)大。

除此以外，PPO 策略采用 Reference Model 上了雙保險(xiǎn)，在損失函數(shù)中加入相對(duì)初始模型的 KL 散度，同樣可以避免為了短期反饋而脫離合理的策略。

于是，PPO 的損失函數(shù)如下：

從 PPO 到 GRPO

上面的描述應(yīng)該很好理解 PPO 在做什么事情。

但是 PPO 有一個(gè)嚴(yán)重的問(wèn)題，由于價(jià)值函數(shù)是隨著模型訓(xùn)練同時(shí)變動(dòng)的，也就意味著策略模型本身和 Critic 模型（價(jià)值函數(shù)）都需要進(jìn)行訓(xùn)練，并且 Critic 模型的大小和策略模型相同。因此會(huì)帶來(lái)額外的內(nèi)存和計(jì)算負(fù)擔(dān)，訓(xùn)練成本非常高，很難進(jìn)行 scale up。這可能是財(cái)大氣粗的 OpenAI 玩得轉(zhuǎn)并且取得領(lǐng)先的原因之一。

為了改善這個(gè)雙模型策略的高成本問(wèn)題，最簡(jiǎn)單的方法就是：去掉一個(gè)網(wǎng)絡(luò)。

如果你一樣這么想，那你和 DeepSeek 又不謀而合。

DeepSeek 在大模型訓(xùn)練改進(jìn)的主要?jiǎng)訖C(jī)是想辦法去掉 Critic 模型，為此提出了一種替代方法，也就是大名鼎鼎的組相對(duì)策略優(yōu)化（Group Relative Policy Optimization, GRPO）。

PPO vs GRPO 流程算法對(duì)比

從流程算法對(duì)比中可以看出來(lái)，價(jià)值函數(shù)直接消失了。那不用價(jià)值函數(shù)，我們?nèi)绾未_定模型的 Advantage 呢？

GRPO 采用了一個(gè)非常合理的方法，不用「學(xué)習(xí)」一個(gè)單獨(dú)的價(jià)值網(wǎng)絡(luò)當(dāng) Critic，而是用這個(gè)模型過(guò)去多次的「考試成績(jī)」來(lái)確定一個(gè)基準(zhǔn)線。

對(duì)同一道題目、同一個(gè)狀態(tài)，先用舊策略采樣多條輸出，然后把這些輸出的平均 Reward 當(dāng)作 baseline；超過(guò)平均值就相當(dāng)于「正向 Advantage」，低于平均值就是「負(fù)向 Advantage」。

在 GRPO 里，除了這一步，還保留了 PPO 中的 Clip 和對(duì) Reference Model 的 KL 正則，這些都可以保障更新的穩(wěn)定性。不過(guò)，KL 散度在 GRPO 的目標(biāo)函數(shù)直接放在了損失函數(shù)，這降低了獎(jiǎng)勵(lì)函數(shù)的計(jì)算復(fù)雜度，并且它的計(jì)算方案能夠保證進(jìn)行歸一化的 KL 值每次都是正值。而在 PPO 中，KL 散度放在獎(jiǎng)勵(lì)函數(shù)中。

GRPO 跟 PPO 的重要區(qū)別，主要是去掉了價(jià)值函數(shù)，同時(shí)使用策略模型的多個(gè)輸出采樣的獎(jiǎng)勵(lì)模型輸出的多個(gè)獎(jiǎng)勵(lì)的平均值作為 Advantage 函數(shù)。

于是，我們得到了 GRPO 的損失函數(shù)：

對(duì)于 PPO 到 GRPO，知乎網(wǎng)友將兩者在多個(gè)維度上進(jìn)行了比較，如圖表所示。

知乎網(wǎng)友@杞鋂分享PPO與GRPO的對(duì)比

從 GRPO 開(kāi)枝散葉

GRPO 在出現(xiàn)后迅速成為一個(gè)后訓(xùn)練范式的重要節(jié)點(diǎn)，DeepSeek 的模型成功充分證明了 GRPO 范式的有效性和優(yōu)越性。也因此，后續(xù)的改進(jìn)工作大多都是在 GRPO 的方法基礎(chǔ)上進(jìn)行。

那么 GRPO 到底有啥問(wèn)題，各個(gè)新工作都要在它身上動(dòng)刀呢？

最致命的問(wèn)題，哪怕 GRPO 在 PPO 的基礎(chǔ)上進(jìn)行了改進(jìn)，但在穩(wěn)定性上與 PPO 方法仍然半斤八兩。也就是說(shuō) GRPO 仍然存在嚴(yán)重的穩(wěn)定性問(wèn)題，很容易導(dǎo)致訓(xùn)練崩潰。

根據(jù)數(shù)學(xué)中國(guó)的說(shuō)法， DeepSeek 的數(shù)據(jù)足夠多，多到可以完美地避開(kāi) GRPO 的穩(wěn)定性缺陷。每次的策略梯度計(jì)算，只要 Batch 數(shù)據(jù)足夠多，就能有效降低策略梯度的方差，就能獲得比較穩(wěn)定的迭代了。對(duì)于中小規(guī)模的 RL 訓(xùn)練，GRPO 并非一個(gè)好的選擇，尤其是當(dāng)每次使用的數(shù)據(jù)批量比較小的時(shí)候，它的穩(wěn)定性缺陷將是致命的。

因此，最新的一些方法針對(duì) GPRO 的不同部分進(jìn)行了迭代，具體缺陷和優(yōu)化方式在介紹新工作時(shí)細(xì)講。

DAPO

首先要講的優(yōu)化范式是 DAPO，這是字節(jié)、清華 AIR 在今年三月開(kāi)源的算法。

使用該算法，該團(tuán)隊(duì)成功讓 Qwen2.5-32B 模型在 AIME 2024 基準(zhǔn)上獲得了 50 分，優(yōu)于同等規(guī)模的 DeepSeek-R1-Zero-Qwen-32B，同時(shí) DAPO 版 Qwen2.5-32B 使用的訓(xùn)練步數(shù)還少 50%。

但是值得一提的是，DAPO 方法并沒(méi)有在數(shù)學(xué)原理上有什么本質(zhì)上的改變，基本優(yōu)化目標(biāo)仍然沿用了 GRPO 的形式，只是對(duì) Clip 等參數(shù)和采樣機(jī)制做出了改進(jìn)。因此，我們把 DAPO 放在最早討論的順位。

在實(shí)踐過(guò)程中，GRPO 存在以下幾個(gè)問(wèn)題：

Token 級(jí)別的 Clip 容易導(dǎo)致熵崩潰：模型很快收斂到少量固定答案，導(dǎo)致多樣性和探索能力不足（熵崩潰）。
Batch 采樣中出現(xiàn)獎(jiǎng)勵(lì)極端化：部分樣本的獎(jiǎng)勵(lì)可能全部為 1 或 0，從而產(chǎn)生「零梯度」問(wèn)題，削弱訓(xùn)練信號(hào)。
長(zhǎng)序列訓(xùn)練的梯度分布失衡：權(quán)重分布讓極少數(shù) token 的梯度占據(jù)主導(dǎo)，導(dǎo)致許多高質(zhì)量的長(zhǎng)序列樣本被忽視。

為此，DAPO 根據(jù)實(shí)踐中出現(xiàn)的問(wèn)題提出了針對(duì)性的優(yōu)化：

1. Clip-Higher 機(jī)制：將 Clip 的上下限分開(kāi) ，研究者將較低和較高的剪輯范圍解耦為 ε_(tái)low 和 ε_(tái)high，研究者增加了 ε_(tái)high 的值，以便為低概率 token 的增加留出更多空間，能夠顯著提升模型訓(xùn)練早期的熵。

2. 動(dòng)態(tài)采樣：進(jìn)行過(guò)度采樣，過(guò)濾掉獎(jiǎng)勵(lì)等于 1 和 0 的提示語(yǔ)，只保留有效梯度的樣本，提高訓(xùn)練效率。

3. Token 級(jí)策略梯度損失：對(duì)所有 token 一起求平均，保證長(zhǎng)序列的所有 token 都公平地為 batch loss 做貢獻(xiàn)，并防止長(zhǎng)序列的優(yōu)化梯度被過(guò)度縮小。

4. 超長(zhǎng)獎(jiǎng)勵(lì)調(diào)整：針對(duì)超長(zhǎng)樣本，當(dāng)響應(yīng)長(zhǎng)度超過(guò)預(yù)定義的最大值時(shí)，研究者定義一個(gè)「soft 罰分」。在這個(gè)區(qū)間內(nèi)，響應(yīng)越長(zhǎng)，受到的懲罰就越大，以此避免過(guò)長(zhǎng)的響應(yīng)。

因此，DAPO 的優(yōu)化損失函數(shù)如下：

雖然 DAPO 依然是 token 級(jí)別的重要性采樣，但訓(xùn)練曲線和最終性能提升非常明顯。

項(xiàng)目頁(yè)面：https://dapo-sia.github.io/
論文地址：https://dapo-sia.github.io/static/pdf/dapo_paper.pdf

GSPO

大的來(lái)了。后訓(xùn)練領(lǐng)域里重要的突破是 Qwen3 使用的新方法 GSPO。

上文那么多文字一直在提及 PPO 類似方法的重要級(jí)采樣均為 token 級(jí)，迭代方法一直沒(méi)有突破 token 采樣的限制，而 GSPO 真正在原理上做出了改進(jìn)。

最近 Qwen 的研究表明，使用 GRPO 訓(xùn)練大語(yǔ)言模型時(shí)存在嚴(yán)重的穩(wěn)定性問(wèn)題，往往會(huì)導(dǎo)致模型不可逆地崩潰。在 Qwen 團(tuán)隊(duì)的研究中，揭示了 GPRO 方法的嚴(yán)重問(wèn)題：

在每個(gè) token 級(jí)別應(yīng)用重要性采樣，會(huì)在長(zhǎng)序列中積累高方差，導(dǎo)致訓(xùn)練不穩(wěn)定。
這一問(wèn)題在專家混合模型（Mixture-of-Experts, MoE）中尤為嚴(yán)重，因?yàn)?token 級(jí)別的路由變化會(huì)加劇不穩(wěn)定性。

如果說(shuō) DAPO 是在 GRPO 框架內(nèi)做微調(diào)，那么 GSPO 則是直接調(diào)整了優(yōu)化目標(biāo)的顆粒度 —— 從 token 級(jí)跳到序列級(jí)。

重要性采樣的作用是：來(lái)緩解 off-policy 帶來(lái)的分布差異情況，也就是說(shuō)：

我們想要估計(jì)一個(gè)預(yù)期的分布，但是我們手上只有另行為模型的分布，我們就只能在行為策略下進(jìn)行采樣，通過(guò)這個(gè)樣本，賦予重要性權(quán)重，來(lái)估計(jì)出目標(biāo)策略下函數(shù)的值。

但是這種采樣的前提在于多次采樣，如果只有一次采樣，并不能起到分布矯正的作用。問(wèn)題在于大模型訓(xùn)練過(guò)程中，重要性采樣都是在 token 級(jí)別進(jìn)行的，單個(gè) token 進(jìn)行的重要性采樣是無(wú)法起到分布矯正的作用的，相反，這種采樣手段反而會(huì)帶來(lái)很大方差的噪聲。

在訓(xùn)練時(shí)，獎(jiǎng)勵(lì)其實(shí)是針對(duì)整段回答打的分，比如一句話、一個(gè)完整回復(fù)都會(huì)得到一個(gè)整體評(píng)價(jià)。

但是在模型優(yōu)化時(shí)，我們通常是在 token 層面進(jìn)行采樣和更新。于是常見(jiàn)的做法是：把獎(jiǎng)勵(lì)直接分?jǐn)偟矫恳粋€(gè) token 上，再逐個(gè)去調(diào)整。

這就導(dǎo)致了優(yōu)化目標(biāo)和獎(jiǎng)勵(lì)目標(biāo)的顆粒度不匹配：模型可能在單個(gè) token 上學(xué)得很用力，但這并不能完全對(duì)應(yīng)整段回答的質(zhì)量。

為此，Qwen 團(tuán)隊(duì)將 GRPO 進(jìn)化為組序列策略優(yōu)化（Group Sequence Policy Optimization, GSPO）。

正如其名稱所暗示的，GSPO 的核心在于將重要性采樣從 token 級(jí)轉(zhuǎn)移至序列級(jí)，其重要性比值基于整個(gè)序列的似然度計(jì)算：

這種采樣權(quán)重的設(shè)計(jì)自然地緩解了逐 token 方差的累積問(wèn)題，從而顯著提升了訓(xùn)練過(guò)程的穩(wěn)定性。

因此，GSPO 的損失函數(shù)為：

GRPO：重要性權(quán)重在 token 級(jí)，每個(gè) token 都可能被單獨(dú)裁剪。
GSPO：重要性權(quán)重在序列級(jí)，裁剪時(shí)直接作用于整個(gè)回答，更符合獎(jiǎng)勵(lì)信號(hào)的整體性。

此外，GSPO 對(duì) 序列級(jí)的重要性還做了長(zhǎng)度歸一化，不同問(wèn)題的回答長(zhǎng)度差別很大，如果不歸一化，importance ratio 會(huì)對(duì)長(zhǎng)度非常敏感，造成不穩(wěn)定。

最后，因?yàn)橥粋€(gè)序列中的所有 token 共用同一個(gè)重要性權(quán)重，一旦發(fā)生 clipping，被裁剪掉的就是整個(gè)序列，而不是像 GRPO 那樣只影響部分 token。

因此，GSPO 提出的「序列級(jí)重要性采樣」顯著提高了訓(xùn)練的穩(wěn)定性，很可能會(huì)成為未來(lái)后訓(xùn)練強(qiáng)化學(xué)習(xí)的新標(biāo)準(zhǔn)。

論文標(biāo)題：Group Sequence Policy Optimization
論文鏈接：https://huggingface.co/papers/2507.18071
博客鏈接：https://qwenlm.github.io/blog/gspo/

GFPO

在 GSPO 之后不久，微軟研究員曝出一個(gè)新成果：組過(guò)濾策略優(yōu)化（Group Filtered Policy Optimization，GFPO），另一種顛覆性的強(qiáng)化學(xué)習(xí)算法。

在 GFPO 工作中，微軟研究團(tuán)隊(duì)指出了 GRPO 的一個(gè)關(guān)鍵限制：

GRPO 依賴于單一的標(biāo)量獎(jiǎng)勵(lì)信號(hào)，這使得它難以聯(lián)合優(yōu)化多個(gè)屬性，例如同時(shí)優(yōu)化簡(jiǎn)潔性和準(zhǔn)確度。

結(jié)果就是，GRPO 確實(shí)能提高準(zhǔn)確度，但也會(huì)讓響應(yīng)長(zhǎng)度大幅增加。這也導(dǎo)致了大模型遇到一個(gè)稍微棘手的問(wèn)題，就會(huì)像陷入沉思一樣長(zhǎng)篇大論地推下去，耗時(shí)耗算力，結(jié)果卻未必靠譜。

GFPO 正是為了解決這個(gè)問(wèn)題而生的，它可以同時(shí)優(yōu)化多個(gè)響應(yīng)屬性。

GFPO 是一種簡(jiǎn)單而有效的方法，可以針對(duì)想要的響應(yīng)屬性進(jìn)行有針對(duì)性的策略優(yōu)化。

GFPO 會(huì)為每個(gè)問(wèn)題采樣更大的候選響應(yīng)組，從而擴(kuò)大響應(yīng)池以包含更多具有所需特性的候選響應(yīng)，然后在計(jì)算策略梯度時(shí)顯式地過(guò)濾這些特性，不符合目標(biāo)屬性的響應(yīng)不進(jìn)入優(yōu)化。

數(shù)據(jù)過(guò)濾是一種隱式、靈活的獎(jiǎng)勵(lì)塑造形式 —— 類似于使用選擇性采樣來(lái)放大特定模型行為的迭代式自我改進(jìn)方法。過(guò)濾機(jī)制會(huì)迭代地放大模型在目標(biāo)屬性上的表現(xiàn)，就像強(qiáng)化學(xué)習(xí)里的「偏好放大器」。

在此顯式過(guò)濾步驟分離出所需的響應(yīng)后，將在所選組內(nèi)使用標(biāo)準(zhǔn)獎(jiǎng)勵(lì)來(lái)計(jì)算相對(duì)優(yōu)勢(shì)。

因此，GFPO 無(wú)需復(fù)雜的獎(jiǎng)勵(lì)工程，即可同時(shí)優(yōu)化多個(gè)所需屬性（例如長(zhǎng)度和準(zhǔn)確度）。

GFPO 的形式化定義如下：

GFPO 的主要干預(yù)措施是在 Advantage 估計(jì)層面，使其可與任何 GRPO 類似的方法兼容，例如 DAPO、Dr. GRPO 或帶有 Dual-Clip PPO 損失的 GRPO。

論文標(biāo)題：Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
論文地址：https://arxiv.org/abs/2508.09726

GRPO 的一些其他問(wèn)題

除此以外，也有些研究者發(fā)現(xiàn)了 GRPO 的一些其他缺陷，或許可以為未來(lái)的研究工作提供一些新思路。

博客鏈接：https://aryagxr.com/blogs/grpo-limitations.html

缺陷 1：獎(jiǎng)勵(lì)的歧義性

復(fù)雜的推理問(wèn)題通常需要多個(gè)獎(jiǎng)勵(lì)信號(hào)，因此我們會(huì)為每個(gè)評(píng)判標(biāo)準(zhǔn)單獨(dú)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。然后，把所有獎(jiǎng)勵(lì)函數(shù)的分?jǐn)?shù)加在一起，折疊成一個(gè)單一的獎(jiǎng)勵(lì)信號(hào)。

問(wèn)題在于，模型根本無(wú)法知道自己到底是因?yàn)槭裁葱袨楸华?jiǎng)勵(lì)的。雖然我們寫了不同的獎(jiǎng)勵(lì)函數(shù)，但最后所有獎(jiǎng)勵(lì)依然被合并為一個(gè)標(biāo)量信號(hào)。模型又怎么知道獎(jiǎng)勵(lì)是來(lái)自「答案正確」，還是「推理清晰」，還是「格式規(guī)范」呢？

即使我們調(diào)整不同獎(jiǎng)勵(lì)組件的權(quán)重，模型看到的仍然只是一個(gè)總的標(biāo)量獎(jiǎng)勵(lì)。

GFPO 一定程度上改善了上述問(wèn)題。

缺陷 2：標(biāo)量反饋

在推理任務(wù)中，GRPO 會(huì)丟棄所有中間的文本反饋，因?yàn)閭鹘o模型的只是一個(gè)數(shù)值化的獎(jiǎng)勵(lì)信號(hào)。

舉個(gè)例子，模型訓(xùn)練過(guò)程中會(huì)打印一些輸出，每次猜測(cè)都有文字反饋，比如：

「字母 ‘c’ 不應(yīng)該在答案里」
「‘n’ 不能出現(xiàn)在位置 3」

這些文字反饋對(duì)模型其實(shí)很有幫助，但在 GRPO 框架下完全用不上，因?yàn)樗鼈冏罱K都會(huì)被抽象成一個(gè)標(biāo)量獎(jiǎng)勵(lì)。

缺陷 3：多輪推理

另一個(gè)瓶頸是多輪推理任務(wù)在 GRPO 下的表現(xiàn)。問(wèn)題的關(guān)鍵在于：

在多輪對(duì)話中，每一輪的反饋都會(huì)被重新輸入到基礎(chǔ)模型的 prompt 中，從而導(dǎo)致指數(shù)級(jí)分支（exponential forking），使得 GRPO 在多輪任務(wù)中的訓(xùn)練變得非常痛苦。見(jiàn)下圖：

寫在最后

簡(jiǎn)單總結(jié)一下，后訓(xùn)練的發(fā)展脈絡(luò)其實(shí)很清晰。從 OpenAI 提出 PPO 的后訓(xùn)練方法開(kāi)始，都在此基礎(chǔ)上縫縫補(bǔ)補(bǔ)。

GRPO 是 PPO 基礎(chǔ)上重要的更新范式，自 GRPO 起，后訓(xùn)練策略優(yōu)化就作為大模型的一個(gè)重要研究方向進(jìn)行，就像樹(shù)節(jié)點(diǎn)一樣向外延伸。

PPO：以 token 為核心，依賴價(jià)值函數(shù)。
GRPO：提出組優(yōu)化思路，在組內(nèi)對(duì)獎(jiǎng)勵(lì)做歸一化，從而擺脫價(jià)值函數(shù)依賴；但仍停留在 token 級(jí)，方差依舊較大。
DAPO：在 GRPO 基礎(chǔ)上加入大量工程改進(jìn)（如 Clip-Higher、Dynamic Sampling 等），一定程度緩解大模型 RL 的訓(xùn)練瓶頸，但仍停留在 token 級(jí)。
GSPO：實(shí)現(xiàn)范式轉(zhuǎn)變，將 off-policy 與 clip 全部提升到序列級(jí)，顯著降低方差，兼具算法簡(jiǎn)潔性與性能表現(xiàn)，已成為 Qwen3 RL 的核心實(shí)踐框架。
GFPO：針對(duì)同時(shí)優(yōu)化多個(gè)所需屬性的目標(biāo)進(jìn)行優(yōu)化，加入數(shù)據(jù)過(guò)濾操作。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<blockquote id="l8w2x"></blockquote>}

<style id="l8w2x"></style>

<blockquote id="l8w2x"><span id="l8w2x"><strong id="l8w2x"></strong></span></blockquote><pre id="l8w2x"><sup id="l8w2x"><bdo id="l8w2x"></bdo></sup></pre>