科普向:一文解構(gòu)大模型后訓(xùn)練,GRPO和它的繼任者們的前世今生
大語(yǔ)言模型的發(fā)展真是日新月異。
從 DeepSeek 橫空出世以來(lái),其在大模型后訓(xùn)練的創(chuàng)新 GRPO 一躍成為強(qiáng)化學(xué)習(xí)黃金范式。
GRPO 已經(jīng)成為一種大模型通用的強(qiáng)化學(xué)習(xí)算法,能夠用在廣泛的后訓(xùn)練任務(wù)中,甚至包括讓大模型玩 2048:

而就在今年,大模型后訓(xùn)練的研究出現(xiàn)了幾個(gè)重磅結(jié)果,包括 Seed 團(tuán)隊(duì)的 DAPO,Qwen 團(tuán)隊(duì)的 GSPO,微軟團(tuán)隊(duì)的 GFPO 等等,而他們無(wú)一例外都是對(duì) GRPO 范式的改進(jìn)。
看這些名字都繞暈了,GRPO 到底有什么魔力,能讓各大研究團(tuán)隊(duì)繞著它團(tuán)團(tuán)轉(zhuǎn);GRPO 又有什么缺陷,各大團(tuán)隊(duì)都要在它身上動(dòng)刀?
通過(guò)這篇文章,我們希望能夠深入淺出的解釋大模型后訓(xùn)練的原理,近期的技術(shù)進(jìn)化路線,以期為讀者構(gòu)建一個(gè)完整的知識(shí)體系。
后訓(xùn)練與強(qiáng)化學(xué)習(xí)
很多人會(huì)覺(jué)得,強(qiáng)化學(xué)習(xí)是一個(gè)非常古老的概念,和全新的大模型好似格格不入。
我們先從大模型說(shuō)起。
大眾理解的大語(yǔ)言模型的概念似乎很簡(jiǎn)單,從海量數(shù)據(jù)中自監(jiān)督學(xué)習(xí)出來(lái)的一個(gè)模型,能夠預(yù)測(cè)文本中下一個(gè)出現(xiàn)的詞,從而輸出語(yǔ)言文本。
但這并不完善,這種理解只突出了大模型「預(yù)訓(xùn)練」的過(guò)程,而完全忽略了「后訓(xùn)練」這一重要過(guò)程。
簡(jiǎn)單來(lái)說(shuō),從海量數(shù)據(jù)中學(xué)習(xí)的過(guò)程稱為「預(yù)訓(xùn)練」,預(yù)訓(xùn)練的結(jié)果是讓模型掌握了通用語(yǔ)言能力,但僅僅如此,模型生成的內(nèi)并不一定符合偏好;可能生成冗長(zhǎng)、不準(zhǔn)確的內(nèi)容;可能不符合應(yīng)用任務(wù)的需求。
換句話說(shuō),預(yù)訓(xùn)練后的大模型會(huì)說(shuō)話,但不一定會(huì)「說(shuō)對(duì)話」。
因此,「后訓(xùn)練」過(guò)程就極為重要。后訓(xùn)練的主要目標(biāo)是強(qiáng)化模型在特定領(lǐng)域的知識(shí)和應(yīng)用能力,增強(qiáng)了模型的適應(yīng)性和靈活性,使其能夠更好地滿足實(shí)際應(yīng)用場(chǎng)景中的多樣化需求。
而強(qiáng)化學(xué)習(xí)則是在后訓(xùn)練中不可或缺的核心部分。關(guān)于強(qiáng)化學(xué)習(xí)的理解,我們可以參考先前編譯的來(lái)自 Unsloth 團(tuán)隊(duì)的文章。
強(qiáng)化學(xué)習(xí)的核心是「反饋」,目標(biāo)是增加好結(jié)果的出現(xiàn)概率,降低壞結(jié)果的出現(xiàn)概率。
舉個(gè)例子,在吃豆人(Pacman)游戲中:如果吃掉一塊餅干,反饋是加分;如果你碰到敵人,反饋是扣分。

這是最樸素的強(qiáng)化學(xué)習(xí)方式了。我們放到大模型訓(xùn)練當(dāng)中,又該用什么方式給大模型加減分的反饋呢?
我們的核心目標(biāo)是讓大模型輸出符合我們?nèi)蝿?wù)偏好的內(nèi)容,那最簡(jiǎn)單的方式就是人類的反饋。
如果你也這么想,那你的想法和 OpenAI 不謀而合。
在訓(xùn)練 GPT 的時(shí)候,OpenAI 就采用了 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))的方法。在該方法中,需要訓(xùn)練一個(gè) agent 來(lái)針對(duì)某個(gè)問(wèn)題(狀態(tài))生成人類認(rèn)為更有用的輸出。

反饋有了,并非一切萬(wàn)事大吉了。我們通過(guò) RLHF 獲得了反饋,通過(guò)這個(gè)反饋的 Reward 作為一個(gè)絕對(duì)的標(biāo)準(zhǔn)去直接訓(xùn)練模型,會(huì)出現(xiàn)顯著的激勵(lì)不充分和方差過(guò)大的問(wèn)題。

假如有兩個(gè)模型,A 的初始能力顯著比 B 強(qiáng),通過(guò)直接反饋會(huì)出現(xiàn):
- 模型 B 即使從 30 提升到 60,但和模型 A 的 80 相比,仍然顯得很差,優(yōu)化時(shí)它得到的激勵(lì)仍然有限。
- 模型 A 在追求更高分時(shí),可能出現(xiàn)一些激進(jìn)的變化,導(dǎo)致 reward 有時(shí)飆升,有時(shí)迅速回落,訓(xùn)練過(guò)程不穩(wěn)定。
PPO 的穩(wěn)定策略
為了在此基礎(chǔ)上穩(wěn)定的實(shí)現(xiàn) RLHF,OpenAI 構(gòu)建了 PPO(Proximal Policy Optimization,近端策略優(yōu)化)機(jī)制,加入了 Critic、CLIP 操作和 Reference Model,在保證 策略更新不過(guò)度 的同時(shí),依舊能 高效提升性能。現(xiàn)在已經(jīng)成為強(qiáng)化學(xué)習(xí)領(lǐng)域的 標(biāo)準(zhǔn)方法之一,幾乎是 RLHF 的默認(rèn)選擇。
針對(duì)第一條問(wèn)題,PPO 引入了 Critic:
通俗來(lái)說(shuō),我們不再只使用純粹的 Reward 來(lái)反饋,而是設(shè)置一個(gè)「價(jià)值函數(shù)
」作為參考,訓(xùn)練目標(biāo)從「Reward」進(jìn)化成「Advantage」:

對(duì)某個(gè)動(dòng)作,如果實(shí)際 Reward 超過(guò)了 Critic 的預(yù)期,就作為獎(jiǎng)勵(lì),若低于預(yù)期則為負(fù)反饋。優(yōu)化目標(biāo)就變成:

也就是說(shuō),我們擁有了一個(gè)相對(duì)評(píng)估模型進(jìn)步程度的新范式,而非采用絕對(duì) Reward 反饋。引入 Critic 可以顯著降低訓(xùn)練過(guò)程中的方差,相對(duì)于 Reward 反饋,模型進(jìn)步能獲得的梯度更顯著。
針對(duì)第二條問(wèn)題,PPO 采用了 Clip 策略:
為了避免模型變化過(guò)大導(dǎo)致的不穩(wěn)定,Clip 策略加入了限制條件,在目標(biāo)函數(shù)中可以體現(xiàn):

其中,
它表示新策略相對(duì)于舊策略,在動(dòng)作上的概率變化幅度。如果這個(gè)比值偏離 1 太多,就會(huì)被限制在一定的范圍內(nèi),避免模型一次更新的幅度過(guò)大。
除此以外,PPO 策略采用 Reference Model 上了雙保險(xiǎn),在損失函數(shù)中加入相對(duì)初始模型的 KL 散度,同樣可以避免為了短期反饋而脫離合理的策略。
于是,PPO 的損失函數(shù)如下:

從 PPO 到 GRPO
上面的描述應(yīng)該很好理解 PPO 在做什么事情。
但是 PPO 有一個(gè)嚴(yán)重的問(wèn)題,由于價(jià)值函數(shù)是隨著模型訓(xùn)練同時(shí)變動(dòng)的,也就意味著策略模型本身和 Critic 模型(價(jià)值函數(shù))都需要進(jìn)行訓(xùn)練,并且 Critic 模型的大小和策略模型相同。因此會(huì)帶來(lái)額外的內(nèi)存和計(jì)算負(fù)擔(dān),訓(xùn)練成本非常高,很難進(jìn)行 scale up。這可能是財(cái)大氣粗的 OpenAI 玩得轉(zhuǎn)并且取得領(lǐng)先的原因之一。
為了改善這個(gè)雙模型策略的高成本問(wèn)題,最簡(jiǎn)單的方法就是:去掉一個(gè)網(wǎng)絡(luò)。
如果你一樣這么想,那你和 DeepSeek 又不謀而合。
DeepSeek 在大模型訓(xùn)練改進(jìn)的主要?jiǎng)訖C(jī)是想辦法去掉 Critic 模型,為此提出了一種替代方法,也就是大名鼎鼎的組相對(duì)策略優(yōu)化(Group Relative Policy Optimization, GRPO)。

PPO vs GRPO 流程算法對(duì)比
從流程算法對(duì)比中可以看出來(lái),價(jià)值函數(shù)直接消失了。那不用價(jià)值函數(shù),我們?nèi)绾未_定模型的 Advantage 呢?
GRPO 采用了一個(gè)非常合理的方法,不用「學(xué)習(xí)」一個(gè)單獨(dú)的價(jià)值網(wǎng)絡(luò)當(dāng) Critic,而是用這個(gè)模型過(guò)去多次的「考試成績(jī)」來(lái)確定一個(gè)基準(zhǔn)線。
對(duì)同一道題目、同一個(gè)狀態(tài),先用舊策略采樣多條輸出,然后把這些輸出的平均 Reward 當(dāng)作 baseline; 超過(guò)平均值就相當(dāng)于「正向 Advantage」,低于平均值就是「負(fù)向 Advantage」。
在 GRPO 里,除了這一步,還保留了 PPO 中的 Clip 和對(duì) Reference Model 的 KL 正則,這些都可以保障更新的穩(wěn)定性。不過(guò),KL 散度在 GRPO 的目標(biāo)函數(shù)直接放在了損失函數(shù),這降低了獎(jiǎng)勵(lì)函數(shù)的計(jì)算復(fù)雜度,并且它的計(jì)算方案能夠保證進(jìn)行歸一化的 KL 值每次都是正值。而在 PPO 中,KL 散度放在獎(jiǎng)勵(lì)函數(shù)中。
GRPO 跟 PPO 的重要區(qū)別,主要是去掉了價(jià)值函數(shù),同時(shí)使用策略模型的多個(gè)輸出采樣的獎(jiǎng)勵(lì)模型輸出的多個(gè)獎(jiǎng)勵(lì)的平均值作為 Advantage 函數(shù)。
于是,我們得到了 GRPO 的損失函數(shù):

對(duì)于 PPO 到 GRPO,知乎網(wǎng)友將兩者在多個(gè)維度上進(jìn)行了比較,如圖表所示。

知乎網(wǎng)友@杞鋂 分享PPO與GRPO的對(duì)比
從 GRPO 開(kāi)枝散葉
GRPO 在出現(xiàn)后迅速成為一個(gè)后訓(xùn)練范式的重要節(jié)點(diǎn),DeepSeek 的模型成功充分證明了 GRPO 范式的有效性和優(yōu)越性。也因此,后續(xù)的改進(jìn)工作大多都是在 GRPO 的方法基礎(chǔ)上進(jìn)行。
那么 GRPO 到底有啥問(wèn)題,各個(gè)新工作都要在它身上動(dòng)刀呢?
最致命的問(wèn)題,哪怕 GRPO 在 PPO 的基礎(chǔ)上進(jìn)行了改進(jìn),但在穩(wěn)定性上與 PPO 方法仍然半斤八兩。也就是說(shuō) GRPO 仍然存在嚴(yán)重的穩(wěn)定性問(wèn)題,很容易導(dǎo)致訓(xùn)練崩潰。
根據(jù)數(shù)學(xué)中國(guó)的說(shuō)法, DeepSeek 的數(shù)據(jù)足夠多,多到可以完美地避開(kāi) GRPO 的穩(wěn)定性缺陷。每次的策略梯度計(jì)算,只要 Batch 數(shù)據(jù)足夠多,就能有效降低策略梯度的方差,就能獲得比較穩(wěn)定的迭代了。對(duì)于中小規(guī)模的 RL 訓(xùn)練,GRPO 并非一個(gè)好的選擇,尤其是當(dāng)每次使用的數(shù)據(jù)批量比較小的時(shí)候,它的穩(wěn)定性缺陷將是致命的。
因此,最新的一些方法針對(duì) GPRO 的不同部分進(jìn)行了迭代,具體缺陷和優(yōu)化方式在介紹新工作時(shí)細(xì)講。
DAPO
首先要講的優(yōu)化范式是 DAPO,這是字節(jié)、清華 AIR 在今年三月開(kāi)源的算法。
使用該算法,該團(tuán)隊(duì)成功讓 Qwen2.5-32B 模型在 AIME 2024 基準(zhǔn)上獲得了 50 分,優(yōu)于同等規(guī)模的 DeepSeek-R1-Zero-Qwen-32B,同時(shí) DAPO 版 Qwen2.5-32B 使用的訓(xùn)練步數(shù)還少 50%。
但是值得一提的是,DAPO 方法并沒(méi)有在數(shù)學(xué)原理上有什么本質(zhì)上的改變,基本優(yōu)化目標(biāo)仍然沿用了 GRPO 的形式,只是對(duì) Clip 等參數(shù)和采樣機(jī)制做出了改進(jìn)。因此,我們把 DAPO 放在最早討論的順位。
在實(shí)踐過(guò)程中,GRPO 存在以下幾個(gè)問(wèn)題:
- Token 級(jí)別的 Clip 容易導(dǎo)致熵崩潰:模型很快收斂到少量固定答案,導(dǎo)致多樣性和探索能力不足(熵崩潰)。
- Batch 采樣中出現(xiàn)獎(jiǎng)勵(lì)極端化:部分樣本的獎(jiǎng)勵(lì)可能全部為 1 或 0,從而產(chǎn)生「零梯度」問(wèn)題,削弱訓(xùn)練信號(hào)。
- 長(zhǎng)序列訓(xùn)練的梯度分布失衡:權(quán)重分布讓極少數(shù) token 的梯度占據(jù)主導(dǎo),導(dǎo)致許多高質(zhì)量的長(zhǎng)序列樣本被忽視。
為此,DAPO 根據(jù)實(shí)踐中出現(xiàn)的問(wèn)題提出了針對(duì)性的優(yōu)化:
1. Clip-Higher 機(jī)制:將 Clip 的上下限分開(kāi) ,研究者將較低和較高的剪輯范圍解耦為 ε_(tái)low 和 ε_(tái)high,研究者增加了 ε_(tái)high 的值,以便為低概率 token 的增加留出更多空間,能夠顯著提升模型訓(xùn)練早期的熵。
2. 動(dòng)態(tài)采樣:進(jìn)行過(guò)度采樣,過(guò)濾掉獎(jiǎng)勵(lì)等于 1 和 0 的提示語(yǔ),只保留有效梯度的樣本,提高訓(xùn)練效率。
3. Token 級(jí)策略梯度損失:對(duì)所有 token 一起求平均,保證長(zhǎng)序列的所有 token 都公平地為 batch loss 做貢獻(xiàn),并防止長(zhǎng)序列的優(yōu)化梯度被過(guò)度縮小。
4. 超長(zhǎng)獎(jiǎng)勵(lì)調(diào)整:針對(duì)超長(zhǎng)樣本,當(dāng)響應(yīng)長(zhǎng)度超過(guò)預(yù)定義的最大值時(shí),研究者定義一個(gè)「soft 罰分」。在這個(gè)區(qū)間內(nèi),響應(yīng)越長(zhǎng),受到的懲罰就越大,以此避免過(guò)長(zhǎng)的響應(yīng)。
因此,DAPO 的優(yōu)化損失函數(shù)如下:

雖然 DAPO 依然是 token 級(jí)別的重要性采樣,但訓(xùn)練曲線和最終性能提升非常明顯。

- 項(xiàng)目頁(yè)面:https://dapo-sia.github.io/
- 論文地址:https://dapo-sia.github.io/static/pdf/dapo_paper.pdf
GSPO
大的來(lái)了。后訓(xùn)練領(lǐng)域里重要的突破是 Qwen3 使用的新方法 GSPO。
上文那么多文字一直在提及 PPO 類似方法的重要級(jí)采樣均為 token 級(jí),迭代方法一直沒(méi)有突破 token 采樣的限制,而 GSPO 真正在原理上做出了改進(jìn)。
最近 Qwen 的研究表明,使用 GRPO 訓(xùn)練大語(yǔ)言模型時(shí)存在嚴(yán)重的穩(wěn)定性問(wèn)題,往往會(huì)導(dǎo)致模型不可逆地崩潰。在 Qwen 團(tuán)隊(duì)的研究中,揭示了 GPRO 方法的嚴(yán)重問(wèn)題:
- 在每個(gè) token 級(jí)別應(yīng)用重要性采樣,會(huì)在長(zhǎng)序列中積累高方差,導(dǎo)致訓(xùn)練不穩(wěn)定。
- 這一問(wèn)題在 專家混合模型(Mixture-of-Experts, MoE) 中尤為嚴(yán)重,因?yàn)?token 級(jí)別的路由變化會(huì)加劇不穩(wěn)定性。
如果說(shuō) DAPO 是在 GRPO 框架內(nèi)做微調(diào),那么 GSPO 則是直接調(diào)整了優(yōu)化目標(biāo)的顆粒度 —— 從 token 級(jí)跳到序列級(jí)。
重要性采樣的作用是:來(lái)緩解 off-policy 帶來(lái)的分布差異情況,也就是說(shuō):
我們想要估計(jì)一個(gè)預(yù)期的分布,但是我們手上只有另行為模型的分布,我們就只能在行為策略下進(jìn)行采樣,通過(guò)這個(gè)樣本,賦予重要性權(quán)重,來(lái)估計(jì)出目標(biāo)策略下函數(shù)的值。

但是這種采樣的前提在于多次采樣,如果只有一次采樣,并不能起到分布矯正的作用。問(wèn)題在于大模型訓(xùn)練過(guò)程中,重要性采樣都是 在 token 級(jí)別進(jìn)行的,單個(gè) token 進(jìn)行的重要性采樣是無(wú)法起到分布矯正的作用的,相反,這種采樣手段反而會(huì)帶來(lái)很大方差的噪聲。
在訓(xùn)練時(shí),獎(jiǎng)勵(lì)其實(shí)是針對(duì)整段回答打的分,比如一句話、一個(gè)完整回復(fù)都會(huì)得到一個(gè)整體評(píng)價(jià)。
但是在模型優(yōu)化時(shí),我們通常是在 token 層面進(jìn)行采樣和更新。于是常見(jiàn)的做法是:把獎(jiǎng)勵(lì)直接分?jǐn)偟矫恳粋€(gè) token 上,再逐個(gè)去調(diào)整。
這就導(dǎo)致了 優(yōu)化目標(biāo)和獎(jiǎng)勵(lì)目標(biāo)的顆粒度不匹配:模型可能在單個(gè) token 上學(xué)得很用力,但這并不能完全對(duì)應(yīng)整段回答的質(zhì)量。
為此,Qwen 團(tuán)隊(duì)將 GRPO 進(jìn)化為組序列策略優(yōu)化(Group Sequence Policy Optimization, GSPO)。
正如其名稱所暗示的,GSPO 的核心在于將重要性采樣從 token 級(jí)轉(zhuǎn)移至序列級(jí),其重要性比值基于整個(gè)序列的似然度計(jì)算:

這種采樣權(quán)重的設(shè)計(jì)自然地緩解了逐 token 方差的累積問(wèn)題,從而顯著提升了訓(xùn)練過(guò)程的穩(wěn)定性。
因此,GSPO 的損失函數(shù)為:

- GRPO:重要性權(quán)重在 token 級(jí),每個(gè) token 都可能被單獨(dú)裁剪。
- GSPO:重要性權(quán)重在 序列級(jí),裁剪時(shí)直接作用于整個(gè)回答,更符合獎(jiǎng)勵(lì)信號(hào)的整體性。
此外,GSPO 對(duì) 序列級(jí)的重要性還做了 長(zhǎng)度歸一化,不同問(wèn)題的回答長(zhǎng)度差別很大,如果不歸一化,importance ratio 會(huì)對(duì)長(zhǎng)度非常敏感,造成不穩(wěn)定。
最后,因?yàn)橥粋€(gè)序列中的所有 token 共用同一個(gè)重要性權(quán)重,一旦發(fā)生 clipping,被裁剪掉的就是 整個(gè)序列,而不是像 GRPO 那樣只影響部分 token。
因此,GSPO 提出的「序列級(jí)重要性采樣」顯著提高了訓(xùn)練的穩(wěn)定性,很可能會(huì)成為未來(lái)后訓(xùn)練強(qiáng)化學(xué)習(xí)的新標(biāo)準(zhǔn)。

- 論文標(biāo)題:Group Sequence Policy Optimization
- 論文鏈接:https://huggingface.co/papers/2507.18071
- 博客鏈接:https://qwenlm.github.io/blog/gspo/
GFPO
在 GSPO 之后不久,微軟研究員曝出一個(gè)新成果:組過(guò)濾策略優(yōu)化(Group Filtered Policy Optimization,GFPO),另一種顛覆性的強(qiáng)化學(xué)習(xí)算法。
在 GFPO 工作中,微軟研究團(tuán)隊(duì)指出了 GRPO 的一個(gè)關(guān)鍵限制:
GRPO 依賴于單一的標(biāo)量獎(jiǎng)勵(lì)信號(hào),這使得它難以聯(lián)合優(yōu)化多個(gè)屬性,例如同時(shí)優(yōu)化簡(jiǎn)潔性和準(zhǔn)確度。
結(jié)果就是,GRPO 確實(shí)能提高準(zhǔn)確度,但也會(huì)讓響應(yīng)長(zhǎng)度大幅增加。這也導(dǎo)致了大模型遇到一個(gè)稍微棘手的問(wèn)題,就會(huì)像陷入沉思一樣長(zhǎng)篇大論地推下去,耗時(shí)耗算力,結(jié)果卻未必靠譜。
GFPO 正是為了解決這個(gè)問(wèn)題而生的,它可以同時(shí)優(yōu)化多個(gè)響應(yīng)屬性。
GFPO 是一種簡(jiǎn)單而有效的方法,可以針對(duì)想要的響應(yīng)屬性進(jìn)行有針對(duì)性的策略優(yōu)化。
GFPO 會(huì)為每個(gè)問(wèn)題采樣更大的候選響應(yīng)組,從而擴(kuò)大響應(yīng)池以包含更多具有所需特性的候選響應(yīng),然后在計(jì)算策略梯度時(shí)顯式地過(guò)濾這些特性,不符合目標(biāo)屬性的響應(yīng)不進(jìn)入優(yōu)化。
數(shù)據(jù)過(guò)濾是一種隱式、靈活的獎(jiǎng)勵(lì)塑造形式 —— 類似于使用選擇性采樣來(lái)放大特定模型行為的迭代式自我改進(jìn)方法。過(guò)濾機(jī)制會(huì)迭代地放大模型在目標(biāo)屬性上的表現(xiàn),就像強(qiáng)化學(xué)習(xí)里的「偏好放大器」。
在此顯式過(guò)濾步驟分離出所需的響應(yīng)后,將在所選組內(nèi)使用標(biāo)準(zhǔn)獎(jiǎng)勵(lì)來(lái)計(jì)算相對(duì)優(yōu)勢(shì)。
因此,GFPO 無(wú)需復(fù)雜的獎(jiǎng)勵(lì)工程,即可同時(shí)優(yōu)化多個(gè)所需屬性(例如長(zhǎng)度和準(zhǔn)確度)。
GFPO 的形式化定義如下:

GFPO 的主要干預(yù)措施是在 Advantage 估計(jì)層面,使其可與任何 GRPO 類似的方法兼容,例如 DAPO、Dr. GRPO 或帶有 Dual-Clip PPO 損失的 GRPO。

- 論文標(biāo)題:Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
- 論文地址:https://arxiv.org/abs/2508.09726
GRPO 的一些其他問(wèn)題
除此以外,也有些研究者發(fā)現(xiàn)了 GRPO 的一些其他缺陷,或許可以為未來(lái)的研究工作提供一些新思路。

- 博客鏈接:https://aryagxr.com/blogs/grpo-limitations.html
缺陷 1:獎(jiǎng)勵(lì)的歧義性
復(fù)雜的推理問(wèn)題通常需要多個(gè)獎(jiǎng)勵(lì)信號(hào),因此我們會(huì)為每個(gè)評(píng)判標(biāo)準(zhǔn)單獨(dú)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。然后,把所有獎(jiǎng)勵(lì)函數(shù)的分?jǐn)?shù)加在一起,折疊成一個(gè)單一的獎(jiǎng)勵(lì)信號(hào)。

問(wèn)題在于,模型根本無(wú)法知道 自己到底是因?yàn)槭裁葱袨楸华?jiǎng)勵(lì)的。雖然我們寫了不同的獎(jiǎng)勵(lì)函數(shù),但最后所有獎(jiǎng)勵(lì)依然被合并為一個(gè)標(biāo)量信號(hào)。模型又怎么知道獎(jiǎng)勵(lì)是來(lái)自「答案正確」,還是「推理清晰」,還是「格式規(guī)范」呢?
即使我們調(diào)整不同獎(jiǎng)勵(lì)組件的權(quán)重,模型看到的仍然只是一個(gè)總的標(biāo)量獎(jiǎng)勵(lì)。
GFPO 一定程度上改善了上述問(wèn)題。
缺陷 2:標(biāo)量反饋
在推理任務(wù)中,GRPO 會(huì)丟棄所有中間的文本反饋,因?yàn)閭鹘o模型的只是一個(gè)數(shù)值化的獎(jiǎng)勵(lì)信號(hào)。
舉個(gè)例子,模型訓(xùn)練過(guò)程中會(huì)打印一些輸出,每次猜測(cè)都有文字反饋,比如:
- 「字母 ‘c’ 不應(yīng)該在答案里」
- 「‘n’ 不能出現(xiàn)在位置 3」
這些文字反饋對(duì)模型其實(shí)很有幫助,但在 GRPO 框架下完全用不上,因?yàn)樗鼈冏罱K都會(huì)被抽象成一個(gè)標(biāo)量獎(jiǎng)勵(lì)。
缺陷 3:多輪推理
另一個(gè)瓶頸是 多輪推理 任務(wù)在 GRPO 下的表現(xiàn)。問(wèn)題的關(guān)鍵在于:
在多輪對(duì)話中,每一輪的反饋都會(huì)被重新輸入到基礎(chǔ)模型的 prompt 中,從而導(dǎo)致 指數(shù)級(jí)分支(exponential forking),使得 GRPO 在多輪任務(wù)中的訓(xùn)練變得非常痛苦。見(jiàn)下圖:

寫在最后
簡(jiǎn)單總結(jié)一下,后訓(xùn)練的發(fā)展脈絡(luò)其實(shí)很清晰。從 OpenAI 提出 PPO 的后訓(xùn)練方法開(kāi)始,都在此基礎(chǔ)上縫縫補(bǔ)補(bǔ)。
GRPO 是 PPO 基礎(chǔ)上重要的更新范式,自 GRPO 起,后訓(xùn)練策略優(yōu)化就作為大模型的一個(gè)重要研究方向進(jìn)行,就像樹(shù)節(jié)點(diǎn)一樣向外延伸。
- PPO:以 token 為核心,依賴價(jià)值函數(shù)。
- GRPO:提出組優(yōu)化思路,在組內(nèi)對(duì)獎(jiǎng)勵(lì)做歸一化,從而擺脫價(jià)值函數(shù)依賴;但仍停留在 token 級(jí),方差依舊較大。
- DAPO:在 GRPO 基礎(chǔ)上加入大量工程改進(jìn)(如 Clip-Higher、Dynamic Sampling 等),一定程度緩解大模型 RL 的訓(xùn)練瓶頸,但仍停留在 token 級(jí)。
- GSPO:實(shí)現(xiàn)范式轉(zhuǎn)變,將 off-policy 與 clip 全部提升到 序列級(jí),顯著降低方差,兼具算法簡(jiǎn)潔性與性能表現(xiàn),已成為 Qwen3 RL 的核心實(shí)踐框架。
- GFPO:針對(duì)同時(shí)優(yōu)化多個(gè)所需屬性的目標(biāo)進(jìn)行優(yōu)化,加入數(shù)據(jù)過(guò)濾操作。




























