偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

科普向:一文解構(gòu)大模型后訓(xùn)練,GRPO和它的繼任者們的前世今生

人工智能 新聞
GRPO 就像一個(gè)樹(shù)節(jié)點(diǎn),從這里開(kāi)始開(kāi)枝散葉。

大語(yǔ)言模型的發(fā)展真是日新月異。

從 DeepSeek 橫空出世以來(lái),其在大模型后訓(xùn)練的創(chuàng)新 GRPO 一躍成為強(qiáng)化學(xué)習(xí)黃金范式。

GRPO 已經(jīng)成為一種大模型通用的強(qiáng)化學(xué)習(xí)算法,能夠用在廣泛的后訓(xùn)練任務(wù)中,甚至包括讓大模型玩 2048:

而就在今年,大模型后訓(xùn)練的研究出現(xiàn)了幾個(gè)重磅結(jié)果,包括 Seed 團(tuán)隊(duì)的 DAPO,Qwen 團(tuán)隊(duì)的 GSPO,微軟團(tuán)隊(duì)的 GFPO 等等,而他們無(wú)一例外都是對(duì) GRPO 范式的改進(jìn)。

看這些名字都繞暈了,GRPO 到底有什么魔力,能讓各大研究團(tuán)隊(duì)繞著它團(tuán)團(tuán)轉(zhuǎn);GRPO 又有什么缺陷,各大團(tuán)隊(duì)都要在它身上動(dòng)刀?

通過(guò)這篇文章,我們希望能夠深入淺出的解釋大模型后訓(xùn)練的原理,近期的技術(shù)進(jìn)化路線,以期為讀者構(gòu)建一個(gè)完整的知識(shí)體系。

后訓(xùn)練與強(qiáng)化學(xué)習(xí)

很多人會(huì)覺(jué)得,強(qiáng)化學(xué)習(xí)是一個(gè)非常古老的概念,和全新的大模型好似格格不入。

我們先從大模型說(shuō)起。

大眾理解的大語(yǔ)言模型的概念似乎很簡(jiǎn)單,從海量數(shù)據(jù)中自監(jiān)督學(xué)習(xí)出來(lái)的一個(gè)模型,能夠預(yù)測(cè)文本中下一個(gè)出現(xiàn)的詞,從而輸出語(yǔ)言文本。

但這并不完善,這種理解只突出了大模型「預(yù)訓(xùn)練」的過(guò)程,而完全忽略了「后訓(xùn)練」這一重要過(guò)程。

簡(jiǎn)單來(lái)說(shuō),從海量數(shù)據(jù)中學(xué)習(xí)的過(guò)程稱為「預(yù)訓(xùn)練」,預(yù)訓(xùn)練的結(jié)果是讓模型掌握了通用語(yǔ)言能力,但僅僅如此,模型生成的內(nèi)并不一定符合偏好;可能生成冗長(zhǎng)、不準(zhǔn)確的內(nèi)容;可能不符合應(yīng)用任務(wù)的需求。

換句話說(shuō),預(yù)訓(xùn)練后的大模型會(huì)說(shuō)話,但不一定會(huì)「說(shuō)對(duì)話」。

因此,「后訓(xùn)練」過(guò)程就極為重要。后訓(xùn)練的主要目標(biāo)是強(qiáng)化模型在特定領(lǐng)域的知識(shí)和應(yīng)用能力,增強(qiáng)了模型的適應(yīng)性和靈活性,使其能夠更好地滿足實(shí)際應(yīng)用場(chǎng)景中的多樣化需求。

而強(qiáng)化學(xué)習(xí)則是在后訓(xùn)練中不可或缺的核心部分。關(guān)于強(qiáng)化學(xué)習(xí)的理解,我們可以參考先前編譯的來(lái)自 Unsloth 團(tuán)隊(duì)的文章。

強(qiáng)化學(xué)習(xí)的核心是「反饋」,目標(biāo)是增加好結(jié)果的出現(xiàn)概率,降低壞結(jié)果的出現(xiàn)概率。

舉個(gè)例子,在吃豆人(Pacman)游戲中:如果吃掉一塊餅干,反饋是加分;如果你碰到敵人,反饋是扣分。

這是最樸素的強(qiáng)化學(xué)習(xí)方式了。我們放到大模型訓(xùn)練當(dāng)中,又該用什么方式給大模型加減分的反饋呢?

我們的核心目標(biāo)是讓大模型輸出符合我們?nèi)蝿?wù)偏好的內(nèi)容,那最簡(jiǎn)單的方式就是人類的反饋。

如果你也這么想,那你的想法和 OpenAI 不謀而合。

在訓(xùn)練 GPT 的時(shí)候,OpenAI 就采用了 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))的方法。在該方法中,需要訓(xùn)練一個(gè) agent 來(lái)針對(duì)某個(gè)問(wèn)題(狀態(tài))生成人類認(rèn)為更有用的輸出。

反饋有了,并非一切萬(wàn)事大吉了。我們通過(guò) RLHF 獲得了反饋,通過(guò)這個(gè)反饋的 Reward 作為一個(gè)絕對(duì)的標(biāo)準(zhǔn)去直接訓(xùn)練模型,會(huì)出現(xiàn)顯著的激勵(lì)不充分和方差過(guò)大的問(wèn)題。

假如有兩個(gè)模型,A 的初始能力顯著比 B 強(qiáng),通過(guò)直接反饋會(huì)出現(xiàn):

  • 模型 B 即使從 30 提升到 60,但和模型 A 的 80 相比,仍然顯得很差,優(yōu)化時(shí)它得到的激勵(lì)仍然有限。
  • 模型 A 在追求更高分時(shí),可能出現(xiàn)一些激進(jìn)的變化,導(dǎo)致 reward 有時(shí)飆升,有時(shí)迅速回落,訓(xùn)練過(guò)程不穩(wěn)定。

PPO 的穩(wěn)定策略

為了在此基礎(chǔ)上穩(wěn)定的實(shí)現(xiàn) RLHF,OpenAI 構(gòu)建了 PPO(Proximal Policy Optimization,近端策略優(yōu)化)機(jī)制,加入了 Critic、CLIP 操作和 Reference Model,在保證 策略更新不過(guò)度 的同時(shí),依舊能 高效提升性能。現(xiàn)在已經(jīng)成為強(qiáng)化學(xué)習(xí)領(lǐng)域的 標(biāo)準(zhǔn)方法之一,幾乎是 RLHF 的默認(rèn)選擇。

針對(duì)第一條問(wèn)題,PPO 引入了 Critic:

通俗來(lái)說(shuō),我們不再只使用純粹的 Reward 來(lái)反饋,而是設(shè)置一個(gè)「價(jià)值函數(shù)」作為參考,訓(xùn)練目標(biāo)從「Reward」進(jìn)化成「Advantage」:

對(duì)某個(gè)動(dòng)作,如果實(shí)際 Reward 超過(guò)了 Critic 的預(yù)期,就作為獎(jiǎng)勵(lì),若低于預(yù)期則為負(fù)反饋。優(yōu)化目標(biāo)就變成:

也就是說(shuō),我們擁有了一個(gè)相對(duì)評(píng)估模型進(jìn)步程度的新范式,而非采用絕對(duì) Reward 反饋。引入 Critic 可以顯著降低訓(xùn)練過(guò)程中的方差,相對(duì)于 Reward 反饋,模型進(jìn)步能獲得的梯度更顯著。

針對(duì)第二條問(wèn)題,PPO 采用了 Clip 策略:

為了避免模型變化過(guò)大導(dǎo)致的不穩(wěn)定,Clip 策略加入了限制條件,在目標(biāo)函數(shù)中可以體現(xiàn):

其中,

它表示新策略相對(duì)于舊策略,在動(dòng)作上的概率變化幅度。如果這個(gè)比值偏離 1 太多,就會(huì)被限制在一定的范圍內(nèi),避免模型一次更新的幅度過(guò)大。

除此以外,PPO 策略采用 Reference Model 上了雙保險(xiǎn),在損失函數(shù)中加入相對(duì)初始模型的 KL 散度,同樣可以避免為了短期反饋而脫離合理的策略。

于是,PPO 的損失函數(shù)如下:

從 PPO 到 GRPO

上面的描述應(yīng)該很好理解 PPO 在做什么事情。

但是 PPO 有一個(gè)嚴(yán)重的問(wèn)題,由于價(jià)值函數(shù)是隨著模型訓(xùn)練同時(shí)變動(dòng)的,也就意味著策略模型本身和 Critic 模型(價(jià)值函數(shù))都需要進(jìn)行訓(xùn)練,并且 Critic 模型的大小和策略模型相同。因此會(huì)帶來(lái)額外的內(nèi)存和計(jì)算負(fù)擔(dān),訓(xùn)練成本非常高,很難進(jìn)行 scale up。這可能是財(cái)大氣粗的 OpenAI 玩得轉(zhuǎn)并且取得領(lǐng)先的原因之一。

為了改善這個(gè)雙模型策略的高成本問(wèn)題,最簡(jiǎn)單的方法就是:去掉一個(gè)網(wǎng)絡(luò)。

如果你一樣這么想,那你和 DeepSeek 又不謀而合。

DeepSeek 在大模型訓(xùn)練改進(jìn)的主要?jiǎng)訖C(jī)是想辦法去掉 Critic 模型,為此提出了一種替代方法,也就是大名鼎鼎的組相對(duì)策略優(yōu)化(Group Relative Policy Optimization, GRPO)。

PPO vs GRPO 流程算法對(duì)比

從流程算法對(duì)比中可以看出來(lái),價(jià)值函數(shù)直接消失了。那不用價(jià)值函數(shù),我們?nèi)绾未_定模型的 Advantage 呢?

GRPO 采用了一個(gè)非常合理的方法,不用「學(xué)習(xí)」一個(gè)單獨(dú)的價(jià)值網(wǎng)絡(luò)當(dāng) Critic,而是用這個(gè)模型過(guò)去多次的「考試成績(jī)」來(lái)確定一個(gè)基準(zhǔn)線。

對(duì)同一道題目、同一個(gè)狀態(tài),先用舊策略采樣多條輸出,然后把這些輸出的平均 Reward 當(dāng)作 baseline; 超過(guò)平均值就相當(dāng)于「正向 Advantage」,低于平均值就是「負(fù)向 Advantage」。

在 GRPO 里,除了這一步,還保留了 PPO 中的 Clip 和對(duì) Reference Model 的 KL 正則,這些都可以保障更新的穩(wěn)定性。不過(guò),KL 散度在 GRPO 的目標(biāo)函數(shù)直接放在了損失函數(shù),這降低了獎(jiǎng)勵(lì)函數(shù)的計(jì)算復(fù)雜度,并且它的計(jì)算方案能夠保證進(jìn)行歸一化的 KL 值每次都是正值。而在 PPO 中,KL 散度放在獎(jiǎng)勵(lì)函數(shù)中。

GRPO 跟 PPO 的重要區(qū)別,主要是去掉了價(jià)值函數(shù),同時(shí)使用策略模型的多個(gè)輸出采樣的獎(jiǎng)勵(lì)模型輸出的多個(gè)獎(jiǎng)勵(lì)的平均值作為 Advantage 函數(shù)。

于是,我們得到了 GRPO 的損失函數(shù):

對(duì)于 PPO 到 GRPO,知乎網(wǎng)友將兩者在多個(gè)維度上進(jìn)行了比較,如圖表所示。

知乎網(wǎng)友@杞鋂 分享PPO與GRPO的對(duì)比

從 GRPO 開(kāi)枝散葉

GRPO 在出現(xiàn)后迅速成為一個(gè)后訓(xùn)練范式的重要節(jié)點(diǎn),DeepSeek 的模型成功充分證明了 GRPO 范式的有效性和優(yōu)越性。也因此,后續(xù)的改進(jìn)工作大多都是在 GRPO 的方法基礎(chǔ)上進(jìn)行。

那么 GRPO 到底有啥問(wèn)題,各個(gè)新工作都要在它身上動(dòng)刀呢?

最致命的問(wèn)題,哪怕 GRPO 在 PPO 的基礎(chǔ)上進(jìn)行了改進(jìn),但在穩(wěn)定性上與 PPO 方法仍然半斤八兩。也就是說(shuō) GRPO 仍然存在嚴(yán)重的穩(wěn)定性問(wèn)題,很容易導(dǎo)致訓(xùn)練崩潰。

根據(jù)數(shù)學(xué)中國(guó)的說(shuō)法, DeepSeek 的數(shù)據(jù)足夠多,多到可以完美地避開(kāi) GRPO 的穩(wěn)定性缺陷。每次的策略梯度計(jì)算,只要 Batch 數(shù)據(jù)足夠多,就能有效降低策略梯度的方差,就能獲得比較穩(wěn)定的迭代了。對(duì)于中小規(guī)模的 RL 訓(xùn)練,GRPO 并非一個(gè)好的選擇,尤其是當(dāng)每次使用的數(shù)據(jù)批量比較小的時(shí)候,它的穩(wěn)定性缺陷將是致命的。

因此,最新的一些方法針對(duì) GPRO 的不同部分進(jìn)行了迭代,具體缺陷和優(yōu)化方式在介紹新工作時(shí)細(xì)講。

DAPO

首先要講的優(yōu)化范式是 DAPO,這是字節(jié)、清華 AIR 在今年三月開(kāi)源的算法。

使用該算法,該團(tuán)隊(duì)成功讓 Qwen2.5-32B 模型在 AIME 2024 基準(zhǔn)上獲得了 50 分,優(yōu)于同等規(guī)模的 DeepSeek-R1-Zero-Qwen-32B,同時(shí) DAPO 版 Qwen2.5-32B 使用的訓(xùn)練步數(shù)還少 50%。

但是值得一提的是,DAPO 方法并沒(méi)有在數(shù)學(xué)原理上有什么本質(zhì)上的改變,基本優(yōu)化目標(biāo)仍然沿用了 GRPO 的形式,只是對(duì) Clip 等參數(shù)和采樣機(jī)制做出了改進(jìn)。因此,我們把 DAPO 放在最早討論的順位。

在實(shí)踐過(guò)程中,GRPO 存在以下幾個(gè)問(wèn)題:

  • Token 級(jí)別的 Clip 容易導(dǎo)致熵崩潰:模型很快收斂到少量固定答案,導(dǎo)致多樣性和探索能力不足(熵崩潰)。
  • Batch 采樣中出現(xiàn)獎(jiǎng)勵(lì)極端化:部分樣本的獎(jiǎng)勵(lì)可能全部為 1 或 0,從而產(chǎn)生「零梯度」問(wèn)題,削弱訓(xùn)練信號(hào)。
  • 長(zhǎng)序列訓(xùn)練的梯度分布失衡:權(quán)重分布讓極少數(shù) token 的梯度占據(jù)主導(dǎo),導(dǎo)致許多高質(zhì)量的長(zhǎng)序列樣本被忽視。

為此,DAPO 根據(jù)實(shí)踐中出現(xiàn)的問(wèn)題提出了針對(duì)性的優(yōu)化:

1. Clip-Higher 機(jī)制:將 Clip 的上下限分開(kāi)  ,研究者將較低和較高的剪輯范圍解耦為 ε_(tái)low 和 ε_(tái)high,研究者增加了 ε_(tái)high 的值,以便為低概率 token 的增加留出更多空間,能夠顯著提升模型訓(xùn)練早期的熵。

2. 動(dòng)態(tài)采樣:進(jìn)行過(guò)度采樣,過(guò)濾掉獎(jiǎng)勵(lì)等于 1 和 0 的提示語(yǔ),只保留有效梯度的樣本,提高訓(xùn)練效率。

3. Token 級(jí)策略梯度損失:對(duì)所有 token 一起求平均,保證長(zhǎng)序列的所有 token 都公平地為 batch loss 做貢獻(xiàn),并防止長(zhǎng)序列的優(yōu)化梯度被過(guò)度縮小。

4. 超長(zhǎng)獎(jiǎng)勵(lì)調(diào)整:針對(duì)超長(zhǎng)樣本,當(dāng)響應(yīng)長(zhǎng)度超過(guò)預(yù)定義的最大值時(shí),研究者定義一個(gè)「soft 罰分」。在這個(gè)區(qū)間內(nèi),響應(yīng)越長(zhǎng),受到的懲罰就越大,以此避免過(guò)長(zhǎng)的響應(yīng)。

因此,DAPO 的優(yōu)化損失函數(shù)如下:

雖然 DAPO 依然是 token 級(jí)別的重要性采樣,但訓(xùn)練曲線和最終性能提升非常明顯。

  • 項(xiàng)目頁(yè)面:https://dapo-sia.github.io/
  • 論文地址:https://dapo-sia.github.io/static/pdf/dapo_paper.pdf

GSPO

大的來(lái)了。后訓(xùn)練領(lǐng)域里重要的突破是 Qwen3 使用的新方法 GSPO。

上文那么多文字一直在提及 PPO 類似方法的重要級(jí)采樣均為 token 級(jí),迭代方法一直沒(méi)有突破 token 采樣的限制,而 GSPO 真正在原理上做出了改進(jìn)。

最近 Qwen 的研究表明,使用 GRPO 訓(xùn)練大語(yǔ)言模型時(shí)存在嚴(yán)重的穩(wěn)定性問(wèn)題,往往會(huì)導(dǎo)致模型不可逆地崩潰。在 Qwen 團(tuán)隊(duì)的研究中,揭示了 GPRO 方法的嚴(yán)重問(wèn)題:

  • 在每個(gè) token 級(jí)別應(yīng)用重要性采樣,會(huì)在長(zhǎng)序列中積累高方差,導(dǎo)致訓(xùn)練不穩(wěn)定。
  • 這一問(wèn)題在 專家混合模型(Mixture-of-Experts, MoE) 中尤為嚴(yán)重,因?yàn)?token 級(jí)別的路由變化會(huì)加劇不穩(wěn)定性。

如果說(shuō) DAPO 是在 GRPO 框架內(nèi)做微調(diào),那么 GSPO 則是直接調(diào)整了優(yōu)化目標(biāo)的顆粒度 —— 從 token 級(jí)跳到序列級(jí)。

重要性采樣的作用是:來(lái)緩解 off-policy 帶來(lái)的分布差異情況,也就是說(shuō):

我們想要估計(jì)一個(gè)預(yù)期的分布,但是我們手上只有另行為模型的分布,我們就只能在行為策略下進(jìn)行采樣,通過(guò)這個(gè)樣本,賦予重要性權(quán)重,來(lái)估計(jì)出目標(biāo)策略下函數(shù)的值。

但是這種采樣的前提在于多次采樣,如果只有一次采樣,并不能起到分布矯正的作用。問(wèn)題在于大模型訓(xùn)練過(guò)程中,重要性采樣都是 在 token 級(jí)別進(jìn)行的,單個(gè) token 進(jìn)行的重要性采樣是無(wú)法起到分布矯正的作用的,相反,這種采樣手段反而會(huì)帶來(lái)很大方差的噪聲。

在訓(xùn)練時(shí),獎(jiǎng)勵(lì)其實(shí)是針對(duì)整段回答打的分,比如一句話、一個(gè)完整回復(fù)都會(huì)得到一個(gè)整體評(píng)價(jià)。

但是在模型優(yōu)化時(shí),我們通常是在 token 層面進(jìn)行采樣和更新。于是常見(jiàn)的做法是:把獎(jiǎng)勵(lì)直接分?jǐn)偟矫恳粋€(gè) token 上,再逐個(gè)去調(diào)整。

這就導(dǎo)致了 優(yōu)化目標(biāo)和獎(jiǎng)勵(lì)目標(biāo)的顆粒度不匹配:模型可能在單個(gè) token 上學(xué)得很用力,但這并不能完全對(duì)應(yīng)整段回答的質(zhì)量。

為此,Qwen 團(tuán)隊(duì)將 GRPO 進(jìn)化為組序列策略優(yōu)化(Group Sequence Policy Optimization, GSPO)。

正如其名稱所暗示的,GSPO 的核心在于將重要性采樣從 token 級(jí)轉(zhuǎn)移至序列級(jí),其重要性比值基于整個(gè)序列的似然度計(jì)算:

這種采樣權(quán)重的設(shè)計(jì)自然地緩解了逐 token 方差的累積問(wèn)題,從而顯著提升了訓(xùn)練過(guò)程的穩(wěn)定性。

因此,GSPO 的損失函數(shù)為:

  • GRPO:重要性權(quán)重在 token 級(jí),每個(gè) token 都可能被單獨(dú)裁剪。
  • GSPO:重要性權(quán)重在 序列級(jí),裁剪時(shí)直接作用于整個(gè)回答,更符合獎(jiǎng)勵(lì)信號(hào)的整體性。

此外,GSPO 對(duì) 序列級(jí)的重要性還做了 長(zhǎng)度歸一化,不同問(wèn)題的回答長(zhǎng)度差別很大,如果不歸一化,importance ratio 會(huì)對(duì)長(zhǎng)度非常敏感,造成不穩(wěn)定。

最后,因?yàn)橥粋€(gè)序列中的所有 token 共用同一個(gè)重要性權(quán)重,一旦發(fā)生 clipping,被裁剪掉的就是 整個(gè)序列,而不是像 GRPO 那樣只影響部分 token。

因此,GSPO 提出的「序列級(jí)重要性采樣」顯著提高了訓(xùn)練的穩(wěn)定性,很可能會(huì)成為未來(lái)后訓(xùn)練強(qiáng)化學(xué)習(xí)的新標(biāo)準(zhǔn)。

  • 論文標(biāo)題:Group Sequence Policy Optimization
  • 論文鏈接:https://huggingface.co/papers/2507.18071
  • 博客鏈接:https://qwenlm.github.io/blog/gspo/

GFPO

在 GSPO 之后不久,微軟研究員曝出一個(gè)新成果:組過(guò)濾策略優(yōu)化(Group Filtered Policy Optimization,GFPO),另一種顛覆性的強(qiáng)化學(xué)習(xí)算法。

在 GFPO 工作中,微軟研究團(tuán)隊(duì)指出了 GRPO 的一個(gè)關(guān)鍵限制:

GRPO 依賴于單一的標(biāo)量獎(jiǎng)勵(lì)信號(hào),這使得它難以聯(lián)合優(yōu)化多個(gè)屬性,例如同時(shí)優(yōu)化簡(jiǎn)潔性和準(zhǔn)確度。

結(jié)果就是,GRPO 確實(shí)能提高準(zhǔn)確度,但也會(huì)讓響應(yīng)長(zhǎng)度大幅增加。這也導(dǎo)致了大模型遇到一個(gè)稍微棘手的問(wèn)題,就會(huì)像陷入沉思一樣長(zhǎng)篇大論地推下去,耗時(shí)耗算力,結(jié)果卻未必靠譜。

GFPO 正是為了解決這個(gè)問(wèn)題而生的,它可以同時(shí)優(yōu)化多個(gè)響應(yīng)屬性。

GFPO 是一種簡(jiǎn)單而有效的方法,可以針對(duì)想要的響應(yīng)屬性進(jìn)行有針對(duì)性的策略優(yōu)化。

GFPO 會(huì)為每個(gè)問(wèn)題采樣更大的候選響應(yīng)組,從而擴(kuò)大響應(yīng)池以包含更多具有所需特性的候選響應(yīng),然后在計(jì)算策略梯度時(shí)顯式地過(guò)濾這些特性,不符合目標(biāo)屬性的響應(yīng)不進(jìn)入優(yōu)化。

數(shù)據(jù)過(guò)濾是一種隱式、靈活的獎(jiǎng)勵(lì)塑造形式 —— 類似于使用選擇性采樣來(lái)放大特定模型行為的迭代式自我改進(jìn)方法。過(guò)濾機(jī)制會(huì)迭代地放大模型在目標(biāo)屬性上的表現(xiàn),就像強(qiáng)化學(xué)習(xí)里的「偏好放大器」。

在此顯式過(guò)濾步驟分離出所需的響應(yīng)后,將在所選組內(nèi)使用標(biāo)準(zhǔn)獎(jiǎng)勵(lì)來(lái)計(jì)算相對(duì)優(yōu)勢(shì)。

因此,GFPO 無(wú)需復(fù)雜的獎(jiǎng)勵(lì)工程,即可同時(shí)優(yōu)化多個(gè)所需屬性(例如長(zhǎng)度和準(zhǔn)確度)。

GFPO 的形式化定義如下:

GFPO 的主要干預(yù)措施是在 Advantage 估計(jì)層面,使其可與任何 GRPO 類似的方法兼容,例如 DAPO、Dr. GRPO 或帶有 Dual-Clip PPO 損失的 GRPO。

  • 論文標(biāo)題:Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
  • 論文地址:https://arxiv.org/abs/2508.09726

GRPO 的一些其他問(wèn)題

除此以外,也有些研究者發(fā)現(xiàn)了 GRPO 的一些其他缺陷,或許可以為未來(lái)的研究工作提供一些新思路。

  • 博客鏈接:https://aryagxr.com/blogs/grpo-limitations.html

缺陷 1:獎(jiǎng)勵(lì)的歧義性

復(fù)雜的推理問(wèn)題通常需要多個(gè)獎(jiǎng)勵(lì)信號(hào),因此我們會(huì)為每個(gè)評(píng)判標(biāo)準(zhǔn)單獨(dú)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。然后,把所有獎(jiǎng)勵(lì)函數(shù)的分?jǐn)?shù)加在一起,折疊成一個(gè)單一的獎(jiǎng)勵(lì)信號(hào)。

問(wèn)題在于,模型根本無(wú)法知道 自己到底是因?yàn)槭裁葱袨楸华?jiǎng)勵(lì)的。雖然我們寫了不同的獎(jiǎng)勵(lì)函數(shù),但最后所有獎(jiǎng)勵(lì)依然被合并為一個(gè)標(biāo)量信號(hào)。模型又怎么知道獎(jiǎng)勵(lì)是來(lái)自「答案正確」,還是「推理清晰」,還是「格式規(guī)范」呢?

即使我們調(diào)整不同獎(jiǎng)勵(lì)組件的權(quán)重,模型看到的仍然只是一個(gè)總的標(biāo)量獎(jiǎng)勵(lì)。

GFPO 一定程度上改善了上述問(wèn)題。

缺陷 2:標(biāo)量反饋

在推理任務(wù)中,GRPO 會(huì)丟棄所有中間的文本反饋,因?yàn)閭鹘o模型的只是一個(gè)數(shù)值化的獎(jiǎng)勵(lì)信號(hào)。

舉個(gè)例子,模型訓(xùn)練過(guò)程中會(huì)打印一些輸出,每次猜測(cè)都有文字反饋,比如:

  • 「字母 ‘c’ 不應(yīng)該在答案里」
  • 「‘n’ 不能出現(xiàn)在位置 3」

這些文字反饋對(duì)模型其實(shí)很有幫助,但在 GRPO 框架下完全用不上,因?yàn)樗鼈冏罱K都會(huì)被抽象成一個(gè)標(biāo)量獎(jiǎng)勵(lì)。

缺陷 3:多輪推理

另一個(gè)瓶頸是 多輪推理 任務(wù)在 GRPO 下的表現(xiàn)。問(wèn)題的關(guān)鍵在于:

在多輪對(duì)話中,每一輪的反饋都會(huì)被重新輸入到基礎(chǔ)模型的 prompt 中,從而導(dǎo)致 指數(shù)級(jí)分支(exponential forking),使得 GRPO 在多輪任務(wù)中的訓(xùn)練變得非常痛苦。見(jiàn)下圖:

寫在最后

簡(jiǎn)單總結(jié)一下,后訓(xùn)練的發(fā)展脈絡(luò)其實(shí)很清晰。從 OpenAI 提出 PPO 的后訓(xùn)練方法開(kāi)始,都在此基礎(chǔ)上縫縫補(bǔ)補(bǔ)。

GRPO 是 PPO 基礎(chǔ)上重要的更新范式,自 GRPO 起,后訓(xùn)練策略優(yōu)化就作為大模型的一個(gè)重要研究方向進(jìn)行,就像樹(shù)節(jié)點(diǎn)一樣向外延伸。

  • PPO:以 token 為核心,依賴價(jià)值函數(shù)。
  • GRPO:提出組優(yōu)化思路,在組內(nèi)對(duì)獎(jiǎng)勵(lì)做歸一化,從而擺脫價(jià)值函數(shù)依賴;但仍停留在 token 級(jí),方差依舊較大。
  • DAPO:在 GRPO 基礎(chǔ)上加入大量工程改進(jìn)(如 Clip-Higher、Dynamic Sampling 等),一定程度緩解大模型 RL 的訓(xùn)練瓶頸,但仍停留在 token 級(jí)。
  • GSPO:實(shí)現(xiàn)范式轉(zhuǎn)變,將 off-policy 與 clip 全部提升到 序列級(jí),顯著降低方差,兼具算法簡(jiǎn)潔性與性能表現(xiàn),已成為 Qwen3 RL 的核心實(shí)踐框架。
  • GFPO:針對(duì)同時(shí)優(yōu)化多個(gè)所需屬性的目標(biāo)進(jìn)行優(yōu)化,加入數(shù)據(jù)過(guò)濾操作。
責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2014-06-24 10:37:03

智能設(shè)備新技術(shù)

2022-03-13 18:27:09

Redis數(shù)據(jù)庫(kù)開(kāi)源

2020-05-15 15:29:36

Stata數(shù)據(jù)分析

2018-05-31 09:46:04

車聯(lián)網(wǎng)智能交通ITS

2021-09-09 09:29:03

AI 數(shù)據(jù)模型

2023-02-18 18:33:08

計(jì)算機(jī)前世今生

2019-01-16 09:56:27

2019-05-22 17:34:16

代碼開(kāi)發(fā)工具

2018-02-25 11:12:17

Fuchsia安卓谷歌

2017-06-09 08:49:49

2025-01-26 15:02:47

2022-07-20 15:20:40

谷歌開(kāi)源

2018-08-08 16:08:45

深度學(xué)習(xí)機(jī)器學(xué)習(xí)NLP

2024-07-11 10:27:52

2014-07-30 10:55:27

2015-11-18 14:14:11

OPNFVNFV

2025-02-12 11:25:39

2011-08-23 09:52:31

CSS

2019-05-09 08:57:40

HTTPSWindows臺(tái)式機(jī)Linux主機(jī)

2024-09-13 17:02:29

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)