超越DeepSeek GRPO的關(guān)鍵RL算法,字節(jié)、清華AIR開源DAPO
DeepSeek 提出的 GRPO 可以極大提升 LLM 的強(qiáng)化學(xué)習(xí)效率,不過其論文中似乎還缺少一些關(guān)鍵細(xì)節(jié),讓人難以復(fù)現(xiàn)出大規(guī)模和工業(yè)級(jí)的強(qiáng)化學(xué)習(xí)系統(tǒng)。
近日,清華 AIR 和字節(jié)聯(lián)合 SIA Lab 發(fā)布了他們的第一項(xiàng)研究成果:DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪輯和動(dòng)態(tài)采樣策略優(yōu)化)。這是一個(gè)可實(shí)現(xiàn)大規(guī)模 LLM 強(qiáng)化學(xué)習(xí)的開源 SOTA 系統(tǒng)。此外,使用該算法訓(xùn)練的模型也將在近期開源發(fā)布。
- 項(xiàng)目頁(yè)面:https://dapo-sia.github.io/
- 論文地址:https://dapo-sia.github.io/static/pdf/dapo_paper.pdf
- 代碼地址:https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo
- 數(shù)據(jù):https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k
使用該算法,該團(tuán)隊(duì)成功讓 Qwen2.5-32B 模型在 AIME 2024 基準(zhǔn)上獲得了 50 分,優(yōu)于同等規(guī)模的 DeepSeek-R1-Zero-Qwen-32B,同時(shí) DAPO 版 Qwen2.5-32B 使用的訓(xùn)練步數(shù)還少 50%。
相較之下,如果使用 GRPO,Qwen2.5-32B 模型在 AIME 2024 基準(zhǔn)上只能獲得 30 分。
30 分的成績(jī)遠(yuǎn)低于 DeepSeek 的強(qiáng)化學(xué)習(xí)(47 分)。該團(tuán)隊(duì)分析發(fā)現(xiàn),原生版 GRPO 面臨著幾大關(guān)鍵問題,比如熵崩潰、獎(jiǎng)勵(lì)噪音和訓(xùn)練不穩(wěn)定。事實(shí)上,該團(tuán)隊(duì)表示,很多研究團(tuán)隊(duì)在復(fù)現(xiàn) DeepSeek 的結(jié)果時(shí)也遇到了類似的難題。他們表示:「這表明 R1 論文中可能省略了開發(fā)工業(yè)級(jí)、大規(guī)模且可重現(xiàn)的強(qiáng)化學(xué)習(xí)系統(tǒng)所需的關(guān)鍵訓(xùn)練細(xì)節(jié)?!?/span>
Allen AI 研究者 Nathan Lambert 總結(jié)了 DAPO 對(duì) GRPO 的改進(jìn),包括兩個(gè)不同的裁剪超參數(shù)、動(dòng)態(tài)采樣、token 層面的策略梯度損失、過長(zhǎng)獎(jiǎng)勵(lì)塑造
下面將從 PPO 到 GRPO 再到 DAPO 逐步介紹,看看這個(gè)新的強(qiáng)化學(xué)習(xí)算法究竟是如何煉成的。
近端策略優(yōu)化(PPO)
PPO 引入了裁剪式替代目標(biāo)(clipped surrogate objective)來執(zhí)行策略優(yōu)化。通過使用裁剪將策略更新限制在先前策略的近端區(qū)域內(nèi),PPO 可以讓訓(xùn)練穩(wěn)定并提高樣本效率。具體而言,PPO 更新策略的方式是最大化以下目標(biāo):
群組相對(duì)策略優(yōu)化(GRPO)
與 PPO 相比,GRPO 消除了價(jià)值函數(shù)并以群組相關(guān)的方式來估計(jì)優(yōu)勢(shì)。對(duì)于特定的問答對(duì) (q, a),行為策略 π_θ_old 采樣一組 G 個(gè)個(gè)體響應(yīng)。然后,通過對(duì)群組級(jí)獎(jiǎng)勵(lì)
進(jìn)行歸一化來計(jì)算第 i 個(gè)響應(yīng)的優(yōu)勢(shì):
與 PPO 類似,GRPO 也采用了裁剪目標(biāo),同時(shí)還有一個(gè)直接添加的 KL 懲罰項(xiàng):
還值得注意的是,GRPO 是在樣本層級(jí)計(jì)算目標(biāo)。確切地說,GRPO 首先會(huì)計(jì)算每個(gè)生成序列中的平均損失,然后再對(duì)不同樣本的損失進(jìn)行平均。正如后面會(huì)討論的那樣,這種差異可能會(huì)對(duì)算法的性能產(chǎn)生影響。
另外兩項(xiàng)改進(jìn)
消除 KL 偏離
KL 懲罰項(xiàng)的作用是調(diào)節(jié)在線策略和凍結(jié)參考策略之間的偏離情況。在 RLHF 場(chǎng)景中,RL 的目標(biāo)是在不偏離初始模型太遠(yuǎn)的情況下調(diào)整模型行為。然而,在訓(xùn)練長(zhǎng) CoT 推理模型時(shí),模型分布可能會(huì)與初始模型有顯著差異,因此這種限制是不必要的。因此,在 DAPO 中,KL 項(xiàng)被排除在外。
基于規(guī)則的獎(jiǎng)勵(lì)建模
獎(jiǎng)勵(lì)模型的使用通常會(huì)受到獎(jiǎng)勵(lì) hacking 問題的影響。作為替代,該團(tuán)隊(duì)直接使用可驗(yàn)證任務(wù)的最終準(zhǔn)確率作為結(jié)果獎(jiǎng)勵(lì),計(jì)算規(guī)則如下:
事實(shí)證明,這是激活基礎(chǔ)模型推理能力的有效方法,這也在多個(gè)領(lǐng)域得到了證明,包括自動(dòng)定理證明、計(jì)算機(jī)編程和數(shù)學(xué)競(jìng)賽。
DAPO
研究者提出了解耦剪輯(Decouple Clip)和動(dòng)態(tài)采樣策略優(yōu)化(DAPO)算法。DAPO 對(duì)每個(gè)問題 q 和答案 a 的一組輸出進(jìn)行采樣,并通過以下目標(biāo)優(yōu)化策略:
此處
下面將介紹與 DAPO 相關(guān)的關(guān)鍵技術(shù)。
抬高天花板:Clip-Higher
在使用 PPO 或 GRPO 進(jìn)行的初步實(shí)驗(yàn)中,研究者觀察到了熵崩潰現(xiàn)象:隨著訓(xùn)練的進(jìn)行,策略的熵迅速下降(如圖 2b)。某些組的采樣響應(yīng)通常幾乎相同。這表明有限的探索和早期的確定性策略會(huì)阻礙擴(kuò)展過程。
截屏2025-03-18 09.25.46.png
針對(duì)這一問題,研究者提出了 Clip-Higher 策略。對(duì)重要度采樣率進(jìn)行剪輯是 PPO-Clip 中的一種策略,用于限制信任區(qū)域并增強(qiáng) RL 的穩(wěn)定性。上剪輯可以限制策略的探索。在這種情況下,提高「利用 token」的概率要比提高不可能的「探索 token」的概率容易得多。
他們還觀察到,被剪輯 token 的最大概率約為(圖 3a)。這一發(fā)現(xiàn)支持了他們的分析,即上限剪輯閾值確實(shí)限制了低概率 token 的概率增長(zhǎng),從而可能限制了系統(tǒng)的多樣性。
如公式 10 所示,根據(jù) Clip-Higher 策略,研究者將較低和較高的剪輯范圍解耦為 ε_(tái)low 和 ε_(tái)high:
研究者增加了 ε_(tái)high 的值,以便為低概率 token 的增加留出更多空間。如圖 2 所示,這一調(diào)整有效地提高了策略的熵,有利于生成更多樣化的樣本。研究者選擇將 ε_(tái)low 保持在相對(duì)較小的范圍內(nèi),因?yàn)樵龃?ε_(tái)low 會(huì)將這些 token 的概率壓制為 0,從而導(dǎo)致采樣空間的崩潰。
越多越好:動(dòng)態(tài)采樣
當(dāng)某些提示的準(zhǔn)確度等于 1 時(shí),現(xiàn)有的 RL 算法就會(huì)出現(xiàn)梯度遞減問題。根據(jù)經(jīng)驗(yàn),準(zhǔn)確率等于 1 的樣本數(shù)量會(huì)繼續(xù)增加,如圖 3b 所示。這意味著每批樣本中的有效提示次數(shù)會(huì)不斷減少,從而導(dǎo)致梯度方差增大,抑制了模型訓(xùn)練的梯度信號(hào)。
為此,研究者建議進(jìn)行過度采樣,過濾掉等式 11 中所示精度等于 1 和 0 的提示語(yǔ),保留批次中所有具有有效梯度的提示語(yǔ),并保持一致的提示語(yǔ)數(shù)量。在訓(xùn)練之前不斷采樣,直到批次中全部都是準(zhǔn)確率既不等于 0 也不等于 1 的樣本。
另外一點(diǎn)發(fā)現(xiàn)如圖 6 所示,在動(dòng)態(tài)采樣的情況下,實(shí)驗(yàn)?zāi)芨斓貙?shí)現(xiàn)相同的性能。
Rebalancing Act:Token 級(jí)策略梯度損失
研究者觀察到,由于所有樣本在損失計(jì)算中的權(quán)重相同,因此長(zhǎng)回復(fù)中的 token 對(duì)總體損失的貢獻(xiàn)可能會(huì)不成比例地降低,這可能會(huì)導(dǎo)致兩種不利影響。
首先,對(duì)于高質(zhì)量的長(zhǎng)樣本來說,這種影響會(huì)阻礙模型學(xué)習(xí)其中與推理相關(guān)的模式的能力。其次,過長(zhǎng)的樣本往往表現(xiàn)出低質(zhì)量的模式,如胡言亂語(yǔ)和重復(fù)詞語(yǔ)。
如圖 4a 和圖 4b 所示,樣本級(jí)損失計(jì)算由于無法有效懲罰長(zhǎng)樣本中的不良模式,會(huì)導(dǎo)致熵和響應(yīng)長(zhǎng)度的不健康增長(zhǎng)。
捉迷藏:過長(zhǎng)的獎(jiǎng)勵(lì)塑造
為了研究獎(jiǎng)勵(lì)噪聲的影響,研究者首先應(yīng)用了超長(zhǎng)過濾策略,以掩蓋截?cái)鄻颖镜膿p失。如圖 5 所示,這種方法大大穩(wěn)定了訓(xùn)練并提高了性能。
此外,他們還提出了「Soft Overlong Punishment」(等式 13),這是一種長(zhǎng)度感知懲罰機(jī)制,旨在塑造截?cái)鄻颖镜莫?jiǎng)勵(lì)。具體來說,當(dāng)響應(yīng)長(zhǎng)度超過預(yù)定義的最大值時(shí),研究者會(huì)定義一個(gè)懲罰區(qū)間。在這個(gè)區(qū)間內(nèi),響應(yīng)越長(zhǎng),受到的懲罰就越大。這種懲罰會(huì)添加到基于規(guī)則的原始正確性獎(jiǎng)勵(lì)中,從而向模型發(fā)出信號(hào),避免過長(zhǎng)的響應(yīng)。
DAPO 的實(shí)驗(yàn)表現(xiàn)
基于 Qwen-32B 基礎(chǔ)模型,該團(tuán)隊(duì)進(jìn)行了一系列實(shí)驗(yàn),驗(yàn)證了新提出的 DAPO 算法的有效性和優(yōu)勢(shì)。這里我們略過實(shí)驗(yàn)細(xì)節(jié),重點(diǎn)來看看實(shí)驗(yàn)結(jié)果。
整體來看,在 AIME 2024 上,使用 DAPO 訓(xùn)練的 Qwen-32B 模型成長(zhǎng)為了一個(gè)強(qiáng)大的推理模型,性能優(yōu)于使用 R1 方法訓(xùn)練的 Qwen2.5-32B。
如圖 1 所示,可以看到 DAPO 訓(xùn)練的 Qwen2.5-32B 在 AIME 2024 基準(zhǔn)上的性能提升情況。隨著訓(xùn)練步數(shù)增長(zhǎng),模型準(zhǔn)確度從 0% 穩(wěn)步升至了 50%。需要重點(diǎn)指出:達(dá)成這一性能所使用的步數(shù)僅為 DeepSeek-R1-Zero-Qwen-32B 所需步數(shù)的一半。
表 1 展示了新方法中每種訓(xùn)練技術(shù)的貢獻(xiàn)??吹贸鰜?,每種技術(shù)都對(duì)準(zhǔn)確度的增長(zhǎng)有所貢獻(xiàn)。可以看到,原生 GRPO 只能讓 Qwen2.5-32B 基礎(chǔ)模型的準(zhǔn)確度達(dá)到 30%。
至于 token 級(jí)損失,雖然它帶來的性能提升較少,但該團(tuán)隊(duì)發(fā)現(xiàn)它可增強(qiáng)訓(xùn)練穩(wěn)定性并使長(zhǎng)度增加得更健康。
訓(xùn)練動(dòng)態(tài)
為了獲得更透徹的分析,該團(tuán)隊(duì)也分析了訓(xùn)練動(dòng)態(tài)和中間結(jié)果。
生成響應(yīng)的長(zhǎng)度:該指標(biāo)與訓(xùn)練穩(wěn)定性和性能密切相關(guān)。如圖 7a 所示。長(zhǎng)度的增加可為模型提供更大的探索空間,允許采樣更復(fù)雜的推理行為并通過訓(xùn)練逐漸強(qiáng)化。但需要注意的是,長(zhǎng)度在訓(xùn)練過程中并不總是保持持續(xù)的上升趨勢(shì)。在一些相當(dāng)長(zhǎng)的時(shí)期內(nèi),它可以停滯甚至下降。通常的做法是將長(zhǎng)度與驗(yàn)證準(zhǔn)確度結(jié)合起來作為評(píng)估實(shí)驗(yàn)是否正在惡化的指標(biāo)。
訓(xùn)練過程中的獎(jiǎng)勵(lì)動(dòng)態(tài):這一直是強(qiáng)化學(xué)習(xí)中至關(guān)重要的監(jiān)測(cè)指標(biāo)之一,如圖 7b 所示。在這里的大多數(shù)實(shí)驗(yàn)中,獎(jiǎng)勵(lì)增加的趨勢(shì)相對(duì)穩(wěn)定,不會(huì)因?yàn)閷?shí)驗(yàn)設(shè)置的調(diào)整而出現(xiàn)大幅波動(dòng)或下降。這表明,在給定可靠獎(jiǎng)勵(lì)信號(hào)的情況下,語(yǔ)言模型可以穩(wěn)健地?cái)M合訓(xùn)練集的分布。然而,該團(tuán)隊(duì)發(fā)現(xiàn),在訓(xùn)練集上的最終獎(jiǎng)勵(lì)往往與在驗(yàn)證集上的準(zhǔn)確度相關(guān)性不大,這表明對(duì)訓(xùn)練集存在過擬合現(xiàn)象。
Actor 模型的熵和生成概率:這與模型的探索能力有關(guān),同時(shí)也是實(shí)驗(yàn)中密切監(jiān)控的關(guān)鍵指標(biāo)。直觀地講,模型的熵需要保持在適當(dāng)?shù)姆秶鷥?nèi)。過低的熵表示概率分布過于尖銳,這會(huì)導(dǎo)致探索能力喪失。相反,過高的熵往往與過度探索的問題有關(guān),例如亂碼和重復(fù)生成。對(duì)于生成概率,情況恰恰相反。如前所示,通過應(yīng)用 Clip-Higher 策略,可以有效地解決熵崩潰的問題。在后續(xù)的實(shí)驗(yàn)中,該團(tuán)隊(duì)還發(fā)現(xiàn)保持熵緩慢上升的趨勢(shì)有利于模型提升性能,如圖 7c 和圖 7d 所示。
案例研究
在 RL 訓(xùn)練過程中,研究者觀察到一個(gè)有趣的現(xiàn)象:Actor 模型的推理模式會(huì)隨著時(shí)間的推移而動(dòng)態(tài)演化。具體來說,算法不僅強(qiáng)化了有助于正確解決問題的現(xiàn)有推理模式,還逐漸產(chǎn)生了最初不存在的全新推理模式。這一發(fā)現(xiàn)揭示了 RL 算法的適應(yīng)性和探索能力,并為模型的學(xué)習(xí)機(jī)制提供了新的見解。
例如,在模型訓(xùn)練的早期階段,幾乎不存在對(duì)之前推理步驟的檢查和反思。然而,隨著訓(xùn)練的進(jìn)行,模型表現(xiàn)出明顯的反思和回溯行為,如表 2 所示。這一觀察結(jié)果為進(jìn)一步探索解釋推理能力在 RL 過程中的出現(xiàn)提供了啟示。
更多研究細(xì)節(jié),可參考原論文。