快手Klear團隊提出CE-GPPO:通過梯度保留協(xié)調(diào)熵,解決強化學(xué)習(xí)中的熵不穩(wěn)定問題
本研究由快手科技 Klear 語言大模型團隊完成,核心作者蘇振鵬,潘雷宇,呂民軒,胡文憑,張富崢,周國睿等??焓?Klear 語言大模型團隊聚焦在基礎(chǔ)語言大模型研發(fā)、Agent RL 等前沿技術(shù)創(chuàng)新等方向,積累務(wù)實的探索 AGI 的能力邊界,并不斷推進 AI 領(lǐng)域新技術(shù)和新產(chǎn)品的發(fā)展。此前,該團隊已開源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在數(shù)學(xué)和代碼的基準(zhǔn)測試上達到了同參數(shù)級別模型的 SOTA 效果。
近年來,隨著 OpenAI O1、Deepseek R1、KIMI K2 等大模型不斷展示出復(fù)雜推理與思維鏈能力,強化學(xué)習(xí)已成為推動語言模型智能躍升的關(guān)鍵技術(shù)環(huán)節(jié)。相比傳統(tǒng)的監(jiān)督微調(diào),RL 通過獎勵信號直接優(yōu)化模型行為,使模型能夠在訓(xùn)練中自我探索、自我修正。
然而,這一階段的訓(xùn)練并非穩(wěn)態(tài)過程。業(yè)界在大規(guī)模 RLVR 實踐中普遍發(fā)現(xiàn),模型熵的失衡,即探索與利用的不協(xié)調(diào),是導(dǎo)致模型訓(xùn)練不穩(wěn)定、性能難以提升的核心原因。針對這一長期瓶頸,快手 Klear 團隊提出了一種新的強化學(xué)習(xí)算法 CE-GPPO(Coordinating Entropy via Gradient-Preserving Policy Optimization),該方法以「熵」為核心視角,重新審視 RL 中梯度裁剪機制的本質(zhì)影響,并對應(yīng)地提出了梯度保留策略,在保證訓(xùn)練穩(wěn)定的前提下,納入裁剪區(qū)間外的梯度使模型能夠在訓(xùn)練過程中達到探索與收斂的平衡。

- 論文標(biāo)題:CE-GPPO: Coordinating Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
- 論文地址:https://www.arxiv.org/pdf/2509.20712
- 項目地址:https://github.com/Kwai-Klear/CE-GPPO
研究動機
在使用強化學(xué)習(xí)方法優(yōu)化大模型以處理復(fù)雜推理任務(wù)的過程中,策略熵的平衡是核心挑戰(zhàn),原因在于它衡量了動作選擇的不確定性,能夠代表模型探索與利用的權(quán)衡。然而,現(xiàn)有的方法通常面臨熵不穩(wěn)定的問題,具體來說包含兩方面,一方面是熵坍縮,這會造成模型的輸出趨于單一,喪失探索能力,另一方面是熵爆炸,這會造成模型過度探索,進而導(dǎo)致訓(xùn)練不穩(wěn)定、難以收斂。

CE-GPPO 通過研究將所有 token 分為四類,分別對熵有不同的作用:
- 導(dǎo)致熵坍縮的 token 類型:正優(yōu)勢高概率 token(PA&HP)、負(fù)優(yōu)勢低概率 token(NA&LP),優(yōu)化這部分 token 會強化高概率選擇或弱化低概率選擇,加速策略的收斂。
- 導(dǎo)致熵爆炸的 token 類型:正優(yōu)勢低概率 token(PA&LP)、負(fù)優(yōu)勢高概率 token(NA&HP),優(yōu)化這部分 token 會強化低概率選擇或弱化高概率選擇,維持輸出多樣性。
然而,由于 PPO 等方法廣泛采用的 clip 機制,有些低概率的 token(包括 PA&LP token 和 NA&LP token)的梯度被直接截斷,這意味著,PPO 在保證穩(wěn)定性的同時,失去了平衡探索與利用的「安全閥」,從而導(dǎo)致了熵的不穩(wěn)定變化,具體來說又分為以下兩種情況:
- PA&LP token 被裁剪,導(dǎo)致模型無法有效探索,進而造成熵坍塌的現(xiàn)象。
- NA&LP token 被裁剪,導(dǎo)致模型過度探索,進而造成收斂延遲的現(xiàn)象。
現(xiàn)有的一些方法,比如 DAPO 中的 clip higher 方法拓展了裁剪的上界,僅僅納入了一部分原本被裁剪的 PA&LP token,并沒有解決過度探索的問題。因此,CE-GPPO 的核心目標(biāo)是:在保證訓(xùn)練穩(wěn)定的前提下,重新利用裁剪外區(qū)間低概率 token 的梯度,實現(xiàn)策略熵的精細(xì)調(diào)控,平衡模型訓(xùn)練過程中的探索與利用。
算法設(shè)計
基于上述洞察,快手 Klear 團隊提出了全新的 CE-GPPO 算法,其核心思想是:不再丟棄被裁剪 token 的梯度,而是有控制地保留和縮放它們,讓它們作為平衡熵變化,平衡探索與利用的 “閥門”。
核心機制

上式是 CE-GPPO 的目標(biāo)函數(shù),其在原 PPO 框架上引入了兩項關(guān)鍵改進:
- stop gradient 解耦機制:對超出 clip 區(qū)間的 token 應(yīng)用 stop gradient 操作,在前向傳播保持不變的同時在反向傳播時恢復(fù)其梯度傳導(dǎo)。
- 雙系數(shù)控制 β? 和 β? :通過兩個可調(diào)整的超參數(shù)對梯度進行縮放,其中 β? 控制原本被截斷的 NA&LP token 的梯度,促進收斂;β? 控制原本被截斷的 PA&LP token 的梯度,鼓勵探索。這使得訓(xùn)練可以在探索與利用之間靈活調(diào)節(jié)。
梯度穩(wěn)定性證明

上式是 CE-GPPO 的梯度表達式,可以觀察到,雖然 CE-GPPO 引入了 clip 區(qū)間外的梯度,其仍然能夠維持訓(xùn)練穩(wěn)定,一個核心的原因是梯度幅度是可控的:裁剪區(qū)間外的梯度被限制在 β?(1-?) 或 β?(1+?) ,其中 β? 和 β? 通常接近于 1,避免梯度爆炸。公式的其他項與 PPO 的梯度表達式一致,繼承了 PPO 的「保守更新」的特性。
實驗結(jié)果
為驗證 CE-GPPO 在穩(wěn)定性與性能上的有效性,研究團隊在多個數(shù)學(xué)推理基準(zhǔn)上進行了系統(tǒng)實驗,包括 AIME24、AIME25、HMMT25、MATH500 和 AMC23。所有實驗均基于 DeepSeek-R1-Distill-Qwen 模型(1.5B 與 7B)進行訓(xùn)練。
主要觀察:
- CE-GPPO 在所有 benchmark 上均超越強基線方法。
- 提升最顯著的任務(wù)為 AIME25 與 HMMT25,這類高難度推理任務(wù)對熵穩(wěn)定性與探索能力最敏感,驗證了 CE-GPPO 在保持探索性的同時確保收斂的效果。
- 模型規(guī)模越大,CE-GPPO 帶來的收益越明顯,說明方法擁有能夠 scale 到更大規(guī)模模型的潛力。
此外,訓(xùn)練過程中對比了各方法的熵動態(tài)曲線與驗證集準(zhǔn)確率變化:
- GRPO 出現(xiàn)顯著的熵塌縮,訓(xùn)練后期輸出趨同;
- DAPO 通過 clip-higher 緩解了塌縮,但存在 “熵反彈”,后期出現(xiàn)過度探索;
- CE-GPPO 保持穩(wěn)定且中等偏高的熵水平,全程無震蕩,最終收斂性能更高。


實驗分析
超參數(shù)對熵變化的影響
CE-GPPO 的兩個核心超參數(shù) β? 和 β? 控制了裁剪區(qū)間外梯度的權(quán)重,在 1.5B 與 7B 模型上進行了系統(tǒng)超參數(shù)實驗,結(jié)果如圖所示:
- 當(dāng) β? 較大(例如 β?=1, β?=0.5)時,模型更偏向利用,熵下降更快。
- 當(dāng) β? 較大(例如 β?=0.5, β?=1)時,模型傾向于探索,熵下降變緩且保持在較高水平,甚至也有可能出現(xiàn)熵上升的趨勢。
這一現(xiàn)象驗證了 CE-GPPO 的 “可控熵調(diào)節(jié)” 機制:通過調(diào)整兩個系數(shù),訓(xùn)練可以在「快速收斂」與「持續(xù)探索」之間取得理想平衡。

熵變化與性能的關(guān)系
進一步的,研究還分析了熵變化與性能之間的關(guān)系,并得出了以下結(jié)論:
- 維持相對高且穩(wěn)定的熵通常有利于訓(xùn)練過程中的持續(xù)性能提升,熵的過快下降和上升都不利于模型性能的穩(wěn)定提升。
- 給予 PA&LP tokens 更大的梯度權(quán)重 β? ,同時給予 NA&LP tokens 更小的權(quán)重 β? ,有助于維持模型的探索能力,更有利于性能提升。
- CE-GPPO 對超參數(shù)具有魯棒性,在不同規(guī)模模型上,β?=0.5/0.75 和 β?=1 的設(shè)置都能帶來顯著的性能提升。
訓(xùn)練穩(wěn)定性實證性驗證
為了驗證 CE-GPPO 的訓(xùn)練穩(wěn)定性,研究可視化分析了訓(xùn)練過程中 KL 散度和 gradient norm,并與 GRPO 的訓(xùn)練動態(tài)進行對比,結(jié)果表明,CE-GPPO 雖然納入了 clip 區(qū)間外 token 的梯度,但由于梯度限制在固定區(qū)域,所以其整體訓(xùn)練過程是平穩(wěn)的。

與其他 RL 算法比較
研究還對比了 CE-GPPO 與其他近期提出的強化學(xué)習(xí)算法的性能,比如 CISPO 和 GSPO 算法,CE-GPPO 在不同基準(zhǔn)上取得了最好的結(jié)果,進一步的,可以分析出如下結(jié)論:
- CISPO 雖然采用了類似的通過 stop gradient 的方法保留梯度,但在訓(xùn)練后期仍出現(xiàn)熵急劇下降和性能崩潰的現(xiàn)象,它與 CE-GPPO 的區(qū)別主要在于 CE-GPPO 繼承了 PPO 的悲觀更新的特性,并且 CE-GPPO 對于 clip 區(qū)間外梯度的管理更加細(xì)粒度,這些原因?qū)е?CE-GPPO 的性能超過 CISPO 算法。
- GSPO 使用序列級別的重要性采樣,這導(dǎo)致了大約 15% 的 token 被裁剪,而 CE-GPPO 方法納入了 clip 區(qū)間外 token 的梯度,其對于采樣樣本的利用率更高,所以性能更好。

與其他熵調(diào)節(jié)方法的比較
最后,研究還比較了 CE-GPPO 和其他熵調(diào)節(jié)的算法,比如傳統(tǒng)的熵正則化以及 DAPO 的 clip-higher 策略,結(jié)果表明:
- 直接加入熵正則項雖然能延緩熵坍縮,但其對超參數(shù)稀疏很敏感,并且性能均較差。
- DAPO 的 clip higher 策略雖然能納入部分高熵 token 的梯度,但在訓(xùn)練后期出現(xiàn)熵反彈和過度探索的現(xiàn)象,這限制了模型的收斂。
- CE-GPPO 全程保持了較為平穩(wěn)的熵曲線,并且性能隨訓(xùn)練不斷提升,達到了最優(yōu)性能。




























