DeepSeek 背后的技術:GRPO,基于群組采樣的高效大語言模型強化學習訓練方法詳解
強化學習(Reinforcement Learning, RL)已成為提升大型語言模型(Large Language Models, LLMs)推理能力的重要技術手段,特別是在需要復雜推理的任務中。DeepSeek 團隊在 DeepSeek-Math [2] 和 DeepSeek-R1 [3] 模型中的突破性成果,充分展示了強化學習在增強語言模型數(shù)學推理和問題解決能力方面的巨大潛力。
這些成果的取得源于一種創(chuàng)新性的強化學習方法——群組相對策略優(yōu)化(Group Relative Policy Optimization, GRPO)。該方法有效解決了將強化學習應用于語言模型時面臨的特殊挑戰(zhàn)。本文將深入分析 GRPO 的工作機制及其在語言模型訓練領域的重要技術突破,并探討其在實際應用中的優(yōu)勢與局限性。
PPO 與 GRPO 的對比分析
近鄰策略優(yōu)化(Proximal Policy Optimization, PPO)[1] 一直是語言模型強化學習微調(diào)的主流算法。PPO 的核心是一種策略梯度方法,通過裁剪(clipping)機制來限制策略更新的幅度,從而防止策略發(fā)生過大的破壞性變化。PPO 的目標函數(shù)可表示為:
GRPO 首次在文獻 [2] 中提出,它在 PPO 的基礎上引入了多項關鍵創(chuàng)新,使其在語言模型訓練中具有更高的效率和適用性:
- 無需價值網(wǎng)絡,顯著降低了內(nèi)存占用和計算開銷
- 采用群組采樣方法,實現(xiàn)更高效且穩(wěn)定的優(yōu)勢估計
- 通過強化目標函數(shù)和獎勵的懲罰機制,實現(xiàn)更保守的策略更新
更詳細的對比:
GRPO 技術深析
語言模型作為策略網(wǎng)絡
在 GRPO 框架中,語言模型充當策略網(wǎng)絡(actor),將問題 q 作為輸入觀察 s,輸出一系列詞元(tokens)作為動作。策略分布在詞元序列上進行分解:
注: 原始論文 [2] 使用 o_t 表示時間步 t 的輸出詞元,而本文采用 a_t 以符合強化學習中動作的標準記號。
序列化詞元生成
基于 Transformer 架構(gòu)和語言模型的自回歸特性,生成過程具有嚴格的序列性:
- 每個詞元的生成都依賴于之前生成的詞元序列
- 策略網(wǎng)絡(語言模型)維護持續(xù)更新的上下文信息
- 每個詞元生成步驟都可視為強化學習框架中的一個動作 a_t
獎勵計算與優(yōu)勢估計
GRPO 對每個生成序列中的詞元獎勵計算如下:
GRPO 摒棄了傳統(tǒng)的價值網(wǎng)絡,轉(zhuǎn)而通過對參考策略產(chǎn)生的多個輸出樣本進行群組獎勵歸一化來估計基線優(yōu)勢值 A。這些輸出樣本都是針對同一輸入問題生成的:
- 群組采樣: 對于每個問題,使用舊策略生成多個不同的輸出序列。
- 獎勵計算: 計算每個輸出序列的累積獎勵。
- 獎勵歸一化: 對群組內(nèi)的獎勵進行歸一化處理,例如減去均值并除以標準差。
- 優(yōu)勢估計: 使用歸一化后的獎勵作為優(yōu)勢函數(shù)的估計值。
GRPO 目標函數(shù)
對于每個問題 ??,GRPO 從舊策略 ?????????? 中采樣一組輸出 {??1, ??2, · · · , ????},然后通過最大化 GRPO 目標函數(shù)來優(yōu)化策略模型。完整的 GRPO 目標函數(shù)綜合了以下要素:
該目標函數(shù)的特點:
- 同時在群組和序列長度維度上進行平均
- 使用裁剪機制確保策略更新的保守性
- 引入 KL 散度估計作為懲罰項,防止策略與參考模型產(chǎn)生過大偏離
目標函數(shù)的詳細解釋:
- 第一項: 策略梯度項,鼓勵模型生成更高獎勵的動作序列。
- 第二項: 裁剪項,限制策略更新的幅度,防止策略崩潰。
- 第三項: KL 散度懲罰項,防止新策略與舊策略偏離過大,保證訓練的穩(wěn)定性。
GRPO 的優(yōu)勢與局限性
優(yōu)勢:
- 高效性: 無需價值網(wǎng)絡,降低了計算和內(nèi)存開銷。
- 穩(wěn)定性: 群組采樣和 KL 散度懲罰提高了訓練的穩(wěn)定性。
- 適用性: 特別適用于大規(guī)模語言模型的微調(diào)。
局限性:
- 對參考策略的依賴: GRPO 的性能受到參考策略質(zhì)量的影響。
- 超參數(shù)敏感: 目標函數(shù)中的超參數(shù)(如裁剪范圍和 KL 散度系數(shù))需要仔細調(diào)整。
- 理論分析的缺乏: 相比于 PPO,GRPO 的理論分析還不夠完善。
實際應用案例
DeepSeek-Math 和 DeepSeek-R1 是 GRPO 在實際應用中的成功案例。這些模型在數(shù)學推理和問題解決能力方面取得了顯著的提升,證明了 GRPO 在增強語言模型推理能力方面的有效性。
DeepSeek-Math: 通過 GRPO 訓練,DeepSeek-Math 在數(shù)學問題解決能力上超越了許多其他大型語言模型。
DeepSeek-R1: DeepSeek-R1 利用 GRPO 提高了在復雜推理任務中的表現(xiàn),例如閱讀理解和邏輯推理。
總結(jié)
GRPO 在將強化學習應用于語言模型方面取得了重要突破。通過取消價值網(wǎng)絡依賴并引入群組相對優(yōu)勢估計,該方法實現(xiàn)了更高效和穩(wěn)定的訓練過程。DeepSeek-Math 和 DeepSeek-R1 的成功實踐充分驗證了這種方法的實際效果。
GRPO 的核心創(chuàng)新——群組采樣、相對優(yōu)勢估計以及價值網(wǎng)絡的簡化——為語言模型訓練的未來發(fā)展提供了重要的技術參考。隨著語言模型能力邊界的不斷拓展,GRPO 等創(chuàng)新技術將在充分發(fā)揮語言模型潛力方面發(fā)揮關鍵作用。未來的研究方向包括:
- 改進優(yōu)勢估計方法: 探索更精確和高效的優(yōu)勢估計方法。
- 自適應超參數(shù)調(diào)整: 開發(fā)自動調(diào)整 GRPO 超參數(shù)的算法。
- 理論分析: 加強對 GRPO 算法的理論分析,理解其收斂性和泛化能力。