白話DeepSeek R1的GRPO強(qiáng)化學(xué)習(xí)算法:原理、圖解、視頻
GRPO (Group Relative Policy Optimization) 算法核心思想:
想象一下,老師在教一個(gè)學(xué)生寫作文。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法(比如PPO)會(huì)給學(xué)生的每一句話打分,告訴他這句好,那句不好。但 GRPO 不這么做,它更像是一位“佛系”老師:
- 不看過程,看結(jié)果:GRPO 不會(huì)逐句指導(dǎo)學(xué)生,而是讓學(xué)生一口氣寫完幾篇不同的作文(一組作文)。
- 幾篇作文一起比較:然后,老師把這幾篇作文放在一起比較,根據(jù)一個(gè)預(yù)先定好的規(guī)則(基于規(guī)則的獎(jiǎng)勵(lì)模型),評(píng)判哪篇作文整體上更好。
- 規(guī)則說話:這個(gè)規(guī)則可能很簡(jiǎn)單,比如看作文是否通順、有沒有錯(cuò)別字(對(duì)于數(shù)學(xué)題,就是看答案對(duì)不對(duì);對(duì)于編程題,就是看代碼能不能跑通)。
- 鼓勵(lì)“好作文”, 抑制“差作文”:老師會(huì)告訴學(xué)生,你這次寫的這幾篇里,哪幾篇相對(duì)好一些,以后多照著這個(gè)路子寫。哪幾篇差一些,以后別這么寫了。至于具體怎么寫出來的,老師不太關(guān)心。
- “穩(wěn)定” 提升:每次提升都比較穩(wěn)妥,不會(huì)讓學(xué)生的寫作水平突然變得很奇怪。盡量保持原有的答題能力,上一篇文章說的KL散度能幫忙“穩(wěn)定”。?
關(guān)鍵點(diǎn):
- 基于規(guī)則的獎(jiǎng)勵(lì)模型:GRPO 的“打分”標(biāo)準(zhǔn)是事先定好的規(guī)則,而不是像 PPO 那樣,需要訓(xùn)練一個(gè)專門的“打分模型”。
- 獎(jiǎng)勵(lì)結(jié)果,不獎(jiǎng)勵(lì)過程:GRPO 看最終答案的好壞,不關(guān)心答案是怎么一步步推導(dǎo)出來的。這個(gè)可以避免Reward Hacking (感興趣的可以去看看 前OpenAI算法科學(xué)家寫的博客 https://lilianweng.github.io/posts/2024-11-28-reward-hacking/ )。
- 組內(nèi)相對(duì)優(yōu)勢(shì):GRPO 關(guān)注的是一組答案之間的相對(duì)好壞,而不是每個(gè)答案的絕對(duì)分?jǐn)?shù)。
- 效率高,節(jié)省資源: 不用像PPO一樣訓(xùn)練價(jià)值模型。
總的來說,GRPO 就像一個(gè)“結(jié)果導(dǎo)向”的老師,它用一套簡(jiǎn)單的規(guī)則來評(píng)價(jià)一組不同的結(jié)果,然后鼓勵(lì)學(xué)生朝著相對(duì)好的方向去努力。
下面這張小抄圖以非常容易理解的方式展示了GRPO算法。它是兩個(gè)作者圖的拼接,上半部分我找到了作者(credit to hesam@x),下半部來自這兒 https://huggingface.co/docs/trl/main/en/grpo_trainer , 沒寫作者, Anyway, credit to huggingface.)
本文轉(zhuǎn)載自??后向傳播??,作者: 張發(fā)恩
已于2025-3-4 11:21:50修改
贊
收藏
回復(fù)
分享
微博
QQ
微信
舉報(bào)

回復(fù)
相關(guān)推薦