偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

白話DeepSeek R1的GRPO強(qiáng)化學(xué)習(xí)算法:原理、圖解、視頻

發(fā)布于 2025-2-28 12:15
瀏覽
0收藏

GRPO (Group Relative Policy Optimization) 算法核心思想:

想象一下,老師在教一個(gè)學(xué)生寫作文。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法(比如PPO)會(huì)給學(xué)生的每一句話打分,告訴他這句好,那句不好。但 GRPO 不這么做,它更像是一位“佛系”老師:

  1. 不看過程,看結(jié)果:GRPO 不會(huì)逐句指導(dǎo)學(xué)生,而是讓學(xué)生一口氣寫完幾篇不同的作文(一組作文)。
  2. 幾篇作文一起比較:然后,老師把這幾篇作文放在一起比較,根據(jù)一個(gè)預(yù)先定好的規(guī)則(基于規(guī)則的獎(jiǎng)勵(lì)模型),評(píng)判哪篇作文整體上更好。
  3. 規(guī)則說話:這個(gè)規(guī)則可能很簡(jiǎn)單,比如看作文是否通順、有沒有錯(cuò)別字(對(duì)于數(shù)學(xué)題,就是看答案對(duì)不對(duì);對(duì)于編程題,就是看代碼能不能跑通)。
  4. 鼓勵(lì)“好作文”, 抑制“差作文”:老師會(huì)告訴學(xué)生,你這次寫的這幾篇里,哪幾篇相對(duì)好一些,以后多照著這個(gè)路子寫。哪幾篇差一些,以后別這么寫了。至于具體怎么寫出來的,老師不太關(guān)心。
  5. “穩(wěn)定” 提升:每次提升都比較穩(wěn)妥,不會(huì)讓學(xué)生的寫作水平突然變得很奇怪。盡量保持原有的答題能力,上一篇文章說的KL散度能幫忙“穩(wěn)定”。?


關(guān)鍵點(diǎn):

  • 基于規(guī)則的獎(jiǎng)勵(lì)模型:GRPO 的“打分”標(biāo)準(zhǔn)是事先定好的規(guī)則,而不是像 PPO 那樣,需要訓(xùn)練一個(gè)專門的“打分模型”。
  • 獎(jiǎng)勵(lì)結(jié)果,不獎(jiǎng)勵(lì)過程:GRPO 看最終答案的好壞,不關(guān)心答案是怎么一步步推導(dǎo)出來的。這個(gè)可以避免Reward Hacking (感興趣的可以去看看 前OpenAI算法科學(xué)家寫的博客 https://lilianweng.github.io/posts/2024-11-28-reward-hacking/ )。
  • 組內(nèi)相對(duì)優(yōu)勢(shì):GRPO 關(guān)注的是一組答案之間的相對(duì)好壞,而不是每個(gè)答案的絕對(duì)分?jǐn)?shù)。
  • 效率高,節(jié)省資源:  不用像PPO一樣訓(xùn)練價(jià)值模型。

總的來說,GRPO 就像一個(gè)“結(jié)果導(dǎo)向”的老師,它用一套簡(jiǎn)單的規(guī)則來評(píng)價(jià)一組不同的結(jié)果,然后鼓勵(lì)學(xué)生朝著相對(duì)好的方向去努力。


下面這張小抄圖以非常容易理解的方式展示了GRPO算法。它是兩個(gè)作者圖的拼接,上半部分我找到了作者(credit to hesam@x),下半部來自這兒 https://huggingface.co/docs/trl/main/en/grpo_trainer , 沒寫作者, Anyway, credit to huggingface.)

白話DeepSeek R1的GRPO強(qiáng)化學(xué)習(xí)算法:原理、圖解、視頻-AI.x社區(qū)

本文轉(zhuǎn)載自??后向傳播??,作者: 張發(fā)恩 

標(biāo)簽
已于2025-3-4 11:21:50修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦