偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="psmm2"></ruby>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

白話DeepSeek R1的GRPO強(qiáng)化學(xué)習(xí)算法：原理、圖解、視頻

發(fā)布于 2025-2-28 12:15

瀏覽

0收藏

GRPO (Group Relative Policy Optimization) 算法核心思想：

想象一下，老師在教一個(gè)學(xué)生寫作文。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法（比如PPO）會(huì)給學(xué)生的每一句話打分，告訴他這句好，那句不好。但 GRPO 不這么做，它更像是一位“佛系”老師：

不看過程，看結(jié)果：GRPO 不會(huì)逐句指導(dǎo)學(xué)生，而是讓學(xué)生一口氣寫完幾篇不同的作文（一組作文）。
幾篇作文一起比較：然后，老師把這幾篇作文放在一起比較，根據(jù)一個(gè)預(yù)先定好的規(guī)則（基于規(guī)則的獎(jiǎng)勵(lì)模型），評(píng)判哪篇作文整體上更好。
規(guī)則說話：這個(gè)規(guī)則可能很簡(jiǎn)單，比如看作文是否通順、有沒有錯(cuò)別字（對(duì)于數(shù)學(xué)題，就是看答案對(duì)不對(duì)；對(duì)于編程題，就是看代碼能不能跑通）。
鼓勵(lì)“好作文”，抑制“差作文”：老師會(huì)告訴學(xué)生，你這次寫的這幾篇里，哪幾篇相對(duì)好一些，以后多照著這個(gè)路子寫。哪幾篇差一些，以后別這么寫了。至于具體怎么寫出來的，老師不太關(guān)心。
“穩(wěn)定” 提升：每次提升都比較穩(wěn)妥，不會(huì)讓學(xué)生的寫作水平突然變得很奇怪。盡量保持原有的答題能力，上一篇文章說的KL散度能幫忙“穩(wěn)定”。?

關(guān)鍵點(diǎn)：

基于規(guī)則的獎(jiǎng)勵(lì)模型：GRPO 的“打分”標(biāo)準(zhǔn)是事先定好的規(guī)則，而不是像 PPO 那樣，需要訓(xùn)練一個(gè)專門的“打分模型”。
獎(jiǎng)勵(lì)結(jié)果，不獎(jiǎng)勵(lì)過程：GRPO 看最終答案的好壞，不關(guān)心答案是怎么一步步推導(dǎo)出來的。這個(gè)可以避免Reward Hacking （感興趣的可以去看看前OpenAI算法科學(xué)家寫的博客 https://lilianweng.github.io/posts/2024-11-28-reward-hacking/ ）。
組內(nèi)相對(duì)優(yōu)勢(shì)：GRPO 關(guān)注的是一組答案之間的相對(duì)好壞，而不是每個(gè)答案的絕對(duì)分?jǐn)?shù)。
效率高，節(jié)省資源: 不用像PPO一樣訓(xùn)練價(jià)值模型。

總的來說，GRPO 就像一個(gè)“結(jié)果導(dǎo)向”的老師，它用一套簡(jiǎn)單的規(guī)則來評(píng)價(jià)一組不同的結(jié)果，然后鼓勵(lì)學(xué)生朝著相對(duì)好的方向去努力。

下面這張小抄圖以非常容易理解的方式展示了GRPO算法。它是兩個(gè)作者圖的拼接，上半部分我找到了作者（credit to hesam@x），下半部來自這兒 https://huggingface.co/docs/trl/main/en/grpo_trainer , 沒寫作者， Anyway, credit to huggingface.)

白話DeepSeek R1的GRPO強(qiáng)化學(xué)習(xí)算法：原理、圖解、視頻-AI.x社區(qū)

本文轉(zhuǎn)載自??后向傳播??，作者：張發(fā)恩

標(biāo)簽

已于2025-3-4 11:21:50修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

從具身智能再談強(qiáng)化學(xué)習(xí)，為什么需要強(qiáng)化學(xué)習(xí)，以及強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景

AI探索時(shí)代 ? 3314瀏覽 ? 0回復(fù)
DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署

老蛀蟲 ? 3960瀏覽 ? 0回復(fù)
基于 DeepSeek R1 和 Ollama 開發(fā) RAG 系統(tǒng)

玄姐聊AGI ? 4102瀏覽 ? 0回復(fù)
DeepSeek-R1：通過強(qiáng)化學(xué)習(xí)激發(fā)大語言模型的推理潛能

柏企閱文 ? 4711瀏覽 ? 0回復(fù)
部署滿血DeepSeek R1的避坑指南-vLLM 0.7.1

NLP工作站 ? 7570瀏覽 ? 0回復(fù)
外國(guó)專家解讀DeepSeek：預(yù)算有限，如何復(fù)制R1推理模型？純強(qiáng)化學(xué)習(xí)不現(xiàn)實(shí)！

51CTO技術(shù)棧 ? 1939瀏覽 ? 0回復(fù)
圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理

Baihai_IDP ? 5747瀏覽 ? 0回復(fù)
一文搞懂 DeepSeek - 強(qiáng)化學(xué)習(xí)和蒸餾

玄姐聊AGI ? 3327瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)與大模型后訓(xùn)練：DeepSeek R1 如何獲得推理能力？

lintoms ? 4908瀏覽 ? 0回復(fù)
DeepSeek R1 全系列模型部署指南

芝士AI吃魚 ? 9236瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)與軟件工程：開源軟件獎(jiǎng)勵(lì)演化的強(qiáng)化學(xué)習(xí)

AI研究前瞻 ? 2193瀏覽 ? 0回復(fù)
32B逆襲671BDeepSeek R1！阿里推理模型炸翻了：小到筆記本就能run,成本僅1/10！又是強(qiáng)化學(xué)習(xí)帶來驚喜！

51CTO技術(shù)棧 ? 2260瀏覽 ? 0回復(fù)
Search-R1：強(qiáng)化學(xué)習(xí)增強(qiáng)大語言模型推理+搜索能力

十一月雨_55 ? 2539瀏覽 ? 0回復(fù)
DeepSeek R1 & R2 技術(shù)原理

ceesoft ? 3805瀏覽 ? 0回復(fù)
Fin-R1：通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語言模型

AIRoobt ? 1831瀏覽 ? 0回復(fù)
GRPO教會(huì)DeepSeek R1高智商推理，但GRPO可能不完美且有偏見 | Dr. GRPO簡(jiǎn)化之，消除偏見帶來改進(jìn)

后向傳播 ? 2139瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-R1 的 “最強(qiáng)外掛” GRPO 算法

鴻煊的學(xué)習(xí)筆記 ? 3096瀏覽 ? 0回復(fù)
NL2SQL新突破：SQL-R1用強(qiáng)化學(xué)習(xí)打破傳統(tǒng)局限

Halo咯咯 ? 1646瀏覽 ? 0回復(fù)
「DeepSeek 技術(shù)解析」：LLM 訓(xùn)練中的強(qiáng)化學(xué)習(xí)算法

Baihai_IDP ? 1189瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

開局一把牌，怎么都能打 | 神經(jīng)網(wǎng)絡(luò)從“白癡”訓(xùn)練到“專家”水平，其參數(shù)并沒有太大的變化 2025-06-23 07:28:16發(fā)布
聊聊背后的技術(shù) | AI+生物 | 突破進(jìn)展，世界上首次開發(fā)出“為一人定制”的CRISPR基因編輯體內(nèi)治療藥物 2025-06-10 06:59:33發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

下一篇： GPT-4.5發(fā)布了，參數(shù)規(guī)?？赡茉?-5萬億之間，宣稱是最好的聊天模型，但有“強(qiáng)弩之末”的感覺

社區(qū)精華內(nèi)容

目錄

<samp id="ocnj1"></samp>

<u id="ocnj1"><rp id="ocnj1"></rp></u>

<ruby id="ocnj1"><li id="ocnj1"></li></ruby>

<center id="ocnj1"></center>