偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

DeepSeek采用的GRPO算法數(shù)學(xué)原理及算法過程淺析

作者：余俊暉 2025-03-03 01:00:00

PPO：通過獎(jiǎng)勵(lì)和一個(gè)“評(píng)判者”模型（critic 模型）評(píng)估每個(gè)行為的“好壞”（價(jià)值），然后小步調(diào)整策略，確保改進(jìn)穩(wěn)定。GRPO：通過讓模型自己生成一組結(jié)果（比如回答或行為），比較它們的相對(duì)質(zhì)量（優(yōu)勢(shì)），然后優(yōu)化策略。它的特點(diǎn)是不需要額外的“評(píng)判者”模型（critic 模型），直接用組內(nèi)比較來改進(jìn)。

先來簡(jiǎn)單看下PPO和GRPO的區(qū)別：

source@x

PPO：通過獎(jiǎng)勵(lì)和一個(gè)“評(píng)判者”模型（critic 模型）評(píng)估每個(gè)行為的“好壞”（價(jià)值），然后小步調(diào)整策略，確保改進(jìn)穩(wěn)定。
GRPO：通過讓模型自己生成一組結(jié)果（比如回答或行為），比較它們的相對(duì)質(zhì)量（優(yōu)勢(shì)），然后優(yōu)化策略。它的特點(diǎn)是不需要額外的“評(píng)判者”模型（critic 模型），直接用組內(nèi)比較來改進(jìn)。

個(gè)人理解記錄，供參考。

1. GRPO目標(biāo)函數(shù)的數(shù)學(xué)原理

GRPO的目標(biāo)函數(shù)如下：

這個(gè)函數(shù)看起來復(fù)雜，但我們可以將其拆解為幾個(gè)關(guān)鍵部分，逐一分析其作用和意義。GRPO的目標(biāo)函數(shù)由兩大部分組成：策略梯度更新項(xiàng)和KL散度正則化項(xiàng)。我們分別分析它們的作用。

1.1 策略梯度更新項(xiàng)

策略梯度部分是目標(biāo)函數(shù)的主要成分，形式為：

1.2 KL散度正則化項(xiàng)

2. GRPO算法的整體工作流程

source@X

GRPO是一種基于組獎(jiǎng)勵(lì)的策略優(yōu)化算法，其工作流程可以分為以下幾個(gè)步驟：

整個(gè)流程通過迭代優(yōu)化實(shí)現(xiàn)：從輸入問題到生成響應(yīng)，再到獎(jiǎng)勵(lì)分配和優(yōu)勢(shì)計(jì)算，最后更新策略，形成一個(gè)閉環(huán)。

3. 為什么GRPO算法有效？

GRPO通過消除傳統(tǒng)強(qiáng)化學(xué)習(xí)算法（如PPO）中需要的一個(gè)單獨(dú)價(jià)值函數(shù)模型，顯著提高了效率。這個(gè)模型通常需要額外的內(nèi)存和計(jì)算資源，而GRPO的做法降低了這些需求，使其更適合處理大型語言模型。穩(wěn)健的優(yōu)勢(shì)估計(jì)
GRPO采用基于群體的優(yōu)勢(shì)估計(jì)方法。它為每個(gè)提示生成多個(gè)響應(yīng)，并使用群體的平均獎(jiǎng)勵(lì)作為基準(zhǔn)。這種方法無需依賴另一個(gè)模型的預(yù)測(cè)，提供了一種更穩(wěn)健的政策評(píng)估方式，有助于減少方差并確保學(xué)習(xí)穩(wěn)定性。
GRPO直接將Kullback-Leibler（KL）散度納入損失函數(shù)中。這有助于控制策略更新，防止策略與參考策略偏離過多，從而保持訓(xùn)練的穩(wěn)定性。

4. 幾個(gè)GRPO復(fù)現(xiàn)deepseek-R1-zero的流程代碼repo

https://github.com/Jiayi-Pan/TinyZero
https://github.com/Unakar/Logic-RL

責(zé)任編輯：武曉燕來源：大模型自然語言處理

DeepSeek GRPO 算法

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="1jmii"><rt id="1jmii"><form id="1jmii"></form></rt></sub>

<sub id="1jmii"><rt id="1jmii"></rt></sub>