偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek采用的GRPO算法數(shù)學(xué)原理及算法過程淺析

人工智能
PPO:通過獎勵和一個“評判者”模型(critic 模型)評估每個行為的“好壞”(價值),然后小步調(diào)整策略,確保改進穩(wěn)定。GRPO:通過讓模型自己生成一組結(jié)果(比如回答或行為),比較它們的相對質(zhì)量(優(yōu)勢),然后優(yōu)化策略。它的特點是不需要額外的“評判者”模型(critic 模型),直接用組內(nèi)比較來改進。

先來簡單看下PPO和GRPO的區(qū)別:

source@xsource@x

  • PPO:通過獎勵和一個“評判者”模型(critic 模型)評估每個行為的“好壞”(價值),然后小步調(diào)整策略,確保改進穩(wěn)定。
  • GRPO:通過讓模型自己生成一組結(jié)果(比如回答或行為),比較它們的相對質(zhì)量(優(yōu)勢),然后優(yōu)化策略。它的特點是不需要額外的“評判者”模型(critic 模型),直接用組內(nèi)比較來改進。

個人理解記錄,供參考。

1. GRPO目標(biāo)函數(shù)的數(shù)學(xué)原理

GRPO的目標(biāo)函數(shù)如下:

圖片

這個函數(shù)看起來復(fù)雜,但我們可以將其拆解為幾個關(guān)鍵部分,逐一分析其作用和意義。GRPO的目標(biāo)函數(shù)由兩大部分組成:策略梯度更新項和KL散度正則化項。我們分別分析它們的作用。

1.1 策略梯度更新項

策略梯度部分是目標(biāo)函數(shù)的主要成分,形式為:

圖片

1.2 KL散度正則化項

2. GRPO算法的整體工作流程

source@Xsource@X

GRPO是一種基于組獎勵的策略優(yōu)化算法,其工作流程可以分為以下幾個步驟:

整個流程通過迭代優(yōu)化實現(xiàn):從輸入問題到生成響應(yīng),再到獎勵分配和優(yōu)勢計算,最后更新策略,形成一個閉環(huán)。

3. 為什么GRPO算法有效?

  • GRPO通過消除傳統(tǒng)強化學(xué)習(xí)算法(如PPO)中需要的一個單獨價值函數(shù)模型,顯著提高了效率。這個模型通常需要額外的內(nèi)存和計算資源,而GRPO的做法降低了這些需求,使其更適合處理大型語言模型。 穩(wěn)健的優(yōu)勢估計
  • GRPO采用基于群體的優(yōu)勢估計方法。它為每個提示生成多個響應(yīng),并使用群體的平均獎勵作為基準(zhǔn)。這種方法無需依賴另一個模型的預(yù)測,提供了一種更穩(wěn)健的政策評估方式,有助于減少方差并確保學(xué)習(xí)穩(wěn)定性。
  • GRPO直接將Kullback-Leibler(KL)散度納入損失函數(shù)中。這有助于控制策略更新,防止策略與參考策略偏離過多,從而保持訓(xùn)練的穩(wěn)定性。

4. 幾個GRPO復(fù)現(xiàn)deepseek-R1-zero的流程代碼repo

責(zé)任編輯:武曉燕 來源: 大模型自然語言處理
相關(guān)推薦

2025-03-19 09:15:00

AI算法模型

2025-01-03 11:46:31

2025-03-11 01:00:00

GRPO算法模型

2025-03-03 09:32:00

2023-03-03 08:06:37

2010-06-11 08:52:17

并行計算

2022-04-22 12:36:11

RNN神經(jīng)網(wǎng)絡(luò))機器學(xué)習(xí)

2022-08-28 20:50:29

算法模型機器學(xué)習(xí)

2019-04-10 09:23:10

梯度下降機器學(xué)習(xí)算法

2009-07-06 09:23:51

Servlet定義

2017-03-02 10:49:37

推薦算法原理實現(xiàn)

2024-06-07 09:26:30

模型數(shù)學(xué)

2025-01-16 07:10:00

2025-03-13 11:07:30

2009-08-11 13:54:54

約瑟夫環(huán)算法C#算法

2018-07-27 08:39:44

負載均衡算法實現(xiàn)

2017-05-11 11:59:12

MySQL數(shù)據(jù)結(jié)構(gòu)算法原理

2018-02-09 11:08:49

區(qū)塊鏈算法主流

2020-12-16 05:46:58

算法加密算法MD5

2023-08-08 14:56:27

ParcelRustDemo
點贊
收藏

51CTO技術(shù)棧公眾號