偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一文讀懂 DeepSeek-R1 的 “最強(qiáng)外掛” GRPO 算法 精華

發(fā)布于 2025-4-15 07:34
瀏覽
0收藏

在大語(yǔ)言模型(LLMs)的飛速發(fā)展進(jìn)程中,DeepSeek-R1 憑借出色的性能脫穎而出,吸引了無(wú)數(shù)目光。而它背后的 “秘密武器”——GRPO(Group Relative Policy Optimization)強(qiáng)化學(xué)習(xí)算法,更是成為大家熱議的焦點(diǎn)。今天,咱們就用通俗易懂的方式,深入剖析一下這個(gè)讓 DeepSeek-R1 大放異彩的 GRPO 算法!

1. GRPO 誕生的 “前因后果”

在大語(yǔ)言模型的微調(diào)環(huán)節(jié),強(qiáng)化學(xué)習(xí)(RL)起著舉足輕重的作用。一直以來(lái),近端策略優(yōu)化(PPO)算法都是 LLM 微調(diào)的常用手段。但隨著模型規(guī)模越來(lái)越大,PPO 的問題逐漸暴露出來(lái)。

想象一下,PPO 就像是一個(gè)背著沉重背包的行者,這個(gè)背包就是與策略模型大小相當(dāng)?shù)膬r(jià)值網(wǎng)絡(luò),用來(lái)估計(jì)優(yōu)勢(shì)函數(shù)。在處理數(shù)十億甚至千億參數(shù)的大型語(yǔ)言模型時(shí),維護(hù)和更新這個(gè)價(jià)值網(wǎng)絡(luò),需要耗費(fèi)大量的計(jì)算資源和內(nèi)存空間,訓(xùn)練過程變得又慢又艱難,就像行者被沉重背包拖累,舉步維艱。

而且,PPO 在更新策略時(shí),就像一輛剎車不太靈的汽車,策略分布容易發(fā)生劇烈變化,導(dǎo)致訓(xùn)練穩(wěn)定性大打折扣。為了解決這些難題,DeepSeek 的研究人員經(jīng)過不懈努力,研發(fā)出了 GRPO 算法,致力于讓大語(yǔ)言模型的訓(xùn)練更加高效、穩(wěn)定。

2. GRPO 的核心 “智慧”

GRPO 的核心思路十分巧妙,簡(jiǎn)單來(lái)說,它不走尋常路,不再依賴傳統(tǒng)的價(jià)值網(wǎng)絡(luò)(也就是批評(píng)模型)來(lái)評(píng)估動(dòng)作價(jià)值,而是通過組內(nèi)相對(duì)獎(jiǎng)勵(lì)來(lái)優(yōu)化策略模型。

這就好比在學(xué)校里評(píng)選優(yōu)秀學(xué)生,以前是每個(gè)學(xué)生單獨(dú)打分(依賴價(jià)值網(wǎng)絡(luò)評(píng)估每個(gè)動(dòng)作價(jià)值),現(xiàn)在則是把學(xué)生分成小組,根據(jù)小組內(nèi)每個(gè)學(xué)生的相對(duì)表現(xiàn)來(lái)評(píng)選(根據(jù)組內(nèi)動(dòng)作相對(duì)表現(xiàn)調(diào)整策略)。這樣做有不少好處:

  • 計(jì)算負(fù)擔(dān)大幅減輕:不用再維護(hù)價(jià)值網(wǎng)絡(luò)這個(gè) “耗能大戶”,就像行者扔掉了沉重的背包,訓(xùn)練過程中的內(nèi)存占用和計(jì)算代價(jià)顯著降低。
  • 訓(xùn)練穩(wěn)定性顯著提高:通過組內(nèi)比較來(lái)估計(jì)優(yōu)勢(shì)函數(shù),就像小組內(nèi)互相競(jìng)爭(zhēng),大家的水平差距能更準(zhǔn)確地體現(xiàn)出來(lái),減少了策略更新的波動(dòng),讓訓(xùn)練過程更加平穩(wěn)。
  • 策略更新更易掌控:GRPO 引入了 KL 散度約束,這就像是給策略更新上了一把鎖,防止策略更新幅度過大,保持策略分布的穩(wěn)定。

從數(shù)學(xué)角度看,GRPO 的目標(biāo)是在保持策略更新穩(wěn)定的同時(shí),最大化預(yù)期累積獎(jiǎng)勵(lì)。它的目標(biāo)函數(shù)雖然有點(diǎn)復(fù)雜,但可以簡(jiǎn)單理解為通過對(duì)采樣動(dòng)作組的獎(jiǎng)勵(lì)進(jìn)行處理和約束,實(shí)現(xiàn)對(duì)策略模型的優(yōu)化 。

3. GRPO 算法的 “操作指南”

3.1 采樣動(dòng)作組

面對(duì)每個(gè)輸入狀態(tài),GRPO 會(huì)像抽獎(jiǎng)一樣,按照當(dāng)前策略的概率分布,從眾多可能的動(dòng)作中采樣出一組動(dòng)作。這樣做能保證采樣的動(dòng)作豐富多樣,就像抽獎(jiǎng)時(shí)各種獎(jiǎng)項(xiàng)都有機(jī)會(huì)被抽到,為后續(xù)的評(píng)估和優(yōu)化提供更多可能性。

3.2 獎(jiǎng)勵(lì)評(píng)估

每個(gè)采樣動(dòng)作都會(huì)接受獎(jiǎng)勵(lì)函數(shù)的 “考驗(yàn)”,根據(jù)任務(wù)的不同,獎(jiǎng)勵(lì)函數(shù)的評(píng)判標(biāo)準(zhǔn)也不一樣。在數(shù)學(xué)推理任務(wù)中,如果模型給出的答案正確,就能獲得較高的獎(jiǎng)勵(lì)值;在代碼生成任務(wù)里,代碼能成功運(yùn)行,獎(jiǎng)勵(lì)值也會(huì)相應(yīng)提高。

3.3 計(jì)算相對(duì)優(yōu)勢(shì)

這一步是把每個(gè)動(dòng)作的獎(jiǎng)勵(lì)值進(jìn)行歸一化處理,得到相對(duì)優(yōu)勢(shì)。簡(jiǎn)單理解,就是把每個(gè)動(dòng)作的獎(jiǎng)勵(lì)值放在一起比較,看看它在這組動(dòng)作中的相對(duì)表現(xiàn)如何。

比如,大家考試后,老師不僅告訴你考了多少分,還會(huì)告訴你在班級(jí)里的排名情況,這個(gè)排名就類似于相對(duì)優(yōu)勢(shì)。通過計(jì)算相對(duì)優(yōu)勢(shì),可以更準(zhǔn)確地評(píng)估每個(gè)動(dòng)作的優(yōu)劣。

3.4 策略更新

根據(jù)計(jì)算出的相對(duì)優(yōu)勢(shì),GRPO 會(huì)對(duì)策略模型的參數(shù)進(jìn)行調(diào)整。對(duì)于那些相對(duì)優(yōu)勢(shì)為正的動(dòng)作,就像班級(jí)里成績(jī)排名靠前的學(xué)生,會(huì)增加它們出現(xiàn)的概率;相對(duì)優(yōu)勢(shì)為負(fù)的動(dòng)作,則會(huì)減少概率。

3.5 KL 散度約束

為了避免策略更新 “失控”,GRPO 引入了 KL 散度約束。它就像一個(gè) “穩(wěn)壓器”,限制新舊策略之間的差異,確保策略分布的變化在合理范圍內(nèi),讓模型訓(xùn)練更加穩(wěn)定。

4. GRPO 與 PPO 的 “大對(duì)決”

一文讀懂 DeepSeek-R1 的 “最強(qiáng)外掛” GRPO 算法-AI.x社區(qū)

4.1 算法結(jié)構(gòu)差異明顯

PPO 嚴(yán)重依賴價(jià)值網(wǎng)絡(luò)來(lái)估計(jì)優(yōu)勢(shì)函數(shù),價(jià)值網(wǎng)絡(luò)不僅計(jì)算復(fù)雜,還占用大量?jī)?nèi)存。而 GRPO 則果斷拋棄價(jià)值網(wǎng)絡(luò),通過組內(nèi)相對(duì)獎(jiǎng)勵(lì)來(lái)估計(jì)優(yōu)勢(shì)函數(shù),大大減少了計(jì)算和存儲(chǔ)需求。

在獎(jiǎng)勵(lì)計(jì)算方式上,PPO 使用廣義優(yōu)勢(shì)估計(jì)(GAE),要綜合考慮每個(gè)動(dòng)作的即時(shí)獎(jiǎng)勵(lì)和未來(lái)獎(jiǎng)勵(lì)的折扣總和,計(jì)算過程比較繁瑣。GRPO 則簡(jiǎn)單直接,采樣一組動(dòng)作計(jì)算獎(jiǎng)勵(lì)值,歸一化后就得到相對(duì)優(yōu)勢(shì)。

策略更新機(jī)制方面,PPO 通過裁剪概率比來(lái)控制策略更新幅度,GRPO 則引入 KL 散度約束,能更精準(zhǔn)地調(diào)整策略更新的程度。計(jì)算效率上,PPO 因?yàn)閮r(jià)值網(wǎng)絡(luò)的拖累,在大規(guī)模語(yǔ)言模型訓(xùn)練中速度較慢,GRPO 則憑借精簡(jiǎn)的結(jié)構(gòu),計(jì)算效率更高,更適合大規(guī)模模型的微調(diào)。

4.2 優(yōu)勢(shì)與局限各有不同

PPO 的優(yōu)勢(shì)在于穩(wěn)定性較好,通過裁剪概率比能有效防止策略更新過于激進(jìn),而且適用范圍廣,在多種強(qiáng)化學(xué)習(xí)任務(wù)中都能發(fā)揮不錯(cuò)的效果。但它的局限也很明顯,計(jì)算負(fù)擔(dān)重,在大規(guī)模模型中,維護(hù)價(jià)值網(wǎng)絡(luò)成本太高;策略更新方差較大,會(huì)影響訓(xùn)練的穩(wěn)定性。

GRPO 的優(yōu)勢(shì)突出:

  • 計(jì)算效率高,訓(xùn)練速度比 PPO 快 30%,內(nèi)存占用還能減少 50%;
  • 穩(wěn)定性強(qiáng),組內(nèi)相對(duì)獎(jiǎng)勵(lì)計(jì)算減少了策略更新的方差;
  • 可控性好,KL 散度約束讓策略更新更精細(xì)。

不過,GRPO 也有短板:

  • 每個(gè)狀態(tài)都要采樣一組動(dòng)作,采樣成本較高;
  • 在獎(jiǎng)勵(lì)信號(hào)稀疏的任務(wù)中,表現(xiàn)可能不如 PPO 穩(wěn)定。

5. GRPO 在 DeepSeek-R1 中的 “實(shí)戰(zhàn)成果”

5.1 多階段訓(xùn)練鑄就 “全能選手”

DeepSeek-R1 模型運(yùn)用 GRPO 算法進(jìn)行訓(xùn)練,采用了多階段策略。

在監(jiān)督微調(diào)(SFT)階段,用高質(zhì)量標(biāo)注數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行 “打磨”,讓模型在特定任務(wù)上初步具備一定性能。

接著進(jìn)入強(qiáng)化學(xué)習(xí)(RL)階段,按照 GRPO 算法流程,采樣動(dòng)作組、評(píng)估獎(jiǎng)勵(lì)、計(jì)算相對(duì)優(yōu)勢(shì)、更新策略,不斷迭代優(yōu)化。

然后通過拒絕采樣(RS)階段生成合成數(shù)據(jù)集,提升模型的通用性和連貫性。

最后在最終強(qiáng)化學(xué)習(xí)階段,再次運(yùn)用 GRPO 算法,重點(diǎn)優(yōu)化模型的實(shí)用性和無(wú)害性。

5.2 實(shí)驗(yàn)成績(jī)相當(dāng)亮眼

一文讀懂 DeepSeek-R1 的 “最強(qiáng)外掛” GRPO 算法-AI.x社區(qū)

一文讀懂 DeepSeek-R1 的 “最強(qiáng)外掛” GRPO 算法-AI.x社區(qū)

經(jīng)過這樣的訓(xùn)練,DeepSeek-R1 在各項(xiàng)任務(wù)中表現(xiàn)出色。

在 2024 年美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME)中,通過率 @1 得分高達(dá) 71.0%,相比未使用 GRPO 算法的模型,性能提升顯著。

代碼生成任務(wù)里,生成代碼的可運(yùn)行性達(dá)到 85%,正確率達(dá)到 70%,能產(chǎn)出高質(zhì)量代碼。

在寫作、角色扮演等通用任務(wù)中,模型的通用性和連貫性也很強(qiáng)。

而且,GRPO 算法讓訓(xùn)練效率大幅提高,幫助 DeepSeek-R1 在更短時(shí)間內(nèi)完成訓(xùn)練,同時(shí)保持高性能。

6. GRPO 與 OpenAI RLHF 算法的 “大比拼”

OpenAI 的 RLHF 算法大名鼎鼎,它基于人類反饋,通過獎(jiǎng)勵(lì)建模和強(qiáng)化學(xué)習(xí)來(lái)優(yōu)化模型輸出,讓結(jié)果更符合人類偏好。和 GRPO 比起來(lái),二者各有千秋。

  • 從算法原理看,GRPO 通過組內(nèi)相對(duì)獎(jiǎng)勵(lì)機(jī)制估計(jì)優(yōu)勢(shì)函數(shù),還加入 KL 散度正則項(xiàng);RLHF 則依賴人類反饋進(jìn)行獎(jiǎng)勵(lì)建模和優(yōu)化。
  • 訓(xùn)練效率上,GRPO 簡(jiǎn)化流程,計(jì)算開銷和內(nèi)存需求低,訓(xùn)練速度快;RLHF 訓(xùn)練過程復(fù)雜,計(jì)算成本高。
  • 策略更新穩(wěn)定性方面,GRPO 通過組內(nèi)相對(duì)獎(jiǎng)勵(lì)和 KL 散度正則化,更新穩(wěn)定且可控;RLHF 的穩(wěn)定性取決于獎(jiǎng)勵(lì)模型的準(zhǔn)確性和標(biāo)注數(shù)據(jù)質(zhì)量,容易出現(xiàn)偏差。
  • 應(yīng)用場(chǎng)景中,GRPO 特別適合數(shù)學(xué)推理、代碼生成這類需要推理能力的任務(wù);RLHF 通用性強(qiáng),在聊天機(jī)器人、內(nèi)容生成等優(yōu)化模型輸出符合人類偏好的任務(wù)中表現(xiàn)出色。
  • 資源需求上,GRPO 對(duì)大規(guī)模語(yǔ)言模型更友好,資源需求低;RLHF 則需要大量人類標(biāo)注數(shù)據(jù)和計(jì)算資源。
  • 模型性能上,GRPO 在特定任務(wù)(如數(shù)學(xué)推理)中解題準(zhǔn)確率提升顯著;RLHF 生成的輸出更符合人類偏好,能減少有害內(nèi)容生成。

GRPO 算法為大語(yǔ)言模型的訓(xùn)練帶來(lái)了新的思路和方法,雖然它還有一些需要完善的地方,但在 DeepSeek-R1 中的成功應(yīng)用,已經(jīng)讓我們看到了它的巨大潛力。

本文轉(zhuǎn)載自??鴻煊的學(xué)習(xí)筆記??,作者:乘風(fēng)破浪jxj

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦