偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<thead id="vz76k"></thead>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

GRPO教會DeepSeek R1高智商推理，但GRPO可能不完美且有偏見 | Dr. GRPO簡化之，消除偏見帶來改進(jìn)

發(fā)布于 2025-4-7 00:08

瀏覽

0收藏

DeepSeek R1在數(shù)學(xué)推理、問題解決等復(fù)雜任務(wù)上的表現(xiàn)令全世界矚目。它在AIME 2024等高難度數(shù)學(xué)測試中取得了79.8分好成績（OpenAI o1-1217得分79.2）。而這一切的背后，有一個關(guān)鍵技術(shù)功不可沒——Group Relative Policy Optimization（GRPO），一種基于強(qiáng)化學(xué)習(xí)的優(yōu)化算法。

盡管GRPO教會R1高智商推理，但有研究人員發(fā)現(xiàn)，它存在一些缺陷，比如它會導(dǎo)致模型生成冗長的錯誤回答，或者更傾向于解決簡單問題而忽略難題。大家在用DeepSeek R1的時候，估計也遇到過這樣的場景：當(dāng)它思考過程是錯誤的時候，會在那兒叨叨沒完沒了，陷入一個怪圈中出不來。

為了解決這些問題，來自新加坡的研究團(tuán)隊提出了一個改進(jìn)版本——Dr. GRPO（Group Relative Policy Optimization Done Right）。Dr. GRPO嘗試消除GRPO的偏見，提升模型的推理準(zhǔn)確性和效率。

GRPO：R1高智商推理的“幕后老師”

在探討GRPO的缺陷或偏見之前，我們先來回憶一下它是什么，以及它如何幫助R1在數(shù)學(xué)推理任務(wù)中大放異彩。

GRPO的核心思想

GRPO是一種強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）算法，專門用于優(yōu)化大型語言模型的推理能力。在R1的訓(xùn)練中，GRPO會讓模型針對一個數(shù)學(xué)問題生成多個回答（稱為“響應(yīng)組”），比如10個不同的解答。然后，它會根據(jù)這些回答的正確性打分：正確答案得1分，錯誤答案得0分。通過比較這些回答的得分，GRPO計算出每個回答的“優(yōu)勢”（advantage），也就是這個回答比其他回答好多少或差多少。最后，它用這個優(yōu)勢值調(diào)整模型的參數(shù)，讓模型更傾向于生成正確的回答。

這種方法讓R1在數(shù)學(xué)推理任務(wù)上取得了顯著進(jìn)步。更重要的是，R1還展現(xiàn)了一些“類人”的推理行為，比如自我反思（self-reflection）和“頓悟時刻”（Aha moment）。例如，它會在回答問題時嘗試不同的解法，并在過程中檢查自己的思路，這種能力讓它在高難度測試中表現(xiàn)尤為出色。

GRPO的技術(shù)細(xì)節(jié)

為了更直觀地理解GRPO，我們來看看它的核心公式：

GRPO教會DeepSeek R1高智商推理，但GRPO可能不完美且有偏見 | Dr. GRPO簡化之，消除偏見帶來改進(jìn)-AI.x社區(qū)

其中優(yōu)勢函數(shù)計算方法如下

GRPO教會DeepSeek R1高智商推理，但GRPO可能不完美且有偏見 | Dr. GRPO簡化之，消除偏見帶來改進(jìn)-AI.x社區(qū)

GRPO教會DeepSeek R1高智商推理，但GRPO可能不完美且有偏見 | Dr. GRPO簡化之，消除偏見帶來改進(jìn)-AI.x社區(qū)

這個公式看起來復(fù)雜，但它的核心思想很簡單：通過獎勵對比，找到更好的回答策略，并調(diào)整模型讓它更傾向于生成高獎勵的輸出。

GRPO的缺陷：為何它不完美？

盡管GRPO幫助R1取得了優(yōu)異成績，但它并非沒有問題。研究人員發(fā)現(xiàn)，GRPO存在兩個主要缺陷：響應(yīng)長度偏見和問題難度偏見。這些偏見讓模型在訓(xùn)練過程中出現(xiàn)了意想不到的行為，比如生成冗長的錯誤回答，或者更傾向于優(yōu)化簡單問題而忽視難題。

GRPO教會DeepSeek R1高智商推理，但GRPO可能不完美且有偏見 | Dr. GRPO簡化之，消除偏見帶來改進(jìn)-AI.x社區(qū)

缺陷1：響應(yīng)長度偏見——“話癆”模型的誕生

問題出在哪兒？

GRPO教會DeepSeek R1高智商推理，但GRPO可能不完美且有偏見 | Dr. GRPO簡化之，消除偏見帶來改進(jìn)-AI.x社區(qū)

形象理解：一場不公平的作文比賽

想象你是一個語文老師，正在組織一場作文比賽。你給學(xué)生的評分規(guī)則是：“如果作文寫對了主題，得1分；如果跑題了，得0分?！钡氵€加了一條奇怪的規(guī)定：“得分會除以作文的字?jǐn)?shù)。也就是說，正確作文越短，分?jǐn)?shù)越高；錯誤作文越長，扣分越少?！?/p>

這個規(guī)則會帶來什么后果呢？學(xué)生很快就會發(fā)現(xiàn)：

如果他們寫了一篇短小精悍的正確作文，比如200字，得分是 (1 / 200 = 0.005) 分/字，獎勵很高。
如果他們寫了一篇跑題的作文，但用了1000字，得分是 (0 / 1000 = 0) 分/字，幾乎沒懲罰。

結(jié)果呢？聰明的學(xué)生會開始“鉆空子”：當(dāng)他們不確定主題時，就故意寫很長的跑題作文，因為這樣懲罰少；而當(dāng)他們有把握時，就盡量精簡字?jǐn)?shù)。這種策略雖然符合規(guī)則，卻完全偏離了你的初衷——你本來是想讓學(xué)生寫出高質(zhì)量的作文，而不是追求長短。

GRPO的情況也是如此。該“偏見”讓模型變成了一個“話癆”：當(dāng)它不確定答案時，就傾向于生成冗長的錯誤回答（比如1000個token），因為這樣每個token的懲罰被攤薄了；當(dāng)它確定答案時，則盡量簡潔。這種偏見在R1的訓(xùn)練中表現(xiàn)得很明顯：錯誤回答的長度逐漸增加，甚至超過1000個token，而正確回答則相對較短。

實際影響

在MATH數(shù)據(jù)集的測試中，研究人員發(fā)現(xiàn)，經(jīng)過GRPO優(yōu)化的模型，錯誤回答的平均長度顯著高于正確回答。比如，錯誤回答可能長達(dá)800-1000個token，而正確回答只有400-600個token。這種“話癆”行為不僅浪費計算資源，還降低了模型的token效率（即生成有效信息所需的token數(shù)量），讓人誤以為模型在“深度思考”，實際上已經(jīng)陷入錯誤怪圈。

缺陷2：問題難度偏見——“挑軟柿子捏”的優(yōu)化策略

問題出在哪兒？

GRPO的第二個缺陷來源于公式中的 std項（上面公式中第二個標(biāo)紅的地方），也就是獎勵的標(biāo)準(zhǔn)差歸一化。這個項會根據(jù)一組回答的獎勵波動調(diào)整梯度更新：

如果一個問題的獎勵標(biāo)準(zhǔn)差?。ū热缁卮鹫_率很穩(wěn)定），梯度更新會被放大。
如果獎勵標(biāo)準(zhǔn)差大（比如回答正確率波動很大），梯度更新會被縮小。

這導(dǎo)致模型更傾向于優(yōu)化獎勵穩(wěn)定的問題（通常是簡單問題），而對獎勵波動大的問題（通常是難題）優(yōu)化不足。

形象理解：一場不公平的運(yùn)動會

假設(shè)你是一個體育老師，正在訓(xùn)練學(xué)生參加跑步比賽。你告訴學(xué)生：“我會在不同難度的跑道上測試你們，簡單跑道平坦，復(fù)雜跑道有很多障礙。你們的得分會根據(jù)每條跑道的成績波動調(diào)整：如果跑道上大家的成績差不多（標(biāo)準(zhǔn)差?。?，得分會更高；如果成績差距很大（標(biāo)準(zhǔn)差大），得分會更低?！?/p>

這個規(guī)則會怎樣影響學(xué)生呢？他們很快就會發(fā)現(xiàn)：

在平坦的簡單跑道上，大家跑得差不多，標(biāo)準(zhǔn)差小，得分被放大，他們更愿意在這上面努力。
在障礙重重的復(fù)雜跑道上，有人跑得快有人跑得慢，標(biāo)準(zhǔn)差大，得分被縮小，他們就不愿意花心思挑戰(zhàn)。

結(jié)果是，學(xué)生們開始“挑軟柿子捏”，專注于簡單跑道，而對復(fù)雜跑道敷衍了事。你的初衷是想全面提升他們的跑步能力，但這個規(guī)則卻讓他們只顧著容易的部分。

GRPO的 std項也是如此。它讓模型更傾向于優(yōu)化簡單問題（獎勵標(biāo)準(zhǔn)差?。?，而對難題（獎勵標(biāo)準(zhǔn)差大）不夠重視。這種偏見導(dǎo)致模型在簡單任務(wù)上進(jìn)步很快，但在高難度任務(wù)上提升有限。

實際影響

在實際測試中，經(jīng)過GRPO優(yōu)化的模型在簡單問題（如GSM-8K數(shù)據(jù)集）上的準(zhǔn)確率提升明顯，但在高難度問題（如AIME 2024）上的進(jìn)步較慢。這表明，GRPO的優(yōu)化策略不夠公平，無法均衡提升模型在不同難度任務(wù)上的表現(xiàn)。

Dr. GRPO：消除偏見的“增強(qiáng)版”優(yōu)化算法

為了解決GRPO的這兩個缺陷，研究團(tuán)隊提出了Dr. GRPO。Dr. GRPO的核心思想是移除偏見項，讓優(yōu)化過程更加公平高效。具體改進(jìn)包括：

改進(jìn)1：移除響應(yīng)長度偏見

Dr. GRPO去掉了GRPO公式中的 1/|o_i| 項。新的目標(biāo)函數(shù)變?yōu)椋?/p>

GRPO教會DeepSeek R1高智商推理，但GRPO可能不完美且有偏見 | Dr. GRPO簡化之，消除偏見帶來改進(jìn)-AI.x社區(qū)

效果

移除 1/|o_i| 后，回答長度不再影響梯度更新：

正確回答不會因為短而獲得額外獎勵。
錯誤回答不會因為長而減少懲罰。

回到作文比賽的比喻，Dr. GRPO就像一個更公平的老師：他不再根據(jù)字?jǐn)?shù)調(diào)整分?jǐn)?shù)，而是只看作文的質(zhì)量。這樣，學(xué)生就不會為了少扣分而寫冗長的跑題作文，而是專注于提高內(nèi)容本身。模型也是如此，它不再傾向于生成“話癆”式的錯誤回答，而是更關(guān)注答案的正確性。

改進(jìn)2：移除問題難度偏見

Dr. GRPO還去掉了 std 項，新的優(yōu)勢函數(shù)變?yōu)椋?/p>

GRPO教會DeepSeek R1高智商推理，但GRPO可能不完美且有偏見 | Dr. GRPO簡化之，消除偏見帶來改進(jìn)-AI.x社區(qū)

效果

移除標(biāo)準(zhǔn)差歸一化后，梯度更新不再受問題獎勵波動的影響。簡單問題和難題對模型優(yōu)化的貢獻(xiàn)變得平等，模型不會“挑軟柿子捏”?；氐竭\(yùn)動會的比喻，Dr. GRPO就像一個一視同仁的老師：無論跑道難度如何，他都用同樣的標(biāo)準(zhǔn)評分，學(xué)生們必須在所有跑道上努力，而不是只顧著簡單的。

Dr. GRPO的整體優(yōu)勢

通過這兩項改進(jìn)，Dr. GRPO讓優(yōu)化過程更加公平：

不再“話癆”：錯誤回答的長度不會無限制增加，token效率顯著提升。
公平優(yōu)化：模型對不同難度的問題一視同仁，整體推理能力更均衡。

實驗結(jié)果：Dr. GRPO的優(yōu)越性

為了驗證Dr. GRPO的效果，研究團(tuán)隊在多個數(shù)學(xué)推理基準(zhǔn)測試中對比了GRPO和Dr. GRPO的表現(xiàn)。以下是詳細(xì)結(jié)果。

實驗設(shè)置

研究團(tuán)隊使用Qwen2.5-Math-7B作為基礎(chǔ)模型，分別用GRPO和Dr. GRPO進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。訓(xùn)練在8個A100 GPU上進(jìn)行，總耗時27小時。測試基準(zhǔn)包括：

AIME 2024：高難度數(shù)學(xué)邀請賽。
AMC：中等難度數(shù)學(xué)競賽。
MATH500：高中數(shù)學(xué)競賽題目。
Minerva Math：定量推理測試。
OlympiadBench：奧林匹克級難題。

結(jié)果1：推理準(zhǔn)確性提升

下表展示了不同模型在各基準(zhǔn)上的準(zhǔn)確率：

GRPO教會DeepSeek R1高智商推理，但GRPO可能不完美且有偏見 | Dr. GRPO簡化之，消除偏見帶來改進(jìn)-AI.x社區(qū)

分析：使用Dr. GRPO訓(xùn)練的Oat-Zero-7B在所有測試中平均準(zhǔn)確率最高（51.4%），尤其在AIME 2024上達(dá)到43.3%，比SimpleRL-Zero-7B高16.6個百分點，比PRIME-Zero-7B高26.6個百分點。這表明Dr. GRPO顯著提升了模型的推理能力。

結(jié)果2：token效率提升

Dr. GRPO還顯著縮短了錯誤回答的長度：

GRPO：錯誤回答長度隨訓(xùn)練增加，甚至超過1000個token。
Dr. GRPO：錯誤回答長度穩(wěn)定在400-600個token，接近正確回答長度，減少約40%-50%。

在MATH500測試中，GRPO的錯誤回答平均長度為800-1000個token，而Dr. GRPO僅為400-600個token。這說明Dr. GRPO消除了“話癆”傾向，讓模型更高效。

結(jié)果3：訓(xùn)練穩(wěn)定性

GRPO訓(xùn)練的模型在獎勵提升趨緩后，回答長度仍持續(xù)增加，這種“過度思考”現(xiàn)象被Dr. GRPO有效避免。Dr. GRPO的回答長度與獎勵信號更匹配，訓(xùn)練過程更穩(wěn)定。

為什么Dr. GRPO更強(qiáng)？

Dr. GRPO的優(yōu)越性來源于以下幾點：

消除“話癆”傾向：移除 1/|o_i| 項，避免了模型生成冗長錯誤回答。
公平優(yōu)化：移除 std 項，讓模型均衡提升簡單和復(fù)雜問題的能力。
高效訓(xùn)練：優(yōu)化目標(biāo)更直接，模型更快收斂到最優(yōu)策略。

這些改進(jìn)讓Dr. GRPO不僅提升了準(zhǔn)確率，還提高了token效率和訓(xùn)練穩(wěn)定性。

總結(jié)：Dr. GRPO是GRPO的“增強(qiáng)版”

GRPO雖然為R1的高智商推理能力奠定了基礎(chǔ)，但其響應(yīng)長度偏見和問題難度偏見導(dǎo)致了冗長低效的回答和不公平的優(yōu)化。Dr. GRPO通過消除這些偏見，讓模型更專注于提升推理質(zhì)量，而不是追求無關(guān)的長度或簡單性?？梢哉f，Dr. GRPO是GRPO的“改進(jìn)版”，為強(qiáng)化學(xué)習(xí)優(yōu)化提供了更高效、更公平的方向。如果你對實現(xiàn)細(xì)節(jié)感興趣，可以訪問研究團(tuán)隊的GitHub頁面（https://github.com/sail-sg/understand-r1-zero）。

?本文轉(zhuǎn)載自??后向傳播??，作者：張發(fā)恩

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

基于 DeepSeek R1 和 Ollama 開發(fā) RAG 系統(tǒng)

玄姐聊AGI ? 4102瀏覽 ? 0回復(fù)
OpenAI o3-mini 干翻了 DeepSeek R1？

PyTorch研習(xí)社 ? 2396瀏覽 ? 0回復(fù)
DeepSeek R1 Vs OpenAI o1！全球頂級推理模型訓(xùn)練技術(shù)對比大解密！

51CTO技術(shù)棧 ? 6194瀏覽 ? 0回復(fù)
7G顯存，訓(xùn)練自己的 DeepSeek-R1：GRPO 資源下降80%

鴻煊的學(xué)習(xí)筆記 ? 3309瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí) | 從0開發(fā)大模型之DeepSeek的GRPO

周末程序猿 ? 2484瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)與大模型后訓(xùn)練：DeepSeek R1 如何獲得推理能力？

lintoms ? 4908瀏覽 ? 0回復(fù)
DeepSeek又開源R1部署最佳實踐！

探索AGI ? 2298瀏覽 ? 0回復(fù)
大模型對決：DeepSeek R1與o3-mini

丟翅膀的魚 ? 2611瀏覽 ? 0回復(fù)
一文讀懂 PPO 與 GRPO：LLM 訓(xùn)練的關(guān)鍵算法

鴻煊的學(xué)習(xí)筆記 ? 7550瀏覽 ? 0回復(fù)
Unsloth開源新算法：讓GRPO訓(xùn)練大模型所需顯存降低90%，告別顯存焦慮！

sbf_2000 ? 3222瀏覽 ? 0回復(fù)
DeepSeek R1 全系列模型部署指南

芝士AI吃魚 ? 9236瀏覽 ? 0回復(fù)
白嫖資源訓(xùn)練 DeepSeek R1 推理模型

AIGC前沿技術(shù)追蹤 ? 3995瀏覽 ? 0回復(fù)
從PPO到GRPO：算力減半的大模型推理能力訓(xùn)練革命

Baihai_IDP ? 4988瀏覽 ? 0回復(fù)
白話DeepSeek R1的GRPO強(qiáng)化學(xué)習(xí)算法：原理、圖解、視頻

后向傳播 ? 3993瀏覽 ? 0回復(fù)
DeepSeek R1 & R2 技術(shù)原理

ceesoft ? 3803瀏覽 ? 0回復(fù)
基于 DeepSeek GRPO 的 1.5B Rust 代碼生成模型訓(xùn)練實戰(zhàn)

Baihai_IDP ? 1455瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-R1 的 “最強(qiáng)外掛” GRPO 算法

鴻煊的學(xué)習(xí)筆記 ? 3092瀏覽 ? 0回復(fù)
d1：通過GRPO在擴(kuò)散LLM中縮放推理

ceesoft ? 1892瀏覽 ? 0回復(fù)
用 GRPO 給 Text-to-SQL 模型裝上“推理引擎”，讓語言模型不只是生成代碼！

Halo咯咯 ? 1333瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

開局一把牌，怎么都能打 | 神經(jīng)網(wǎng)絡(luò)從“白癡”訓(xùn)練到“專家”水平，其參數(shù)并沒有太大的變化 2025-06-23 07:28:16發(fā)布
聊聊背后的技術(shù) | AI+生物 | 突破進(jìn)展，世界上首次開發(fā)出“為一人定制”的CRISPR基因編輯體內(nèi)治療藥物 2025-06-10 06:59:33發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇： LLaMA 4來了 | 千呼萬喚始出來，猶抱琵琶半遮面 | 不盡如人意

下一篇： Muon優(yōu)化器：AI模型訓(xùn)練算法的下一個里程碑？| 目前還不是業(yè)界焦點，但有潛力是重大基礎(chǔ)創(chuàng)新

社區(qū)精華內(nèi)容

目錄

<pre id="c3smw"></pre>