偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="hgip5"><source id="hgip5"></source></blockquote>

<dfn id="hgip5"></dfn>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10

快手技術(shù)

發(fā)布于 2025-4-24 17:34

瀏覽

0收藏

?OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分證明，大規(guī)模強化學習已成為一種極為有效的方法，能夠激發(fā)大型語言模型（LLM) 的復雜推理行為并顯著提升其能力。

然而，這些推理模型的核心訓練方法在其技術(shù)報告中仍然鮮有披露。近期社區(qū)的主要工作也僅局限于數(shù)學推理領(lǐng)域，使得跨領(lǐng)域泛化這一挑戰(zhàn)依然未得到充分探索。此外，GRPO 訓練過程中存在多項常見問題，如性能瓶頸、樣本利用效率低下，以及在處理混合領(lǐng)域數(shù)據(jù)集時難以培養(yǎng)專業(yè)推理技能等，這些挑戰(zhàn)使得強化學習方法的有效擴展變得更加復雜。

針對這些挑戰(zhàn)，快手 Kwaipilot 團隊提出了一種創(chuàng)新的強化學習框架 —— 兩階段歷史重采樣策略優(yōu)化（two-Staged history-Resampling Policy Optimization ，SRPO），旨在從多個維度系統(tǒng)性地解決上述訓練難題。我們對外發(fā)布了 SRPO 的技術(shù)報告，詳細披露了該訓練方法的技術(shù)細節(jié)，同時也開源了 SRPO-Qwen-32B 模型。

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

論文標題：SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM

論文鏈接：https://arxiv.org/abs/2504.14286

模型開源地址：https://huggingface.co/Kwaipilot/SRPO-Qwen-32B

這是業(yè)界首個同時在數(shù)學和代碼兩個領(lǐng)域復現(xiàn) DeepSeek-R1-Zero 性能的方法。通過使用與 DeepSeek 相同的基礎(chǔ)模型 (Qwen2.5-32B) 和純粹的強化學習訓練，SRPO 成功在 AIME24 和 LiveCodeBench 基準測試中取得了優(yōu)異成績（AIME24 = 50、LiveCodeBench = 41.6），超越了 DeepSeek-R1-Zero-32B 的表現(xiàn)。更值得注意的是，SRPO 僅需 R1-Zero 十分之一的訓練步數(shù)就達到了這一水平。

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

SRPO AIME24 和 LiveCodeBench 表現(xiàn)，每項為 pass@1 的 32 次平均得分

一、方法概覽?

原始 GRPO 實現(xiàn)的挑戰(zhàn)

在我們最開始的探索中，我們使用過標準的 GRPO 算法（公式 1）直接進行訓練：

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

公式 1：GRPO 優(yōu)化目標

然而，在訓練過程中，我們很快遇到了瓶頸，模型始終無法達到預期的 R1-Zero 性能水平。這些問題包括：

1. 數(shù)學與代碼跨領(lǐng)域的優(yōu)化沖突：數(shù)學問題很容易通過訓練誘發(fā)較長且細致的推理軌跡（長 CoT），而代碼數(shù)據(jù)這種傾向則弱很多。直接混合這兩種類型的數(shù)據(jù)也會產(chǎn)生沖突，導致模型在兩個領(lǐng)域中都表現(xiàn)欠佳。

2. 相同的組獎勵導致訓練效率下降：GRPO 算法依賴于采樣組內(nèi)非零的獎勵方差來計算優(yōu)勢。當一個組的 rollout 產(chǎn)生幾乎相同的獎勵值時，計算得到的優(yōu)勢會接近于零。當一個訓練 batch 的大部分數(shù)據(jù)都表現(xiàn)出這種現(xiàn)象時，有效的梯度貢獻會變得極小，大幅降低訓練效率。

3. 過早的性能飽和：GRPO 訓練在 benchmark 評測中較早遇到了性能瓶頸，獎勵也遇到飽和平臺期。這個問題一定程度上源于數(shù)據(jù)集的質(zhì)量不足。當訓練數(shù)據(jù)缺乏足夠的復雜性或多樣性，特別是簡單的問題太多，模型會傾向于保守地維持其在較容易任務中的性能，難以得到解決挑戰(zhàn)性問題所需的復雜、深入的推理能力。

?

階段訓練

為了解決數(shù)學和代碼之間內(nèi)在的響應長度沖突問題，我們最終實現(xiàn)了一種兩階段訓練范式：

Stage 1 (Eliciting Reasoning Abilities)：初始訓練階段僅專注于具有挑戰(zhàn)性的數(shù)學數(shù)據(jù)。此階段的目標是充分激勵模型的 test-time scaling，發(fā)展出反思性停頓、回溯行為和逐步分解等多種能力。

Stage 2 (Skill Integration)：在此階段，將代碼數(shù)據(jù)引入到訓練過程中。利用在階段 1 中建立的推理基礎(chǔ)，進一步提升代碼能力，同時逐步強化程序性思維、遞歸和工具調(diào)用能力。

訓練策略的比較分析

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

不同訓練數(shù)據(jù)策略對響應長度的影響

Mixed Training：在數(shù)學和代碼混合數(shù)據(jù)上訓練的混合訓練模型，在響應長度的增長方面表現(xiàn)出局限性，且基準測試性能較差。雖然數(shù)學問題會引發(fā)一些推理模式，但代碼問題經(jīng)常產(chǎn)生簡短、直接的響應，主要集中于即時代碼輸出，而很少進行初步分析或規(guī)劃。

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

Math-Only Training：僅使用數(shù)學數(shù)據(jù)進行訓練能夠穩(wěn)定地增加回復長度，并在數(shù)學基準測試中表現(xiàn)出色。重要的是，這培養(yǎng)了強大的、能夠很好地泛化的推理能力；當面對編程任務時，模型會嘗試詳細的、逐步的推理。觀察到的行為包括在數(shù)學問題解決過程中細致的步驟檢查和重新審視。這反映了數(shù)學數(shù)據(jù)激發(fā)推理能力的特征。

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

Code-Only Training：盡管在代碼基準測試中的表現(xiàn)有所提高，但顯式推理行為的發(fā)展甚微，并且實現(xiàn)響應長度的顯著增加被證明是困難的。與純數(shù)學訓練相比，對代碼和數(shù)學問題的響應都明顯較短，代碼任務的解決方案通常是直接生成的，缺乏實質(zhì)性的逐步推理或初步分析。

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

Staged Training： 我們所提出的兩階段訓練在數(shù)學和編程領(lǐng)域均表現(xiàn)出優(yōu)異的結(jié)果。該模型在解決數(shù)學問題時始終如一地生成詳細的逐步推理模式，并在處理編程任務時生成結(jié)構(gòu)化的推理模式。特別地，涌現(xiàn)出一些復雜的行為，例如模型自發(fā)地利用寫代碼來輔助數(shù)學推理。對這些響應模式的更詳細分析將在后文中介紹。

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

History Resampling

我們發(fā)現(xiàn)在訓練的中后期階段，batch 中近 50% 的采樣組產(chǎn)生相同的獎勵。這種情況通常發(fā)生在模型在較容易的問題上持續(xù)成功時，導致獎勵的方差極小，梯度更新效果不佳。

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

在訓練期間 batch 內(nèi)近 50% 的優(yōu)勢函數(shù)值為零（藍色線）

為了解決這種低效性并提高梯度信號的質(zhì)量，我們引入了歷史重采樣（History Resampling）。在訓練過程中，我們記錄每個 epoch 內(nèi)所有 rollout 獎勵的結(jié)果。在一個 epoch 結(jié)束時，我們按如下方式重建下一個 epoch 的數(shù)據(jù)集：

1. 過濾過于簡單的樣本：排除所有 rollout 都得到正確答案的樣本，它們實際上沒有為策略改進提供任何信息信號。

2. 保留信息樣本：保留結(jié)果多樣（既有正確又有不正確）或結(jié)果全部不正確的樣本。這些樣本生成正向獎勵方差，確保優(yōu)勢非零及梯度信號有效。此外，對于當前 epoch 中所有展開都不正確的困難樣本，快手 Kwaipilot 團隊也將其保留在數(shù)據(jù)集中。理由是，這些最初具有挑戰(zhàn)性的一些問題，對于更新后的策略而言可能會變得相對容易，從而在后續(xù)的訓練中產(chǎn)生有效梯度。這種策略的根本思想與課程學習相一致，即逐步將模型暴露于平均而言更具挑戰(zhàn)性的樣本，以提高訓練效率。

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

Training statistics of History Resampling

與 DAPO 中提出的 Dynamic Sampling 方法相比，History Resampling 顯著提高了計算效率，響應長度增長也更加穩(wěn)定。

數(shù)據(jù)

我們對社區(qū)開源的 Code&Math 數(shù)據(jù)進行了數(shù)據(jù)清洗和篩選，通過啟發(fā)式規(guī)則對原始數(shù)據(jù)進行過濾，清理題目文本中無關(guān)的 URL、格式噪聲等，確保核心字段（問題和答案真值）完整。參考 PRIME 對數(shù)學數(shù)據(jù)的清洗方法，剔除一題多問、純證明題、需要圖像或表格理解的題目。針對代碼數(shù)據(jù)，剔除依賴特定環(huán)境、需要文件 IO 或網(wǎng)絡交互的題目，專注于算法邏輯。

在數(shù)據(jù)入庫前，對數(shù)學和代碼題目進行正確性校驗，確保答案的正確性和可解性，剔除答案錯誤或存在歧義的題目；然后判斷題目難度，結(jié)合通過率（Pass@k）將題目細分為簡單、中等、困難三個等級。

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

數(shù)據(jù)清洗過程

獎勵設計

為了緩解由獎勵模型引起的 hacking 問題，我們使用類似 Deepseek R1 的基于規(guī)則的獎勵系統(tǒng)設計，將最終獎勵分為格式獎勵和準確性獎勵。對于格式獎勵??_????????????，我們要求模型的最終答案嚴格遵循 "answer" 格式。遵守格式可獲得 0.2 的獎勵。此外，模型響應中出現(xiàn)的任何代碼轉(zhuǎn)換或混合使用多種語言的情況都將導致懲罰項：??????????????_mix = -0.1。

對于準確性獎勵，我們分別評估數(shù)學和編碼任務。在數(shù)學任務中，我們使用數(shù)學驗證工具來驗證正確性。如果答案完全正確且等價，我們給予滿分 1 分。在答案部分正確的情況下（例如，模型在多項選擇題中僅選擇一個正確選項），我們給予部分分數(shù) 0.2 分。完全錯誤的答案得 0 分。獎勵 R 是格式獎勵、準確率獎勵和負面懲罰的組合結(jié)果：

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

二、實驗結(jié)果

本節(jié)詳細介紹使用 SRPO 方法的實驗設置與實驗結(jié)果。包括訓練配置和關(guān)鍵超參數(shù)，以及相應的優(yōu)化方法。我們重點觀測了訓練過程中獎勵的變化情況以及響應長度等指標。

實驗設置

我們使用 Qwen-2.5-Base-32B 作為初始檢查點，并使用 AdamW 優(yōu)化器（β = [0.9, 0.95]）以 1e-6 的恒定學習率進行訓練，沒有設置權(quán)重衰減。我們使用 vLLM 作為 rollout 推理框架，每步采樣 256 個 prompt，每個 prompt 采樣個 32 個 rollout，小批量大小為 8,192 個，用于 on-policy RL 訓練。第 1 階段訓練運行 840 個步驟，然后是第 2 階段。在每個 epoch 之后，通過 History Resampling 實現(xiàn)動態(tài)采樣。

具體來說，我們應用了 token-level loss，并將超過最大響應長度（10,000 個 token）的 reward 設置為零，以防止長度偏差被裁剪。此外，考慮到推理模式和 base 模型之間的顯著分布差異，我們從 GRPO 損失函數(shù)中刪除了 KL 項以鼓勵探索。

訓練過程

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

SRPO 的動態(tài)訓練

上圖展示了 SRPO 的訓練完整獎勵曲線和響應長度曲線。在獎勵增長開始趨于平穩(wěn)后，我們進入了第 2 階段的訓練。在第 2 階段開始時，由于模型之前未訓練編碼能力，總體獎勵下降，后續(xù)訓練導致獎勵穩(wěn)步增加。在整合編碼數(shù)據(jù)后，響應長度并沒有顯著增加，這與我們的預期一致。同時，基準測試結(jié)果表明，該模型的數(shù)學和編碼能力都有持續(xù)和穩(wěn)定的提高，證明了我們方法的有效性。

具體來說，History Resampling 確保了在每個訓練步驟中梯度更新始終有效，從而直接提高了信息梯度的比例。這種提升的采樣效率帶來了穩(wěn)定的獎勵增長，清晰地展現(xiàn)了重采樣策略所實現(xiàn)的訓練效率提升。

思維行為

我們識別出三種代表性的反思模式。這些模式包括 recheck、hesitation、exploration。我們對包含這種模式的響應進行統(tǒng)計，并記錄這幾種模式的平均響應長度。在 RL 訓練過程中，他們觀察到模型的自我反思、糾正和回溯頻率逐漸增加。這表明模型展現(xiàn)了“自我驗證”能力。我們認為模型在 RL 中涌現(xiàn)出類似人類認知過程的“反思”，是模型在策略優(yōu)化過程中的適應性行為。

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

在訓練過程中不同的 aha 模式出現(xiàn)的頻次變化

如上圖所示，在模型訓練的早期階段，模型幾乎沒有主動檢查和反思先前推理步驟。然而，隨著訓練的進行，模型表現(xiàn)出明顯的反思和回溯行為，形成如逐步推理、數(shù)值替換、逐一驗證和自我優(yōu)化等響應模式。

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

自我校正的例子

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

數(shù)值替換（綠色）和逐個驗證（紅色）

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

自我優(yōu)化

同時，他們還發(fā)現(xiàn)了有趣的現(xiàn)象：模型在解決數(shù)學問題時，學會了自發(fā)使用程序代碼進行驗證。它首先通過數(shù)學推理給出解題過程，隨后主動編寫程序代碼驗證方案的正確性。這類案例體現(xiàn)了模型會借助程序性思維進行自我糾錯和多次嘗試。這一現(xiàn)象也進一步表明，在訓練后期，模型已經(jīng)掌握了廣泛思考和綜合運用多種代碼思維進行問題求解的能力。

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10-AI.x社區(qū)

三、結(jié)論與展望

本文介紹了 SRPO，這是首個在數(shù)學與代碼領(lǐng)域成功復現(xiàn) DeepSeek-R1-Zero-Qwen-32B 的工作。快手 Kwaipilot 團隊提出了一種創(chuàng)新的兩階段訓練范式，利用訓練過程中的歷史重采樣策略，同時設計了專為數(shù)學與代碼聯(lián)合強化學習（RL）訓練定制的數(shù)據(jù)整理流程（pipeline）。這些方法為社區(qū)構(gòu)建更強大的推理模型提供了重要參考。未來，團隊將繼續(xù)探索更大規(guī)模的數(shù)據(jù)與模型、更加高效的強化學習算法，以及其在更廣泛推理場景中的應用潛力。

- END -

標簽

贊

收藏

回復

舉報

社區(qū)頭條

回復

相關(guān)推薦

DeepSeek-AI 發(fā)布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 ? 4273瀏覽 ? 0回復
DeepSeek R1 Vs OpenAI o1！全球頂級推理模型訓練技術(shù)對比大解密！

51CTO技術(shù)棧 ? 6216瀏覽 ? 0回復
“幾十塊”從零復現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證

大模型自然語言處理 ? 2374瀏覽 ? 0回復
DeepSeek-R1-Zero自我進化的3大特點和3大基石

智駐未來 ? 2918瀏覽 ? 0回復
Unsloth：僅需7GB顯存就能訓練自己的DeepSeek-R1！

PyTorch研習社 ? 3975瀏覽 ? 0回復
7G顯存，訓練自己的 DeepSeek-R1：GRPO 資源下降80%

鴻煊的學習筆記 ? 3322瀏覽 ? 0回復
DeepSeek-R1-Zero激發(fā)了推理Scaling Law

ceesoft ? 2476瀏覽 ? 0回復
強化學習與大模型后訓練：DeepSeek R1 如何獲得推理能力？

lintoms ? 4932瀏覽 ? 0回復
DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？

輕薄滴假象 ? 2261瀏覽 ? 0回復
DeepSeek-R1 用來優(yōu)化GPU 內(nèi)核？代碼自動生成還比人寫得好！

Syrupup ? 2352瀏覽 ? 0回復
DeepSeek R1 全系列模型部署指南

芝士AI吃魚 ? 9297瀏覽 ? 0回復
白嫖資源訓練 DeepSeek R1 推理模型

AIGC前沿技術(shù)追蹤 ? 4022瀏覽 ? 0回復
Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1

Syrupup ? 2429瀏覽 ? 0回復
DeepSeek-R1的方法遷移到多模態(tài)大模型-開源Vision-R1實現(xiàn)方法思路

大模型自然語言處理 ? 2516瀏覽 ? 0回復
DeepSeek-R1關(guān)鍵創(chuàng)新技術(shù)再總結(jié)

大模型自然語言處理 ? 3047瀏覽 ? 0回復
DeepSeek R1 & R2 技術(shù)原理

ceesoft ? 3822瀏覽 ? 0回復
Deepseek-R1，論文番外篇!

NLP前沿1 ? 1406瀏覽 ? 0回復
DeepSeek-R1+Dify打造AI簡歷篩選神器，3步提效300%！

風云2002_1 ? 2388瀏覽 ? 0回復
DianJin-R1：金融領(lǐng)域推理增強大模型，全面超越DeepSeek-R1

靈度智能 ? 1343瀏覽 ? 0回復

快手技術(shù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

快手聯(lián)合港科大“放大招”！推出測試時擴展方法EvoSearch，1.3B視頻模型碾壓14B! 1天前發(fā)布
節(jié)省前端1000+pd人力成本！快手快聘「伏羲工作臺」技術(shù)實踐全解析 6天前發(fā)布

熱門推薦

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復

上一篇：新加坡見！快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025

下一篇：行業(yè)首創(chuàng)！快手開源短視頻內(nèi)容質(zhì)量評測標準KuaiMod！

社區(qū)精華內(nèi)容

目錄

<blockquote id="ckwb2"></blockquote>

<tfoot id="ckwb2"><rt id="ckwb2"></rt></tfoot>