偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<del id="hi18u"></del>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law”

發(fā)布于 2025-10-28 07:51

瀏覽

0收藏

一、背景

之前已經(jīng)介紹了一些了 RL 訓(xùn)練優(yōu)化的文章，它們往往針對特定場景或特定算法進(jìn)行優(yōu)化，而缺乏一些系統(tǒng)性的研究。正好看到 Meta 的 ScaleRL，其對各種策略、技術(shù)進(jìn)行了比較全面的消融實驗，并提供了最佳實踐，我們這里對其進(jìn)行簡單介紹。

對應(yīng)的論文：[2510.13786] The Art of Scaling Reinforcement Learning Compute for LLMs [1]

二、摘要

RL 已成為 LLM 的核心技術(shù)，但是該領(lǐng)域還缺乏與預(yù)訓(xùn)練相媲美的可預(yù)測 Scaling Law。為此，作者進(jìn)行了大規(guī)模系統(tǒng)性研究（累積 40 萬 B200 GPU 小時），建立了 RL 的 Scaling Law。通過擬合 RL 訓(xùn)練的 S 型計算-性能曲線，以及一系列消融實驗，揭示了以下規(guī)律：

不同訓(xùn)練方案具有不同的性能上限。
損失聚合、優(yōu)勢歸一化、Off-Policy 等算法主要影響計算效率，不會顯著改善性能上限。
穩(wěn)定可擴(kuò)展的方案遵循可預(yù)測的擴(kuò)展軌跡，支持基于小規(guī)模實驗的外推預(yù)測。

基于這些發(fā)現(xiàn)，作者提出最佳實踐方案 ScaleRL，并通過單次 RL 訓(xùn)練擴(kuò)展到 10 萬 GPU 小時的實驗，成功實現(xiàn)驗證下的精確預(yù)測。

三、關(guān)鍵發(fā)現(xiàn)與理論框架

通過 400,000 GPU 小時（NVIDIA GB200）的系統(tǒng)實驗，總結(jié)出 RL 訓(xùn)練性能與計算量之間呈 Sigmoid 型關(guān)系，并提供如下的擬合公式，對應(yīng)曲線如下圖 Figure 3 所示，其中：

A：RL 訓(xùn)練的性能（效果）上限（Asymptotic Reward）。
B：計算效率（Scaling Exponent），反映性能隨計算增長的加速程度。
Cmid：達(dá)到一半性能所需的計算量。

Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law”-AI.x社區(qū)

Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law”-AI.x社區(qū)

上述的預(yù)測與預(yù)訓(xùn)練場景有較大不同：

在預(yù)訓(xùn)練的 Scaling Law 中，模型參數(shù)量、數(shù)據(jù)量、算力（FLOPs）之間遵循近似冪律關(guān)系，也就是說，增加固定倍數(shù)的計算量，性能（效果/損失）會以固定比例改善。其呈現(xiàn)單調(diào)提升（或下降）的關(guān)系，并沒有明顯飽和點，只是會逐漸變慢。
在 RL 的 Scaling Law 中，RL 的收益更像是飽和曲線：初期增長慢，中期快速提升，后期趨于穩(wěn)定。當(dāng)然，在中低區(qū)間擬合出參數(shù)后，可以預(yù)測更大規(guī)模 RL 的結(jié)果。

四、三大經(jīng)驗準(zhǔn)則（Scaling Principle）

4.1 RL 性能上限（A）并不普適

不同的算法、Loss、Batch Size 都會有各自的性能天花板。如下圖所示為幾個示例：

a：不同的 Loss 函數(shù)，分別為 CISPO、GSPO 和 DAPO。DAPO 早期可能收斂更快，但是上限可能較低，而 CISPO 收斂更慢，但是上限更高。
b：0-Variance 過濾，藍(lán)色 batch 表示不過濾 0 梯度樣本；橙色 effec_batch 表示 [2504.13914] Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning [2] Dynamic Sampling，而不是 DAPO（[2503.14476] DAPO: An Open-Source LLM Reinforcement Learning System at Scale [3]）的 Dynamic Sampling。

標(biāo)準(zhǔn) batch：Batch Size 為包含 Response 全對或全錯的情況。

Seed1.5-Thinking：Batch Size 不包含 Response 全對或全錯的情況，也就是 Batch Size 會小于 DataLoader 的設(shè)置。

DAPO：去除 Response 全對或全錯的情況后，繼續(xù) Rollout，直到 Batch Size 滿足要求。

c：不同的 Batch Size。Batch Size 為 2048 時，雖然前期收斂較慢，但是上限 A 更高。

Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law”-AI.x社區(qū)

4.2 “苦澀的教訓(xùn)（the Bitter Lesson）”仍然適用

在有限計算資源下表現(xiàn)好的算法，在大規(guī)模計算場景中可能反而表現(xiàn)更差；因此應(yīng)基于早期 scaling 曲線的參數(shù)（A, B）預(yù)測長期表現(xiàn)。如下圖 Figure 2 所示，Magistral 在早期收斂比較快，優(yōu)于 MiniMax，但是隨著計算規(guī)模增加，MiniMax 的性能上限（A）更高。

Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law”-AI.x社區(qū)

4.3 常見技巧主要影響效率（B）而不是性能上限（A）

普遍任務(wù)能提升峰值性能（A）的手段（比如 loss aggregation, data curriculum, length penalty, advantage normalization）主要影響計算效率（B），而不會顯著改善性能上限（A）。如下圖 Figure 14 所示：

a（Loss Aggregation）：如下圖 Figure 14a 所示，Prompt Avg 和 Token Avg 性能上限差不多，略優(yōu)于 Sample Avg。本文的 ScaleRL?選擇了性能最優(yōu)的 Prompt Avg。

Prompt Avg：每個 Prompt 等權(quán)重貢獻(xiàn)。不管每個 Prompt 生成多少 Response，從 Prompt 維度是等權(quán)重的。

Sample Avg：每個軌跡（Prompt 生成 Response）等權(quán)重貢獻(xiàn)。

Token Avg：直接對 Batch 中所有 Token 損失求平均值，無需中間分組。

b（Advantage Normalization）：如下圖 Figure 14b 所示，no-norm、batch-lvl-norm、prompt-lvl-norm 的性能上限差距不大。本文的 ScaleRL 選擇了性能最優(yōu)的 Batch-level normalization。

non-norm：不做歸一化。參考 Dr.GRPO，直接以 Prompt 生成結(jié)果的 Reward 均值對原始 Reward 進(jìn)行中心化處理，不進(jìn)行方差縮放。

batch-lvl-norm：參考 [2501.03262] REINFORCE++: An Efficient RLHF Algorithm with Robustness to Both Prompt and Reward Models [4] 等，通過 Batch 內(nèi)所有生成結(jié)果的標(biāo)準(zhǔn)差進(jìn)行歸一化。

prompt-lvl-norm：參考 GRPO，根據(jù)同一 Prompt 生成結(jié)果中 Reward 的標(biāo)準(zhǔn)差進(jìn)行 Advantage 歸一化。

Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law”-AI.x社區(qū)

五、ScaleRL 最佳實踐組合

5.1 異步訓(xùn)練策略

異步 Off-Policy 對 RL 訓(xùn)練的效率和穩(wěn)定性至關(guān)重要，并且通常與其他設(shè)計決策正交，因此作者首先對其影響進(jìn)行了評估。主要評估了：

PPO-Off-Policy-k：在 Qwen3 和 ProRL 采用，舊 Policy πθold 為 B 個 Prompt 生成 Response 軌跡，然后將其分成 k 個 mini-batch，每次使用一個 mini-batch 進(jìn)行 Training（Policy 更新）。作者實驗中，mini-batch 為 48，k 為 [1, 8] 區(qū)間。
PipelineRL-k：來自 PipelineRL [7]，并被 Magistral 采用。其中，Rollout Engine 以流式持續(xù)生成 Response 軌跡。每當(dāng) Training 完成 Policy 更新，立即更新 Rollout Engine。但是 Rollout Engine 中已生成的 Response 會保留并且繼續(xù)使用其對應(yīng)的 KV Cache，但是當(dāng) Rollout Engine 落后 Training Policy k 個 Step 后，會進(jìn)入阻塞狀態(tài)。也就是 Rollout Engine 使用的 Policy 模型最多落后 k 個 Step，并且 Response 的生成可能來自多個 Policy 版本。

如下圖 Figure 4a 所示，PipelineRL 與 PPO-off-policy 都達(dá)到相近的性能上限（A），但是 PipelineRL 顯著提升了計算效率（B）。主要是因為 PipelineRL 顯著減少了訓(xùn)練中的 Bubble。如下圖 Figure 4b 所示，作者同時測試了 PipelineRL-k 中 k 的選擇，可以看出，k=8 時最優(yōu)。

Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law”-AI.x社區(qū)

5.2 Loss 類型

如上述 4.1 所示，MiniMax 的 CISPO（[2506.13585] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention [5]）能提升穩(wěn)定性和長期性能。

Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law”-AI.x社區(qū)

如下圖 Figure 19 所示，GRPO/DAPO 類損失對 clip 比例超參 ?max 很敏感，相比之下，GSPO 和 CISPO 展現(xiàn)出更強的魯棒性，只要確定正確的數(shù)量級，模型性能便能保持穩(wěn)定。

Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law”-AI.x社區(qū)

5.3 精度修復(fù)

Rollout 和 Training 通常使用不同的框架（計算 Kernel）等，導(dǎo)致兩者的 Token 概率上會產(chǎn)生微小數(shù)值偏差。RL 訓(xùn)練對此類差異異常敏感。MiniMax 等工作發(fā)現(xiàn)這些偏差在 LLM head 尤為顯著，通過在 Rollout 和 Training 的 LM_head 保持 FP32 精度可以有效緩解該問題。如下圖所示，精度修正方案將性能上限（A）從 0.52 顯著提升到 0.61。因此，作者在 ScaleRL 中會采用此方案將 LM_head 精度設(shè)置為 FP32。

Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law”-AI.x社區(qū)

5.4 Loss 聚合方式（loss aggregation）

在 4.3 小節(jié)已經(jīng)討論，這里不再贅述，ScaleRL 會選擇性能最優(yōu)的 Prompt Avg。

5.5 Advantage 歸一化（Advantage Normalization）

在 4.3 小節(jié)已經(jīng)討論，這里不再贅述，ScaleRL 會選擇性能最優(yōu)的Batch-level Normalization。

5.6 Zero-Variance 過濾

在 4.1 小節(jié)已經(jīng)討論，這里不再贅述，ScaleRL 會選擇性能最優(yōu)的 Seed1.5-Thinking 的過濾方案。

5.7 數(shù)據(jù)策略

為了提高 RL 訓(xùn)練中樣本效率，很多工作探索了數(shù)據(jù)策略來優(yōu)化。比如 GitHub - ChenxinAn-fdu/POLARIS: Scaling RL on advanced reasoning models [6] 中發(fā)現(xiàn)：當(dāng)某個 Prompt 對 Policy 來說變得過于簡單后，通常后續(xù)會持續(xù)保持這種簡單狀態(tài)。由于這類 Prompt 會消耗計算資源而無法提供有效的梯度信號，將其從后續(xù)訓(xùn)練之中排除更加合理。作者實現(xiàn)一個簡單變體方案：No-Positive-Resampling —— 維護(hù)一個歷史通過率記錄，將通過率 >= 0.9 的 Prompt 永久移出后續(xù)訓(xùn)練周期。

如下圖所示，No-Positive-Resampling 提供了更高的性能上限（A）：

Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law”-AI.x社區(qū)

5.8 長度控制

5.8.1 長度截斷

作者在系列實驗中同樣發(fā)現(xiàn)，訓(xùn)練不穩(wěn)定性與長度截斷（Interruption）相關(guān)，隨著生成文本長度的增加，多數(shù) RL 過程呈現(xiàn)波動的截斷率，且該比例在訓(xùn)練過程中有時還會持續(xù)上升。

作者的實驗中，Batch Size 為 768 時，觀察到 10%-15% 的截斷率就會破壞訓(xùn)練穩(wěn)定性，導(dǎo)致性能下降且需要人工干預(yù)才能恢復(fù)。
ScaleRL 訓(xùn)練更加穩(wěn)定，在 8B 模型訓(xùn)練中，超過 90% 的訓(xùn)練時段截斷率保持在 5% 以下。當(dāng) Batch Size 增加至 2048 時，截斷率略有提升，偶爾接近 7%。但由于排除截斷樣本后的有效 Batch 規(guī)模仍然較大，訓(xùn)練穩(wěn)定性依然能夠保持。
增大長度預(yù)算有助于降低截斷率，在 34K 生成長度預(yù)算下（Batch Size 768）—— 截斷率短暫攀升到 4% 后迅速回落到 2% 以下。
更大規(guī)模模型展現(xiàn)出更強的魯棒性。在 Scout 模型訓(xùn)練中，截斷率始終低于 2%，且超過 90% 訓(xùn)練步驟中保持在 1% 以下。

總體而言，作者建議密切監(jiān)控截斷率。研究結(jié)果表明，高截斷率是系統(tǒng)不穩(wěn)定的可靠預(yù)警信號。

5.8.2 長度控制

在 RL 訓(xùn)練中，對于生成長度爆炸的問題，除了截斷（Interruption，在 GLM-4.1V、Qwen3 中使用）的方案，也有工作采用長度懲罰（Length Penalties，在 DAPO、Kimi、Magistral、Minimax-M1 等采用）的方案，如下圖公式所示，通過對過長的生成結(jié)果施加懲罰來控制生成長度：

Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law”-AI.x社區(qū)

在作者的 ScaleRL 實驗中，將截斷替換為長度懲罰并未提升性能。

六、ScaleRL 實驗

作者將上述的最優(yōu)策略進(jìn)行整合，并組合為本文的方案 ScaleRL，具體來說其包括：

PipelineRL-8，8-Step 的 Off-Policy 訓(xùn)練。
基于截斷的生成長度控制。
FP32 精度計算 Logits（LM_head）。
CISPO 損失函數(shù)。
Prompt 級別損失聚合（Prompt Avg Loss Aggregation）。
Batch 級別優(yōu)勢函數(shù)歸一化（Advantage Normalization）。
Zero-Variance 過濾。
No-Positive Resampling。

公式如下所示，其中 sg 是 stop-gradient 操作，Astd 表示一個 Batch 中所有優(yōu)勢函數(shù)的標(biāo)準(zhǔn)差，pass_rate(x) 表示該 Prompt 的歷史通過率。對于強制截斷的情況，使用 end-of-thinking 短語：“Okay, time is up. Let me stop thinking and formulate a final answer now. </think>”。

Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law”-AI.x社區(qū)

為了驗證這些策略在組合后能保持最優(yōu)性，作者進(jìn)行了 LOO 實驗（Leave-One-Out）：將 ScaleRL 作為 Baseline，每次將某個維度還原為基線方案。比如，LOO-length-penalty 表示將截斷換成長度懲罰。如下圖 Figure 7 所示，每個實驗均按照 16,000 GPU 小時進(jìn)行標(biāo)準(zhǔn)化。在所有維度上，ScaleRL 始終保持最優(yōu)配置的能效。

Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law”-AI.x社區(qū)

七、相關(guān)鏈接

??https://arxiv.org/abs/2510.13786??
??https://arxiv.org/abs/2504.13914??
??https://arxiv.org/abs/2503.14476??
??https://arxiv.org/abs/2501.03262??
??https://arxiv.org/abs/2506.13585??
??https://github.com/ChenxinAn-fdu/POLARIS??
??https://huggingface.co/blog/ServiceNow/pipelinerl???

本文轉(zhuǎn)載自??AI閑談??，作者：AI閑談

標(biāo)簽

已于2025-10-28 07:51:18修改

贊

收藏

回復(fù)

舉報

社區(qū)頭條

回復(fù)

相關(guān)推薦

GPT超越擴(kuò)散、視覺生成Scaling Law時刻！北大&字節(jié)提出VAR范式

輕薄滴假象 ? 3744瀏覽 ? 0回復(fù)
Meta 違背經(jīng)典模型結(jié)構(gòu)，一次預(yù)測多個token，路徑可行，大模型大幅提速指日可待！

51CTO技術(shù)棧 ? 4035瀏覽 ? 0回復(fù)
從80個模型中構(gòu)建Scaling Law：華人博士生新作，思維鏈提出者力薦

輕薄滴假象 ? 3570瀏覽 ? 0回復(fù)
不同數(shù)據(jù)集有不同的Scaling law？而你可用一個壓縮算法來預(yù)測它

輕薄滴假象 ? 3281瀏覽 ? 0回復(fù)
Scaling Law觸礁「數(shù)據(jù)墻」？Epoch AI發(fā)文預(yù)測LLM到2028年耗盡所有文本數(shù)據(jù)

duhorse ? 3963瀏覽 ? 0回復(fù)
馬斯克欲買30萬臺B200,嫌棄甲骨文速度太慢！對方：根本沒那么多電

51CTO技術(shù)棧 ? 4171瀏覽 ? 0回復(fù)
Meta正式發(fā)布Llama-3.1，超大杯405B！千呼萬喚始出來！

PaperAgent ? 4500瀏覽 ? 0回復(fù)
新Scaling Law浮出水面！OpenAI內(nèi)部員工爆料下一代模型Orion性能堪憂

51CTO技術(shù)棧 ? 3323瀏覽 ? 0回復(fù)
大模型界「摩爾定律」Densing Law 來了！盲目Scaling將過時！

51CTO技術(shù)棧 ? 3209瀏覽 ? 0回復(fù)
微軟CEO開年演講：預(yù)訓(xùn)練Scaling Law依然偉大！首個英偉達(dá)GB200集群已上線！

51CTO技術(shù)棧 ? 3098瀏覽 ? 0回復(fù)
看了這么多文章，終于理解了 Scaling Law

芝士AI吃魚 ? 9086瀏覽 ? 0回復(fù)
DeepSeek-R1-Zero激發(fā)了推理Scaling Law

ceesoft ? 3568瀏覽 ? 0回復(fù)
大模型面經(jīng)：目前不同階段的scaling law之間的區(qū)別和聯(lián)系是什么？

shizhi02 ? 4722瀏覽 ? 0回復(fù)
DeepSeek爆火后的新Scaling Law究竟是什么？

51CTO技術(shù)棧 ? 3203瀏覽 ? 0回復(fù)
Mem0 讓 AI 擁有超強記憶能力

丟翅膀的魚 ? 6073瀏覽 ? 0回復(fù)
哈佛大學(xué)：高維回歸中的Scaling Law是重整化的自然結(jié)果

ceesoft ? 2350瀏覽 ? 0回復(fù)
DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！

arnoldzhw ? 2560瀏覽 ? 0回復(fù)
微軟rStar2智能體：破解AI推理 “工具噪聲 + GPU 閑置” ，“智能體RL” 14B 逆襲 671B！

十一月雨_55 ? 2443瀏覽 ? 0回復(fù)
讓強化學(xué)習(xí)不再燒冤枉算力：Meta提出可預(yù)測的RL擴(kuò)展公式 ScaleRL

sbf_2000 ? 513瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練 5天前發(fā)布
字節(jié) RhythmRL：基于投機采樣+長度預(yù)測的 RL 加速 2025-09-22 07:05:04發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

DeepSeek團(tuán)隊開源新模型DeepSeek-OCR，用3B參數(shù)量實現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇：字節(jié) RhythmRL：基于投機采樣+長度預(yù)測的 RL 加速

下一篇：阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練

社區(qū)精華內(nèi)容

目錄

<var id="eyohi"><thead id="eyohi"><pre id="eyohi"></pre></thead></var>

<cite id="eyohi"></cite>