偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<s id="bm0dp"></s>

<menuitem id="bm0dp"><center id="bm0dp"></center></menuitem>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Meta用40萬個GPU小時做了一個實驗，只為弄清強(qiáng)化學(xué)習(xí)Scaling Law

2025-10-20 09:05:00

人工智能新聞

這篇論文是首個關(guān)于 LLM 強(qiáng)化學(xué)習(xí)擴(kuò)展的開源、大規(guī)模系統(tǒng)性研究，其內(nèi)容非常翔實，結(jié)論也足夠有參考價值，因此受到了 Ai2 科學(xué)家 Nathan Lambert 等人的強(qiáng)烈推薦。

在 LLM 領(lǐng)域，擴(kuò)大強(qiáng)化學(xué)習(xí)算力規(guī)模正在成為一個關(guān)鍵的研究范式。但要想弄清楚 RL 的 Scaling Law 具體是什么樣子，還有幾個關(guān)鍵問題懸而未決：如何 scale？scale 什么是有價值的？RL 真的能如預(yù)期般 scale 嗎？

為了解答這些問題，來自 Meta 等機(jī)構(gòu)的研究者做了一個看起來耗資不菲的實驗：用 40 萬 GPU 小時跑出了一張 RL 訓(xùn)練「說明書」，讓強(qiáng)化學(xué)習(xí)后訓(xùn)練不再像碰運(yùn)氣，讓訓(xùn)練效果變得可預(yù)測。

作者提到，近期的 RL 進(jìn)展，大多來自對特定算法的孤立研究或個別模型的訓(xùn)練報告 —— 這些研究往往給出針對具體任務(wù)的解決方案，但并沒有提供一套可隨算力擴(kuò)展的通用方法。由于缺乏系統(tǒng)化的 scaling 理論，研究進(jìn)展被嚴(yán)重限制：由于沒有可靠的方法先驗地識別有前景的強(qiáng)化學(xué)習(xí)候選方案，科研者只能依賴高昂的大規(guī)模實驗，這讓絕大多數(shù)學(xué)術(shù)團(tuán)隊無法參與其中。

這項研究旨在奠定 RL scaling 的科學(xué)基礎(chǔ)，借鑒預(yù)訓(xùn)練階段中早已成熟的「Scaling Law」概念。預(yù)訓(xùn)練領(lǐng)域已經(jīng)發(fā)展出能夠隨算力穩(wěn)定擴(kuò)展的算法范式，但 RL 領(lǐng)域尚無明確標(biāo)準(zhǔn)。因此，RL 研究者面臨大量設(shè)計抉擇，卻難以回答「應(yīng)該如何 scale」與「擴(kuò)展什么」這兩個最基本的問題。

論文標(biāo)題：The Art of Scaling Reinforcement Learning Compute for LLMs
論文鏈接：https://arxiv.org/pdf/2510.13786

為了解決這一問題，作者提出了一個預(yù)測性框架，用以刻畫 RL 性能與算力之間的關(guān)系，如公式（1）所示：

具體而言，他們用一種類 sigmoid 的飽和曲線，將在獨立同分布驗證集上的期望獎勵（R_C）與訓(xùn)練算力（C）聯(lián)系起來。曲線中的參數(shù) A 表示漸近性能上限，B 表示算力效率，C_mid 則決定性能曲線的中點。圖 3 對這些參數(shù)進(jìn)行了示意性解釋。

公式（1）中的框架使研究者能夠根據(jù)小規(guī)模實驗結(jié)果推測更大算力下的表現(xiàn)，從而在不耗盡算力預(yù)算的前提下評估 RL 方法的可擴(kuò)展性。

基于該框架，作者設(shè)計了 ScaleRL —— 一種能夠隨算力可預(yù)測地 scale 的 RL 訓(xùn)練配方。在一項耗時 10 萬 GPU 小時的大規(guī)模實驗中，他們驗證了 ScaleRL 的表現(xiàn)與該框架預(yù)測的曲線高度一致（圖 1）。更重要的是，即便只利用訓(xùn)練初期的數(shù)據(jù)所外推的曲線，也能準(zhǔn)確預(yù)測最終性能，證明了該框架在極大算力下的預(yù)測能力。

ScaleRL 的設(shè)計建立在一項覆蓋超過 40 萬 GPU 小時的系統(tǒng)化實證研究之上（在 Nvidia GB200 GPU 上進(jìn)行）。該研究在 8B 參數(shù)規(guī)模的模型上探索了多種設(shè)計選擇，每次實驗使用約 1.6 萬 GPU 小時，比最大規(guī)模實驗便宜約 6 倍。這項研究總結(jié)出三條關(guān)鍵原則：

RL 性能上限并非普適：不同方法在算力擴(kuò)展時會遇到不同的性能天花板（A 值），而這個上限可通過損失函數(shù)類型、batch size 等設(shè)計選擇進(jìn)行調(diào)整。
擁抱「苦澀的教訓(xùn)」：在小算力下表現(xiàn)出色的方法，放大到大規(guī)模算力時可能效果更差（如圖 2 所示）。通過在訓(xùn)練早期使用公式（1）中的框架估計參數(shù) A 與 B，可以提前識別真正具有可擴(kuò)展性的方法。
重新審視常見經(jīng)驗：許多被認(rèn)為能提高峰值性能的技巧（如損失聚合、數(shù)據(jù)課程、長度懲罰、優(yōu)勢歸一化）主要影響的是算力效率（B），而非最終性能上限。

基于這些洞察，ScaleRL 并未引入新的算法，而是整合了現(xiàn)有的成熟方法以實現(xiàn)可預(yù)測的擴(kuò)展。具體而言，它結(jié)合了異步的 Pipeline-RL 結(jié)構(gòu)、生成長度中斷機(jī)制、截斷重要性采樣 RL 損失（CISPO）、基于提示的損失平均、batch 級優(yōu)勢歸一化、FP32 精度的 logits、零方差過濾以及 No-Positive-Resampling 策略。每個組件的作用都通過「留一法」消融實驗驗證，每次實驗耗時約 1.6 萬 GPU 小時。

ScaleRL 不僅能夠穩(wěn)定擴(kuò)展，還在性能與效率上都超過了現(xiàn)有 RL 配方。更進(jìn)一步，當(dāng)作者在多個訓(xùn)練維度上（如 2.5 倍的 batch size、更長的生成長度、多任務(wù) RL 以及更大的混合專家模型）增加算力時，ScaleRL 仍保持預(yù)測一致性，并能持續(xù)提升下游任務(wù)表現(xiàn)。總體而言，這項工作建立了一種嚴(yán)謹(jǐn)?shù)摹⒖闪炕姆椒ㄕ?，使研究者能夠以成本更可控的方式預(yù)測新的 RL 算法的可擴(kuò)展性。

這篇論文是首個關(guān)于 LLM 強(qiáng)化學(xué)習(xí)擴(kuò)展的開源、大規(guī)模系統(tǒng)性研究，其內(nèi)容非常翔實，結(jié)論也足夠有參考價值，因此受到了 Ai2 科學(xué)家 Nathan Lambert 等人的強(qiáng)烈推薦。

以下是論文的詳細(xì)內(nèi)容。

一個關(guān)于 RL Scaling 的全面實驗

作者使用一個 8B 稠密模型在可驗證的數(shù)學(xué)問題上進(jìn)行強(qiáng)化學(xué)習(xí)實驗。他們從可預(yù)測的計算規(guī)模擴(kuò)展行為角度研究了幾個設(shè)計維度，即漸近性能（A）和計算效率（B），如圖 3 所示。

異步強(qiáng)化學(xué)習(xí)設(shè)置

作者首先研究異步的 off-policy RL 訓(xùn)練結(jié)構(gòu)，因為它決定了訓(xùn)練的穩(wěn)定性與算力效率，并且通常獨立于其他設(shè)計選擇。具體來說，作者比較了兩種 off-policy 學(xué)習(xí)方式：PPO-off-policy-k 和 PipelineRL-k。

如圖 4a 所示，PipelineRL 與 PPO-off-policy 在最終的性能上限 (A) 相近，但 PipelineRL 顯著提升了算力效率 (B)，也就是說，它能更快地達(dá)到性能天花板 A。這是因為 PipelineRL 減少了訓(xùn)練過程中 GPU 的空閑時間。該結(jié)構(gòu)能以更少的 token 實現(xiàn)穩(wěn)定增益，從而在有限算力預(yù)算下完成更大規(guī)模的實驗。作者還改變了 PipelineRL 的最大 off-policyness 參數(shù) k，發(fā)現(xiàn) k = 8 時性能最佳（如圖 4b 所示），因此后續(xù)實驗采用 PipelineRL-8 作為基礎(chǔ)設(shè)置。

算法設(shè)計選擇

在前述結(jié)果的基礎(chǔ)上，作者將 PipelineRL-8 設(shè)為新的基線方法，并進(jìn)一步研究了六個算法設(shè)計維度：

損失函數(shù)類型
精度修正
損失聚合方式
優(yōu)勢歸一化
batch 定義方式
數(shù)據(jù)課程策略

損失函數(shù)類型

圖 5a 表明，GSPO 和 CISPO 的表現(xiàn)都顯著優(yōu)于 DAPO，在最終通過率 A 上有大幅提升。CISPO 在訓(xùn)練過程中展現(xiàn)出更長時間的線性回報增長趨勢，并在后期略優(yōu)于 GSPO，因此作者選擇 CISPO 作為 ScaleRL 的最佳損失類型。

LLM Logits 的 FP32 精度

如圖 5b 所示，在 logits 層采用精度修正能顯著提高最終性能 A，從 0.52 提升至 0.61。鑒于這一明顯收益，作者在 ScaleRL 配方中加入 FP32 精度修正。

損失聚合方式

作者比較了不同的損失聚合策略，結(jié)果顯示 prompt-average 達(dá)到了最高的最終性能（圖 14a），因此 ScaleRL 采用此方式作為默認(rèn)選項。

優(yōu)勢歸一化

作者比較了三種優(yōu)勢歸一化策略：提示級（prompt-level）、batch 級（batch-level）、無歸一化。

圖 14b 的結(jié)果顯示，三者性能相近，但 batch 級歸一化在理論上更合理，且略優(yōu)于其他選項；在后續(xù)更大規(guī)模的 leave-one-out 實驗中，這一選擇也得到了進(jìn)一步驗證。

零方差過濾（Zero-Variance Filtering）

圖 6a 中的結(jié)果表明，使用「有效 batch」（即過濾掉獎勵方差為零的樣本）可以獲得更好的最終性能，因此作者在 ScaleRL 中采用該策略。

自適應(yīng)提示過濾

為提高采樣效率，已有多種數(shù)據(jù)課程策略被提出。作者評估了一種簡單的變體，其核心觀察是：當(dāng)某個提示對當(dāng)前策略來說變得過于容易后，它通常會一直保持容易。此類提示雖然仍消耗算力，卻不再提供有價值的梯度信號，因此最好從后續(xù)訓(xùn)練中剔除。

作者的實現(xiàn)方式是：維護(hù)每個提示的歷史通過率，一旦某提示的通過率 ≥ 0.9 ，就在之后的訓(xùn)練周期中永久移除它 —— 他們稱這種策略為 No-Positive-Resampling。圖 6b 顯示，與傳統(tǒng)的「所有提示均勻重采樣」做法相比，這種課程策略能顯著提升 RL 的可擴(kuò)展性與最終回報 A。

接下來，他們將這些最優(yōu)選擇整合為一個統(tǒng)一的 RL 配方，稱為 ScaleRL（可擴(kuò)展強(qiáng)化學(xué)習(xí)），并在 16,000 GPU 小時規(guī)模上進(jìn)行了留一法消融實驗。

ScaleRL：讓強(qiáng)化學(xué)習(xí)算力高效且可預(yù)測地擴(kuò)展

基于前面各項設(shè)計軸的研究結(jié)果，作者將性能最優(yōu)的配置整合成一個統(tǒng)一配方，稱為 ScaleRL（Scale-able RL）。

ScaleRL 是一種異步強(qiáng)化學(xué)習(xí)方案，核心特征包括：

使用 PipelineRL 結(jié)構(gòu)，設(shè)置 8 步的 off-policyness；
采用基于中斷的長度控制策略來實現(xiàn)序列截斷；
在 logits 計算中使用 FP32 精度；
優(yōu)化 J_ScaleRL (θ) 損失函數(shù)。

該損失函數(shù)綜合了以下關(guān)鍵設(shè)計：

提示級損失聚合
batch 級優(yōu)勢歸一化
截斷重要性采樣的 REINFORCE 損失（CISPO）
零方差過濾
no-positive resampling

為了驗證上述設(shè)計在組合后的有效性，作者進(jìn)行了留一法（LOO）實驗。實驗結(jié)果（如圖 7 所示，規(guī)模均為 16,000 GPU 小時）顯示：在所有設(shè)計軸上，ScaleRL 一直是最優(yōu)配置，無論在最終回報還是算力效率上，都略優(yōu)于任何單項被移除的變體。

RL 在不同算力維度下的可預(yù)測回報

在固定或增長的算力預(yù)算下，哪一個擴(kuò)展維度 —— 上下文長度、批大小、每個提示的生成數(shù)或模型規(guī)模 —— 能帶來最可靠的性能提升？并且，我們能多早預(yù)測到這種回報？

作者通過以下步驟回答這一問題：

在訓(xùn)練早期（精確來說，使用目標(biāo)算力預(yù)算的一半）為每個設(shè)定擬合公式 (1) 中的飽和冪律曲線；
將該曲線外推至目標(biāo)算力預(yù)算；
繼續(xù)訓(xùn)練以驗證預(yù)測結(jié)果。

在所有下述擴(kuò)展軸上，他們都觀察到干凈、可預(yù)測的曲線擬合，其外推結(jié)果與延長訓(xùn)練后的真實軌跡高度吻合 —— 與作者在 100,000 GPU 小時訓(xùn)練（圖 1）及不同 RL 配方間的交叉對比實驗（圖 2）中觀察到的行為一致。

模型規(guī)模（MoE）

ScaleRL 在更大模型上是否仍保持可預(yù)測性與穩(wěn)定性？

當(dāng)作者使用 ScaleRL 訓(xùn)練 17B×16 Llama-4 Scout MoE 模型時，結(jié)果顯示它與 8B 模型一樣，展現(xiàn)出可預(yù)測的擴(kuò)展行為：具有較低的截斷率（truncation rate）且無訓(xùn)練不穩(wěn)定問題。

圖 1 展示了其訓(xùn)練曲線，延長訓(xùn)練得到的額外數(shù)據(jù)點與早期擬合曲線對齊，說明 ScaleRL 的配方在模型規(guī)模上具備尺度不變性（model-scale invariance）。此外，17B×16 的 MoE 大模型表現(xiàn)出遠(yuǎn)高于 8B 稠密模型的 RL 最終性能（asymptotic performance），并且僅使用了后者 1/6 的 RL 訓(xùn)練算力。

生成長度

將生成長度從 14k token 增加至 32k token 會在訓(xùn)練初期放慢進(jìn)展（即表現(xiàn)為較小的 B 和更高的 C_mid），但最終提升擬合曲線的上限 A，從而在提供足夠算力后獲得更高的最終性能（見圖 9）。

這驗證了長上下文強(qiáng)化學(xué)習(xí)是一種「提升性能天花板」的手段，而不僅僅是效率上的權(quán)衡。

從早期訓(xùn)練擬合得到的外推曲線能夠準(zhǔn)確預(yù)測 32k-token 訓(xùn)練在延長階段的表現(xiàn)。

全局批大小

作者觀察到，小批次訓(xùn)練在下游任務(wù)上會過早停滯，即便其在分布內(nèi)驗證集上的性能仍在上升。相反，較大的批次能夠穩(wěn)定地提高性能上限 A，并避免這種停滯。圖 10a 展示了中等規(guī)模實驗中的相同趨勢：在訓(xùn)練初期，小批次似乎表現(xiàn)更好，但隨著算力增加，大批次最終會超越。

在本文最大規(guī)模的數(shù)學(xué)任務(wù)（見圖 1）中，將 batch size 提升至 2048 個 prompt 后，不僅穩(wěn)定了訓(xùn)練，還使得從 50k GPU 小時擬合的曲線能夠準(zhǔn)確外推到最終 100k 小時的結(jié)果。

每個提示的生成次數(shù)

在固定總批量的前提下，是分配更多提示更好，還是每個提示分配更多生成次數(shù)更好？將每個提示的生成次數(shù)在 8、16、24、32 之間進(jìn)行調(diào)整，并相應(yīng)調(diào)整提示數(shù)量以保持總批量固定，結(jié)果顯示擬合的縮放曲線基本沒有變化。這說明在中等批量下，這種分配對性能上限（A）和效率（B）都是次要因素。作者推測，在更大批次（例如超過 2000）時，差異可能會更加明顯 —— 這一方向留待未來研究。

更多細(xì)節(jié)請參見原論文。

責(zé)任編輯：張燕妮來源：機(jī)器之心

Meta GPU 強(qiáng)化學(xué)習(xí)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<samp id="rotwd"><video id="rotwd"></video></samp>

<li id="rotwd"><menu id="rotwd"></menu></li>

<var id="rotwd"></var>

<ol id="rotwd"></ol>