偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Meta用40萬個GPU小時做了一個實驗,只為弄清強(qiáng)化學(xué)習(xí)Scaling Law

人工智能 新聞
這篇論文是首個關(guān)于 LLM 強(qiáng)化學(xué)習(xí)擴(kuò)展的開源、大規(guī)模系統(tǒng)性研究,其內(nèi)容非常翔實,結(jié)論也足夠有參考價值,因此受到了 Ai2 科學(xué)家 Nathan Lambert 等人的強(qiáng)烈推薦。

在 LLM 領(lǐng)域,擴(kuò)大強(qiáng)化學(xué)習(xí)算力規(guī)模正在成為一個關(guān)鍵的研究范式。但要想弄清楚 RL 的 Scaling Law 具體是什么樣子,還有幾個關(guān)鍵問題懸而未決:如何 scale?scale 什么是有價值的?RL 真的能如預(yù)期般 scale 嗎?

為了解答這些問題,來自 Meta 等機(jī)構(gòu)的研究者做了一個看起來耗資不菲的實驗:用 40 萬 GPU 小時跑出了一張 RL 訓(xùn)練「說明書」,讓強(qiáng)化學(xué)習(xí)后訓(xùn)練不再像碰運(yùn)氣,讓訓(xùn)練效果變得可預(yù)測。

作者提到,近期的 RL 進(jìn)展,大多來自對特定算法的孤立研究或個別模型的訓(xùn)練報告 —— 這些研究往往給出針對具體任務(wù)的解決方案,但并沒有提供一套可隨算力擴(kuò)展的通用方法。由于缺乏系統(tǒng)化的 scaling 理論,研究進(jìn)展被嚴(yán)重限制:由于沒有可靠的方法先驗地識別有前景的強(qiáng)化學(xué)習(xí)候選方案,科研者只能依賴高昂的大規(guī)模實驗,這讓絕大多數(shù)學(xué)術(shù)團(tuán)隊無法參與其中。

這項研究旨在奠定 RL scaling 的科學(xué)基礎(chǔ),借鑒預(yù)訓(xùn)練階段中早已成熟的「Scaling Law」概念。預(yù)訓(xùn)練領(lǐng)域已經(jīng)發(fā)展出能夠隨算力穩(wěn)定擴(kuò)展的算法范式,但 RL 領(lǐng)域尚無明確標(biāo)準(zhǔn)。因此,RL 研究者面臨大量設(shè)計抉擇,卻難以回答「應(yīng)該如何 scale」與「擴(kuò)展什么」這兩個最基本的問題。

  • 論文標(biāo)題:The Art of Scaling Reinforcement Learning Compute for LLMs
  • 論文鏈接:https://arxiv.org/pdf/2510.13786

為了解決這一問題,作者提出了一個預(yù)測性框架,用以刻畫 RL 性能與算力之間的關(guān)系,如公式(1)所示:

具體而言,他們用一種類 sigmoid 的飽和曲線,將在獨立同分布驗證集上的期望獎勵(R_C)與訓(xùn)練算力(C)聯(lián)系起來。曲線中的參數(shù) A 表示漸近性能上限,B 表示算力效率,C_mid 則決定性能曲線的中點。圖 3 對這些參數(shù)進(jìn)行了示意性解釋。

公式(1)中的框架使研究者能夠根據(jù)小規(guī)模實驗結(jié)果推測更大算力下的表現(xiàn),從而在不耗盡算力預(yù)算的前提下評估 RL 方法的可擴(kuò)展性。

基于該框架,作者設(shè)計了 ScaleRL —— 一種能夠隨算力可預(yù)測地 scale 的 RL 訓(xùn)練配方。在一項耗時 10 萬 GPU 小時的大規(guī)模實驗中,他們驗證了 ScaleRL 的表現(xiàn)與該框架預(yù)測的曲線高度一致(圖 1)。更重要的是,即便只利用訓(xùn)練初期的數(shù)據(jù)所外推的曲線,也能準(zhǔn)確預(yù)測最終性能,證明了該框架在極大算力下的預(yù)測能力。

ScaleRL 的設(shè)計建立在一項覆蓋超過 40 萬 GPU 小時的系統(tǒng)化實證研究之上(在 Nvidia GB200 GPU 上進(jìn)行)。該研究在 8B 參數(shù)規(guī)模的模型上探索了多種設(shè)計選擇,每次實驗使用約 1.6 萬 GPU 小時,比最大規(guī)模實驗便宜約 6 倍。這項研究總結(jié)出三條關(guān)鍵原則:

  • RL 性能上限并非普適:不同方法在算力擴(kuò)展時會遇到不同的性能天花板(A 值),而這個上限可通過損失函數(shù)類型、batch size 等設(shè)計選擇進(jìn)行調(diào)整。
  • 擁抱「苦澀的教訓(xùn)」:在小算力下表現(xiàn)出色的方法,放大到大規(guī)模算力時可能效果更差(如圖 2 所示)。通過在訓(xùn)練早期使用公式(1)中的框架估計參數(shù) A 與 B,可以提前識別真正具有可擴(kuò)展性的方法。
  • 重新審視常見經(jīng)驗:許多被認(rèn)為能提高峰值性能的技巧(如損失聚合、數(shù)據(jù)課程、長度懲罰、優(yōu)勢歸一化)主要影響的是算力效率(B),而非最終性能上限。

基于這些洞察,ScaleRL 并未引入新的算法,而是整合了現(xiàn)有的成熟方法以實現(xiàn)可預(yù)測的擴(kuò)展。具體而言,它結(jié)合了異步的 Pipeline-RL 結(jié)構(gòu)、生成長度中斷機(jī)制、截斷重要性采樣 RL 損失(CISPO)、基于提示的損失平均、batch 級優(yōu)勢歸一化、FP32 精度的 logits、零方差過濾以及 No-Positive-Resampling 策略。每個組件的作用都通過「留一法」消融實驗驗證,每次實驗耗時約 1.6 萬 GPU 小時。

ScaleRL 不僅能夠穩(wěn)定擴(kuò)展,還在性能與效率上都超過了現(xiàn)有 RL 配方。更進(jìn)一步,當(dāng)作者在多個訓(xùn)練維度上(如 2.5 倍的 batch size、更長的生成長度、多任務(wù) RL 以及更大的混合專家模型)增加算力時,ScaleRL 仍保持預(yù)測一致性,并能持續(xù)提升下游任務(wù)表現(xiàn)。總體而言,這項工作建立了一種嚴(yán)謹(jǐn)?shù)摹⒖闪炕姆椒ㄕ?,使研究者能夠以成本更可控的方式預(yù)測新的 RL 算法的可擴(kuò)展性。

這篇論文是首個關(guān)于 LLM 強(qiáng)化學(xué)習(xí)擴(kuò)展的開源、大規(guī)模系統(tǒng)性研究,其內(nèi)容非常翔實,結(jié)論也足夠有參考價值,因此受到了 Ai2 科學(xué)家 Nathan Lambert 等人的強(qiáng)烈推薦。

以下是論文的詳細(xì)內(nèi)容。

一個關(guān)于 RL Scaling 的全面實驗

作者使用一個 8B 稠密模型在可驗證的數(shù)學(xué)問題上進(jìn)行強(qiáng)化學(xué)習(xí)實驗。他們從可預(yù)測的計算規(guī)模擴(kuò)展行為角度研究了幾個設(shè)計維度,即漸近性能(A)和計算效率(B),如圖 3 所示。

異步強(qiáng)化學(xué)習(xí)設(shè)置

作者首先研究異步的 off-policy RL 訓(xùn)練結(jié)構(gòu),因為它決定了訓(xùn)練的穩(wěn)定性與算力效率,并且通常獨立于其他設(shè)計選擇。具體來說,作者比較了兩種 off-policy 學(xué)習(xí)方式:PPO-off-policy-k 和 PipelineRL-k。

如圖 4a 所示,PipelineRL 與 PPO-off-policy 在最終的性能上限 (A) 相近,但 PipelineRL 顯著提升了算力效率 (B),也就是說,它能更快地達(dá)到性能天花板 A。這是因為 PipelineRL 減少了訓(xùn)練過程中 GPU 的空閑時間。該結(jié)構(gòu)能以更少的 token 實現(xiàn)穩(wěn)定增益,從而在有限算力預(yù)算下完成更大規(guī)模的實驗。作者還改變了 PipelineRL 的最大 off-policyness 參數(shù) k,發(fā)現(xiàn) k = 8 時性能最佳(如圖 4b 所示),因此后續(xù)實驗采用 PipelineRL-8 作為基礎(chǔ)設(shè)置。

算法設(shè)計選擇

在前述結(jié)果的基礎(chǔ)上,作者將 PipelineRL-8 設(shè)為新的基線方法,并進(jìn)一步研究了六個算法設(shè)計維度:

  • 損失函數(shù)類型
  • 精度修正
  • 損失聚合方式
  • 優(yōu)勢歸一化
  • batch 定義方式
  • 數(shù)據(jù)課程策略

損失函數(shù)類型

圖 5a 表明,GSPO 和 CISPO 的表現(xiàn)都顯著優(yōu)于 DAPO,在最終通過率 A 上有大幅提升。CISPO 在訓(xùn)練過程中展現(xiàn)出更長時間的線性回報增長趨勢,并在后期略優(yōu)于 GSPO,因此作者選擇 CISPO 作為 ScaleRL 的最佳損失類型。

LLM Logits 的 FP32 精度

如圖 5b 所示,在 logits 層采用精度修正能顯著提高最終性能 A,從 0.52 提升至 0.61。鑒于這一明顯收益,作者在 ScaleRL 配方中加入 FP32 精度修正。

損失聚合方式

作者比較了不同的損失聚合策略,結(jié)果顯示 prompt-average 達(dá)到了最高的最終性能(圖 14a),因此 ScaleRL 采用此方式作為默認(rèn)選項。

優(yōu)勢歸一化

作者比較了三種優(yōu)勢歸一化策略:提示級(prompt-level)、batch 級(batch-level)、 無歸一化。

圖 14b 的結(jié)果顯示,三者性能相近,但 batch 級歸一化在理論上更合理,且略優(yōu)于其他選項;在后續(xù)更大規(guī)模的 leave-one-out 實驗中,這一選擇也得到了進(jìn)一步驗證。

零方差過濾(Zero-Variance Filtering)

圖 6a 中的結(jié)果表明,使用「有效 batch」(即過濾掉獎勵方差為零的樣本)可以獲得更好的最終性能,因此作者在 ScaleRL 中采用該策略。

自適應(yīng)提示過濾

為提高采樣效率,已有多種數(shù)據(jù)課程策略被提出。作者評估了一種簡單的變體,其核心觀察是:當(dāng)某個提示對當(dāng)前策略來說變得過于容易后,它通常會一直保持容易。 此類提示雖然仍消耗算力,卻不再提供有價值的梯度信號,因此最好從后續(xù)訓(xùn)練中剔除。

作者的實現(xiàn)方式是:維護(hù)每個提示的歷史通過率,一旦某提示的通過率 ≥ 0.9 ,就在之后的訓(xùn)練周期中永久移除它 —— 他們稱這種策略為 No-Positive-Resampling。 圖 6b 顯示,與傳統(tǒng)的「所有提示均勻重采樣」做法相比,這種課程策略能顯著提升 RL 的可擴(kuò)展性與最終回報 A。

接下來,他們將這些最優(yōu)選擇整合為一個統(tǒng)一的 RL 配方,稱為 ScaleRL(可擴(kuò)展強(qiáng)化學(xué)習(xí)),并在 16,000 GPU 小時規(guī)模上進(jìn)行了留一法消融實驗。

ScaleRL:讓強(qiáng)化學(xué)習(xí)算力高效且可預(yù)測地擴(kuò)展

基于前面各項設(shè)計軸的研究結(jié)果,作者將性能最優(yōu)的配置整合成一個統(tǒng)一配方,稱為 ScaleRL(Scale-able RL)。

ScaleRL 是一種異步強(qiáng)化學(xué)習(xí)方案,核心特征包括:

  • 使用 PipelineRL 結(jié)構(gòu),設(shè)置 8 步的 off-policyness;
  • 采用基于中斷的長度控制策略來實現(xiàn)序列截斷;
  • 在 logits 計算中使用 FP32 精度;
  • 優(yōu)化 J_ScaleRL (θ) 損失函數(shù)。

該損失函數(shù)綜合了以下關(guān)鍵設(shè)計:

  • 提示級損失聚合
  • batch 級優(yōu)勢歸一化
  • 截斷重要性采樣的 REINFORCE 損失(CISPO)
  • 零方差過濾
  • no-positive resampling

為了驗證上述設(shè)計在組合后的有效性,作者進(jìn)行了留一法(LOO)實驗。實驗結(jié)果(如圖 7 所示,規(guī)模均為 16,000 GPU 小時)顯示:在所有設(shè)計軸上,ScaleRL 一直是最優(yōu)配置,無論在最終回報還是算力效率上,都略優(yōu)于任何單項被移除的變體。

RL 在不同算力維度下的可預(yù)測回報

在固定或增長的算力預(yù)算下,哪一個擴(kuò)展維度 —— 上下文長度、批大小、每個提示的生成數(shù)或模型規(guī)模 —— 能帶來最可靠的性能提升? 并且,我們能多早預(yù)測到這種回報?

作者通過以下步驟回答這一問題:

  • 在訓(xùn)練早期(精確來說,使用目標(biāo)算力預(yù)算的一半)為每個設(shè)定擬合公式 (1) 中的飽和冪律曲線;
  • 將該曲線外推至目標(biāo)算力預(yù)算;
  • 繼續(xù)訓(xùn)練以驗證預(yù)測結(jié)果。

在所有下述擴(kuò)展軸上,他們都觀察到干凈、可預(yù)測的曲線擬合,其外推結(jié)果與延長訓(xùn)練后的真實軌跡高度吻合 —— 與作者在 100,000 GPU 小時訓(xùn)練(圖 1)及不同 RL 配方間的交叉對比實驗(圖 2)中觀察到的行為一致。

模型規(guī)模(MoE)

ScaleRL 在更大模型上是否仍保持可預(yù)測性與穩(wěn)定性?

當(dāng)作者使用 ScaleRL 訓(xùn)練 17B×16 Llama-4 Scout  MoE 模型時,結(jié)果顯示它與 8B 模型一樣,展現(xiàn)出可預(yù)測的擴(kuò)展行為:具有較低的截斷率(truncation rate)且無訓(xùn)練不穩(wěn)定問題。

圖 1 展示了其訓(xùn)練曲線,延長訓(xùn)練得到的額外數(shù)據(jù)點與早期擬合曲線對齊,說明 ScaleRL 的配方在模型規(guī)模上具備尺度不變性(model-scale invariance)。此外,17B×16 的 MoE 大模型表現(xiàn)出遠(yuǎn)高于 8B 稠密模型的 RL 最終性能(asymptotic performance),并且僅使用了后者 1/6 的 RL 訓(xùn)練算力。

生成長度

將生成長度從 14k token 增加至 32k token 會在訓(xùn)練初期放慢進(jìn)展(即表現(xiàn)為較小的 B 和更高的 C_mid),但最終提升擬合曲線的上限 A, 從而在提供足夠算力后獲得更高的最終性能(見圖 9)。

這驗證了長上下文強(qiáng)化學(xué)習(xí)是一種「提升性能天花板」的手段,而不僅僅是效率上的權(quán)衡。

從早期訓(xùn)練擬合得到的外推曲線能夠準(zhǔn)確預(yù)測 32k-token 訓(xùn)練在延長階段的表現(xiàn)。

全局批大小

作者觀察到,小批次訓(xùn)練在下游任務(wù)上會過早停滯,即便其在分布內(nèi)驗證集上的性能仍在上升。相反,較大的批次 能夠穩(wěn)定地提高性能上限 A,并避免這種停滯。圖 10a 展示了中等規(guī)模實驗中的相同趨勢:在訓(xùn)練初期,小批次似乎表現(xiàn)更好,但隨著算力增加,大批次最終會超越。

在本文最大規(guī)模的數(shù)學(xué)任務(wù)(見圖 1)中,將 batch size 提升至 2048 個 prompt 后,不僅穩(wěn)定了訓(xùn)練,還使得從 50k GPU 小時擬合的曲線能夠準(zhǔn)確外推到最終 100k 小時的結(jié)果。

每個提示的生成次數(shù)

在固定總批量的前提下,是分配更多提示更好,還是每個提示分配更多生成次數(shù)更好?將每個提示的生成次數(shù)在 8、16、24、32 之間進(jìn)行調(diào)整,并相應(yīng)調(diào)整提示數(shù)量以保持總批量固定,結(jié)果顯示擬合的縮放曲線基本沒有變化。這說明在中等批量下,這種分配對性能上限(A)和效率(B)都是次要因素。作者推測,在更大批次(例如超過 2000)時,差異可能會更加明顯 —— 這一方向留待未來研究。

更多細(xì)節(jié)請參見原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-18 15:02:13

2024-09-14 14:00:00

AI模型

2024-12-09 08:45:00

模型AI

2017-11-21 09:20:06

深度學(xué)習(xí)TensorFlow游戲AI

2020-11-12 19:31:41

強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)

2021-12-30 09:40:33

CentOS家庭實驗室Linux

2025-05-28 09:15:00

AI視覺模型

2025-08-27 09:05:00

Meta強(qiáng)化學(xué)習(xí)模型

2025-03-06 10:07:00

AI強(qiáng)化學(xué)習(xí)技術(shù)

2025-07-07 09:02:00

2024-06-03 13:42:45

2019-09-03 10:44:59

TPUGPUCPU

2025-03-06 13:10:32

2024-11-01 09:39:26

強(qiáng)化學(xué)習(xí)AI

2025-05-08 09:16:00

模型強(qiáng)化學(xué)習(xí)訓(xùn)練

2024-03-19 00:15:00

機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)人工智能

2025-07-14 09:26:45

2020-08-18 10:33:47

智能手機(jī)相機(jī)計算

2025-10-14 08:59:00

2023-01-24 17:03:13

強(qiáng)化學(xué)習(xí)算法機(jī)器人人工智能
點贊
收藏

51CTO技術(shù)棧公眾號