偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

阿里 Roll Flash:異步 RL,加速 RLVR 和 Agentic 訓(xùn)練

發(fā)布于 2025-10-28 07:51
瀏覽
0收藏

一、背景

筆者在之前的文章中介紹了一系列偏同步訓(xùn)練方式的 RL 優(yōu)化方案,最近出了一系列異步訓(xùn)練工作,后續(xù)會逐步介紹。本文中先簡單介紹來自阿里等團(tuán)隊的 Roll 系列中的 Roll Flash。

對應(yīng)的論文為:[2510.11345] Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony

對應(yīng)的代碼庫為:GitHub - alibaba/ROLL: An Efficient and User-Friendly Scaling Library for Reinforcement Learning with Large Language Models

二、摘要

同步 RL 后訓(xùn)練已成為 LLM 多樣化能力的關(guān)鍵步驟,然而許多同步 RL 后訓(xùn)練的系統(tǒng)仍存在資源利用率低或者可擴(kuò)展性有限的問題。

為此,作者提出 Roll Flash 系統(tǒng),通過原生支持異步 RL 后訓(xùn)練來擴(kuò)展 Roll 框架。其基于兩大核心設(shè)計原則:細(xì)粒度并行、環(huán)境交互與 Training 解耦?;谶@些原則,Roll Flash 提供靈活的編程接口,支持完全異步的訓(xùn)練框架,并實現(xiàn)包括 Queue Scheduling 和 Environment-level 異步執(zhí)行的高效交互機制。

實驗結(jié)果表明,Roll Flash 相比同步 RL 后訓(xùn)練能顯著提升資源利用率和可擴(kuò)展性。在相同 GPU 預(yù)算下,Roll Flash 在 RLVR 任務(wù)上最高加速 2.24x,在 Agentic 任務(wù)上最高加速 2.72x。此外,實現(xiàn)了多種流行的 Off-Policy 算法,并驗證異步訓(xùn)練能達(dá)到與同步訓(xùn)練相當(dāng)?shù)男阅鼙憩F(xiàn)。

如下圖(a)展示了本文 Roll Asynchronous RL 與傳統(tǒng) Synchronous RL 以及 Roll Synchronous RL 的區(qū)別;(b)展示了相應(yīng)的性能差異。

阿里 Roll Flash:異步 RL,加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

三、引言

3.1 RLVR vs Agentic

RLVR(Reinforcement Learning for Verbal Reasoning)和 Agentic(面向智能體交互的任務(wù))是兩類不同的場景,在任務(wù)形式、數(shù)據(jù)流、延遲特征、系統(tǒng)瓶頸等方面都有區(qū)別,因此需要不同的系統(tǒng)優(yōu)化策略。

  • 目標(biāo):

RLVR:提升模型 Reasoning 和解釋能力。

Agentic:提升模型的交互、規(guī)劃和行動能力。

  • 交互方式:

RLVR:無交互,一個輸入、一次輸出。

Agentic:多輪交互、逐步?jīng)Q策。

  • Response 長度:

RLVR:長并且差異大,比如可能  2K-32K。

Agentic:短,比如 1K-4K;但是多輪,可能 5-30 輪。

  • 常見數(shù)據(jù)集:

RLVR:DAPO-Math-18K、MATH-500、OlympiadBench、AIME 等。

Agentic:SWE-Bench、ALFWorld、ShopSimulator。

  • 應(yīng)用場景:

RLVR:數(shù)學(xué)、代碼、Reasoning 問答。

Agentic:智能體、工具使用、自動化。

四、方案

4.1 設(shè)計原則

為充分發(fā)揮異步訓(xùn)練優(yōu)勢并提供靈活異步編程模型,Roll Flash 基于兩大設(shè)計原則:Training 和 Rollout 結(jié)構(gòu)(Rollout–Train Decoupling)和 細(xì)粒度并行(Fine-grained Parallelism)。

4.1.1 Training 和 Rollout 解耦架構(gòu)

實現(xiàn)異步訓(xùn)練需要解決兩大問題:

  • 管理模型的 Async Ratio,用于量化并控制 “樣本生成所使用的 Policy 模型” 與 “當(dāng)前正在訓(xùn)練的 Policy 模型” 之間的版本滯后程度,防止精度顯著損失。
  • 優(yōu)化 Rollout 和 Training 階段的資源分配:因為 Rollout 和 Training 兩階段構(gòu)成了典型的 “生產(chǎn)者 —— 消費者” 模式,資源分配不均衡必將導(dǎo)致某個階段的空轉(zhuǎn)。

通過將 Rollout 和 Training 從阻塞更新改成非阻塞異步更新,并合理調(diào)整 Rollout 和 Training 比例及 Async Ratio 參數(shù),可以實現(xiàn)效率和精度的平衡。

PS:Async Ratio α 用于控制樣本新鮮度。具體而言,若 Policy 模型已經(jīng)更新到版本 n,則 SampleBuffer 中所有樣本必須由不低于 (n-α) 版本的 Policy 生成。因此,SampleBuffer 中容量的上限為 (1+α) x Batch Size 的樣本量,可以提供更高的資源利用率,且不會浪費任何樣本。α 太小,SampleBuffer 容量上限比較小,可能利用率不高;α 太大,則可能影響訓(xùn)練穩(wěn)定性。

如下圖 Figure 4 所示,作者實驗表明,在 Async Ratio 為 2 或者 8 時,都能獲得與基線相當(dāng)甚至更優(yōu)的精度:

阿里 Roll Flash:異步 RL,加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

如下圖 Figure 3 所示,異步機制(8Train32Infer、16Train24Infer)能有效緩解因長尾生成延遲造成的訓(xùn)練停滯,當(dāng)訓(xùn)練與推理資源分配均衡時,相比同步訓(xùn)練(40Training&Infer)可實現(xiàn)顯著加速效果(16Train24Infer);此外,在幾乎所有實際應(yīng)用場景中,異步方法均能有效加速訓(xùn)練過程。

阿里 Roll Flash:異步 RL,加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

4.1.2 細(xì)粒度并行

在 Rollout 階段實現(xiàn)細(xì)粒度并行機制,用以同步執(zhí)行 LLM 生成、環(huán)境交互以及 Reward 計算。相較于傳統(tǒng)的以 Batch 粒度順序處理,Roll Flash 中在樣本級別進(jìn)行細(xì)粒度并行操作??梢哉瓶孛總€樣本的生命周期,自主決定何時何地執(zhí)行特定樣本的各個處理階段。比如:當(dāng)某個樣本在執(zhí)行 LLM 生成時,另一個樣本可同步執(zhí)行環(huán)境交互,第三個樣本可執(zhí)行 Reward 計算。除此之外,細(xì)粒度并行中通過 Prompt Replication 技術(shù)將 LLM 生成任務(wù)均勻分布到多個 GPU 上,避免長尾任務(wù)集中在少數(shù)設(shè)備。

4.2 異步執(zhí)行工作流

如下圖 Figure 5 展示了 Roll Flash 在 RLVR 和 Agentic 后訓(xùn)練中的異步執(zhí)行工作流程。其以 Rollout 階段為核心,在 Rollout 內(nèi)部通過細(xì)粒度并行實現(xiàn)了各子階段的最大化 Overlap。而在跨階段層面,通過 Rollout 和 Training 解耦實現(xiàn)兩階段的并行執(zhí)行。這里以 Agentic 場景為例進(jìn)行介紹。

阿里 Roll Flash:異步 RL,加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

LLMProxy:作為內(nèi)部后端 Worker 的協(xié)調(diào)器,被多個 EnvManager 共享使用。包括 3 個核心服務(wù):

  • Step-wise Inference:類似于流式的 Online Service,每個迭代執(zhí)行單步 Decoding 或 Prefill,推理引擎負(fù)責(zé) Continuous Batching 以充分利用 GPU 資源。
  • Post-Processing:推理引擎處理完,立即觸發(fā)回調(diào)對輸出進(jìn)行后處理并返回給 Client(例如 EnvManager)。
  • Process Commands:循環(huán)持續(xù)處理 Agent 分發(fā)命令,包括 Add Request(加入新請求)、Abort Request(中斷執(zhí)行中請求并回收樣本到共享的 SampleBuffer 中,供后續(xù)重新計算和生成使用)。

EnvManager:基礎(chǔ)執(zhí)行工作單元。每個 EnvManager 通過 Reset 重置環(huán)境啟動循環(huán)后,將進(jìn)入獨立循環(huán),在其 BaseEnv 和 LLMProxy 之間進(jìn)行協(xié)調(diào)。在該循環(huán)中,EnvManager 將接收來自 LLMProxy 的 Action 響應(yīng),通過 step 將其應(yīng)用到 BaseEnv,處理生成的觀測值,如此循環(huán)直到滿足終止條件。

通過這種方式,Roll Flash 實現(xiàn)了 LLM Decoding 與數(shù)千環(huán)境執(zhí)行的并行 Overlap。當(dāng)軌跡生成后,EnvManager 立即觸發(fā) Reward 計算,也可以與 Rollout 并行執(zhí)行。

AsyncController:Roll Flash 通過 AsyncController 和共享的 SampleBuffer 驅(qū)動異步訓(xùn)練流程。一組 EnvManager 進(jìn)程作為獨立生產(chǎn)者運行:生成軌跡并加入 SampleBuffer。每個訓(xùn)練 Step 中,AsyncController 通過 3 個階段實現(xiàn) Rollout 與 Training 的權(quán)重同步(模型更新的時間開銷在整個訓(xùn)練中占比很小,不會影響 Rollout 進(jìn)程):

  • 首先發(fā)送 suspend 暫停軌跡收集。
  • 隨后執(zhí)行模型更新 —— 獲取最新權(quán)重并廣播給所有 LLM 服務(wù)節(jié)點。
  • 最后發(fā)送 resume 使 EnvManager 能基于更新后的模型繼續(xù)收集軌跡。

在每次訓(xùn)練迭代中,AsyncController 向 SampleBuffer 發(fā)送阻塞式 get_batch 指令,以獲取一個 minibatch 的樣本,用于執(zhí)行訓(xùn)練步驟。

  • 在異步模式下,Training 與軌跡生成階段相互 Overlap,EnvManager 與 LLM Server Worker 并行收集下一 Batch 數(shù)據(jù)。
  • Roll Flash 也可輕松切換到同步模式,通過在 get_batch 指令立即調(diào)用 suspend 終止軌跡收集過程,確保后續(xù)所有軌跡都基于最新模型參數(shù)生成。

這種異步設(shè)計使用戶無需實現(xiàn)復(fù)雜的并發(fā)控制或定制通信方案。通過在 LLM Proxy、EnvManager 和 AsyncController 中設(shè)置可選屏障,可支持多樣化的訓(xùn)練機制(例如異步訓(xùn)練、批量軌跡生成)。若無此類屏障,整個流程將保持完全異步狀態(tài),使得訓(xùn)練過程能夠持續(xù)充分利用可用計算資源?;谶@些組件,可以通過配置 Async Ratio 來控制異步程度,從而在模型性能與訓(xùn)練效率之間實現(xiàn)動態(tài)平衡。

五、詳細(xì)設(shè)計

5.1 RLVR Pipeline

5.1.1 Queue Scheduling

Roll Flash 通過細(xì)粒度并行和 Queue Scheduling 突破同步模式的限制,每個 Prompt 被視作獨立軌跡任務(wù)加入動態(tài)調(diào)度隊列,Response 生成后立即發(fā)送到 Reward 計算單元,無需等待 Batch 內(nèi)其他任務(wù)完成。LLM 生成與 Reward 的 Overlap 即可以明顯消除流水線 Bubble。如下圖 Figure 6 展示了種種調(diào)度方式的優(yōu)勢(PS:這種方式也比較常見,比如在小米的 [2505.07608] MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining 中也有介紹):

阿里 Roll Flash:異步 RL,加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

實驗評估:在同步基線中,Reward 計算會被延遲到整個 Batch 生成完成。實驗中,每個 Prompt 生成 k=8 個 Response,允許最多 16 個額外 Prompt。作者評估了不同 Batch Size 下對含冗余生成和不含冗余生成的 Queue Scheduling 的優(yōu)勢。如下圖 Figure 7 所示,Queue Scheduling 降低了平均每個 Step 的生成時間。例如 16 個冗余 Prompt,8x8 配置(8 個 Prompt,每個 8 個 Response),平均每個 Step 生成時間從 125s 降低到 37s,加速 3.4x。

阿里 Roll Flash:異步 RL,加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

5.1.2 Prompt Replication

Roll Flash 采用 Prompt Replication 進(jìn)一步提升 Inference 效率。傳統(tǒng)方法中,通常使用 num_return_sequences > 1 來為每個 Prompt 生成多個 Response,也就是對于單個 Prompt 的 n 個 Response 都在一個 Inference 實例生成,可以最大化 Prefix Cache 利用率。但是可能因為不同 Prompt 的 Response 長度差異加劇 Bubble 率。而 Roll Flash 中,允許同一個 Prompt 的 n 個 Response 在不同的 Inference 實例生成,可以有效減少因 Response 長度差異導(dǎo)致的 Pipeline Bubble。

PS:Prompt Replication 會導(dǎo)致 Prefix Cache 命中率降低,但是考慮到 Prompt 通常比較短,而 Response 比較長,這部分損耗可以忽略。除此之外,也可以引入分布式 KV Cache 或者 PD 分離技術(shù)進(jìn)一步緩解這個問題。

實驗評估:作者在不同 Batch Size 和生成 Response 個數(shù)下評估了 Prompt Replication 的效果。

  • 固定生成 Response 個數(shù)為 16:Batch Size 從 4 逐步增加到 64,當(dāng) Prompt 個數(shù)達(dá)到 16 時,可以獲得明顯加速,并且 Prompt 個數(shù)越多越明顯,在 64x16 配置下獲得 1.84x 加速(PS:當(dāng) Batch Size 足夠大時反而有可能沒有加速效果,這里也可以通過生產(chǎn)者-消費者模式實現(xiàn)更佳的均衡)。
  • 固定 Batch Size 為 16:生成 Response 個數(shù)從 4 增加到 64,隨著序列個數(shù)的增加,Prompt Replication 的優(yōu)勢越明顯,在 16x32 配置下,可以獲得 1.95x 加速。

阿里 Roll Flash:異步 RL,加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

5.2 Agentic Pipeline

在 Agentic Pipeline 中,單個軌跡涉及與復(fù)雜外部環(huán)境的多輪交互,這些環(huán)境的執(zhí)行延遲差異顯著且故障頻發(fā),盡管大多數(shù) Rollout 可以在數(shù)秒內(nèi)完成,但受環(huán)境初始化和網(wǎng)絡(luò)延遲影響,部分 Rollout 會延長到數(shù)分鐘。這種顯著的長尾延遲也會嚴(yán)重降低訓(xùn)練效率,由此催生了兩項關(guān)鍵設(shè)計:Environment-level Asynchronous Rollout(環(huán)境級異步 Rollout)和 Redundant Environment Rollout(冗余環(huán)境 Rollout)。

5.2.1 環(huán)境級異步 Rollout

為了減少環(huán)境交互過程中的 GPU 閑置,將每條軌跡分解為細(xì)粒度的環(huán)境交互單元序列,當(dāng)每條軌跡開始與環(huán)境交互獲取反饋時,SampleBuffer 中待處理的軌跡會立即調(diào)度到可用 LLM Server 節(jié)點,持續(xù)生成后續(xù) Response(即 Action)。

實驗評估:首先在環(huán)境延遲服從高斯分布(均值為 μ,標(biāo)準(zhǔn)差為 σ)的條件下進(jìn)行受控模擬。如下圖 Figure 9 所示,方差越大,加速效果越明顯。當(dāng)參數(shù)為 (10,10) 時,Batch Size 512 的平均 Step 時間從 892s 降至 362s,實現(xiàn) 2.46x 加速。

阿里 Roll Flash:異步 RL,加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

在真實環(huán)境進(jìn)一步驗證,如下圖 Figure 11 所示,即使在同步訓(xùn)練模式下,Environment-level Asynchronous Rollout 也將 SWE 環(huán)境中端到端時間從 10.22 小時縮短到 8.32 小時,加速比 1.23x。在 ALFWorld 環(huán)境中從 13.37 小時縮短至 8.44 小時,加速比 1.58x。

5.2.2 冗余環(huán)境 Rollout

還引入冗余環(huán)境 Rollout 機制以緩解不穩(wěn)定性對 Agentic RL 訓(xùn)練效率的負(fù)面影響。提供兩個可調(diào)控參數(shù):

  • 增加環(huán)境組數(shù)量以啟動更多并發(fā)環(huán)境組。
  • 增大組規(guī)模以生成更多候選軌跡。

由于 Roll Flash 在收集到預(yù)設(shè)數(shù)量的軌跡后會立即終止 Rollout,因此可以有效防止慢故障和完全故障成為系統(tǒng)瓶頸。

實驗評估:將總 Rollout Batch Size 固定為 256,以環(huán)境延遲均值為 μ=10、標(biāo)準(zhǔn)差 σ=5 的高斯分布建模。如下圖 Figure 10 所示,增加組數(shù)量始終比擴(kuò)大組規(guī)模更有效。例如,從 32x8 擴(kuò)展到 36x12 時,單步時間從 243s 降至 45s,實現(xiàn) 5.45x 加速;如下圖 Figure 11 所示,在真實環(huán)境的實驗中,Redundant Environment Rollout 在 Environment-level Asynchronous Rollout 基礎(chǔ)上可以額外提供 7%-16% 的吞吐提升。

阿里 Roll Flash:異步 RL,加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

六、參考鏈接

  1. ??https://arxiv.org/abs/2510.11345??
  2. ??https://github.com/alibaba/ROLL??
  3. ??https://arxiv.org/abs/2505.07608???

本文轉(zhuǎn)載自??AI閑談??,作者:AI閑談

標(biāo)簽
已于2025-10-28 07:51:32修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦