偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<fieldset id="ahgzd"></fieldset>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練

發(fā)布于 2025-10-28 07:51

瀏覽

0收藏

一、背景

筆者在之前的文章中介紹了一系列偏同步訓(xùn)練方式的 RL 優(yōu)化方案，最近出了一系列異步訓(xùn)練工作，后續(xù)會逐步介紹。本文中先簡單介紹來自阿里等團(tuán)隊的 Roll 系列中的 Roll Flash。

對應(yīng)的論文為：[2510.11345] Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony

對應(yīng)的代碼庫為：GitHub - alibaba/ROLL: An Efficient and User-Friendly Scaling Library for Reinforcement Learning with Large Language Models

二、摘要

同步 RL 后訓(xùn)練已成為 LLM 多樣化能力的關(guān)鍵步驟，然而許多同步 RL 后訓(xùn)練的系統(tǒng)仍存在資源利用率低或者可擴(kuò)展性有限的問題。

為此，作者提出 Roll Flash 系統(tǒng)，通過原生支持異步 RL 后訓(xùn)練來擴(kuò)展 Roll 框架。其基于兩大核心設(shè)計原則：細(xì)粒度并行、環(huán)境交互與 Training 解耦?；谶@些原則，Roll Flash 提供靈活的編程接口，支持完全異步的訓(xùn)練框架，并實現(xiàn)包括 Queue Scheduling 和 Environment-level 異步執(zhí)行的高效交互機制。

實驗結(jié)果表明，Roll Flash 相比同步 RL 后訓(xùn)練能顯著提升資源利用率和可擴(kuò)展性。在相同 GPU 預(yù)算下，Roll Flash 在 RLVR 任務(wù)上最高加速 2.24x，在 Agentic 任務(wù)上最高加速 2.72x。此外，實現(xiàn)了多種流行的 Off-Policy 算法，并驗證異步訓(xùn)練能達(dá)到與同步訓(xùn)練相當(dāng)?shù)男阅鼙憩F(xiàn)。

如下圖（a）展示了本文 Roll Asynchronous RL 與傳統(tǒng) Synchronous RL 以及 Roll Synchronous RL 的區(qū)別；（b）展示了相應(yīng)的性能差異。

阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

三、引言

3.1 RLVR vs Agentic

RLVR（Reinforcement Learning for Verbal Reasoning）和 Agentic（面向智能體交互的任務(wù)）是兩類不同的場景，在任務(wù)形式、數(shù)據(jù)流、延遲特征、系統(tǒng)瓶頸等方面都有區(qū)別，因此需要不同的系統(tǒng)優(yōu)化策略。

目標(biāo)：

RLVR：提升模型 Reasoning 和解釋能力。

Agentic：提升模型的交互、規(guī)劃和行動能力。

交互方式：

RLVR：無交互，一個輸入、一次輸出。

Agentic：多輪交互、逐步?jīng)Q策。

Response 長度：

RLVR：長并且差異大，比如可能 2K-32K。

Agentic：短，比如 1K-4K；但是多輪，可能 5-30 輪。

常見數(shù)據(jù)集：

RLVR：DAPO-Math-18K、MATH-500、OlympiadBench、AIME 等。

Agentic：SWE-Bench、ALFWorld、ShopSimulator。

應(yīng)用場景：

RLVR：數(shù)學(xué)、代碼、Reasoning 問答。

Agentic：智能體、工具使用、自動化。

四、方案

4.1 設(shè)計原則

為充分發(fā)揮異步訓(xùn)練優(yōu)勢并提供靈活異步編程模型，Roll Flash 基于兩大設(shè)計原則：Training 和 Rollout 結(jié)構(gòu)（Rollout–Train Decoupling）和細(xì)粒度并行（Fine-grained Parallelism）。

4.1.1 Training 和 Rollout 解耦架構(gòu)

實現(xiàn)異步訓(xùn)練需要解決兩大問題：

管理模型的 Async Ratio，用于量化并控制 “樣本生成所使用的 Policy 模型” 與 “當(dāng)前正在訓(xùn)練的 Policy 模型” 之間的版本滯后程度，防止精度顯著損失。
優(yōu)化 Rollout 和 Training 階段的資源分配：因為 Rollout 和 Training 兩階段構(gòu)成了典型的 “生產(chǎn)者 —— 消費者” 模式，資源分配不均衡必將導(dǎo)致某個階段的空轉(zhuǎn)。

通過將 Rollout 和 Training 從阻塞更新改成非阻塞異步更新，并合理調(diào)整 Rollout 和 Training 比例及 Async Ratio 參數(shù)，可以實現(xiàn)效率和精度的平衡。

PS：Async Ratio α 用于控制樣本新鮮度。具體而言，若 Policy 模型已經(jīng)更新到版本 n，則 SampleBuffer 中所有樣本必須由不低于 (n-α) 版本的 Policy 生成。因此，SampleBuffer 中容量的上限為 (1+α) x Batch Size 的樣本量，可以提供更高的資源利用率，且不會浪費任何樣本。α 太小，SampleBuffer 容量上限比較小，可能利用率不高；α 太大，則可能影響訓(xùn)練穩(wěn)定性。

如下圖 Figure 4 所示，作者實驗表明，在 Async Ratio 為 2 或者 8 時，都能獲得與基線相當(dāng)甚至更優(yōu)的精度：

阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

如下圖 Figure 3 所示，異步機制（8Train32Infer、16Train24Infer）能有效緩解因長尾生成延遲造成的訓(xùn)練停滯，當(dāng)訓(xùn)練與推理資源分配均衡時，相比同步訓(xùn)練（40Training&Infer）可實現(xiàn)顯著加速效果（16Train24Infer）；此外，在幾乎所有實際應(yīng)用場景中，異步方法均能有效加速訓(xùn)練過程。

阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

4.1.2 細(xì)粒度并行

在 Rollout 階段實現(xiàn)細(xì)粒度并行機制，用以同步執(zhí)行 LLM 生成、環(huán)境交互以及 Reward 計算。相較于傳統(tǒng)的以 Batch 粒度順序處理，Roll Flash 中在樣本級別進(jìn)行細(xì)粒度并行操作?？梢哉瓶孛總€樣本的生命周期，自主決定何時何地執(zhí)行特定樣本的各個處理階段。比如：當(dāng)某個樣本在執(zhí)行 LLM 生成時，另一個樣本可同步執(zhí)行環(huán)境交互，第三個樣本可執(zhí)行 Reward 計算。除此之外，細(xì)粒度并行中通過 Prompt Replication 技術(shù)將 LLM 生成任務(wù)均勻分布到多個 GPU 上，避免長尾任務(wù)集中在少數(shù)設(shè)備。

4.2 異步執(zhí)行工作流

如下圖 Figure 5 展示了 Roll Flash 在 RLVR 和 Agentic 后訓(xùn)練中的異步執(zhí)行工作流程。其以 Rollout 階段為核心，在 Rollout 內(nèi)部通過細(xì)粒度并行實現(xiàn)了各子階段的最大化 Overlap。而在跨階段層面，通過 Rollout 和 Training 解耦實現(xiàn)兩階段的并行執(zhí)行。這里以 Agentic 場景為例進(jìn)行介紹。

阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

LLMProxy：作為內(nèi)部后端 Worker 的協(xié)調(diào)器，被多個 EnvManager 共享使用。包括 3 個核心服務(wù)：

Step-wise Inference：類似于流式的 Online Service，每個迭代執(zhí)行單步 Decoding 或 Prefill，推理引擎負(fù)責(zé) Continuous Batching 以充分利用 GPU 資源。
Post-Processing：推理引擎處理完，立即觸發(fā)回調(diào)對輸出進(jìn)行后處理并返回給 Client（例如 EnvManager）。
Process Commands：循環(huán)持續(xù)處理 Agent 分發(fā)命令，包括 Add Request（加入新請求）、Abort Request（中斷執(zhí)行中請求并回收樣本到共享的 SampleBuffer 中，供后續(xù)重新計算和生成使用）。

EnvManager：基礎(chǔ)執(zhí)行工作單元。每個 EnvManager 通過 Reset 重置環(huán)境啟動循環(huán)后，將進(jìn)入獨立循環(huán)，在其 BaseEnv 和 LLMProxy 之間進(jìn)行協(xié)調(diào)。在該循環(huán)中，EnvManager 將接收來自 LLMProxy 的 Action 響應(yīng)，通過 step 將其應(yīng)用到 BaseEnv，處理生成的觀測值，如此循環(huán)直到滿足終止條件。

通過這種方式，Roll Flash 實現(xiàn)了 LLM Decoding 與數(shù)千環(huán)境執(zhí)行的并行 Overlap。當(dāng)軌跡生成后，EnvManager 立即觸發(fā) Reward 計算，也可以與 Rollout 并行執(zhí)行。

AsyncController：Roll Flash 通過 AsyncController 和共享的 SampleBuffer 驅(qū)動異步訓(xùn)練流程。一組 EnvManager 進(jìn)程作為獨立生產(chǎn)者運行：生成軌跡并加入 SampleBuffer。每個訓(xùn)練 Step 中，AsyncController 通過 3 個階段實現(xiàn) Rollout 與 Training 的權(quán)重同步（模型更新的時間開銷在整個訓(xùn)練中占比很小，不會影響 Rollout 進(jìn)程）：

首先發(fā)送 suspend 暫停軌跡收集。
隨后執(zhí)行模型更新 —— 獲取最新權(quán)重并廣播給所有 LLM 服務(wù)節(jié)點。
最后發(fā)送 resume 使 EnvManager 能基于更新后的模型繼續(xù)收集軌跡。

在每次訓(xùn)練迭代中，AsyncController 向 SampleBuffer 發(fā)送阻塞式 get_batch 指令，以獲取一個 minibatch 的樣本，用于執(zhí)行訓(xùn)練步驟。

在異步模式下，Training 與軌跡生成階段相互 Overlap，EnvManager 與 LLM Server Worker 并行收集下一 Batch 數(shù)據(jù)。
Roll Flash 也可輕松切換到同步模式，通過在 get_batch 指令立即調(diào)用 suspend 終止軌跡收集過程，確保后續(xù)所有軌跡都基于最新模型參數(shù)生成。

這種異步設(shè)計使用戶無需實現(xiàn)復(fù)雜的并發(fā)控制或定制通信方案。通過在 LLM Proxy、EnvManager 和 AsyncController 中設(shè)置可選屏障，可支持多樣化的訓(xùn)練機制（例如異步訓(xùn)練、批量軌跡生成）。若無此類屏障，整個流程將保持完全異步狀態(tài)，使得訓(xùn)練過程能夠持續(xù)充分利用可用計算資源?；谶@些組件，可以通過配置 Async Ratio 來控制異步程度，從而在模型性能與訓(xùn)練效率之間實現(xiàn)動態(tài)平衡。

五、詳細(xì)設(shè)計

5.1 RLVR Pipeline

5.1.1 Queue Scheduling

Roll Flash 通過細(xì)粒度并行和 Queue Scheduling 突破同步模式的限制，每個 Prompt 被視作獨立軌跡任務(wù)加入動態(tài)調(diào)度隊列，Response 生成后立即發(fā)送到 Reward 計算單元，無需等待 Batch 內(nèi)其他任務(wù)完成。LLM 生成與 Reward 的 Overlap 即可以明顯消除流水線 Bubble。如下圖 Figure 6 展示了種種調(diào)度方式的優(yōu)勢（PS：這種方式也比較常見，比如在小米的 [2505.07608] MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining 中也有介紹）：

阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

實驗評估：在同步基線中，Reward 計算會被延遲到整個 Batch 生成完成。實驗中，每個 Prompt 生成 k=8 個 Response，允許最多 16 個額外 Prompt。作者評估了不同 Batch Size 下對含冗余生成和不含冗余生成的 Queue Scheduling 的優(yōu)勢。如下圖 Figure 7 所示，Queue Scheduling 降低了平均每個 Step 的生成時間。例如 16 個冗余 Prompt，8x8 配置（8 個 Prompt，每個 8 個 Response），平均每個 Step 生成時間從 125s 降低到 37s，加速 3.4x。

阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

5.1.2 Prompt Replication

Roll Flash 采用 Prompt Replication 進(jìn)一步提升 Inference 效率。傳統(tǒng)方法中，通常使用 num_return_sequences > 1 來為每個 Prompt 生成多個 Response，也就是對于單個 Prompt 的 n 個 Response 都在一個 Inference 實例生成，可以最大化 Prefix Cache 利用率。但是可能因為不同 Prompt 的 Response 長度差異加劇 Bubble 率。而 Roll Flash 中，允許同一個 Prompt 的 n 個 Response 在不同的 Inference 實例生成，可以有效減少因 Response 長度差異導(dǎo)致的 Pipeline Bubble。

PS：Prompt Replication 會導(dǎo)致 Prefix Cache 命中率降低，但是考慮到 Prompt 通常比較短，而 Response 比較長，這部分損耗可以忽略。除此之外，也可以引入分布式 KV Cache 或者 PD 分離技術(shù)進(jìn)一步緩解這個問題。

實驗評估：作者在不同 Batch Size 和生成 Response 個數(shù)下評估了 Prompt Replication 的效果。

固定生成 Response 個數(shù)為 16：Batch Size 從 4 逐步增加到 64，當(dāng) Prompt 個數(shù)達(dá)到 16 時，可以獲得明顯加速，并且 Prompt 個數(shù)越多越明顯，在 64x16 配置下獲得 1.84x 加速（PS：當(dāng) Batch Size 足夠大時反而有可能沒有加速效果，這里也可以通過生產(chǎn)者-消費者模式實現(xiàn)更佳的均衡）。
固定 Batch Size 為 16：生成 Response 個數(shù)從 4 增加到 64，隨著序列個數(shù)的增加，Prompt Replication 的優(yōu)勢越明顯，在 16x32 配置下，可以獲得 1.95x 加速。

阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

5.2 Agentic Pipeline

在 Agentic Pipeline 中，單個軌跡涉及與復(fù)雜外部環(huán)境的多輪交互，這些環(huán)境的執(zhí)行延遲差異顯著且故障頻發(fā)，盡管大多數(shù) Rollout 可以在數(shù)秒內(nèi)完成，但受環(huán)境初始化和網(wǎng)絡(luò)延遲影響，部分 Rollout 會延長到數(shù)分鐘。這種顯著的長尾延遲也會嚴(yán)重降低訓(xùn)練效率，由此催生了兩項關(guān)鍵設(shè)計：Environment-level Asynchronous Rollout（環(huán)境級異步 Rollout）和 Redundant Environment Rollout（冗余環(huán)境 Rollout）。

5.2.1 環(huán)境級異步 Rollout

為了減少環(huán)境交互過程中的 GPU 閑置，將每條軌跡分解為細(xì)粒度的環(huán)境交互單元序列，當(dāng)每條軌跡開始與環(huán)境交互獲取反饋時，SampleBuffer 中待處理的軌跡會立即調(diào)度到可用 LLM Server 節(jié)點，持續(xù)生成后續(xù) Response（即 Action）。

實驗評估：首先在環(huán)境延遲服從高斯分布（均值為 μ，標(biāo)準(zhǔn)差為 σ）的條件下進(jìn)行受控模擬。如下圖 Figure 9 所示，方差越大，加速效果越明顯。當(dāng)參數(shù)為 (10,10) 時，Batch Size 512 的平均 Step 時間從 892s 降至 362s，實現(xiàn) 2.46x 加速。

阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

在真實環(huán)境進(jìn)一步驗證，如下圖 Figure 11 所示，即使在同步訓(xùn)練模式下，Environment-level Asynchronous Rollout 也將 SWE 環(huán)境中端到端時間從 10.22 小時縮短到 8.32 小時，加速比 1.23x。在 ALFWorld 環(huán)境中從 13.37 小時縮短至 8.44 小時，加速比 1.58x。

5.2.2 冗余環(huán)境 Rollout

還引入冗余環(huán)境 Rollout 機制以緩解不穩(wěn)定性對 Agentic RL 訓(xùn)練效率的負(fù)面影響。提供兩個可調(diào)控參數(shù)：

增加環(huán)境組數(shù)量以啟動更多并發(fā)環(huán)境組。
增大組規(guī)模以生成更多候選軌跡。

由于 Roll Flash 在收集到預(yù)設(shè)數(shù)量的軌跡后會立即終止 Rollout，因此可以有效防止慢故障和完全故障成為系統(tǒng)瓶頸。

實驗評估：將總 Rollout Batch Size 固定為 256，以環(huán)境延遲均值為 μ=10、標(biāo)準(zhǔn)差 σ=5 的高斯分布建模。如下圖 Figure 10 所示，增加組數(shù)量始終比擴(kuò)大組規(guī)模更有效。例如，從 32x8 擴(kuò)展到 36x12 時，單步時間從 243s 降至 45s，實現(xiàn) 5.45x 加速；如下圖 Figure 11 所示，在真實環(huán)境的實驗中，Redundant Environment Rollout 在 Environment-level Asynchronous Rollout 基礎(chǔ)上可以額外提供 7%-16% 的吞吐提升。

阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練-AI.x社區(qū)

六、參考鏈接

??https://arxiv.org/abs/2510.11345??
??https://github.com/alibaba/ROLL??
??https://arxiv.org/abs/2505.07608???

本文轉(zhuǎn)載自??AI閑談??，作者：AI閑談

標(biāo)簽

已于2025-10-28 07:51:32修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

阿里集團(tuán)基于Fluid+JindoCache加速大模型訓(xùn)練的實踐

wx5bbef785639a1 ? 4964瀏覽 ? 0回復(fù)
Meta最新成果：前所未有的加速Emu推理 | Imagine Flash：新型蒸餾框架發(fā)布

angel ? 4231瀏覽 ? 0回復(fù)
阿里 C4：通信驅(qū)動加速大規(guī)模并行訓(xùn)練效率

amei2000go ? 9822瀏覽 ? 0回復(fù)
阿里 HPN：針對大規(guī)模 LLM 訓(xùn)練的萬卡集群

amei2000go ? 8069瀏覽 ? 0回復(fù)
LLM 預(yù)訓(xùn)練加速的新方法：八種模型增長方案總結(jié)

amei2000go ? 6657瀏覽 ? 0回復(fù)
Excp & FastPersist：數(shù)十倍 LLM Checkpoint 保存加速和壓縮

amei2000go ? 8291瀏覽 ? 0回復(fù)
AI技術(shù)新前沿本地LLM模型推理訓(xùn)練加速

AIGC觀察者 ? 4981瀏覽 ? 0回復(fù)
汽車長翅膀：GPU 是如何加速深度學(xué)習(xí)模型的訓(xùn)練和推理過程的？

Baihai_IDP ? 4123瀏覽 ? 0回復(fù)
基于Celery、Redis和Florence 2實戰(zhàn)異步機器學(xué)習(xí)推理

51CTO內(nèi)容精選 ? 4217瀏覽 ? 0回復(fù)
GLM-4-Flash宣布免費，Agentic RAG體驗，讓我覺著，真香！

PaperAgent ? 3841瀏覽 ? 0回復(fù)
Meta最新成果：前所未有的加速Emu推理 | Imagine Flash：新型蒸餾框架發(fā)布

angel ? 3022瀏覽 ? 0回復(fù)
Intel Smooth-SwiGLU：FP8 LLM 訓(xùn)練，34% 加速

amei2000go ? 4538瀏覽 ? 0回復(fù)
解鎖Agentic RAG，使用LangChain和OpenAI進(jìn)行實踐

小虎哦哦 ? 5191瀏覽 ? 0回復(fù)
LLM之后，Agent的未來是RL！

探索AGI ? 5682瀏覽 ? 0回復(fù)
大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？

shizhi02 ? 4340瀏覽 ? 0回復(fù)
牛津+上海 AI 實驗室聯(lián)合全球15+頂校合著Agentic RL綜述：講透智能體強化學(xué)習(xí)范式革命

十一月雨_55 ? 4613瀏覽 ? 0回復(fù)
字節(jié) RhythmRL：基于投機采樣+長度預(yù)測的 RL 加速

amei2000go ? 1804瀏覽 ? 0回復(fù)
ICML'25南洋理工+阿里：反事實RL實現(xiàn)VLM智能體高效在線調(diào)優(yōu)，成功率漲12%

十一月雨_55 ? 4841瀏覽 ? 0回復(fù)
RLVR訓(xùn)練多模態(tài)文檔解析模型-olmOCR 2技術(shù)方案（模型、數(shù)據(jù)和代碼均開源）

大模型自然語言處理 ? 599瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law” 5天前發(fā)布
字節(jié) RhythmRL：基于投機采樣+長度預(yù)測的 RL 加速 2025-09-22 07:05:04發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

DeepSeek團(tuán)隊開源新模型DeepSeek-OCR，用3B參數(shù)量實現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇： Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law”

社區(qū)精華內(nèi)容

目錄