重磅開源!首個(gè)全異步強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)來了,SOTA推理大模型RL訓(xùn)練提速2.77倍
來自清華大學(xué)交叉信息院和螞蟻技術(shù)研究院的聯(lián)合團(tuán)隊(duì),正式開源全異步強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng) —— AReaL-boba2 (AReaL v0.3)。
作為 AReaL 里程碑版本 AReaL-boba 的重磅升級(jí),AReaL-boba2 (正式全名:A-ReaL-double-boba) 堅(jiān)持 boba 系列 “全面開源、極速訓(xùn)練、深度可定制” 的開發(fā)理念,再次加量:除了更全的功能和更詳細(xì)的文檔說明,更以全異步 RL 為核心,發(fā)布 SOTA 代碼模型,全面奔向 Agentic RL:
- ?? 效率再突破: 全面實(shí)現(xiàn)異步 RL 訓(xùn)練,完全解耦模型生成與訓(xùn)練,效果不變的前提下訓(xùn)練速度對(duì)比上一版本最高提升 2.77 倍,GPU 資源利用率大幅優(yōu)化。
 - ?? 上手零門檻: 新增詳細(xì)教程 (Step-by-Step Tutorials) 和深度文檔 (Comprehensive Documentation),覆蓋安裝、核心概念、算法 / 模型定制化到問題排查,新手友好,老手高效。
 - ?? 代碼任務(wù)新 SOTA 誕生! 基于 Qwen3 系列模型 RL 訓(xùn)練,8B/14B 模型在 LiveCodeBench, Codeforce, Codecontest 等 benchmark 上達(dá)到 SOTA 水準(zhǔn)!
 - ?? Agentic RL 支持 :原生支持多輪智能體強(qiáng)化學(xué)習(xí) (Multi-Turn Agentic RL) 訓(xùn)練,擁抱 Agentic RL 浪潮。
 - ?? 開箱即用:開源代碼、數(shù)據(jù)集、腳本及 SOTA 級(jí)模型權(quán)重。
 
異步強(qiáng)化學(xué)習(xí)(Asynchronous RL)是一種重要的 RL 范式,它將數(shù)據(jù)生成與模型訓(xùn)練完全解耦,以不間斷的流式生成和并行訓(xùn)練,極大提高了資源使用率,天然適用于多輪次交互的 Agent 場景。
AReaL-boba2 通過強(qiáng)化學(xué)習(xí)算法和訓(xùn)練系統(tǒng)的共同設(shè)計(jì)(co-design),在完全不影響模型效果的同時(shí),實(shí)現(xiàn)了穩(wěn)定高效的異步 RL 訓(xùn)練,不斷朝全面支持 Agentic AI 的最終目標(biāo)沖刺。
本次 AReaL 升級(jí)為用戶提供更完善的使用教程,涵蓋詳細(xì)的代碼框架解析、無需修改底層代碼即可自定義數(shù)據(jù)集/算法/Agent 邏輯的完整指南,以及高度簡化的環(huán)境配置與實(shí)驗(yàn)啟動(dòng)流程,如果你想要快速微調(diào)推理模型,快試試雙倍加量的 AReaL-boba2 吧!
- ?? 立即體驗(yàn) AReaL-boba2 :https://github.com/inclusionAI/AReaL/ (包含教程/文檔/代碼)
 - ?? 下載 SOTA 代碼推理模型:https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5
 - ?? AReaL 技術(shù)論文: https://arxiv.org/pdf/2505.24298
 - ?? AReaL-boba 回顧: 200 美金,人人可手搓 QwQ,清華、螞蟻開源極速 RL 框架 AReaL-boba
 
最強(qiáng)最快 coding RL 訓(xùn)練
AReaL-boba2 基于最新的 Qwen3 系列模型,針對(duì) 8B 和 14B 尺寸進(jìn)行 coding RL 訓(xùn)練,并在評(píng)測代碼能力的榜單 LiveCodeBench v5 (LCB),Codeforce (CF) 以及 Codecontests (CC) 上取得了開源 SOTA 的成績。
其中,基于部分內(nèi)部數(shù)據(jù)的最強(qiáng)模型 AReaL-boba2-14B 在 LCB 榜單上取得了 69.1 分,CF rating 達(dá)到 2044,CC 取得 46.2 分,大幅刷新 SOTA。
此外,AReaL 團(tuán)隊(duì)還基于開源數(shù)據(jù)集發(fā)布了完全開源可復(fù)現(xiàn)的 AReaL-boba2-Open 系列模型,同樣能在 8B 和 14B 尺寸上大幅超過現(xiàn)有基線。

Table 1: AReaL-boba2-8B/14B 在 LiveCodeBench, Codeforce, Codecontest 等 benchmark 上達(dá)到同尺寸 SOTA 水準(zhǔn)。
AReaL 團(tuán)隊(duì)還在數(shù)學(xué)任務(wù)上進(jìn)行了異步 RL 訓(xùn)練的擴(kuò)展性分析(scaling analysis):針對(duì)不同模型尺寸(1.5B,7B,32B)以及不同 GPU 數(shù)量,基于異步 RL 的 AReaL-boba2 系統(tǒng)的訓(xùn)練效率都大幅超過了采用傳統(tǒng)同步 RL 的訓(xùn)練系統(tǒng)。相比于共卡模式,AReaL-boba2 所采用的分卡模式顯存碎片更少,在更大模型尺寸下(32B)依然能夠保持良好的擴(kuò)展性。

Fig. 1 異步 RL(藍(lán)色,AReaL 系統(tǒng))和同步 RL(橘紅色,采用 verl 系統(tǒng)的官方實(shí)現(xiàn))的訓(xùn)練效率對(duì)比。采用異步 RL 的 AReaL 系統(tǒng)的訓(xùn)練吞吐在不同模型尺寸(1.5B, 7B, 32B)下都有著更好的 GPU 擴(kuò)展性(scaling)。
為何需要異步 RL 訓(xùn)練?同步 RL 痛點(diǎn)剖析
在傳統(tǒng)同步 RL 訓(xùn)練流程中,算法采用當(dāng)前模型產(chǎn)生批量的輸出(batch output),然后用收集的輸出對(duì)當(dāng)前模型計(jì)算損失函數(shù)并更新參數(shù)。同步 RL 訓(xùn)練中每一個(gè)批次(batch)的數(shù)據(jù)都是由同一個(gè)模型版本產(chǎn)生,因此模型參數(shù)更新需要等待批次中數(shù)據(jù)全部生成完成才能啟動(dòng)(Fig 2 左圖)。由于推理模型的輸出長短差異極大,在同樣的批大?。╞atch size)下,RL 訓(xùn)練必須等待批次中最長的輸出生成完才能繼續(xù)進(jìn)行訓(xùn)練,以及進(jìn)行下一個(gè)批次的數(shù)據(jù)收集,造成極大 GPU 資源浪費(fèi)。

Fig. 2 左圖(示意圖):同步 RL 訓(xùn)練的計(jì)算過程,同批次輸出(藍(lán)色)需要等待最長的輸出生成完成,存在大量 GPU 空閑;右圖(示意圖):采用 1 步重疊(1-step overlap)的 RL 訓(xùn)練計(jì)算過程,單步模型訓(xùn)練與單批次數(shù)據(jù)收集同時(shí)進(jìn)行。同批次內(nèi)依然存在大量 GPU 空閑。
上圖展示了幾種常見的 RL 訓(xùn)練數(shù)據(jù)流。
左圖為傳統(tǒng)共卡同步 RL 系統(tǒng)計(jì)算模式,即 RL 生成和訓(xùn)練階段分別使用全部 GPU 交替進(jìn)行。由于訓(xùn)練任務(wù)需要完全等待生成完成,而生成階段所花費(fèi)的時(shí)間取決于最長的輸出所完成時(shí)間,很容易造成 GPU 空閑。
右圖為 1-step Overlap RL,是一種同步 RL 的常見改進(jìn),由 DeepCoder 和 INTELLECT-2 項(xiàng)目采用。Overlap RL 采用分卡模式,收集一批次輸出的同時(shí)在不同的 GPU 上進(jìn)行模型訓(xùn)練,平衡了生成和訓(xùn)練所需要的計(jì)算資源并避免了切換成本。但是,在 Overlap RL 系統(tǒng)中,每一個(gè)批次的訓(xùn)練數(shù)據(jù)依然要求全部由同一個(gè)版本模型生成,生成時(shí)間依然會(huì)被最長的輸出所阻塞,并不能解決同步 RL 訓(xùn)練效率低的問題。
AReaL-boba2 的高效秘訣:完全異步 RL 訓(xùn)練
AReaL-boba2 通過算法系統(tǒng) co-design 的方式實(shí)現(xiàn)了完全異步 RL 訓(xùn)練(fully asynchronous RL),從根本上解決了同步 RL 的各種問題。在 AReaL-boba2 的異步訓(xùn)練框架中,生成和訓(xùn)練使用不同 GPU 并完全解耦。生成任務(wù)持續(xù)流式進(jìn)行以保證 GPU 資源始終滿載運(yùn)行,杜絕了 GPU 空閑。訓(xùn)練任務(wù)持續(xù)接收生成完成的輸出,在訓(xùn)練節(jié)點(diǎn)上并行更新參數(shù),并將更新后的參數(shù)與推理節(jié)點(diǎn)同步。
AReaL-boba2 的系統(tǒng)設(shè)計(jì)可以在保證穩(wěn)定 RL 訓(xùn)練的同時(shí),參數(shù)同步的通信和計(jì)算花銷僅占總訓(xùn)練時(shí)間的 5% 以內(nèi)。
此外,由于全異步 RL 中同批次數(shù)據(jù)可能由不同版本的模型產(chǎn)生,AReaL-boba2 也對(duì) RL 算法進(jìn)行了升級(jí),在提速的同時(shí)確保模型效果。

Fig. 3 全異步 RL 系統(tǒng) (fully asynchronous RL system) 的計(jì)算流程示意圖
使用 128 卡對(duì) 1.5B 模型在 32k 輸出長度、512 x 16 批大小設(shè)定下進(jìn)行 RL 訓(xùn)練,我們列出了每一個(gè) RL 訓(xùn)練步驟(模型參數(shù)更新)所需要的時(shí)間,異步 RL 相比同步 RL 相比,每個(gè)訓(xùn)練步驟耗時(shí)減少 52%:

全異步 RL 訓(xùn)練的系統(tǒng)架構(gòu):全面解耦生成與訓(xùn)練

Fig. 4 AReaL-boba2 的異步 RL 系統(tǒng)架構(gòu)。生成模塊(紫色)和訓(xùn)練模塊(綠色)完全分離。
AReaL-boba2 系統(tǒng)架構(gòu)的圍繞不同計(jì)算任務(wù)采取全面解耦的模塊化設(shè)計(jì)。對(duì)于模型輸出、模型訓(xùn)練、和獎(jiǎng)勵(lì)函數(shù)計(jì)算,采用不同計(jì)算資源徹底分離,實(shí)現(xiàn)全流水線異步執(zhí)行。整體設(shè)計(jì)包含四個(gè)核心組件:
1. 可中斷軌跡生成器(Interruptible Rollout Worker):
- 支持生成請(qǐng)求(generate request)和權(quán)重更新請(qǐng)求(update_weights request)。
 - 收到權(quán)重更新請(qǐng)求時(shí),會(huì)中斷正在進(jìn)行的生成任務(wù),丟棄舊權(quán)重計(jì)算的 KV 緩存。加載新權(quán)重后重新計(jì)算 KV 緩存并生成剩余軌跡。
 
2. 獎(jiǎng)勵(lì)服務(wù)(Reward Service):
- 負(fù)責(zé)評(píng)估生成軌跡的正確性(如:在代碼任務(wù)中提取代碼并執(zhí)行單元測試以驗(yàn)證其正確性)。
 
3. 訓(xùn)練器(Trainer Workers):
- 持續(xù)從回放緩沖區(qū)采樣訓(xùn)練數(shù)據(jù),隨后執(zhí)行 RL 算法更新,并將最新模型參數(shù)存入分布式存儲(chǔ)。
 
4. 生成控制器(Rollout Controller):
- 系統(tǒng)的 “指揮中樞”:控制器從數(shù)據(jù)集中讀取數(shù)據(jù),向軌跡生成器發(fā)送生成請(qǐng)求,隨后將生成完整的軌跡發(fā)送至獎(jiǎng)勵(lì)服務(wù)以獲取獎(jiǎng)勵(lì)值。帶有獎(jiǎng)勵(lì)值的軌跡數(shù)據(jù)會(huì)被存入回放緩沖區(qū),等待訓(xùn)練器進(jìn)行訓(xùn)練。當(dāng)訓(xùn)練器完成參數(shù)更新后,控制器會(huì)調(diào)用軌跡生成器的權(quán)重更新接口。
 
算法改進(jìn)保障收斂性能
雖然異步系統(tǒng)設(shè)計(jì)通過提高設(shè)備利用率實(shí)現(xiàn)了顯著的加速,但也引入一些問題導(dǎo)致收斂性能不如同步系統(tǒng):
- 數(shù)據(jù)陳舊性。由于訓(xùn)練系統(tǒng)的異步特性,每個(gè)訓(xùn)練批次包含來自多個(gè)歷史模型版本的數(shù)據(jù)。數(shù)據(jù)陳舊會(huì)導(dǎo)致訓(xùn)練數(shù)據(jù)與最新模型的輸出之間存在分布差異,從而影響算法效果。
 - 模型版本不一致。由于采用了可中斷軌跡生成,單個(gè)軌跡可能包含由不同模型版本產(chǎn)生的片段。這種不一致性從根本上違背了標(biāo)準(zhǔn) on-policy RL 的設(shè)定前提 —— 即假定所有動(dòng)作都由單一模型生成。
 
為了解決這些問題,團(tuán)隊(duì)提出了兩項(xiàng)關(guān)鍵算法改進(jìn)。
方法 1:數(shù)據(jù)陳舊度控制(Staleness Control)
對(duì)于異步 RL 算法,有一個(gè)重要的參數(shù)叫 staleness,可以用來衡量訓(xùn)練數(shù)據(jù)的陳舊性。
staleness 表示當(dāng)采用一個(gè)批次的數(shù)據(jù)進(jìn)行模型訓(xùn)練時(shí),生成最舊的一條數(shù)據(jù)的模型版本和當(dāng)前更新的模型版本之間的版本差(比如,一個(gè)批次中最舊的一條數(shù)據(jù)由 step 1 產(chǎn)生的模型輸出,當(dāng)前模型由 step 5 產(chǎn)生,則該批次 staleness=4)。同步 RL 的批次 staleness 固定為 0。staleness 越大,則數(shù)據(jù)陳舊性越嚴(yán)重,對(duì) RL 算法的穩(wěn)定性挑戰(zhàn)也越大,模型效果也更難以保持。
為避免數(shù)據(jù)陳舊性帶來的負(fù)面影響,AReaL 在異步 RL 算法上設(shè)置超參數(shù) max staleness ??,即只在 staleness 不超過預(yù)設(shè)值 ?? 時(shí),提交進(jìn)行新的數(shù)據(jù)生成請(qǐng)求。
具體來說,軌跡生成器在每次提交新的請(qǐng)求時(shí),都會(huì)通過生成控制器進(jìn)行申請(qǐng);控制器維護(hù)當(dāng)前已經(jīng)被提交的和正在運(yùn)行的請(qǐng)求數(shù)量,只有當(dāng)新的請(qǐng)求 staleness 不超過 ?? 限制時(shí)才允許被提交到生成引擎處。當(dāng) ??=0 時(shí),系統(tǒng)等價(jià)于跟同步 RL 訓(xùn)練,此時(shí)要求用于訓(xùn)練的采樣軌跡一定是最新的模型生成的。
方法 2:解耦近端策略優(yōu)化目標(biāo)(Decoupled PPO Objective)
為了解決舊數(shù)據(jù)與最新模型之間的分布差異帶來的問題,團(tuán)隊(duì)采用了解耦的近端策略優(yōu)化目標(biāo)(Decoupled PPO Objective),將行為策略(behavior policy)與近端策略(proximal policy)分離。其中:
- 行為策略(behavior policy)表示用于軌跡采樣的策略
 - 近端策略(proximal policy)作為一個(gè)臨近的策略目標(biāo),用來約束在線策略的更新
 
最終,可以得到一個(gè)在行為策略生成的數(shù)據(jù)上進(jìn)行重要性采樣(importance sampling)的 PPO 目標(biāo)函數(shù):

其中,系數(shù) 
 起到了在 token 級(jí)別篩選有效訓(xùn)練數(shù)據(jù)的作用。當(dāng) 
 遠(yuǎn)遠(yuǎn)小于 1 時(shí),對(duì)應(yīng)數(shù)據(jù)能夠被最新策略采樣的概率極低,故而在訓(xùn)練目標(biāo)中只占據(jù)了可以忽略的比重。
效果驗(yàn)證:速度 Max, 性能依舊強(qiáng)勁!
AReaL 團(tuán)隊(duì)基于 1.5B 模型在數(shù)學(xué)任務(wù)上設(shè)置不同 max staleness ?? 進(jìn)行 Async RL 訓(xùn)練,得到如下訓(xùn)練曲線。在 AReaL 的訓(xùn)練設(shè)定中,經(jīng)典的 PPO 可以清晰看到隨著 staleness 增大效果下降,而采用 decoupled PPO objective 后,即使 ?? 增加到 8,算法依然能夠保持訓(xùn)練效果好最終模型性能。
注:max staleness 的絕對(duì)值和具體實(shí)驗(yàn)設(shè)定(learning rate,batch size 等)相關(guān),這里僅比較 AReaL-boba2 系統(tǒng)改進(jìn)所帶來的相對(duì)提升。

Fig. 5 針對(duì)不同 staleness 的算法穩(wěn)定性結(jié)果。左圖:經(jīng)典 PPO 算法在異步 RL 場景下模型效果很容易退化。右圖:采用 decoupled PPO objective,在 staleness=8 的情況下模型效果依然無損。
AReaL 團(tuán)隊(duì)還把采用不同 max staleness 訓(xùn)練的模型在 AIME24 和 AIME25 數(shù)據(jù)集上進(jìn)行評(píng)測,采用 decoupled objective 的算法都能在 ?? 更大的情況下保持更好的模型效果。

Table 2: 在數(shù)學(xué)任務(wù)(AIME24 & AIME25)上對(duì)于不同 max stalness,采用經(jīng)典 PPO 算法和 decoupled PPO 進(jìn)行異步 RL 訓(xùn)練最終產(chǎn)生的模型效果比較,decoupled PPO 始終有更好效果。
想深入了解算法原理與實(shí)驗(yàn)細(xì)節(jié)? 請(qǐng)?jiān)L問原論文查看更多算法細(xì)節(jié):https://arxiv.org/pdf/2505.24298
開源助力:輕松復(fù)現(xiàn) SOTA 代碼模型
除了強(qiáng)大的 AReaL-boba2 訓(xùn)練系統(tǒng),團(tuán)隊(duì)也帶來了訓(xùn)練數(shù)據(jù)、訓(xùn)練腳本和評(píng)估腳本。團(tuán)隊(duì)也提供了完整的技術(shù)報(bào)告,確??梢栽?AReaL 上復(fù)現(xiàn)訓(xùn)練結(jié)果以及進(jìn)行后續(xù)開發(fā)。技術(shù)報(bào)告中呈現(xiàn)了豐富的技術(shù)細(xì)節(jié),包括數(shù)據(jù)集構(gòu)成、獎(jiǎng)勵(lì)函數(shù)設(shè)置、模型生成方式、訓(xùn)練過程中的動(dòng)態(tài)數(shù)據(jù)篩選等等。
快來用 AReaL-boba2 訓(xùn)練你自己的 SOTA 代碼模型吧!

彩蛋:擁抱 Agentic RL 浪潮
本次 AReaL-boba2 發(fā)布也支持多輪 Agentic RL 訓(xùn)練!開發(fā)者可以根據(jù)自己的需求自由定制智能體和智能體環(huán)境,并進(jìn)行 Agentic RL 訓(xùn)練。目前,AReaL-boba2 提供了一個(gè)在數(shù)學(xué)推理任務(wù)上進(jìn)行多輪推理的例子。

AReaL 團(tuán)隊(duì)表示,Agentic RL 功能也正在持續(xù)更新中,未來會(huì)支持更多 Agentic RL 訓(xùn)練的功能。
結(jié)語
AReaL 項(xiàng)目融合了螞蟻強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室與清華交叉信息院吳翼團(tuán)隊(duì)多年的技術(shù)積累,也獲得了大量來自螞蟻集團(tuán)超算技術(shù)團(tuán)隊(duì)和數(shù)據(jù)智能實(shí)驗(yàn)室的幫助。AReaL 的誕生離不開 DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO 等優(yōu)秀開源框架和模型的啟發(fā)。
如同其代號(hào) “boba” 所寓意,團(tuán)隊(duì)希望 AReaL 能像一杯奶茶般 “delicious, customizable and affordable” —— 讓每個(gè)人都能便捷、靈活地搭建和訓(xùn)練屬于自己的 AI 智能體。
AReaL 項(xiàng)目歡迎大家加入,也持續(xù)招募全職工程師和實(shí)習(xí)生,一起奔向 Agentic AI 的未來!















 
 
 


















 
 
 
 