讓GPU不再摸魚!清華螞蟻聯(lián)合開源首個全異步RL,一夜擊穿14B SOTA
還記得今年初DeepSeek?R1系列把純強化學習(RL)訓練開源,點燃社區(qū)對于RL的熱情嗎?
不久后,來自清華螞蟻聯(lián)合開源項目AReaL(v0.1)也通過在DeepSeek-R1-Distill-Qwen-1.5B上進行RL訓練,觀察到模型性能的持續(xù)提升。
AReaL(v0.1)在40小時內,使用RL訓練的一個1.5B參數(shù)模型,在數(shù)學推理方面就超越了o1-Preview版本。
研究人員發(fā)現(xiàn),RL在構建大型推理模型(LRM)方面確實有「奇效」,但是傳統(tǒng)的同步RL卻有著「昂貴」的代價——效率很低,無法充分利用推理設備性能。
6月3日,清華螞蟻聯(lián)合研發(fā)的全異步強化學習訓練系統(tǒng)AReaL-boba2(即AReaL v0.3)正式開源,這是AReaL的第三個版本,也是其里程碑版本AReaL-boba的重磅升級,直指RL訓效提升靶心!
AReaL-boba2在經過兩個版本的迭代后,進化出多項重要能力:
- 全面實現(xiàn)了異步強化學習訓練,完全解耦模型生成與訓練,GPU資源利用率大幅優(yōu)化。
 - 性能效果不變的前提下,訓練速度對比AReaL-boba最高提升2.77倍,且沒有任何性能損失。
 - 研究人員使用這一系統(tǒng)在Qwen3系列模型上做強化學習訓練,實現(xiàn)8B、14B模型在LiveCodeBench、Codeforce、Codecontest等benchmark上達到SOTA水準。
 - AReaL-boba2還原生支持多輪智能體強化學習訓練,開發(fā)者可以根據(jù)自己的需求自由定制智能體和智能體環(huán)境,進行多輪交互智能體Agentic RL訓練。
 - 完全開源:不僅開源代碼、腳本,還包括可復現(xiàn)結果的數(shù)據(jù)集、模型權重。
 

開源地址:https://github.com/inclusionAI/AReaL
技術論文:https://arxiv.org/pdf/2505.24298
模型下載:https://huggingface.co/collections/inclusionAI/AReaL-boba-2-683f0e819ccb7bb2e1b2f2d5
尋找兼顧高效能、高效率的強化學習訓練方式,一直是從業(yè)人員持續(xù)面臨的課題。
異步強化學習是一種重要的算法范式,將成為未來強化學習的重要方向之一。這次清華和螞蟻聯(lián)合開源的AReaL-boba2以及一系列實驗效果,驗證了這方面的共識。
一舉達到SOTA性能
首先來看AReaL-boba2在多個測試基準上的性能對比。研究人員使用這一系統(tǒng)在Qwen3系列模型上做強化學習訓練。

其中,AReaL-boba2-8B/14B-Open表示在開源數(shù)據(jù)上的訓練結果;AReaL-boba2-8B/14B模型則額外使用了少量內部數(shù)據(jù)進行訓練。
AReaL-boba2-8B/14B在LiveCodeBench、Codeforce和CodeContests上實現(xiàn)了SOTA。
最厲害的是在LiveCodeBench-v5上得分為69.1的14B模型,已經接近Qwen3-235B的性能!要知道這可是14B VS 235B的較量。
同時AReaL-boba2-8B模型的得分也有63分,已經接近DeepSeek-R1的水準!
異步強化學習系統(tǒng)的必要性
在傳統(tǒng)的強化學習訓練流程中,同步強化學習訓練每一個batch的數(shù)據(jù)都是由最新版本模型產生,因此模型參數(shù)更新需要等待batch中數(shù)據(jù)全部生成完成才能啟動。
由于推理模型的輸出長短差異極大,在同樣的批大?。╞atch size)下,強化學習訓練必須等待batch中最長的輸出生成完才能繼續(xù)進行訓練,以及進行下一個batch的數(shù)據(jù)收集,這樣,就會造成極大的GPU資源浪費。

左側為同步RL訓練的執(zhí)行時間線:同batch輸出(藍色)需要等待其中最長的輸出生成完成,存在大量GPU空閑
DeepCoder,Intellect-2等使用從前一模型版本生成的輸出來更新當前模型,從而在單步上重疊生成與訓練。然而,所有這些系統(tǒng)仍然遵循批量生成設置,在生成階段期間系統(tǒng)效率低下的問題仍未得到有效解決。
圖1右側為一步重疊RL系統(tǒng)的執(zhí)行時間線,單模型訓練與單batch數(shù)據(jù)收集同時進行。同batch內依然存在大量GPU空閑。
完全異步RL訓練系統(tǒng)
實現(xiàn)高GPU利用率
為了從根本上解決以上這些系統(tǒng)設計中的問題,清華和螞蟻的聯(lián)合研究團隊開發(fā)了AReaL-boba2,一個面向大型推理模型(LRM)的完全異步強化學習訓練系統(tǒng),它完全解耦了生成與訓練,在不影響最終性能的同時,實現(xiàn)大幅度加速。
而AReaL-boba2之所以能實現(xiàn)高GPU利用率,就是因為它以流式方式執(zhí)行LRM生成,讓每個rollout worker能不斷生成新的輸出,無需等待。
同時,AReaL-boba2中的trainer worker會并行地在從rollout worker獲得生成完成的數(shù)據(jù)構成訓練batch,用來更新模型。一旦模型更新完成,新的模型權重會更新到每個rollout worker中。
值得注意的是,在這種異步設計中,AReaL-boba2中的每個訓練batch可能包含由不同過去模型版本生成的樣本。在實踐中,訓練數(shù)據(jù)的陳舊性可能會導致RL算法訓練效果不佳,為此研究者們提出了算法改進以保證訓練效果。
結果顯示,完成數(shù)學推理和代碼任務時,在高達320億參數(shù)的模型上,AReaL-boba2的訓練吞吐量最高可提高2.77倍,訓練效率在512塊GPU上實現(xiàn)了線性擴展。
關鍵點在于,這種加速甚至還帶來了解題準確性的提升,這就表明,AReaL-boba2并不需要犧牲模型性能,就能顯著提升效率!
系統(tǒng)架構

AReaL的架構與數(shù)據(jù)流
AReaL-boba2系統(tǒng)由四個核心組件組成:
1. 可中斷的采樣工作器(Interruptible Rollout Worker)
它負責處理兩類請求:
(1)generate請求:根據(jù)提示詞生成響應;
(2)update_weights請求:中斷當前所有生成任務,并加載新版本模型參數(shù)。
在權重更新時,采樣工作器會丟棄舊權重生成的KV緩存,并使用新權重重新計算。隨后,采樣工作器將繼續(xù)解碼未完成的序列,直到下一次中斷或任務終止。
這種在生成中途打斷并切換模型權重的機制,將導致一條軌跡由多個不同模型版本生成的片段組成。當然,這也帶來了新的算法挑戰(zhàn)。
2. 獎勵服務(Reward Service)
用于評估模型生成響應的準確性。
例如,在代碼任務中,該服務會提取生成的代碼并執(zhí)行單元測試,以驗證其正確性。
3. 訓練工作器(Trainer Workers)
這個組件會持續(xù)地從重放緩存(replay buffer)中采樣數(shù)據(jù),直到累積到訓練所需的batch大小為止。
隨后,它們將執(zhí)行PPO更新,并將更新后的模型參數(shù)存儲到分布式存儲系統(tǒng)中。
4. 采樣控制器(Rollout Controller)
它是采樣工作器、獎勵服務與訓練工作器之間的重要橋梁。在訓練過程中,它從數(shù)據(jù)集中讀取數(shù)據(jù),向采樣工作器發(fā)送generate 請求,獲取模型生成的結果。生成結果隨后會被發(fā)送至獎勵服務進行評估,以獲取對應的獎勵值。
包含獎勵的軌跡會被存入重放緩存,等待訓練工作器進行訓練。當訓練工作器更新完模型參數(shù)后,控制器會向采樣工作器發(fā)送update_weights請求,將最新權重加載至采樣工作器中。

AReaL的生成與訓練的管理流程
異步強化學習的算法挑戰(zhàn)與解決方案
雖然異步系統(tǒng)設計通過提高設備利用率提供了顯著的加速效果,但它也引入了一些需要從算法層面考量的技術挑戰(zhàn)。
· 數(shù)據(jù)陳舊性
由于AReaL-boba2的異步特性,每個訓練batch都包含來自多個先前策略版本的數(shù)據(jù)。數(shù)據(jù)陳舊性會導致訓練數(shù)據(jù)與最新模型的輸出之間出現(xiàn)分布差距。在針對LRM的異步RL訓練中,由于解碼時間延長,此問題對于長軌跡可能會更加嚴重。
· 策略版本不一致
如上圖3所示,單個生成的軌跡可能包含由不同模型版本生成的片段。這種不一致性從根本上違背了標準PPO的公式化假設,即所有數(shù)據(jù)都由單一模型生成。
為了解決這兩個挑戰(zhàn),AReaL-boba2提出了兩種關鍵解決方案:
1. 陳舊性控制
為了避免數(shù)據(jù)陳舊性問題帶來的負面影響,AReaL-boba2限制生成軌跡的策略版本與訓練策略之間的版本差異。AReaL引入了一個超參數(shù)η,用于表示允許的最大陳舊程度。當η=0,系統(tǒng)退化為同步強化學習設置,此時生成與訓練batch完全匹配。
2. 解耦的PPO目標
團隊應用了一個解耦的PPO目標,將行為策略和代理策略分離,其中行為策略表示用于采樣軌跡的策略,而代理策略是一個近端策略,作為最近的目標,用于規(guī)范在線策略的更新。

效果顯著
首先在一個數(shù)學任務上評估異步AReaL-boba2,在之前發(fā)布的AReaL-boba(v0.2)基礎上,采用R1-Distill-Qwen作為基礎模型,并使用AReaL-boba-106k作為訓練數(shù)據(jù)集。
端到端性能對比
團隊比較了在1.5B和7B參數(shù)模型上的同步與異步訓練。
結果顯示,在資源限制和訓練步驟相同的情況下,異步系統(tǒng)速度是同步系統(tǒng)的兩倍多!
在AIME24上的評估,證實了這一加速并未影響性能。

可以看到,AReaL-boba2在性能上始終與基線持平甚至超過,并且訓練速度有顯著提升。
特別是在訓練吞吐量方面,AReaL-boba2相較于同步方法最高可實現(xiàn)2.77倍的提升,且?guī)缀鯚o性能損失。

研究者在數(shù)學任務上基于一個1.5B的大型推理模型(LRM),開展了消融實驗,以驗證他們所提出算法創(chuàng)新。
他們調整了允許的最大staleness η,并比較使用和不使用解耦式PPO目標函數(shù)的不同配置。結果表明,陳舊性控制有效地避免了過舊的數(shù)據(jù)帶來的負面影響,同時使用解耦PPO目標可以在陳舊程度大的情況下保持訓練效果。

(a)和(b)分別為使用傳統(tǒng)PPO以及解耦PPO目標進行訓練的曲線

解耦PPO目標的消融實驗
推進先進AI推理平權
此前,聯(lián)合研究小組在3月開源的AReaL-boba項目,得到了來自海外開發(fā)者的高度認可,評價「AReaL-boba通過開放SOTA推理模型的資源和透明的訓練方式,讓先進的AI推理技術平權化,降低了研究的門檻。 」
而AReaL-boba2 延續(xù)了一貫的完全開源原則,代碼、數(shù)據(jù)集、腳本及 SOTA 級模型權重全部開源,團隊希望 AReaL 能讓AI智能體搭建像制作一杯奶茶一樣便捷、靈活、可定制化。
AReaL團隊在技術報告中表示,該項目融合了螞蟻強化學習實驗室與清華交叉信息院吳翼團隊多年的技術積累,也獲得了大量來自螞蟻集團超算技術團隊和數(shù)據(jù)智能實驗室的幫助。
AReaL的誕生離不開DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO等優(yōu)秀開源框架和模型的啟發(fā)。
最后,AReaL還給出了完善的訓練教程和開發(fā)指南,包括復現(xiàn)SOTA代碼模型訓練指南以及基于Async RL的智能體搭建教程,想體驗極速RL訓練的小伙伴可以跑起來了!
















 
 
 












 
 
 
 