讓GPU不再摸魚(yú)!清華螞蟻聯(lián)合開(kāi)源首個(gè)全異步RL,一夜擊穿14B SOTA
還記得今年初DeepSeek?R1系列把純強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練開(kāi)源,點(diǎn)燃社區(qū)對(duì)于RL的熱情嗎?
不久后,來(lái)自清華螞蟻聯(lián)合開(kāi)源項(xiàng)目AReaL(v0.1)也通過(guò)在DeepSeek-R1-Distill-Qwen-1.5B上進(jìn)行RL訓(xùn)練,觀察到模型性能的持續(xù)提升。
AReaL(v0.1)在40小時(shí)內(nèi),使用RL訓(xùn)練的一個(gè)1.5B參數(shù)模型,在數(shù)學(xué)推理方面就超越了o1-Preview版本。
研究人員發(fā)現(xiàn),RL在構(gòu)建大型推理模型(LRM)方面確實(shí)有「奇效」,但是傳統(tǒng)的同步RL卻有著「昂貴」的代價(jià)——效率很低,無(wú)法充分利用推理設(shè)備性能。
6月3日,清華螞蟻聯(lián)合研發(fā)的全異步強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)AReaL-boba2(即AReaL v0.3)正式開(kāi)源,這是AReaL的第三個(gè)版本,也是其里程碑版本AReaL-boba的重磅升級(jí),直指RL訓(xùn)效提升靶心!
AReaL-boba2在經(jīng)過(guò)兩個(gè)版本的迭代后,進(jìn)化出多項(xiàng)重要能力:
- 全面實(shí)現(xiàn)了異步強(qiáng)化學(xué)習(xí)訓(xùn)練,完全解耦模型生成與訓(xùn)練,GPU資源利用率大幅優(yōu)化。
- 性能效果不變的前提下,訓(xùn)練速度對(duì)比AReaL-boba最高提升2.77倍,且沒(méi)有任何性能損失。
- 研究人員使用這一系統(tǒng)在Qwen3系列模型上做強(qiáng)化學(xué)習(xí)訓(xùn)練,實(shí)現(xiàn)8B、14B模型在LiveCodeBench、Codeforce、Codecontest等benchmark上達(dá)到SOTA水準(zhǔn)。
- AReaL-boba2還原生支持多輪智能體強(qiáng)化學(xué)習(xí)訓(xùn)練,開(kāi)發(fā)者可以根據(jù)自己的需求自由定制智能體和智能體環(huán)境,進(jìn)行多輪交互智能體Agentic RL訓(xùn)練。
- 完全開(kāi)源:不僅開(kāi)源代碼、腳本,還包括可復(fù)現(xiàn)結(jié)果的數(shù)據(jù)集、模型權(quán)重。
開(kāi)源地址:https://github.com/inclusionAI/AReaL
技術(shù)論文:https://arxiv.org/pdf/2505.24298
模型下載:https://huggingface.co/collections/inclusionAI/AReaL-boba-2-683f0e819ccb7bb2e1b2f2d5
尋找兼顧高效能、高效率的強(qiáng)化學(xué)習(xí)訓(xùn)練方式,一直是從業(yè)人員持續(xù)面臨的課題。
異步強(qiáng)化學(xué)習(xí)是一種重要的算法范式,將成為未來(lái)強(qiáng)化學(xué)習(xí)的重要方向之一。這次清華和螞蟻聯(lián)合開(kāi)源的AReaL-boba2以及一系列實(shí)驗(yàn)效果,驗(yàn)證了這方面的共識(shí)。
一舉達(dá)到SOTA性能
首先來(lái)看AReaL-boba2在多個(gè)測(cè)試基準(zhǔn)上的性能對(duì)比。研究人員使用這一系統(tǒng)在Qwen3系列模型上做強(qiáng)化學(xué)習(xí)訓(xùn)練。
其中,AReaL-boba2-8B/14B-Open表示在開(kāi)源數(shù)據(jù)上的訓(xùn)練結(jié)果;AReaL-boba2-8B/14B模型則額外使用了少量?jī)?nèi)部數(shù)據(jù)進(jìn)行訓(xùn)練。
AReaL-boba2-8B/14B在LiveCodeBench、Codeforce和CodeContests上實(shí)現(xiàn)了SOTA。
最厲害的是在LiveCodeBench-v5上得分為69.1的14B模型,已經(jīng)接近Qwen3-235B的性能!要知道這可是14B VS 235B的較量。
同時(shí)AReaL-boba2-8B模型的得分也有63分,已經(jīng)接近DeepSeek-R1的水準(zhǔn)!
異步強(qiáng)化學(xué)習(xí)系統(tǒng)的必要性
在傳統(tǒng)的強(qiáng)化學(xué)習(xí)訓(xùn)練流程中,同步強(qiáng)化學(xué)習(xí)訓(xùn)練每一個(gè)batch的數(shù)據(jù)都是由最新版本模型產(chǎn)生,因此模型參數(shù)更新需要等待batch中數(shù)據(jù)全部生成完成才能啟動(dòng)。
由于推理模型的輸出長(zhǎng)短差異極大,在同樣的批大小(batch size)下,強(qiáng)化學(xué)習(xí)訓(xùn)練必須等待batch中最長(zhǎng)的輸出生成完才能繼續(xù)進(jìn)行訓(xùn)練,以及進(jìn)行下一個(gè)batch的數(shù)據(jù)收集,這樣,就會(huì)造成極大的GPU資源浪費(fèi)。
左側(cè)為同步RL訓(xùn)練的執(zhí)行時(shí)間線:同batch輸出(藍(lán)色)需要等待其中最長(zhǎng)的輸出生成完成,存在大量GPU空閑
DeepCoder,Intellect-2等使用從前一模型版本生成的輸出來(lái)更新當(dāng)前模型,從而在單步上重疊生成與訓(xùn)練。然而,所有這些系統(tǒng)仍然遵循批量生成設(shè)置,在生成階段期間系統(tǒng)效率低下的問(wèn)題仍未得到有效解決。
圖1右側(cè)為一步重疊RL系統(tǒng)的執(zhí)行時(shí)間線,單模型訓(xùn)練與單batch數(shù)據(jù)收集同時(shí)進(jìn)行。同batch內(nèi)依然存在大量GPU空閑。
完全異步RL訓(xùn)練系統(tǒng)
實(shí)現(xiàn)高GPU利用率
為了從根本上解決以上這些系統(tǒng)設(shè)計(jì)中的問(wèn)題,清華和螞蟻的聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)了AReaL-boba2,一個(gè)面向大型推理模型(LRM)的完全異步強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng),它完全解耦了生成與訓(xùn)練,在不影響最終性能的同時(shí),實(shí)現(xiàn)大幅度加速。
而AReaL-boba2之所以能實(shí)現(xiàn)高GPU利用率,就是因?yàn)樗粤魇椒绞綀?zhí)行LRM生成,讓每個(gè)rollout worker能不斷生成新的輸出,無(wú)需等待。
同時(shí),AReaL-boba2中的trainer worker會(huì)并行地在從rollout worker獲得生成完成的數(shù)據(jù)構(gòu)成訓(xùn)練batch,用來(lái)更新模型。一旦模型更新完成,新的模型權(quán)重會(huì)更新到每個(gè)rollout worker中。
值得注意的是,在這種異步設(shè)計(jì)中,AReaL-boba2中的每個(gè)訓(xùn)練batch可能包含由不同過(guò)去模型版本生成的樣本。在實(shí)踐中,訓(xùn)練數(shù)據(jù)的陳舊性可能會(huì)導(dǎo)致RL算法訓(xùn)練效果不佳,為此研究者們提出了算法改進(jìn)以保證訓(xùn)練效果。
結(jié)果顯示,完成數(shù)學(xué)推理和代碼任務(wù)時(shí),在高達(dá)320億參數(shù)的模型上,AReaL-boba2的訓(xùn)練吞吐量最高可提高2.77倍,訓(xùn)練效率在512塊GPU上實(shí)現(xiàn)了線性擴(kuò)展。
關(guān)鍵點(diǎn)在于,這種加速甚至還帶來(lái)了解題準(zhǔn)確性的提升,這就表明,AReaL-boba2并不需要犧牲模型性能,就能顯著提升效率!
系統(tǒng)架構(gòu)
AReaL的架構(gòu)與數(shù)據(jù)流
AReaL-boba2系統(tǒng)由四個(gè)核心組件組成:
1. 可中斷的采樣工作器(Interruptible Rollout Worker)
它負(fù)責(zé)處理兩類(lèi)請(qǐng)求:
(1)generate請(qǐng)求:根據(jù)提示詞生成響應(yīng);
(2)update_weights請(qǐng)求:中斷當(dāng)前所有生成任務(wù),并加載新版本模型參數(shù)。
在權(quán)重更新時(shí),采樣工作器會(huì)丟棄舊權(quán)重生成的KV緩存,并使用新權(quán)重重新計(jì)算。隨后,采樣工作器將繼續(xù)解碼未完成的序列,直到下一次中斷或任務(wù)終止。
這種在生成中途打斷并切換模型權(quán)重的機(jī)制,將導(dǎo)致一條軌跡由多個(gè)不同模型版本生成的片段組成。當(dāng)然,這也帶來(lái)了新的算法挑戰(zhàn)。
2. 獎(jiǎng)勵(lì)服務(wù)(Reward Service)
用于評(píng)估模型生成響應(yīng)的準(zhǔn)確性。
例如,在代碼任務(wù)中,該服務(wù)會(huì)提取生成的代碼并執(zhí)行單元測(cè)試,以驗(yàn)證其正確性。
3. 訓(xùn)練工作器(Trainer Workers)
這個(gè)組件會(huì)持續(xù)地從重放緩存(replay buffer)中采樣數(shù)據(jù),直到累積到訓(xùn)練所需的batch大小為止。
隨后,它們將執(zhí)行PPO更新,并將更新后的模型參數(shù)存儲(chǔ)到分布式存儲(chǔ)系統(tǒng)中。
4. 采樣控制器(Rollout Controller)
它是采樣工作器、獎(jiǎng)勵(lì)服務(wù)與訓(xùn)練工作器之間的重要橋梁。在訓(xùn)練過(guò)程中,它從數(shù)據(jù)集中讀取數(shù)據(jù),向采樣工作器發(fā)送generate 請(qǐng)求,獲取模型生成的結(jié)果。生成結(jié)果隨后會(huì)被發(fā)送至獎(jiǎng)勵(lì)服務(wù)進(jìn)行評(píng)估,以獲取對(duì)應(yīng)的獎(jiǎng)勵(lì)值。
包含獎(jiǎng)勵(lì)的軌跡會(huì)被存入重放緩存,等待訓(xùn)練工作器進(jìn)行訓(xùn)練。當(dāng)訓(xùn)練工作器更新完模型參數(shù)后,控制器會(huì)向采樣工作器發(fā)送update_weights請(qǐng)求,將最新權(quán)重加載至采樣工作器中。
AReaL的生成與訓(xùn)練的管理流程
異步強(qiáng)化學(xué)習(xí)的算法挑戰(zhàn)與解決方案
雖然異步系統(tǒng)設(shè)計(jì)通過(guò)提高設(shè)備利用率提供了顯著的加速效果,但它也引入了一些需要從算法層面考量的技術(shù)挑戰(zhàn)。
· 數(shù)據(jù)陳舊性
由于AReaL-boba2的異步特性,每個(gè)訓(xùn)練batch都包含來(lái)自多個(gè)先前策略版本的數(shù)據(jù)。數(shù)據(jù)陳舊性會(huì)導(dǎo)致訓(xùn)練數(shù)據(jù)與最新模型的輸出之間出現(xiàn)分布差距。在針對(duì)LRM的異步RL訓(xùn)練中,由于解碼時(shí)間延長(zhǎng),此問(wèn)題對(duì)于長(zhǎng)軌跡可能會(huì)更加嚴(yán)重。
· 策略版本不一致
如上圖3所示,單個(gè)生成的軌跡可能包含由不同模型版本生成的片段。這種不一致性從根本上違背了標(biāo)準(zhǔn)PPO的公式化假設(shè),即所有數(shù)據(jù)都由單一模型生成。
為了解決這兩個(gè)挑戰(zhàn),AReaL-boba2提出了兩種關(guān)鍵解決方案:
1. 陳舊性控制
為了避免數(shù)據(jù)陳舊性問(wèn)題帶來(lái)的負(fù)面影響,AReaL-boba2限制生成軌跡的策略版本與訓(xùn)練策略之間的版本差異。AReaL引入了一個(gè)超參數(shù)η,用于表示允許的最大陳舊程度。當(dāng)η=0,系統(tǒng)退化為同步強(qiáng)化學(xué)習(xí)設(shè)置,此時(shí)生成與訓(xùn)練batch完全匹配。
2. 解耦的PPO目標(biāo)
團(tuán)隊(duì)?wèi)?yīng)用了一個(gè)解耦的PPO目標(biāo),將行為策略和代理策略分離,其中行為策略表示用于采樣軌跡的策略,而代理策略是一個(gè)近端策略,作為最近的目標(biāo),用于規(guī)范在線策略的更新。
效果顯著
首先在一個(gè)數(shù)學(xué)任務(wù)上評(píng)估異步AReaL-boba2,在之前發(fā)布的AReaL-boba(v0.2)基礎(chǔ)上,采用R1-Distill-Qwen作為基礎(chǔ)模型,并使用AReaL-boba-106k作為訓(xùn)練數(shù)據(jù)集。
端到端性能對(duì)比
團(tuán)隊(duì)比較了在1.5B和7B參數(shù)模型上的同步與異步訓(xùn)練。
結(jié)果顯示,在資源限制和訓(xùn)練步驟相同的情況下,異步系統(tǒng)速度是同步系統(tǒng)的兩倍多!
在AIME24上的評(píng)估,證實(shí)了這一加速并未影響性能。
可以看到,AReaL-boba2在性能上始終與基線持平甚至超過(guò),并且訓(xùn)練速度有顯著提升。
特別是在訓(xùn)練吞吐量方面,AReaL-boba2相較于同步方法最高可實(shí)現(xiàn)2.77倍的提升,且?guī)缀鯚o(wú)性能損失。
研究者在數(shù)學(xué)任務(wù)上基于一個(gè)1.5B的大型推理模型(LRM),開(kāi)展了消融實(shí)驗(yàn),以驗(yàn)證他們所提出算法創(chuàng)新。
他們調(diào)整了允許的最大staleness η,并比較使用和不使用解耦式PPO目標(biāo)函數(shù)的不同配置。結(jié)果表明,陳舊性控制有效地避免了過(guò)舊的數(shù)據(jù)帶來(lái)的負(fù)面影響,同時(shí)使用解耦PPO目標(biāo)可以在陳舊程度大的情況下保持訓(xùn)練效果。
(a)和(b)分別為使用傳統(tǒng)PPO以及解耦PPO目標(biāo)進(jìn)行訓(xùn)練的曲線
解耦PPO目標(biāo)的消融實(shí)驗(yàn)
推進(jìn)先進(jìn)AI推理平權(quán)
此前,聯(lián)合研究小組在3月開(kāi)源的AReaL-boba項(xiàng)目,得到了來(lái)自海外開(kāi)發(fā)者的高度認(rèn)可,評(píng)價(jià)「AReaL-boba通過(guò)開(kāi)放SOTA推理模型的資源和透明的訓(xùn)練方式,讓先進(jìn)的AI推理技術(shù)平權(quán)化,降低了研究的門(mén)檻。 」
而AReaL-boba2 延續(xù)了一貫的完全開(kāi)源原則,代碼、數(shù)據(jù)集、腳本及 SOTA 級(jí)模型權(quán)重全部開(kāi)源,團(tuán)隊(duì)希望 AReaL 能讓AI智能體搭建像制作一杯奶茶一樣便捷、靈活、可定制化。
AReaL團(tuán)隊(duì)在技術(shù)報(bào)告中表示,該項(xiàng)目融合了螞蟻強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室與清華交叉信息院吳翼團(tuán)隊(duì)多年的技術(shù)積累,也獲得了大量來(lái)自螞蟻集團(tuán)超算技術(shù)團(tuán)隊(duì)和數(shù)據(jù)智能實(shí)驗(yàn)室的幫助。
AReaL的誕生離不開(kāi)DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO等優(yōu)秀開(kāi)源框架和模型的啟發(fā)。
最后,AReaL還給出了完善的訓(xùn)練教程和開(kāi)發(fā)指南,包括復(fù)現(xiàn)SOTA代碼模型訓(xùn)練指南以及基于Async RL的智能體搭建教程,想體驗(yàn)極速RL訓(xùn)練的小伙伴可以跑起來(lái)了!