偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

重磅開源!首個全異步強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)來了,SOTA推理大模型RL訓(xùn)練提速2.77倍

人工智能 新聞
想訓(xùn)練屬于自己的高性能推理模型,卻被同步強(qiáng)化學(xué)習(xí)(RL)框架的低效率和高門檻勸退?AReaL 全面升級,更快,更強(qiáng),更好用!

來自清華大學(xué)交叉信息院和螞蟻技術(shù)研究院的聯(lián)合團(tuán)隊(duì),正式開源全異步強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng) —— AReaL-boba2 (AReaL v0.3)。

作為 AReaL 里程碑版本 AReaL-boba 的重磅升級,AReaL-boba2 (正式全名:A-ReaL-double-boba) 堅(jiān)持 boba 系列 “全面開源、極速訓(xùn)練、深度可定制” 的開發(fā)理念,再次加量:除了更全的功能和更詳細(xì)的文檔說明,更以全異步 RL 為核心,發(fā)布 SOTA 代碼模型,全面奔向 Agentic RL:

  1. ?? 效率再突破: 全面實(shí)現(xiàn)異步 RL 訓(xùn)練,完全解耦模型生成與訓(xùn)練,效果不變的前提下訓(xùn)練速度對比上一版本最高提升 2.77 倍,GPU 資源利用率大幅優(yōu)化。
  2. ?? 上手零門檻: 新增詳細(xì)教程 (Step-by-Step Tutorials) 和深度文檔 (Comprehensive Documentation),覆蓋安裝、核心概念、算法 / 模型定制化到問題排查,新手友好,老手高效。
  3. ?? 代碼任務(wù)新 SOTA 誕生! 基于 Qwen3 系列模型 RL 訓(xùn)練,8B/14B 模型在 LiveCodeBench, Codeforce, Codecontest 等 benchmark 上達(dá)到 SOTA 水準(zhǔn)!
  4. ?? Agentic RL 支持 :原生支持多輪智能體強(qiáng)化學(xué)習(xí) (Multi-Turn Agentic RL) 訓(xùn)練,擁抱 Agentic RL 浪潮。
  5. ?? 開箱即用:開源代碼、數(shù)據(jù)集、腳本及 SOTA 級模型權(quán)重。

異步強(qiáng)化學(xué)習(xí)(Asynchronous RL)是一種重要的 RL 范式,它將數(shù)據(jù)生成與模型訓(xùn)練完全解耦,以不間斷的流式生成和并行訓(xùn)練,極大提高了資源使用率,天然適用于多輪次交互的 Agent 場景。

AReaL-boba2 通過強(qiáng)化學(xué)習(xí)算法和訓(xùn)練系統(tǒng)的共同設(shè)計(co-design),在完全不影響模型效果的同時,實(shí)現(xiàn)了穩(wěn)定高效的異步 RL 訓(xùn)練,不斷朝全面支持 Agentic AI 的最終目標(biāo)沖刺。

本次 AReaL 升級為用戶提供更完善的使用教程,涵蓋詳細(xì)的代碼框架解析、無需修改底層代碼即可自定義數(shù)據(jù)集/算法/Agent 邏輯的完整指南,以及高度簡化的環(huán)境配置與實(shí)驗(yàn)啟動流程,如果你想要快速微調(diào)推理模型,快試試雙倍加量的 AReaL-boba2 吧!

最強(qiáng)最快 coding RL 訓(xùn)練

AReaL-boba2 基于最新的 Qwen3 系列模型,針對 8B 和 14B 尺寸進(jìn)行 coding RL 訓(xùn)練,并在評測代碼能力的榜單 LiveCodeBench v5 (LCB),Codeforce (CF) 以及 Codecontests (CC) 上取得了開源 SOTA 的成績。

其中,基于部分內(nèi)部數(shù)據(jù)的最強(qiáng)模型 AReaL-boba2-14B 在 LCB 榜單上取得了 69.1 分,CF rating 達(dá)到 2044,CC 取得 46.2 分,大幅刷新 SOTA。

此外,AReaL 團(tuán)隊(duì)還基于開源數(shù)據(jù)集發(fā)布了完全開源可復(fù)現(xiàn)的 AReaL-boba2-Open 系列模型,同樣能在 8B 和 14B 尺寸上大幅超過現(xiàn)有基線。

圖片

Table 1: AReaL-boba2-8B/14B 在 LiveCodeBench, Codeforce, Codecontest 等 benchmark 上達(dá)到同尺寸 SOTA 水準(zhǔn)。

AReaL 團(tuán)隊(duì)還在數(shù)學(xué)任務(wù)上進(jìn)行了異步 RL 訓(xùn)練的擴(kuò)展性分析(scaling analysis):針對不同模型尺寸(1.5B,7B,32B)以及不同 GPU 數(shù)量,基于異步 RL 的 AReaL-boba2 系統(tǒng)的訓(xùn)練效率都大幅超過了采用傳統(tǒng)同步 RL 的訓(xùn)練系統(tǒng)。相比于共卡模式,AReaL-boba2 所采用的分卡模式顯存碎片更少,在更大模型尺寸下(32B)依然能夠保持良好的擴(kuò)展性。

圖片

Fig. 1 異步 RL(藍(lán)色,AReaL 系統(tǒng))和同步 RL(橘紅色,采用 verl 系統(tǒng)的官方實(shí)現(xiàn))的訓(xùn)練效率對比。采用異步 RL 的 AReaL 系統(tǒng)的訓(xùn)練吞吐在不同模型尺寸(1.5B, 7B, 32B)下都有著更好的 GPU 擴(kuò)展性(scaling)。

為何需要異步 RL 訓(xùn)練?同步 RL 痛點(diǎn)剖析

在傳統(tǒng)同步 RL 訓(xùn)練流程中,算法采用當(dāng)前模型產(chǎn)生批量的輸出(batch output),然后用收集的輸出對當(dāng)前模型計算損失函數(shù)并更新參數(shù)。同步 RL 訓(xùn)練中每一個批次(batch)的數(shù)據(jù)都是由同一個模型版本產(chǎn)生,因此模型參數(shù)更新需要等待批次中數(shù)據(jù)全部生成完成才能啟動(Fig 2 左圖)。由于推理模型的輸出長短差異極大,在同樣的批大小(batch size)下,RL 訓(xùn)練必須等待批次中最長的輸出生成完才能繼續(xù)進(jìn)行訓(xùn)練,以及進(jìn)行下一個批次的數(shù)據(jù)收集,造成極大 GPU 資源浪費(fèi)。

圖片

Fig. 2 左圖(示意圖):同步 RL 訓(xùn)練的計算過程,同批次輸出(藍(lán)色)需要等待最長的輸出生成完成,存在大量 GPU 空閑;右圖(示意圖):采用 1 步重疊(1-step overlap)的 RL 訓(xùn)練計算過程,單步模型訓(xùn)練與單批次數(shù)據(jù)收集同時進(jìn)行。同批次內(nèi)依然存在大量 GPU 空閑。

上圖展示了幾種常見的 RL 訓(xùn)練數(shù)據(jù)流。

左圖為傳統(tǒng)共卡同步 RL 系統(tǒng)計算模式,即 RL 生成和訓(xùn)練階段分別使用全部 GPU 交替進(jìn)行。由于訓(xùn)練任務(wù)需要完全等待生成完成,而生成階段所花費(fèi)的時間取決于最長的輸出所完成時間,很容易造成 GPU 空閑。

右圖為 1-step Overlap RL,是一種同步 RL 的常見改進(jìn),由 DeepCoder 和 INTELLECT-2 項(xiàng)目采用。Overlap RL 采用分卡模式,收集一批次輸出的同時在不同的 GPU 上進(jìn)行模型訓(xùn)練,平衡了生成和訓(xùn)練所需要的計算資源并避免了切換成本。但是,在 Overlap RL 系統(tǒng)中,每一個批次的訓(xùn)練數(shù)據(jù)依然要求全部由同一個版本模型生成,生成時間依然會被最長的輸出所阻塞,并不能解決同步 RL 訓(xùn)練效率低的問題。

AReaL-boba2 的高效秘訣:完全異步 RL 訓(xùn)練

AReaL-boba2 通過算法系統(tǒng) co-design 的方式實(shí)現(xiàn)了完全異步 RL 訓(xùn)練(fully asynchronous RL),從根本上解決了同步 RL 的各種問題。在 AReaL-boba2 的異步訓(xùn)練框架中,生成和訓(xùn)練使用不同 GPU 并完全解耦。生成任務(wù)持續(xù)流式進(jìn)行以保證 GPU 資源始終滿載運(yùn)行,杜絕了 GPU 空閑。訓(xùn)練任務(wù)持續(xù)接收生成完成的輸出,在訓(xùn)練節(jié)點(diǎn)上并行更新參數(shù),并將更新后的參數(shù)與推理節(jié)點(diǎn)同步。

AReaL-boba2 的系統(tǒng)設(shè)計可以在保證穩(wěn)定 RL 訓(xùn)練的同時,參數(shù)同步的通信和計算花銷僅占總訓(xùn)練時間的 5% 以內(nèi)。

此外,由于全異步 RL 中同批次數(shù)據(jù)可能由不同版本的模型產(chǎn)生,AReaL-boba2 也對 RL 算法進(jìn)行了升級,在提速的同時確保模型效果。

圖片

Fig. 3 全異步 RL 系統(tǒng) (fully asynchronous RL system) 的計算流程示意圖

使用 128 卡對 1.5B 模型在 32k 輸出長度、512 x 16 批大小設(shè)定下進(jìn)行 RL 訓(xùn)練,我們列出了每一個 RL 訓(xùn)練步驟(模型參數(shù)更新)所需要的時間,異步 RL 相比同步 RL 相比,每個訓(xùn)練步驟耗時減少 52%:

圖片

全異步 RL 訓(xùn)練的系統(tǒng)架構(gòu):全面解耦生成與訓(xùn)練

圖片

Fig. 4 AReaL-boba2 的異步 RL 系統(tǒng)架構(gòu)。生成模塊(紫色)和訓(xùn)練模塊(綠色)完全分離。


AReaL-boba2 系統(tǒng)架構(gòu)的圍繞不同計算任務(wù)采取全面解耦的模塊化設(shè)計。對于模型輸出、模型訓(xùn)練、和獎勵函數(shù)計算,采用不同計算資源徹底分離,實(shí)現(xiàn)全流水線異步執(zhí)行。整體設(shè)計包含四個核心組件:

1. 可中斷軌跡生成器(Interruptible Rollout Worker)

  • 支持生成請求(generate request)和權(quán)重更新請求(update_weights request)。
  • 收到權(quán)重更新請求時,會中斷正在進(jìn)行的生成任務(wù),丟棄舊權(quán)重計算的 KV 緩存。加載新權(quán)重后重新計算 KV 緩存并生成剩余軌跡。

2. 獎勵服務(wù)(Reward Service)

  • 負(fù)責(zé)評估生成軌跡的正確性(如:在代碼任務(wù)中提取代碼并執(zhí)行單元測試以驗(yàn)證其正確性)。

3. 訓(xùn)練器(Trainer Workers)

  • 持續(xù)從回放緩沖區(qū)采樣訓(xùn)練數(shù)據(jù),隨后執(zhí)行 RL 算法更新,并將最新模型參數(shù)存入分布式存儲。

4. 生成控制器(Rollout Controller)

  • 系統(tǒng)的 “指揮中樞”:控制器從數(shù)據(jù)集中讀取數(shù)據(jù),向軌跡生成器發(fā)送生成請求,隨后將生成完整的軌跡發(fā)送至獎勵服務(wù)以獲取獎勵值。帶有獎勵值的軌跡數(shù)據(jù)會被存入回放緩沖區(qū),等待訓(xùn)練器進(jìn)行訓(xùn)練。當(dāng)訓(xùn)練器完成參數(shù)更新后,控制器會調(diào)用軌跡生成器的權(quán)重更新接口。

算法改進(jìn)保障收斂性能

雖然異步系統(tǒng)設(shè)計通過提高設(shè)備利用率實(shí)現(xiàn)了顯著的加速,但也引入一些問題導(dǎo)致收斂性能不如同步系統(tǒng):

  1. 數(shù)據(jù)陳舊性。由于訓(xùn)練系統(tǒng)的異步特性,每個訓(xùn)練批次包含來自多個歷史模型版本的數(shù)據(jù)。數(shù)據(jù)陳舊會導(dǎo)致訓(xùn)練數(shù)據(jù)與最新模型的輸出之間存在分布差異,從而影響算法效果。
  2. 模型版本不一致。由于采用了可中斷軌跡生成,單個軌跡可能包含由不同模型版本產(chǎn)生的片段。這種不一致性從根本上違背了標(biāo)準(zhǔn) on-policy RL 的設(shè)定前提 —— 即假定所有動作都由單一模型生成。

為了解決這些問題,團(tuán)隊(duì)提出了兩項(xiàng)關(guān)鍵算法改進(jìn)。

方法 1:數(shù)據(jù)陳舊度控制(Staleness Control)

對于異步 RL 算法,有一個重要的參數(shù)叫 staleness,可以用來衡量訓(xùn)練數(shù)據(jù)的陳舊性。

staleness 表示當(dāng)采用一個批次的數(shù)據(jù)進(jìn)行模型訓(xùn)練時,生成最舊的一條數(shù)據(jù)的模型版本和當(dāng)前更新的模型版本之間的版本差(比如,一個批次中最舊的一條數(shù)據(jù)由 step 1 產(chǎn)生的模型輸出,當(dāng)前模型由 step 5 產(chǎn)生,則該批次 staleness=4)。同步 RL 的批次 staleness 固定為 0。staleness 越大,則數(shù)據(jù)陳舊性越嚴(yán)重,對 RL 算法的穩(wěn)定性挑戰(zhàn)也越大,模型效果也更難以保持。

為避免數(shù)據(jù)陳舊性帶來的負(fù)面影響,AReaL 在異步 RL 算法上設(shè)置超參數(shù) max staleness ??,即只在 staleness 不超過預(yù)設(shè)值 ?? 時,提交進(jìn)行新的數(shù)據(jù)生成請求。

具體來說,軌跡生成器在每次提交新的請求時,都會通過生成控制器進(jìn)行申請;控制器維護(hù)當(dāng)前已經(jīng)被提交的和正在運(yùn)行的請求數(shù)量,只有當(dāng)新的請求 staleness 不超過 ?? 限制時才允許被提交到生成引擎處。當(dāng) ??=0 時,系統(tǒng)等價于跟同步 RL 訓(xùn)練,此時要求用于訓(xùn)練的采樣軌跡一定是最新的模型生成的。

方法 2:解耦近端策略優(yōu)化目標(biāo)(Decoupled PPO Objective)

為了解決舊數(shù)據(jù)與最新模型之間的分布差異帶來的問題,團(tuán)隊(duì)采用了解耦的近端策略優(yōu)化目標(biāo)(Decoupled PPO Objective),將行為策略(behavior policy)近端策略(proximal policy)分離。其中:

  • 行為策略(behavior policy)表示用于軌跡采樣的策略
  • 近端策略(proximal policy)作為一個臨近的策略目標(biāo),用來約束在線策略的更新

最終,可以得到一個在行為策略生成的數(shù)據(jù)上進(jìn)行重要性采樣(importance sampling)的 PPO 目標(biāo)函數(shù):

圖片

其中,系數(shù) 圖片 起到了在 token 級別篩選有效訓(xùn)練數(shù)據(jù)的作用。當(dāng) 圖片 遠(yuǎn)遠(yuǎn)小于 1 時,對應(yīng)數(shù)據(jù)能夠被最新策略采樣的概率極低,故而在訓(xùn)練目標(biāo)中只占據(jù)了可以忽略的比重。

效果驗(yàn)證:速度 Max, 性能依舊強(qiáng)勁!

AReaL 團(tuán)隊(duì)基于 1.5B 模型在數(shù)學(xué)任務(wù)上設(shè)置不同 max staleness ?? 進(jìn)行 Async RL 訓(xùn)練,得到如下訓(xùn)練曲線。在 AReaL 的訓(xùn)練設(shè)定中,經(jīng)典的 PPO 可以清晰看到隨著 staleness 增大效果下降,而采用 decoupled PPO objective 后,即使 ?? 增加到 8,算法依然能夠保持訓(xùn)練效果好最終模型性能。

注:max staleness 的絕對值和具體實(shí)驗(yàn)設(shè)定(learning rate,batch size 等)相關(guān),這里僅比較 AReaL-boba2 系統(tǒng)改進(jìn)所帶來的相對提升。

圖片

Fig. 5 針對不同 staleness 的算法穩(wěn)定性結(jié)果。左圖:經(jīng)典 PPO 算法在異步 RL 場景下模型效果很容易退化。右圖:采用 decoupled PPO objective,在 staleness=8 的情況下模型效果依然無損。

AReaL 團(tuán)隊(duì)還把采用不同 max staleness 訓(xùn)練的模型在 AIME24 和 AIME25 數(shù)據(jù)集上進(jìn)行評測,采用 decoupled objective 的算法都能在 ?? 更大的情況下保持更好的模型效果。

圖片

Table 2: 在數(shù)學(xué)任務(wù)(AIME24 & AIME25)上對于不同 max stalness,采用經(jīng)典 PPO 算法和 decoupled PPO 進(jìn)行異步 RL 訓(xùn)練最終產(chǎn)生的模型效果比較,decoupled PPO 始終有更好效果。

想深入了解算法原理與實(shí)驗(yàn)細(xì)節(jié)? 請?jiān)L問原論文查看更多算法細(xì)節(jié):https://arxiv.org/pdf/2505.24298

開源助力:輕松復(fù)現(xiàn) SOTA 代碼模型

除了強(qiáng)大的 AReaL-boba2 訓(xùn)練系統(tǒng),團(tuán)隊(duì)也帶來了訓(xùn)練數(shù)據(jù)、訓(xùn)練腳本和評估腳本。團(tuán)隊(duì)也提供了完整的技術(shù)報告,確??梢栽?AReaL 上復(fù)現(xiàn)訓(xùn)練結(jié)果以及進(jìn)行后續(xù)開發(fā)。技術(shù)報告中呈現(xiàn)了豐富的技術(shù)細(xì)節(jié),包括數(shù)據(jù)集構(gòu)成、獎勵函數(shù)設(shè)置、模型生成方式、訓(xùn)練過程中的動態(tài)數(shù)據(jù)篩選等等。

快來用 AReaL-boba2 訓(xùn)練你自己的 SOTA 代碼模型吧!

圖片

彩蛋:擁抱 Agentic RL 浪潮

本次 AReaL-boba2 發(fā)布也支持多輪 Agentic RL 訓(xùn)練!開發(fā)者可以根據(jù)自己的需求自由定制智能體和智能體環(huán)境,并進(jìn)行 Agentic RL 訓(xùn)練。目前,AReaL-boba2 提供了一個在數(shù)學(xué)推理任務(wù)上進(jìn)行多輪推理的例子。

圖片

AReaL 團(tuán)隊(duì)表示,Agentic RL 功能也正在持續(xù)更新中,未來會支持更多 Agentic RL 訓(xùn)練的功能。

結(jié)語

AReaL 項(xiàng)目融合了螞蟻強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室與清華交叉信息院吳翼團(tuán)隊(duì)多年的技術(shù)積累,也獲得了大量來自螞蟻集團(tuán)超算技術(shù)團(tuán)隊(duì)和數(shù)據(jù)智能實(shí)驗(yàn)室的幫助。AReaL 的誕生離不開 DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO 等優(yōu)秀開源框架和模型的啟發(fā)。

如同其代號 “boba” 所寓意,團(tuán)隊(duì)希望 AReaL 能像一杯奶茶般 “delicious, customizable and affordable” —— 讓每個人都能便捷、靈活地搭建和訓(xùn)練屬于自己的 AI 智能體。

AReaL 項(xiàng)目歡迎大家加入,也持續(xù)招募全職工程師和實(shí)習(xí)生,一起奔向 Agentic AI 的未來!

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-06-06 09:10:00

模型開源AI

2024-11-01 13:30:56

2025-04-27 09:19:00

強(qiáng)化學(xué)習(xí)模型AI

2025-06-25 13:44:09

開源訓(xùn)練模型

2025-05-13 13:51:20

模型AI訓(xùn)練

2023-05-04 15:53:34

強(qiáng)化學(xué)習(xí)開發(fā)

2025-09-15 08:50:00

AI模型訓(xùn)練

2025-06-30 09:08:00

2025-10-11 09:23:28

RLPT強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)

2021-07-27 15:55:01

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-02-13 09:10:00

2022-07-18 17:37:27

字節(jié)跳動人工智能AI模型

2023-09-12 13:43:00

智能技術(shù)

2025-06-06 09:13:00

2023-01-05 09:33:37

視覺模型訓(xùn)練

2019-10-08 10:44:42

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-10-10 08:33:49

2025-04-02 09:00:00

模型開源AI

2025-01-21 09:36:51

2024-12-18 07:20:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號