偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<dfn id="kln1o"></dfn>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

重磅開源！首個全異步強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)來了，SOTA推理大模型RL訓(xùn)練提速2.77倍

2025-06-05 08:40:00

人工智能新聞

想訓(xùn)練屬于自己的高性能推理模型，卻被同步強(qiáng)化學(xué)習(xí)（RL）框架的低效率和高門檻勸退？AReaL 全面升級，更快，更強(qiáng)，更好用！

來自清華大學(xué)交叉信息院和螞蟻技術(shù)研究院的聯(lián)合團(tuán)隊(duì)，正式開源全異步強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng) —— AReaL-boba2 (AReaL v0.3)。

作為 AReaL 里程碑版本 AReaL-boba 的重磅升級，AReaL-boba2 (正式全名：A-ReaL-double-boba) 堅(jiān)持 boba 系列 “全面開源、極速訓(xùn)練、深度可定制” 的開發(fā)理念，再次加量：除了更全的功能和更詳細(xì)的文檔說明，更以全異步 RL 為核心，發(fā)布 SOTA 代碼模型，全面奔向 Agentic RL：

?? 效率再突破：全面實(shí)現(xiàn)異步 RL 訓(xùn)練，完全解耦模型生成與訓(xùn)練，效果不變的前提下訓(xùn)練速度對比上一版本最高提升 2.77 倍，GPU 資源利用率大幅優(yōu)化。
?? 上手零門檻：新增詳細(xì)教程 (Step-by-Step Tutorials) 和深度文檔 (Comprehensive Documentation)，覆蓋安裝、核心概念、算法 / 模型定制化到問題排查，新手友好，老手高效。
?? 代碼任務(wù)新 SOTA 誕生！基于 Qwen3 系列模型 RL 訓(xùn)練，8B/14B 模型在 LiveCodeBench, Codeforce, Codecontest 等 benchmark 上達(dá)到 SOTA 水準(zhǔn)！
?? Agentic RL 支持：原生支持多輪智能體強(qiáng)化學(xué)習(xí) (Multi-Turn Agentic RL) 訓(xùn)練，擁抱 Agentic RL 浪潮。
?? 開箱即用：開源代碼、數(shù)據(jù)集、腳本及 SOTA 級模型權(quán)重。

異步強(qiáng)化學(xué)習(xí)（Asynchronous RL）是一種重要的 RL 范式，它將數(shù)據(jù)生成與模型訓(xùn)練完全解耦，以不間斷的流式生成和并行訓(xùn)練，極大提高了資源使用率，天然適用于多輪次交互的 Agent 場景。

AReaL-boba2 通過強(qiáng)化學(xué)習(xí)算法和訓(xùn)練系統(tǒng)的共同設(shè)計（co-design），在完全不影響模型效果的同時，實(shí)現(xiàn)了穩(wěn)定高效的異步 RL 訓(xùn)練，不斷朝全面支持 Agentic AI 的最終目標(biāo)沖刺。

本次 AReaL 升級為用戶提供更完善的使用教程，涵蓋詳細(xì)的代碼框架解析、無需修改底層代碼即可自定義數(shù)據(jù)集/算法/Agent 邏輯的完整指南，以及高度簡化的環(huán)境配置與實(shí)驗(yàn)啟動流程，如果你想要快速微調(diào)推理模型，快試試雙倍加量的 AReaL-boba2 吧！

?? 立即體驗(yàn) AReaL-boba2 ：https://github.com/inclusionAI/AReaL/ （包含教程/文檔/代碼）
?? 下載 SOTA 代碼推理模型：https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5
?? AReaL 技術(shù)論文: https://arxiv.org/pdf/2505.24298
?? AReaL-boba 回顧： 200 美金，人人可手搓 QwQ，清華、螞蟻開源極速 RL 框架 AReaL-boba

最強(qiáng)最快 coding RL 訓(xùn)練

AReaL-boba2 基于最新的 Qwen3 系列模型，針對 8B 和 14B 尺寸進(jìn)行 coding RL 訓(xùn)練，并在評測代碼能力的榜單 LiveCodeBench v5 (LCB)，Codeforce (CF) 以及 Codecontests (CC) 上取得了開源 SOTA 的成績。

其中，基于部分內(nèi)部數(shù)據(jù)的最強(qiáng)模型 AReaL-boba2-14B 在 LCB 榜單上取得了 69.1 分，CF rating 達(dá)到 2044，CC 取得 46.2 分，大幅刷新 SOTA。

此外，AReaL 團(tuán)隊(duì)還基于開源數(shù)據(jù)集發(fā)布了完全開源可復(fù)現(xiàn)的 AReaL-boba2-Open 系列模型，同樣能在 8B 和 14B 尺寸上大幅超過現(xiàn)有基線。

Table 1: AReaL-boba2-8B/14B 在 LiveCodeBench, Codeforce, Codecontest 等 benchmark 上達(dá)到同尺寸 SOTA 水準(zhǔn)。

AReaL 團(tuán)隊(duì)還在數(shù)學(xué)任務(wù)上進(jìn)行了異步 RL 訓(xùn)練的擴(kuò)展性分析（scaling analysis）：針對不同模型尺寸（1.5B，7B，32B）以及不同 GPU 數(shù)量，基于異步 RL 的 AReaL-boba2 系統(tǒng)的訓(xùn)練效率都大幅超過了采用傳統(tǒng)同步 RL 的訓(xùn)練系統(tǒng)。相比于共卡模式，AReaL-boba2 所采用的分卡模式顯存碎片更少，在更大模型尺寸下（32B）依然能夠保持良好的擴(kuò)展性。

Fig. 1 異步 RL（藍(lán)色，AReaL 系統(tǒng)）和同步 RL（橘紅色，采用 verl 系統(tǒng)的官方實(shí)現(xiàn)）的訓(xùn)練效率對比。采用異步 RL 的 AReaL 系統(tǒng)的訓(xùn)練吞吐在不同模型尺寸（1.5B, 7B, 32B）下都有著更好的 GPU 擴(kuò)展性（scaling)。

為何需要異步 RL 訓(xùn)練？同步 RL 痛點(diǎn)剖析

在傳統(tǒng)同步 RL 訓(xùn)練流程中，算法采用當(dāng)前模型產(chǎn)生批量的輸出（batch output），然后用收集的輸出對當(dāng)前模型計算損失函數(shù)并更新參數(shù)。同步 RL 訓(xùn)練中每一個批次（batch）的數(shù)據(jù)都是由同一個模型版本產(chǎn)生，因此模型參數(shù)更新需要等待批次中數(shù)據(jù)全部生成完成才能啟動（Fig 2 左圖）。由于推理模型的輸出長短差異極大，在同樣的批大小（batch size）下，RL 訓(xùn)練必須等待批次中最長的輸出生成完才能繼續(xù)進(jìn)行訓(xùn)練，以及進(jìn)行下一個批次的數(shù)據(jù)收集，造成極大 GPU 資源浪費(fèi)。

Fig. 2 左圖（示意圖）：同步 RL 訓(xùn)練的計算過程，同批次輸出（藍(lán)色）需要等待最長的輸出生成完成，存在大量 GPU 空閑；右圖（示意圖）：采用 1 步重疊（1-step overlap）的 RL 訓(xùn)練計算過程，單步模型訓(xùn)練與單批次數(shù)據(jù)收集同時進(jìn)行。同批次內(nèi)依然存在大量 GPU 空閑。

上圖展示了幾種常見的 RL 訓(xùn)練數(shù)據(jù)流。

左圖為傳統(tǒng)共卡同步 RL 系統(tǒng)計算模式，即 RL 生成和訓(xùn)練階段分別使用全部 GPU 交替進(jìn)行。由于訓(xùn)練任務(wù)需要完全等待生成完成，而生成階段所花費(fèi)的時間取決于最長的輸出所完成時間，很容易造成 GPU 空閑。

右圖為 1-step Overlap RL，是一種同步 RL 的常見改進(jìn)，由 DeepCoder 和 INTELLECT-2 項(xiàng)目采用。Overlap RL 采用分卡模式，收集一批次輸出的同時在不同的 GPU 上進(jìn)行模型訓(xùn)練，平衡了生成和訓(xùn)練所需要的計算資源并避免了切換成本。但是，在 Overlap RL 系統(tǒng)中，每一個批次的訓(xùn)練數(shù)據(jù)依然要求全部由同一個版本模型生成，生成時間依然會被最長的輸出所阻塞，并不能解決同步 RL 訓(xùn)練效率低的問題。

AReaL-boba2 的高效秘訣：完全異步 RL 訓(xùn)練

AReaL-boba2 通過算法系統(tǒng) co-design 的方式實(shí)現(xiàn)了完全異步 RL 訓(xùn)練（fully asynchronous RL），從根本上解決了同步 RL 的各種問題。在 AReaL-boba2 的異步訓(xùn)練框架中，生成和訓(xùn)練使用不同 GPU 并完全解耦。生成任務(wù)持續(xù)流式進(jìn)行以保證 GPU 資源始終滿載運(yùn)行，杜絕了 GPU 空閑。訓(xùn)練任務(wù)持續(xù)接收生成完成的輸出，在訓(xùn)練節(jié)點(diǎn)上并行更新參數(shù)，并將更新后的參數(shù)與推理節(jié)點(diǎn)同步。

AReaL-boba2 的系統(tǒng)設(shè)計可以在保證穩(wěn)定 RL 訓(xùn)練的同時，參數(shù)同步的通信和計算花銷僅占總訓(xùn)練時間的 5% 以內(nèi)。

此外，由于全異步 RL 中同批次數(shù)據(jù)可能由不同版本的模型產(chǎn)生，AReaL-boba2 也對 RL 算法進(jìn)行了升級，在提速的同時確保模型效果。

Fig. 3 全異步 RL 系統(tǒng) (fully asynchronous RL system) 的計算流程示意圖

使用 128 卡對 1.5B 模型在 32k 輸出長度、512 x 16 批大小設(shè)定下進(jìn)行 RL 訓(xùn)練，我們列出了每一個 RL 訓(xùn)練步驟（模型參數(shù)更新）所需要的時間，異步 RL 相比同步 RL 相比，每個訓(xùn)練步驟耗時減少 52%：

全異步 RL 訓(xùn)練的系統(tǒng)架構(gòu)：全面解耦生成與訓(xùn)練

Fig. 4 AReaL-boba2 的異步 RL 系統(tǒng)架構(gòu)。生成模塊（紫色）和訓(xùn)練模塊（綠色）完全分離。

AReaL-boba2 系統(tǒng)架構(gòu)的圍繞不同計算任務(wù)采取全面解耦的模塊化設(shè)計。對于模型輸出、模型訓(xùn)練、和獎勵函數(shù)計算，采用不同計算資源徹底分離，實(shí)現(xiàn)全流水線異步執(zhí)行。整體設(shè)計包含四個核心組件：

1. 可中斷軌跡生成器（Interruptible Rollout Worker）：

支持生成請求（generate request）和權(quán)重更新請求（update_weights request）。
收到權(quán)重更新請求時，會中斷正在進(jìn)行的生成任務(wù)，丟棄舊權(quán)重計算的 KV 緩存。加載新權(quán)重后重新計算 KV 緩存并生成剩余軌跡。

2. 獎勵服務(wù)（Reward Service）：

負(fù)責(zé)評估生成軌跡的正確性（如：在代碼任務(wù)中提取代碼并執(zhí)行單元測試以驗(yàn)證其正確性）。

3. 訓(xùn)練器（Trainer Workers）：

持續(xù)從回放緩沖區(qū)采樣訓(xùn)練數(shù)據(jù)，隨后執(zhí)行 RL 算法更新，并將最新模型參數(shù)存入分布式存儲。

4. 生成控制器（Rollout Controller）：

系統(tǒng)的 “指揮中樞”：控制器從數(shù)據(jù)集中讀取數(shù)據(jù)，向軌跡生成器發(fā)送生成請求，隨后將生成完整的軌跡發(fā)送至獎勵服務(wù)以獲取獎勵值。帶有獎勵值的軌跡數(shù)據(jù)會被存入回放緩沖區(qū)，等待訓(xùn)練器進(jìn)行訓(xùn)練。當(dāng)訓(xùn)練器完成參數(shù)更新后，控制器會調(diào)用軌跡生成器的權(quán)重更新接口。

算法改進(jìn)保障收斂性能

雖然異步系統(tǒng)設(shè)計通過提高設(shè)備利用率實(shí)現(xiàn)了顯著的加速，但也引入一些問題導(dǎo)致收斂性能不如同步系統(tǒng)：

數(shù)據(jù)陳舊性。由于訓(xùn)練系統(tǒng)的異步特性，每個訓(xùn)練批次包含來自多個歷史模型版本的數(shù)據(jù)。數(shù)據(jù)陳舊會導(dǎo)致訓(xùn)練數(shù)據(jù)與最新模型的輸出之間存在分布差異，從而影響算法效果。
模型版本不一致。由于采用了可中斷軌跡生成，單個軌跡可能包含由不同模型版本產(chǎn)生的片段。這種不一致性從根本上違背了標(biāo)準(zhǔn) on-policy RL 的設(shè)定前提 —— 即假定所有動作都由單一模型生成。

為了解決這些問題，團(tuán)隊(duì)提出了兩項(xiàng)關(guān)鍵算法改進(jìn)。

方法 1：數(shù)據(jù)陳舊度控制（Staleness Control）

對于異步 RL 算法，有一個重要的參數(shù)叫 staleness，可以用來衡量訓(xùn)練數(shù)據(jù)的陳舊性。

staleness 表示當(dāng)采用一個批次的數(shù)據(jù)進(jìn)行模型訓(xùn)練時，生成最舊的一條數(shù)據(jù)的模型版本和當(dāng)前更新的模型版本之間的版本差（比如，一個批次中最舊的一條數(shù)據(jù)由 step 1 產(chǎn)生的模型輸出，當(dāng)前模型由 step 5 產(chǎn)生，則該批次 staleness=4）。同步 RL 的批次 staleness 固定為 0。staleness 越大，則數(shù)據(jù)陳舊性越嚴(yán)重，對 RL 算法的穩(wěn)定性挑戰(zhàn)也越大，模型效果也更難以保持。

為避免數(shù)據(jù)陳舊性帶來的負(fù)面影響，AReaL 在異步 RL 算法上設(shè)置超參數(shù) max staleness ??，即只在 staleness 不超過預(yù)設(shè)值 ?? 時，提交進(jìn)行新的數(shù)據(jù)生成請求。

具體來說，軌跡生成器在每次提交新的請求時，都會通過生成控制器進(jìn)行申請；控制器維護(hù)當(dāng)前已經(jīng)被提交的和正在運(yùn)行的請求數(shù)量，只有當(dāng)新的請求 staleness 不超過 ?? 限制時才允許被提交到生成引擎處。當(dāng) ??=0 時，系統(tǒng)等價于跟同步 RL 訓(xùn)練，此時要求用于訓(xùn)練的采樣軌跡一定是最新的模型生成的。

方法 2：解耦近端策略優(yōu)化目標(biāo)（Decoupled PPO Objective）

為了解決舊數(shù)據(jù)與最新模型之間的分布差異帶來的問題，團(tuán)隊(duì)采用了解耦的近端策略優(yōu)化目標(biāo)（Decoupled PPO Objective），將行為策略（behavior policy）與近端策略（proximal policy）分離。其中：

行為策略（behavior policy）表示用于軌跡采樣的策略
近端策略（proximal policy）作為一個臨近的策略目標(biāo)，用來約束在線策略的更新

最終，可以得到一個在行為策略生成的數(shù)據(jù)上進(jìn)行重要性采樣（importance sampling）的 PPO 目標(biāo)函數(shù)：

其中，系數(shù) 起到了在 token 級別篩選有效訓(xùn)練數(shù)據(jù)的作用。當(dāng) 遠(yuǎn)遠(yuǎn)小于 1 時，對應(yīng)數(shù)據(jù)能夠被最新策略采樣的概率極低，故而在訓(xùn)練目標(biāo)中只占據(jù)了可以忽略的比重。

效果驗(yàn)證：速度 Max, 性能依舊強(qiáng)勁！

AReaL 團(tuán)隊(duì)基于 1.5B 模型在數(shù)學(xué)任務(wù)上設(shè)置不同 max staleness ?? 進(jìn)行 Async RL 訓(xùn)練，得到如下訓(xùn)練曲線。在 AReaL 的訓(xùn)練設(shè)定中，經(jīng)典的 PPO 可以清晰看到隨著 staleness 增大效果下降，而采用 decoupled PPO objective 后，即使 ?? 增加到 8，算法依然能夠保持訓(xùn)練效果好最終模型性能。

注：max staleness 的絕對值和具體實(shí)驗(yàn)設(shè)定（learning rate，batch size 等）相關(guān)，這里僅比較 AReaL-boba2 系統(tǒng)改進(jìn)所帶來的相對提升。

Fig. 5 針對不同 staleness 的算法穩(wěn)定性結(jié)果。左圖：經(jīng)典 PPO 算法在異步 RL 場景下模型效果很容易退化。右圖：采用 decoupled PPO objective，在 staleness=8 的情況下模型效果依然無損。

AReaL 團(tuán)隊(duì)還把采用不同 max staleness 訓(xùn)練的模型在 AIME24 和 AIME25 數(shù)據(jù)集上進(jìn)行評測，采用 decoupled objective 的算法都能在 ?? 更大的情況下保持更好的模型效果。

Table 2: 在數(shù)學(xué)任務(wù)（AIME24 & AIME25）上對于不同 max stalness，采用經(jīng)典 PPO 算法和 decoupled PPO 進(jìn)行異步 RL 訓(xùn)練最終產(chǎn)生的模型效果比較，decoupled PPO 始終有更好效果。

想深入了解算法原理與實(shí)驗(yàn)細(xì)節(jié)？請?jiān)L問原論文查看更多算法細(xì)節(jié)：https://arxiv.org/pdf/2505.24298

開源助力：輕松復(fù)現(xiàn) SOTA 代碼模型

除了強(qiáng)大的 AReaL-boba2 訓(xùn)練系統(tǒng)，團(tuán)隊(duì)也帶來了訓(xùn)練數(shù)據(jù)、訓(xùn)練腳本和評估腳本。團(tuán)隊(duì)也提供了完整的技術(shù)報告，確?？梢栽?AReaL 上復(fù)現(xiàn)訓(xùn)練結(jié)果以及進(jìn)行后續(xù)開發(fā)。技術(shù)報告中呈現(xiàn)了豐富的技術(shù)細(xì)節(jié)，包括數(shù)據(jù)集構(gòu)成、獎勵函數(shù)設(shè)置、模型生成方式、訓(xùn)練過程中的動態(tài)數(shù)據(jù)篩選等等。

快來用 AReaL-boba2 訓(xùn)練你自己的 SOTA 代碼模型吧！

彩蛋：擁抱 Agentic RL 浪潮

本次 AReaL-boba2 發(fā)布也支持多輪 Agentic RL 訓(xùn)練！開發(fā)者可以根據(jù)自己的需求自由定制智能體和智能體環(huán)境，并進(jìn)行 Agentic RL 訓(xùn)練。目前，AReaL-boba2 提供了一個在數(shù)學(xué)推理任務(wù)上進(jìn)行多輪推理的例子。

AReaL 團(tuán)隊(duì)表示，Agentic RL 功能也正在持續(xù)更新中，未來會支持更多 Agentic RL 訓(xùn)練的功能。

結(jié)語

AReaL 項(xiàng)目融合了螞蟻強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室與清華交叉信息院吳翼團(tuán)隊(duì)多年的技術(shù)積累，也獲得了大量來自螞蟻集團(tuán)超算技術(shù)團(tuán)隊(duì)和數(shù)據(jù)智能實(shí)驗(yàn)室的幫助。AReaL 的誕生離不開 DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO 等優(yōu)秀開源框架和模型的啟發(fā)。

如同其代號 “boba” 所寓意，團(tuán)隊(duì)希望 AReaL 能像一杯奶茶般 “delicious, customizable and affordable” —— 讓每個人都能便捷、靈活地搭建和訓(xùn)練屬于自己的 AI 智能體。

AReaL 項(xiàng)目歡迎大家加入，也持續(xù)招募全職工程師和實(shí)習(xí)生，一起奔向 Agentic AI 的未來！

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 訓(xùn)練模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<wbr id="zyc4g"></wbr>

<table id="zyc4g"></table>