偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="7af6f"><big id="7af6f"></big></pre>

<wbr id="7af6f"></wbr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

AREAL 開(kāi)源：解耦架構(gòu)與創(chuàng)新算法驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)系統(tǒng)

作者：肆零柒 2025-06-20 08:40:32

人工智能開(kāi)源

AREAL 是一款由清華大學(xué)與螞蟻研究院聯(lián)合研發(fā)的異步強(qiáng)化學(xué)習(xí)系統(tǒng)。它通過(guò)解耦生成與訓(xùn)練環(huán)節(jié)，突破了傳統(tǒng)同步系統(tǒng)的效率瓶頸，結(jié)合動(dòng)態(tài)批處理、可中斷生成等優(yōu)化手段，實(shí)現(xiàn)了顯著的訓(xùn)練加速和性能提升，為大型語(yǔ)言模型的推理能力訓(xùn)練提供了全新思路。

大家好，我是肆〇柒。推理能力在當(dāng)下 AI 領(lǐng)域，尤其自然語(yǔ)言處理、智能決策系統(tǒng)、科學(xué)研究輔助等眾多關(guān)鍵領(lǐng)域，已然成為推動(dòng)技術(shù)革新的關(guān)鍵要素。然而，目前大型語(yǔ)言模型雖已取得矚目成果，但在處理復(fù)雜邏輯時(shí)，常受困于邏輯連貫性把控，長(zhǎng)鏈推理面臨信息丟失、邏輯斷裂問(wèn)題，長(zhǎng)序列輸出任務(wù)下推理耗時(shí)久、資源消耗大，這些痛點(diǎn)嚴(yán)重制約模型應(yīng)用場(chǎng)景拓展與性能深化。

現(xiàn)有強(qiáng)化學(xué)習(xí)（RL）系統(tǒng)在提升模型推理能力方面也遇到發(fā)展瓶頸。同步強(qiáng)化學(xué)習(xí)系統(tǒng)在訓(xùn)練過(guò)程中，GPU 利用率低、可擴(kuò)展性差等問(wèn)題凸顯。以同步 RL 系統(tǒng)處理長(zhǎng)序列輸出為例，系統(tǒng)需等待批次中最長(zhǎng)序列完成才開(kāi)啟訓(xùn)練，因序列長(zhǎng)度差異大，GPU 等待時(shí)間漫長(zhǎng)，運(yùn)算資源閑置浪費(fèi)嚴(yán)重。不僅如此，隨著模型規(guī)模擴(kuò)大、序列長(zhǎng)度增加，同步系統(tǒng)擴(kuò)展性不足，訓(xùn)練效率直線下滑。這些難題倒逼業(yè)界尋求創(chuàng)新解決方案，由清華大學(xué)與螞蟻研究院聯(lián)合研發(fā)的 AREAL 系統(tǒng)被提出并開(kāi)源。AREAL 作為全新完全異步大型強(qiáng)化學(xué)習(xí)系統(tǒng)，憑借獨(dú)特架構(gòu)與創(chuàng)新算法，實(shí)現(xiàn)訓(xùn)練效率和模型性能的跨越式提升。

以 AIME24 基準(zhǔn)測(cè)試為例，1.5B 模型和 7B 模型訓(xùn)練中，推理設(shè)備因等待時(shí)間過(guò)長(zhǎng)，訓(xùn)練效率備受打擊。同步系統(tǒng)執(zhí)行時(shí)，長(zhǎng)序列輸出需全部完成才進(jìn)入下一步，設(shè)備空轉(zhuǎn)、運(yùn)算停滯，極大拖延訓(xùn)練進(jìn)程。AREAL 在此做了優(yōu)化，直擊同步系統(tǒng)要害，以創(chuàng)新異步架構(gòu)重塑強(qiáng)化學(xué)習(xí)訓(xùn)練流程。其核心在于完全解耦生成與訓(xùn)練環(huán)節(jié)，生成過(guò)程不受訓(xùn)練等待限制，訓(xùn)練流程即時(shí)響應(yīng)生成數(shù)據(jù)，高效利用每一秒運(yùn)算時(shí)間，打破同步系統(tǒng)枷鎖，為模型推理訓(xùn)練鋪就高速通道。本文將介紹 AREAL 的優(yōu)勢(shì)、架構(gòu)、算法革新及實(shí)驗(yàn)成果。一起了解一下吧。

AREAL 的系統(tǒng)架構(gòu)

AREAL 的系統(tǒng)架構(gòu)是其高效運(yùn)行的核心基礎(chǔ)，通過(guò)精心設(shè)計(jì)的四大核心組件——可中斷的 Rollout Worker、獎(jiǎng)勵(lì)服務(wù)、Trainer Worker 和 rollout 控制器，實(shí)現(xiàn)了完全異步的強(qiáng)化學(xué)習(xí)訓(xùn)練流程。下圖展示了同步 RL 系統(tǒng)和單步重疊 RL 系統(tǒng)的執(zhí)行時(shí)間線，突出同步系統(tǒng)中推理設(shè)備的低效利用問(wèn)題。

同步（上）和單步重疊（下）強(qiáng)化學(xué)習(xí)系統(tǒng)的執(zhí)行時(shí)間線，展示了未充分利用的推理設(shè)備

1. 可中斷的 Rollout Worker

Rollout Worker是 AREAL 系統(tǒng)中負(fù)責(zé)生成數(shù)據(jù)的關(guān)鍵組件。它主要處理兩類(lèi)請(qǐng)求：生成請(qǐng)求和更新權(quán)重請(qǐng)求。在生成請(qǐng)求中，Rollout Worker根據(jù)當(dāng)前模型的參數(shù)，為給定的提示（prompt）生成響應(yīng)。這一過(guò)程是連續(xù)的，每個(gè)Rollout Worker獨(dú)立運(yùn)行，無(wú)需等待其他組件完成任務(wù)，從而最大化 GPU 的利用率。

當(dāng)系統(tǒng)需要更新模型參數(shù)時(shí)，Rollout Worker會(huì)收到更新權(quán)重請(qǐng)求。此時(shí)，Rollout Worker會(huì)立即中斷當(dāng)前正在進(jìn)行的生成任務(wù)，丟棄舊參數(shù)計(jì)算的 KV 緩存，并重新加載新的模型參數(shù)。加載完成后，Rollout Worker會(huì)繼續(xù)從上次中斷的地方開(kāi)始生成剩余的序列。這一過(guò)程不僅確保了生成數(shù)據(jù)的實(shí)時(shí)性，還通過(guò)緩沖機(jī)制保持了訓(xùn)練批次的大小一致，從而維持了 PPO 算法的穩(wěn)定性。

2. 獎(jiǎng)勵(lì)服務(wù)

獎(jiǎng)勵(lì)服務(wù)是 AREAL 系統(tǒng)中負(fù)責(zé)評(píng)估生成數(shù)據(jù)質(zhì)量的組件。它接收 Rollout Worker生成的響應(yīng)，并根據(jù)預(yù)定義的獎(jiǎng)勵(lì)函數(shù)計(jì)算每個(gè)響應(yīng)的獎(jiǎng)勵(lì)值。例如，在代碼生成任務(wù)中，獎(jiǎng)勵(lì)服務(wù)會(huì)提取生成的代碼片段，運(yùn)行單元測(cè)試，并根據(jù)代碼的執(zhí)行結(jié)果和規(guī)范性給出獎(jiǎng)勵(lì)分?jǐn)?shù)。在數(shù)學(xué)推理任務(wù)中，獎(jiǎng)勵(lì)服務(wù)會(huì)驗(yàn)證生成的答案是否正確，并據(jù)此給出獎(jiǎng)勵(lì)。

獎(jiǎng)勵(lì)服務(wù)的高效性對(duì)于整個(gè)系統(tǒng)的性能至關(guān)重要。AREAL 通過(guò)將獎(jiǎng)勵(lì)計(jì)算與 GPU 計(jì)算分離，并利用多線程和異步編程技術(shù)，確保獎(jiǎng)勵(lì)計(jì)算不會(huì)成為系統(tǒng)的瓶頸。這種設(shè)計(jì)使得獎(jiǎng)勵(lì)服務(wù)能夠快速響應(yīng)，及時(shí)將獎(jiǎng)勵(lì)信息反饋給Trainer Worker ，從而加速整個(gè)訓(xùn)練流程。

3. Trainer Worker

Trainer Worker 是 AREAL 系統(tǒng)中負(fù)責(zé)模型更新的核心組件。它們從回放緩沖區(qū)（replay buffer）中采樣數(shù)據(jù)，當(dāng)數(shù)據(jù)量達(dá)到配置的批次大小時(shí)，Trainer Worker 會(huì)執(zhí)行 PPO 更新，并將更新后的模型參數(shù)存儲(chǔ)到分布式存儲(chǔ)中。Trainer Worker 的高效運(yùn)行依賴(lài)于多個(gè)關(guān)鍵設(shè)計(jì)：

動(dòng)態(tài)批處理策略：Trainer Worker 采用動(dòng)態(tài)批處理策略來(lái)處理可變長(zhǎng)度的輸出序列。該策略根據(jù)序列長(zhǎng)度對(duì)數(shù)據(jù)進(jìn)行排序，并將長(zhǎng)度相近的序列分配到同一個(gè)微批次中，從而最大化 GPU 內(nèi)存的利用率。通過(guò)減少不必要的填充操作，Trainer Worker 能夠顯著提高訓(xùn)練吞吐量。
并行更新：Trainer Worker 可以并行運(yùn)行多個(gè)更新任務(wù)，充分利用多 GPU 的計(jì)算能力。這種并行化設(shè)計(jì)進(jìn)一步提升了系統(tǒng)的整體性能。

4. Rollout 控制器

Rollout 控制器是 AREAL 系統(tǒng)中負(fù)責(zé)協(xié)調(diào)各組件的關(guān)鍵組件。它在數(shù)據(jù)集、Rollout Worker、獎(jiǎng)勵(lì)服務(wù)和Trainer Worker 之間起到橋梁的作用。在訓(xùn)練過(guò)程中，rollout 控制器從數(shù)據(jù)集中讀取數(shù)據(jù)，并向 Rollout Worker 發(fā)送生成請(qǐng)求。Rollout Worker生成的響應(yīng)會(huì)被發(fā)送到獎(jiǎng)勵(lì)服務(wù)進(jìn)行評(píng)估，評(píng)估結(jié)果（即獎(jiǎng)勵(lì)值）和生成的軌跡一起存儲(chǔ)在回放緩沖區(qū)中。當(dāng)Trainer Worker 完成模型更新后，rollout 控制器會(huì)通知 Rollout Worker 更新權(quán)重。

Rollout 控制器的高效協(xié)調(diào)能力是實(shí)現(xiàn)異步訓(xùn)練的關(guān)鍵。它通過(guò)精確控制數(shù)據(jù)的流動(dòng)和任務(wù)的調(diào)度，確保生成和訓(xùn)練過(guò)程能夠無(wú)縫銜接。此外，rollout 控制器還負(fù)責(zé)監(jiān)控系統(tǒng)的整體狀態(tài)，及時(shí)調(diào)整任務(wù)分配策略，以應(yīng)對(duì)不同任務(wù)和模型規(guī)模的需求。下圖展示了 AREAL 的架構(gòu)，包括異步生成和訓(xùn)練組件。

具有異步生成和訓(xùn)練組件的AREAL架構(gòu)

異步訓(xùn)練流程

AREAL 的異步訓(xùn)練流程是其區(qū)別于傳統(tǒng)同步 RL 系統(tǒng)的核心特征。在同步 RL 系統(tǒng)中，生成和訓(xùn)練是嚴(yán)格交替進(jìn)行的，生成步驟必須等待批次中最長(zhǎng)的序列完成才能開(kāi)始訓(xùn)練，這導(dǎo)致了 GPU 的大量閑置時(shí)間。而 AREAL 完全解耦了生成和訓(xùn)練過(guò)程，Rollout Worker 和 Trainer Worker 可以獨(dú)立運(yùn)行，互不等待。

生成過(guò)程：Rollout Worker以流式的方式持續(xù)生成新的輸出，無(wú)需等待其他工作者完成任務(wù)。這種設(shè)計(jì)使得 GPU 能夠始終保持高利用率，顯著提高了系統(tǒng)的整體效率。
訓(xùn)練過(guò)程：Trainer Worker 在獲得一批數(shù)據(jù)后立即開(kāi)始更新模型，無(wú)需等待生成過(guò)程完成。更新完成后，模型參數(shù)會(huì)同步到所有 Rollout Worker，確保生成數(shù)據(jù)始終基于最新的模型版本。

通過(guò)這種異步設(shè)計(jì)，AREAL 不僅解決了同步系統(tǒng)中 GPU 利用率低的問(wèn)題，還實(shí)現(xiàn)了高效的分布式訓(xùn)練，能夠輕松擴(kuò)展到數(shù)千個(gè) GPU。這種架構(gòu)為大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練提供了強(qiáng)大的支持，使得 AREAL 能夠在復(fù)雜的推理任務(wù)中展現(xiàn)出卓越的性能。下圖演示了 AREAL 的生成管理，包括訓(xùn)練就緒時(shí)間和新參數(shù)到達(dá)時(shí)的中斷請(qǐng)求。

在 AREAL 中的生成管理示意圖。垂直線表示下一步訓(xùn)練的準(zhǔn)備就緒時(shí)間。藍(lán)色叉號(hào)表示在新參數(shù)到達(dá)時(shí)被中斷的請(qǐng)求

AREAL 的系統(tǒng)優(yōu)化

AREAL 通過(guò)一系列系統(tǒng)級(jí)優(yōu)化措施，顯著提升了異步強(qiáng)化學(xué)習(xí)訓(xùn)練的效率和穩(wěn)定性。這些優(yōu)化策略涵蓋了從硬件資源管理到數(shù)據(jù)處理的各個(gè)環(huán)節(jié)，為高效的模型訓(xùn)練提供了堅(jiān)實(shí)基礎(chǔ)。

1. GPU 與 CPU 資源分離

AREAL 將 GPU 計(jì)算與 CPU 操作分離，避免了兩者之間的相互干擾，提升了整體運(yùn)算效率。系統(tǒng)將規(guī)則化獎(jiǎng)勵(lì)計(jì)算及基于 TCP 的數(shù)據(jù)傳輸?shù)炔僮鞣峙浣o CPU 執(zhí)行，而將復(fù)雜的神經(jīng)網(wǎng)絡(luò)計(jì)算任務(wù)留給 GPU。通過(guò)在不同線程中獨(dú)立運(yùn)行這些任務(wù)，并利用流水線技術(shù)將它們有機(jī)結(jié)合起來(lái)，AREAL 實(shí)現(xiàn)了獎(jiǎng)勵(lì)計(jì)算和數(shù)據(jù)傳輸與后續(xù)生成請(qǐng)求的并行處理，充分利用了多核 CPU 和 GPU 的并行計(jì)算能力，從而顯著提高了系統(tǒng)的吞吐量。

2. 可中斷的 Rollout Worker

可中斷的 Rollout Worker是 AREAL 系統(tǒng)中實(shí)現(xiàn)高效訓(xùn)練的關(guān)鍵機(jī)制之一。在傳統(tǒng)的同步 RL 系統(tǒng)中，生成任務(wù)必須等待當(dāng)前批次中最長(zhǎng)的序列完成才能進(jìn)行下一步操作，這導(dǎo)致了 GPU 的大量閑置時(shí)間。而 AREAL 的 Rollout Worker 能夠在接收到更新權(quán)重的信號(hào)時(shí)，立即中斷當(dāng)前正在進(jìn)行的生成任務(wù)，丟棄舊參數(shù)計(jì)算的 KV 緩存，并重新加載新的模型參數(shù)。加載完成后，Rollout Worker 會(huì)從上次中斷的地方繼續(xù)生成剩余的序列。這一過(guò)程不僅確保了生成數(shù)據(jù)的實(shí)時(shí)性，還通過(guò)緩沖機(jī)制保持了訓(xùn)練批次的大小一致，從而維持了 PPO 算法的穩(wěn)定性。這種可中斷的機(jī)制使得 Rollout Worker 能夠快速響應(yīng)模型參數(shù)的更新，避免了因等待長(zhǎng)序列完成而導(dǎo)致的資源浪費(fèi)，顯著提高了 GPU 的利用率和訓(xùn)練效率。通過(guò)以下圖表可以更直觀地了解可中斷生成對(duì)系統(tǒng)性能的影響：

可中斷的 Rollout 消融研究

3. 動(dòng)態(tài)批處理策略

AREAL 采用了動(dòng)態(tài)批處理策略來(lái)處理可變長(zhǎng)度的輸出序列，這一策略在固定內(nèi)存約束下實(shí)現(xiàn)了對(duì) token 分布的優(yōu)化平衡。系統(tǒng)會(huì)根據(jù)序列長(zhǎng)度對(duì)數(shù)據(jù)進(jìn)行排序，然后將長(zhǎng)度相近的序列分配到同一個(gè)微批次中，從而最大化 GPU 內(nèi)存的利用率。通過(guò)減少不必要的填充操作，AREAL 能夠顯著提高訓(xùn)練吞吐量。此外，動(dòng)態(tài)批處理策略還能夠根據(jù)當(dāng)前可用的 GPU 內(nèi)存動(dòng)態(tài)調(diào)整微批次的大小，確保在不同模型規(guī)模和序列長(zhǎng)度下都能充分利用 GPU 資源。這種靈活的批處理方式不僅提高了內(nèi)存利用率，還減少了前向 - 后向傳遞的次數(shù)，進(jìn)一步提升了訓(xùn)練效率。動(dòng)態(tài)微批分配策略對(duì)系統(tǒng)吞吐量的提升效果顯著，下圖展示了相關(guān)的消融研究結(jié)果：

動(dòng)態(tài)微批次分配的消融研究

4. 并行獎(jiǎng)勵(lì)服務(wù)

為了進(jìn)一步提升系統(tǒng)的效率，AREAL 引入了并行獎(jiǎng)勵(lì)服務(wù)。在傳統(tǒng)的 RL 系統(tǒng)中，獎(jiǎng)勵(lì)計(jì)算通常是串行進(jìn)行的，這成為了系統(tǒng)的性能瓶頸之一。AREAL 通過(guò)將獎(jiǎng)勵(lì)計(jì)算任務(wù)分配給多個(gè)并行的獎(jiǎng)勵(lì)服務(wù)進(jìn)程，實(shí)現(xiàn)了對(duì)獎(jiǎng)勵(lì)計(jì)算的并行化處理。每個(gè)獎(jiǎng)勵(lì)服務(wù)進(jìn)程獨(dú)立地對(duì)生成的響應(yīng)進(jìn)行評(píng)估，并計(jì)算相應(yīng)的獎(jiǎng)勵(lì)值。這種并行化的獎(jiǎng)勵(lì)服務(wù)不僅提高了獎(jiǎng)勵(lì)計(jì)算的速度，還能夠更好地利用多核 CPU 的計(jì)算能力，從而進(jìn)一步加快了整個(gè)訓(xùn)練流程。

5. 異步通信機(jī)制

AREAL 采用了高效的異步通信機(jī)制，確保了系統(tǒng)各組件之間的快速數(shù)據(jù)傳輸和同步。在異步訓(xùn)練過(guò)程中，生成的數(shù)據(jù)需要及時(shí)傳遞給Trainer Worker 進(jìn)行模型更新，而更新后的模型參數(shù)也需要迅速同步到 Rollout Worker，以便生成新的數(shù)據(jù)。AREAL 通過(guò)使用消息隊(duì)列和異步通信協(xié)議，實(shí)現(xiàn)了數(shù)據(jù)的快速傳遞和組件之間的無(wú)縫銜接。這種異步通信機(jī)制不僅減少了數(shù)據(jù)傳輸?shù)难舆t，還提高了系統(tǒng)的整體吞吐量，使得 AREAL 能夠在大規(guī)模分布式訓(xùn)練環(huán)境中高效運(yùn)行。

6. 資源調(diào)度與負(fù)載均衡

AREAL 還在資源調(diào)度和負(fù)載均衡方面進(jìn)行了優(yōu)化。系統(tǒng)能夠根據(jù)當(dāng)前的任務(wù)需求和資源使用情況，動(dòng)態(tài)調(diào)整各組件的資源分配。例如，在生成任務(wù)較重時(shí)，系統(tǒng)會(huì)優(yōu)先分配更多的 GPU 資源給 Rollout Worker；而在訓(xùn)練任務(wù)較重時(shí)，則會(huì)將更多的資源分配給Trainer Worker 。此外，AREAL 還通過(guò)負(fù)載均衡算法，確保了各個(gè) GPU 和 CPU 核心之間的負(fù)載均衡，避免了部分資源過(guò)載而其他資源閑置的情況。這種動(dòng)態(tài)的資源調(diào)度和負(fù)載均衡策略，使得 AREAL 能夠在不同的訓(xùn)練階段和任務(wù)場(chǎng)景下，始終保持高效的資源利用率和穩(wěn)定的訓(xùn)練性能。

通過(guò)以上一系列系統(tǒng)級(jí)優(yōu)化措施，AREAL 在硬件資源利用、數(shù)據(jù)處理效率和訓(xùn)練穩(wěn)定性等方面都取得了顯著的提升。這些優(yōu)化策略不僅為 AREAL 的高效異步訓(xùn)練提供了有力支持，也為其他大規(guī)模強(qiáng)化學(xué)習(xí)系統(tǒng)的開(kāi)發(fā)提供了寶貴的參考。

AREAL 的算法創(chuàng)新

AREAL 的算法創(chuàng)新是其高效異步訓(xùn)練的核心驅(qū)動(dòng)力，主要體現(xiàn)在對(duì)數(shù)據(jù)陳舊性問(wèn)題的應(yīng)對(duì)策略以及解耦的 PPO 目標(biāo)函數(shù)的提出。下圖演示了 PPO 的解耦目標(biāo)和陳舊性控制的消融研究，展示了算法選擇對(duì)訓(xùn)練結(jié)果的影響。

對(duì)分離的PPO目標(biāo)和陳舊性控制進(jìn)行了消融研究。這兩種算法選擇都至關(guān)重要。在采用適中的陳舊性值和分離目標(biāo)的情況下，訓(xùn)練進(jìn)度可以加快2倍以上，同時(shí)保持最終評(píng)估性能不變

數(shù)據(jù)陳舊性問(wèn)題與解決方案

在異步強(qiáng)化學(xué)習(xí)系統(tǒng)中，數(shù)據(jù)陳舊性是一個(gè)關(guān)鍵挑戰(zhàn)。由于生成和訓(xùn)練過(guò)程完全解耦，訓(xùn)練批次中可能包含由不同版本策略生成的數(shù)據(jù)。這種陳舊性可能導(dǎo)致訓(xùn)練數(shù)據(jù)的策略分布與當(dāng)前最新策略產(chǎn)生偏差，從而影響學(xué)習(xí)性能。AREAL 通過(guò)引入最大允許陳舊度 η 這一超參數(shù)，對(duì)策略版本差異進(jìn)行嚴(yán)格限制。具體而言，假設(shè)當(dāng)前最新參數(shù)版本為 i，系統(tǒng)共生成了 Nr 條軌跡，訓(xùn)練批次大小為 B，則要求 ?Nr/B? ≤ i + η。系統(tǒng)實(shí)時(shí)追蹤 Nr 和參數(shù)版本 i，一旦發(fā)現(xiàn)請(qǐng)求違反陳舊度約束，即刻予以拒絕。這種機(jī)制確保了訓(xùn)練數(shù)據(jù)的新鮮度，避免了因數(shù)據(jù)過(guò)時(shí)而導(dǎo)致的性能下降。

解耦的 PPO 目標(biāo)函數(shù)

為適應(yīng)異步 RL 訓(xùn)練環(huán)境，AREAL 對(duì)傳統(tǒng)的 PPO 算法進(jìn)行了創(chuàng)新性的改進(jìn)，提出了解耦的 PPO 目標(biāo)函數(shù)。在標(biāo)準(zhǔn) PPO 中，所有采樣數(shù)據(jù)必須來(lái)源于單一的行為策略 πold，模型更新圍繞此單一策略展開(kāi)。而 AREAL 大膽地將行為策略 πbehav 和近端策略 πprox 分離。行為策略負(fù)責(zé)生成訓(xùn)練數(shù)據(jù)，而近端策略則作為模型更新的參照標(biāo)桿。通過(guò)重要性采樣，解耦后的 PPO 目標(biāo)函數(shù)能夠有效地利用不同策略版本生成的數(shù)據(jù)，使模型更新始終在近端策略構(gòu)筑的信賴(lài)區(qū)域內(nèi)穩(wěn)步邁進(jìn)。

解耦的 PPO 目標(biāo)函數(shù)通過(guò)引入近端策略 πprox，將原始 PPO 的優(yōu)化目標(biāo)分解為兩個(gè)部分：一部分是基于行為策略 πbehav 的重要性采樣，另一部分是基于近端策略 πprox 的信任區(qū)域約束。這種分解不僅提高了模型更新的穩(wěn)定性，還允許在異步環(huán)境中有效地利用陳舊數(shù)據(jù)。數(shù)學(xué)上，解耦后的 PPO 目標(biāo)函數(shù)可以表示為：

其中，πprox 表示近端策略，用于計(jì)算重要性采樣比率；πbehav 是行為策略，用于生成訓(xùn)練數(shù)據(jù)。這種設(shè)計(jì)使得 AREAL 能夠在異步環(huán)境中，即使數(shù)據(jù)存在一定陳舊性，也能保持訓(xùn)練的穩(wěn)定性和有效性。

算法優(yōu)勢(shì)與實(shí)驗(yàn)驗(yàn)證

解耦的 PPO 目標(biāo)函數(shù)在處理異步數(shù)據(jù)時(shí)展現(xiàn)出了顯著的優(yōu)勢(shì)。實(shí)驗(yàn)對(duì)比表明，在不同陳舊度情況下，解耦 PPO 能夠維持訓(xùn)練的穩(wěn)定性，并顯著提升模型的最終性能。例如，在數(shù)學(xué)推理任務(wù)中，當(dāng)數(shù)據(jù)陳舊度 η 設(shè)置為 4 時(shí)，模型的最終準(zhǔn)確率僅比零陳舊度 oracle 模型低 1%，但訓(xùn)練速度卻提升了 2 倍以上。這表明解耦 PPO 目標(biāo)函數(shù)能夠在保證模型性能的同時(shí)，大幅提高訓(xùn)練效率。此外，通過(guò)消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了解耦 PPO 目標(biāo)函數(shù)和陳舊度控制的有效性。開(kāi)啟解耦 PPO 后，訓(xùn)練曲線更加平穩(wěn)，最終性能顯著提升；適當(dāng)設(shè)置最大允許陳舊度 η 值，在 η=4 時(shí)，模型在多個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試中性能近乎與零陳舊度 oracle 相當(dāng)，卻換來(lái)成倍訓(xùn)練加速。這些實(shí)驗(yàn)結(jié)果有力地支持了解耦 PPO 與陳舊度控制對(duì)于異步訓(xùn)練的關(guān)鍵價(jià)值。

下表對(duì)比了不同數(shù)據(jù)陳舊度下的評(píng)估分?jǐn)?shù)，展示了有無(wú)解耦目標(biāo)函數(shù)的影響。

在數(shù)據(jù)陳舊性變化時(shí)的評(píng)估分?jǐn)?shù)，比較了有無(wú)解耦目標(biāo)時(shí)的性能表現(xiàn)。與最佳分?jǐn)?shù)相差在±1以?xún)?nèi)的數(shù)值已用下劃線標(biāo)出

AREAL 與其他現(xiàn)有異步 RL 系統(tǒng)的對(duì)比

系統(tǒng)架構(gòu)維度，AREAL 的完全解耦生成與訓(xùn)練架構(gòu)，賦予其硬件資源利用與擴(kuò)展性的卓越基因。對(duì)比之下，其他系統(tǒng)模塊間緊密耦合，難以解鎖硬件性能全部潛能。

算法原理上，解耦的 PPO 目標(biāo)函數(shù)是 AREAL 的殺手锏。它在異步數(shù)據(jù)處理及陳舊性應(yīng)對(duì)方面技高一籌，相較于其他系統(tǒng)算法，AREAL 的模型更新更精準(zhǔn)、高效，如同在復(fù)雜路況中仍能保持穩(wěn)定高速的賽車(chē)，輕松跨越數(shù)據(jù)陳舊性障礙，持續(xù)輸出優(yōu)異性能。

數(shù)據(jù)處理方式對(duì)比，AREAL 的高效性與靈活性讓人印象深刻。它創(chuàng)新的數(shù)據(jù)管理策略，面對(duì)異步訓(xùn)練挑戰(zhàn)，總能游刃有余。而其他系統(tǒng)在數(shù)據(jù)收集、篩選等環(huán)節(jié)，要么動(dòng)作遲緩，要么僵化死板，難以適配瞬息萬(wàn)變的訓(xùn)練需求。

性能表現(xiàn)層面，實(shí)驗(yàn)數(shù)據(jù)顯示訓(xùn)練速度、準(zhǔn)確率、可擴(kuò)展性指標(biāo)上，AREAL 憑借線性擴(kuò)展趨勢(shì)、卓越長(zhǎng)序列生成訓(xùn)練表現(xiàn)，遙遙領(lǐng)先同步系統(tǒng)與競(jìng)品異步系統(tǒng)。當(dāng)其他系統(tǒng)在 GPU 數(shù)量增加時(shí)遇到瓶頸，而 AREAL 的訓(xùn)練吞吐量節(jié)節(jié)攀升，尤其在長(zhǎng)序列生成訓(xùn)練場(chǎng)景中，線性擴(kuò)展優(yōu)勢(shì)尤為明顯。

下圖展示了 AREAL 與其他系統(tǒng)的強(qiáng)擴(kuò)展趨勢(shì)對(duì)比，凸顯 AREAL 的線性擴(kuò)展優(yōu)勢(shì)。

虛線表示理想的線性擴(kuò)展。Verl在32k上下文長(zhǎng)度和32B模型下持續(xù)遇到內(nèi)存不足（OOM）問(wèn)題，因此缺少數(shù)據(jù)點(diǎn)

AREAL 的實(shí)驗(yàn)評(píng)估

AREAL 的實(shí)驗(yàn)評(píng)估較為全面且深入，目的是全方位驗(yàn)證系統(tǒng)的性能和優(yōu)勢(shì)。實(shí)驗(yàn)設(shè)置嚴(yán)謹(jǐn)，選用的模型涵蓋從 1.5B 到 32B 參數(shù)規(guī)模，任務(wù)類(lèi)型包括數(shù)學(xué)推理與代碼生成，基準(zhǔn)測(cè)試選取 AIME24、LiveCodeBench 等權(quán)威標(biāo)準(zhǔn)，訓(xùn)練步驟和評(píng)估協(xié)議規(guī)范且詳細(xì)，計(jì)算資源為 64 節(jié)點(diǎn)、每節(jié)點(diǎn) 8 GPU 的 H800 GPU 集群，為實(shí)驗(yàn)提供了堅(jiān)實(shí)的硬件基礎(chǔ)。實(shí)驗(yàn)所采用的訓(xùn)練配置和超參數(shù)如下表所示：

訓(xùn)練配置和超參數(shù)

端到端比較

端到端比較環(huán)節(jié)，AREAL 的表現(xiàn)令人矚目。在數(shù)學(xué)推理任務(wù)中，以 1.5B 模型為例，與同步系統(tǒng)相比，AREAL 的訓(xùn)練吞吐量提升高達(dá) 2.57 倍。模型在 AIME24 基準(zhǔn)測(cè)試中的準(zhǔn)確率從同步系統(tǒng)的 42.0% 提升至 42.2%，訓(xùn)練時(shí)長(zhǎng)從 41.0 小時(shí)大幅縮短至 14.8 小時(shí)。對(duì)于 7B 模型，準(zhǔn)確率從 63.0% 略升至 63.1%，訓(xùn)練時(shí)長(zhǎng)則從 57.7 小時(shí)縮減至 25.4 小時(shí)。在代碼生成任務(wù)中，14B 模型在 LiveCodeBench 基準(zhǔn)測(cè)試中的準(zhǔn)確率從同步系統(tǒng)的 56.7% 提升至 58.1%，訓(xùn)練時(shí)長(zhǎng)從 48.8 小時(shí)降至 21.9 小時(shí)。32B 模型同樣展現(xiàn)出顯著的性能提升。這些詳實(shí)的數(shù)據(jù)充分展示了 AREAL 在提高訓(xùn)練效率和模型性能方面的卓越能力。

下表展示了端到端性能比較，包括數(shù)學(xué)和代碼任務(wù)的準(zhǔn)確率和訓(xùn)練時(shí)間。

端到端性能對(duì)比。在AIME24數(shù)學(xué)基準(zhǔn)測(cè)試和LiveCodeBench（2024年8月1日至2025年2月1日）編程基準(zhǔn)測(cè)試上進(jìn)行評(píng)估。將最大生成長(zhǎng)度限制為32K token，并針對(duì)每個(gè)問(wèn)題采樣32個(gè)回答，報(bào)告平均通過(guò)率@1的準(zhǔn)確率。*表示通過(guò)強(qiáng)化學(xué)習(xí)獲得的最佳已知可復(fù)現(xiàn)結(jié)果，分別引用自DeepScaler 和DeepCoder。AReaL在訓(xùn)練時(shí)間少2倍的情況下，實(shí)現(xiàn)了相當(dāng)?shù)男阅鼙憩F(xiàn)

可擴(kuò)展性測(cè)試

可擴(kuò)展性測(cè)試中，AREAL 隨著 GPU 數(shù)量的增加，訓(xùn)練吞吐量展現(xiàn)出近乎理想的線性增長(zhǎng)趨勢(shì)。以 1.5B 模型、16k 上下文長(zhǎng)度為例，對(duì)比 verl 系統(tǒng)，AREAL 在 32 GPU 時(shí)的吞吐量達(dá)到 29k token/s，是 verl 的 1.5 倍；在 64 GPU 時(shí)，吞吐量更是高達(dá) 41k token/s，遠(yuǎn)超 verl。而 verl 在 GPU 數(shù)量增加時(shí)吞吐量增速緩慢，AREAL 的線性擴(kuò)展優(yōu)勢(shì)十分明顯。尤其在長(zhǎng)序列生成訓(xùn)練場(chǎng)景中，這種優(yōu)勢(shì)更為突出，這得益于 AREAL 完全解耦生成和訓(xùn)練過(guò)程的設(shè)計(jì)，使其能夠高效地利用更多的 GPU 資源。

算法消融研究

算法消融研究進(jìn)一步驗(yàn)證了 AREAL 算法創(chuàng)新的有效性。實(shí)驗(yàn)對(duì)比了開(kāi)啟和關(guān)閉解耦 PPO 目標(biāo)函數(shù)以及不同最大允許陳舊度 η 值下的訓(xùn)練結(jié)果。結(jié)果顯示，開(kāi)啟解耦 PPO 目標(biāo)函數(shù)后，訓(xùn)練曲線更加平穩(wěn)，最終性能顯著提升。在適當(dāng)設(shè)置 η 值的情況下，例如 η=4 時(shí)，模型在多個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試中的性能近乎與零陳舊度 oracle 相當(dāng)，但訓(xùn)練速度卻提升了 2 倍以上。這有力地證明了解耦 PPO 目標(biāo)函數(shù)和陳舊度控制對(duì)于異步訓(xùn)練的關(guān)鍵價(jià)值，表明這兩種機(jī)制能夠有效地應(yīng)對(duì)異步環(huán)境中的數(shù)據(jù)陳舊性問(wèn)題，加速訓(xùn)練過(guò)程的同時(shí)保持模型性能的穩(wěn)定。

實(shí)驗(yàn)挑戰(zhàn)與解決方案

在實(shí)驗(yàn)過(guò)程中，AREAL 團(tuán)隊(duì)也遇到了一些挑戰(zhàn)。例如，在數(shù)據(jù)收集和預(yù)處理階段，如何確保數(shù)據(jù)的質(zhì)量和多樣性是一個(gè)難題。團(tuán)隊(duì)通過(guò)制定嚴(yán)格的數(shù)據(jù)清洗、標(biāo)注和篩選流程，確保了數(shù)據(jù)集的可靠性和適用性。在模型訓(xùn)練過(guò)程中，超參數(shù)的調(diào)整也是一個(gè)關(guān)鍵問(wèn)題。團(tuán)隊(duì)通過(guò)大量的實(shí)驗(yàn)和經(jīng)驗(yàn)積累，確定了合適的學(xué)習(xí)率、折扣因子、批量大小等超參數(shù)，以?xún)?yōu)化模型的訓(xùn)練效果。此外，團(tuán)隊(duì)還開(kāi)發(fā)了一系列工具和方法來(lái)監(jiān)控和調(diào)試訓(xùn)練過(guò)程，以便及時(shí)發(fā)現(xiàn)和解決問(wèn)題。

綜上所述，AREAL 的實(shí)驗(yàn)評(píng)估驗(yàn)證了系統(tǒng)的高效性和優(yōu)越性，同時(shí)也展示了其在實(shí)際應(yīng)用中的可靠性和穩(wěn)定性。通過(guò)端到端比較、可擴(kuò)展性測(cè)試和算法消融研究等多個(gè)維度的實(shí)驗(yàn)，AREAL 證明了其在大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練中的強(qiáng)大能力和廣闊應(yīng)用前景。

AREAL 的開(kāi)源與應(yīng)用

AREAL 的開(kāi)源舉措是要點(diǎn)贊的，其開(kāi)放性體現(xiàn)在多個(gè)維度。項(xiàng)目不僅公開(kāi)訓(xùn)練細(xì)節(jié)、數(shù)據(jù)集和基礎(chǔ)設(shè)施配置，還提供詳盡的代碼和配置示例，助力研究者與開(kāi)發(fā)者快速上手。新手開(kāi)發(fā)者可直接利用這些資源，從編寫(xiě)訓(xùn)練腳本到調(diào)整超參數(shù)，再到環(huán)境部署與多機(jī)多卡訓(xùn)練擴(kuò)展。

開(kāi)源倉(cāng)庫(kù)介紹

AREAL 的開(kāi)源倉(cāng)庫(kù)（見(jiàn)參考資料）是開(kāi)發(fā)者實(shí)踐和探索的寶貴資源。倉(cāng)庫(kù)精心組織，包含以下核心模塊：

core：系統(tǒng)核心組件的實(shí)現(xiàn)代碼，包括可中斷的 Rollout Worker、獎(jiǎng)勵(lì)服務(wù)、Trainer Worker 和 rollout 控制器。
algorithms：包含解耦的 PPO 算法及其他 RL 算法的實(shí)現(xiàn)。
utils：提供系統(tǒng)運(yùn)行所需的工具函數(shù)，如動(dòng)態(tài)批處理、異步通信等。
examples：提供多個(gè)示例腳本，展示如何使用 AREAL 進(jìn)行不同任務(wù)的訓(xùn)練和評(píng)估。

倉(cāng)庫(kù)還提供詳細(xì)的文檔和教程，指導(dǎo)開(kāi)發(fā)者快速入門(mén)。例如，通過(guò)以下命令即可在本地訓(xùn)練 Qwen3 1.7B 模型：

sh examples/run_async_ppo.sh

評(píng)估模型的命令如下：

cd evaluation
python eval_and_aggregate.py \
  --model_path ${MODEL_PATH} \
  --output_path ${OUTPUT_PATH} \
  --data_names aime24,aime25 \
  --max_gen_tokens 32768 \
  --data_names codeforces,lcb_v5 \
  --prompt_type qwen3-think-pure \
  --temperature 1.0

這些腳本和命令為開(kāi)發(fā)者提供了便捷的操作指南，使其能夠迅速開(kāi)展實(shí)驗(yàn)。

應(yīng)用場(chǎng)景拓展

AREAL 的應(yīng)用不僅限于數(shù)學(xué)推理和代碼生成，還可拓展至邏輯謎題、科學(xué)問(wèn)題解決等更多推理任務(wù)領(lǐng)域。以邏輯謎題為例，開(kāi)發(fā)者可設(shè)計(jì)相應(yīng)的獎(jiǎng)勵(lì)函數(shù)，將謎題解決步驟轉(zhuǎn)化為可量化獎(jiǎng)勵(lì)信號(hào)，引導(dǎo)模型逐步探索解空間。同時(shí)，定制環(huán)境設(shè)置，模擬謎題操作界面，讓模型實(shí)時(shí)交互試錯(cuò)。盡管任務(wù)數(shù)據(jù)稀缺性和模型結(jié)構(gòu)適配性等挑戰(zhàn)接踵而至，但 AREAL 憑借異步訓(xùn)練機(jī)制，靈活調(diào)整采樣策略與模型架構(gòu)，仍能輸出令人滿意的推理成果。

在科學(xué)問(wèn)題解決任務(wù)中，AREAL 能高效處理復(fù)雜科學(xué)數(shù)據(jù)集。多元特征與長(zhǎng)序列模型訓(xùn)練難題也被異步架構(gòu)輕松化解。開(kāi)發(fā)者可利用 AREAL 的異步訓(xùn)練機(jī)制，高效處理科學(xué)數(shù)據(jù)，提升模型在科學(xué)問(wèn)題解決任務(wù)中的表現(xiàn)。

總結(jié)

當(dāng)我讀完 AREAL 相關(guān)論文材料，我對(duì)這款大型語(yǔ)言模型高效推理的強(qiáng)化學(xué)習(xí)系統(tǒng)，有了一定理解。AREAL 異步架構(gòu)和創(chuàng)新算法為模型推理訓(xùn)練提供了全新思路。從架構(gòu)系統(tǒng)來(lái)看，AREAL 通過(guò)將生成與訓(xùn)練完全解耦，讓 Rollout Worker 和 Trainer Worker 能夠獨(dú)立運(yùn)行，避免了同步系統(tǒng)中因等待長(zhǎng)序列完成而導(dǎo)致的資源浪費(fèi)。這種設(shè)計(jì)顯著提高了 GPU 的利用率，使得訓(xùn)練過(guò)程更加高效。同時(shí)，系統(tǒng)各組件的協(xié)調(diào)工作，如可中斷的Rollout Worker能夠及時(shí)響應(yīng)模型參數(shù)更新，獎(jiǎng)勵(lì)服務(wù)高效評(píng)估生成數(shù)據(jù)質(zhì)量等，都為整個(gè)系統(tǒng)的高效運(yùn)行提供了有力支撐。

在算法層面，AREAL 針對(duì)異步強(qiáng)化學(xué)習(xí)中的數(shù)據(jù)陳舊性問(wèn)題提出了有效解決方案。通過(guò)限制策略版本差異和采用解耦的 PPO 目標(biāo)函數(shù)，AREAL 使模型更新能夠在高質(zhì)量近端策略的信賴(lài)區(qū)域內(nèi)進(jìn)行，從而穩(wěn)定訓(xùn)練過(guò)程。這一創(chuàng)新不僅巧妙化解了異步系統(tǒng)中數(shù)據(jù)陳舊性的難題，還體現(xiàn)了研究者對(duì) RL 算法本質(zhì)的深刻認(rèn)識(shí)。系統(tǒng)優(yōu)化措施也給我留下了深刻印象。動(dòng)態(tài)批處理策略、可中斷的 Rollout Worker等設(shè)計(jì)，處處體現(xiàn)出對(duì)計(jì)算資源的極致追求。

AREAL 的開(kāi)源舉措非常棒。它不僅公開(kāi)了訓(xùn)練細(xì)節(jié)、數(shù)據(jù)集和基礎(chǔ)設(shè)施配置，還提供了詳盡的代碼和配置示例，為研究者和開(kāi)發(fā)者提供了寶貴的資源。這種開(kāi)放共享的科研精神有助于加速整個(gè)行業(yè)的發(fā)展，讓更多人有機(jī)會(huì)在這一領(lǐng)域進(jìn)行探索和創(chuàng)新。

總體而言，AREAL 這個(gè)框架大型語(yǔ)言模型強(qiáng)化學(xué)習(xí)帶來(lái)了顯著進(jìn)步。其異步訓(xùn)練架構(gòu)、系統(tǒng)優(yōu)化措施和算法改進(jìn)等方面都展現(xiàn)出強(qiáng)大的優(yōu)勢(shì)。當(dāng)然，AREAL 仍有很大的發(fā)展空間，如進(jìn)一步優(yōu)化推理和訓(xùn)練設(shè)備的比例、探索多輪交互和智能體場(chǎng)景的應(yīng)用等。

責(zé)任編輯：龐桂玉來(lái)源：覺(jué)察流

AREAL 大型語(yǔ)言模型開(kāi)源

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)