偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

讓強(qiáng)化學(xué)習(xí)快如閃電：FlashRL一條命令實(shí)現(xiàn)極速Rollout，已全部開源

2025-08-13 09:12:00

人工智能新聞

中國科學(xué)技術(shù)大學(xué)校友，伊利諾伊大學(xué)香檳分校博士，微軟研究院的首席研究員劉力源、清華大學(xué)校友，加州大學(xué)圣地亞哥分校計(jì)算機(jī)科學(xué)與工程學(xué)院博士生姚峰團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)的研究中更進(jìn)一步。

在今年三月份，清華 AIR 和字節(jié)聯(lián)合 SIA Lab 發(fā)布了 DAPO，即 Decoupled Clip and Dynamic sAmpling Policy Optimization（解耦剪輯和動態(tài)采樣策略優(yōu)化）。這是一個可實(shí)現(xiàn)大規(guī)模 LLM 強(qiáng)化學(xué)習(xí)的開源 SOTA 系統(tǒng)，使用該算法，該團(tuán)隊(duì)成功讓 Qwen2.5-32B 模型在 AIME 2024 基準(zhǔn)上獲得了 50 分，我們也做了相關(guān)報道。

論文地址：https://dapo-sia.github.io/static/pdf/dapo_paper.pdf
代碼地址：https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo

中國科學(xué)技術(shù)大學(xué)校友，伊利諾伊大學(xué)香檳分校博士，微軟研究院的首席研究員劉力源、清華大學(xué)校友，加州大學(xué)圣地亞哥分校計(jì)算機(jī)科學(xué)與工程學(xué)院博士生姚峰團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)的研究中更進(jìn)一步。

該團(tuán)隊(duì)發(fā)現(xiàn)，在 DAPO-32B 中，rollout 生成是強(qiáng)化學(xué)習(xí)訓(xùn)練的主要瓶頸，占據(jù)了約 70% 的總訓(xùn)練時間。因此，該團(tuán)隊(duì)從 rollout 階段著手，將 8 bit 量化技術(shù)應(yīng)用于 rollout 生成，并通過 TIS 技術(shù)在保持下游性能的同時實(shí)現(xiàn)了顯著加速。

眾所周知，F(xiàn)P8 能讓強(qiáng)化學(xué)習(xí)運(yùn)行得更快，但往往以性能下降為代價。

劉力源、姚峰團(tuán)隊(duì)推出 FlashRL，是首個開源且可用的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)方案，在推理執(zhí)行（rollout）階段應(yīng)用 INT8/FP8，并且在性能上與 BF16 持平，沒有性能損失。該團(tuán)隊(duì)在博客中完整發(fā)布了該方法的技術(shù)細(xì)節(jié)。

博客標(biāo)題：FlashRL: 8Bit Rollouts, Full Power RL
博客地址：https://fengyao.notion.site/flash-rl
代碼地址：https://github.com/yaof20/Flash-RL

Rollout 量化可能會降低性能

如圖 1 和圖 2 中「?????」曲線所示，在未使用 TIS 技術(shù)的情況下，采用 FP8 或 INT8 進(jìn)行 rollout 量化，相比 BF16 rollout 會帶來顯著的性能下降。

這一現(xiàn)象是預(yù)期中的，因?yàn)?rollout–訓(xùn)練之間的差異被放大了：rollout 是從量化策略 π_int8 采樣的，但梯度卻是基于高精度策略 π_bf16 計(jì)算的。

這種不匹配會使強(qiáng)化學(xué)習(xí)過程更加偏離策略，從而削弱強(qiáng)化學(xué)習(xí)訓(xùn)練的有效性。

圖 1 左圖：吞吐量加速比。FP8 結(jié)果在 H100 上測試；INT8 結(jié)果分別在 H100 和 A100 上測試。結(jié)果基于不同的響應(yīng)長度和設(shè)備測得。右圖：Qwen2.5-32B 模型在使用 BF16 rollout 與 INT8 rollout 時的 AIME 準(zhǔn)確率對比。所有實(shí)驗(yàn)均采用 BF16 FSDP 訓(xùn)練后端。

FlashRL 的獨(dú)門秘訣

FlashRL 是首個開源且可用的強(qiáng)化學(xué)習(xí)方案，能夠在不犧牲下游性能的前提下使用量化 rollout。

那么，它的「獨(dú)門秘訣」是什么呢？

解決 Rollout–訓(xùn)練不匹配問題

該團(tuán)隊(duì)引入了截?cái)嘀匾圆蓸樱═runcated Importance Sampling，TIS）來減輕 rollout 與訓(xùn)練之間的差距。正如圖 1 和圖 2 中的實(shí)線所示，TIS 使量化 - rollout 訓(xùn)練的性能達(dá)到了與采用 TIS 的 BF16 rollout 訓(xùn)練相同的水平 —— 甚至超過了未使用 TIS 的樸素 BF16 rollout 訓(xùn)練。

作者團(tuán)隊(duì)之前發(fā)表過有關(guān) TIS 的技術(shù)博客，感興趣的讀者可以參考：

博客標(biāo)題：Your Efficient RL Framework Secretly Brings You Off-Policy RL Training
博客鏈接：https://fengyao.notion.site/off-policy-rl

在這里簡單展示一下 TIS 的工作原理。

支持在線量化

現(xiàn)有的推理引擎（如 vLLM）針對大語言模型推理服務(wù)進(jìn)行了優(yōu)化，但在支持帶參數(shù)更新的模型量化方面能力有限。該團(tuán)隊(duì)提供了 Flash-LLM-RL 包，對 vLLM 進(jìn)行了補(bǔ)丁，使其能夠支持這一功能。

如圖所示，F(xiàn)lashRL 的 INT8 可帶來高達(dá) 1.7 倍的吞吐量提升，同時保持 RL 的優(yōu)勢。此外，如果不使用 TIS 而使用 naive FP8/INT8 ，性能將顯著下降。

圖 2 左圖與中圖：在使用量化 rollout 生成的強(qiáng)化學(xué)習(xí)大語言模型訓(xùn)練中，GSM8K 的準(zhǔn)確率表現(xiàn)。請注意，TIS 對緩解分布差異至關(guān)重要。右圖：π_fsdp 與 π_vllm 之間的 KL 散度。需要注意的是，INT8 rollout 的 KL 散度大于 FP8 rollout 的 KL 散度。

FlashRL 能有多快？

比較在強(qiáng)化學(xué)習(xí)訓(xùn)練中采用不同 rollout 精度的吞吐量并不簡單，因?yàn)槟Ｐ蜁粩喔?，對于同一個查詢，不同的量化策略在經(jīng)過一定的 RL 訓(xùn)練迭代后可能會生成長度不同的回復(fù)。

這里將探討 FlashRL 所實(shí)現(xiàn)的加速效果及其對訓(xùn)練效果的影響。

Rollout 加速表現(xiàn)

常規(guī)環(huán)境下的加速：

研究團(tuán)隊(duì)記錄了在 7B、14B 和 32B Deepseek-R1-Distill-Qwen 模型上使用 INT8、FP8 和 BF16 精度的 rollout 吞吐量。

圖 1 顯示了 8 位量化模型相對于 BF16 的加速比。對于較小的 7B 模型，加速比不足 1.2×；而在 32B 模型上，加速比可達(dá) 1.75×。這表明量化對大模型的收益遠(yuǎn)高于小模型?；诜治鼋Y(jié)果，團(tuán)隊(duì)建議僅在模型規(guī)模超過 140 億參數(shù)時使用量化。

內(nèi)存受限環(huán)境下的加速：

研究團(tuán)隊(duì)還評估了在標(biāo)準(zhǔn)推理場景（不涉及 RL）下，采用 8 位量化所能帶來的吞吐量提升。具體而言，團(tuán)隊(duì)測量了 INT8 的加速比，作為壓力測試，用于驗(yàn)證其在 A100/A6000 和 H100 GPU 上的適用性。

使用 vLLM 在相同數(shù)據(jù)集上分別服務(wù) BF16 與 INT8 量化版本的 Deepseek-R1-Distill-Qwen-32B 模型，并在 A100/A6000 和 H100 GPU 上記錄其吞吐量。

圖 3 在 4 種僅推理配置下，INT8 量化的 Deepseek-R1-Distill-Qwen-32B 相對于 BF16 的吞吐量加速比，測量結(jié)果涵蓋不同回復(fù)長度。

如圖 3 所示，當(dāng) GPU 內(nèi)存成為瓶頸時，量化能夠帶來極高的加速比 —— 在 TP2-A6000 配置下生成速度提升超過 3 倍，在 TP1-A100 配置下提升甚至超過 5 倍。這突顯了量化在 GPU 內(nèi)存受限場景（如服務(wù)更大規(guī)模模型）中的巨大潛力。

端到端加速與效果驗(yàn)證

研究團(tuán)隊(duì)將 FlashRL 部署于 DAPO-32B 的訓(xùn)練中，以驗(yàn)證所提方法的有效性。由于在圖 2 中 FP8 相比 INT8 擁有更小的分布差距，特意選擇 INT8 作為更具挑戰(zhàn)性的測試場景。

圖 4 展示了在 BF16 與 INT8 rollout 下的下游性能與訓(xùn)練加速效果。兩種配置在 AIME 基準(zhǔn)上的準(zhǔn)確率相當(dāng)，但 INT8 顯著提高了訓(xùn)練速度。

這些結(jié)果證明，F(xiàn)lashRL 能在不犧牲訓(xùn)練效果的前提下，實(shí)現(xiàn)顯著的訓(xùn)練加速。

圖 4. 左圖：使用 BF16 與 INT8 rollout 精度進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練的下游性能對比。右圖：BF16 與 INT8 rollout 在單位小時內(nèi)可完成的更新步數(shù)。所有實(shí)驗(yàn)均基于 DAPO 配方，在 Qwen2.5-32B 模型上進(jìn)行，訓(xùn)練 250 步，硬件配置為 4 個節(jié)點(diǎn)、每節(jié)點(diǎn)配備 8 張 H100 GPU。

快速使用

使用 FlashRL 只需一條命令！使用 pip install flash-llm-rl 進(jìn)行安裝，并將其應(yīng)用于你自己的 RL 訓(xùn)練，無需修改你的代碼。

FlashRL 方法支持 INT8 和 FP8 量化，兼容最新的 H100 GPU 以及較老的 A100 GPU。

更多方法細(xì)節(jié)，請參閱原博客。

責(zé)任編輯：張燕妮來源：機(jī)器之心

強(qiáng)化學(xué)習(xí)AI 開源

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<thead id="trdwb"></thead>

<wbr id="trdwb"></wbr>