偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

讓強(qiáng)化學(xué)習(xí)快如閃電:FlashRL一條命令實(shí)現(xiàn)極速Rollout,已全部開源

人工智能 新聞
中國科學(xué)技術(shù)大學(xué)校友,伊利諾伊大學(xué)香檳分校博士,微軟研究院的首席研究員劉力源、清華大學(xué)校友,加州大學(xué)圣地亞哥分校計(jì)算機(jī)科學(xué)與工程學(xué)院博士生姚峰團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)的研究中更進(jìn)一步。

在今年三月份,清華 AIR 和字節(jié)聯(lián)合 SIA Lab 發(fā)布了 DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪輯和動態(tài)采樣策略優(yōu)化)。這是一個可實(shí)現(xiàn)大規(guī)模 LLM 強(qiáng)化學(xué)習(xí)的開源 SOTA 系統(tǒng),使用該算法,該團(tuán)隊(duì)成功讓 Qwen2.5-32B 模型在 AIME 2024 基準(zhǔn)上獲得了 50 分,我們也做了相關(guān)報道。

image.png

  • 論文地址:https://dapo-sia.github.io/static/pdf/dapo_paper.pdf
  • 代碼地址:https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo

中國科學(xué)技術(shù)大學(xué)校友,伊利諾伊大學(xué)香檳分校博士,微軟研究院的首席研究員劉源、清華大學(xué)校友,加州大學(xué)圣地亞哥分校計(jì)算機(jī)科學(xué)與工程學(xué)院博士生姚峰團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)的研究中更進(jìn)一步。

該團(tuán)隊(duì)發(fā)現(xiàn),在 DAPO-32B 中,rollout 生成是強(qiáng)化學(xué)習(xí)訓(xùn)練的主要瓶頸,占據(jù)了約 70% 的總訓(xùn)練時間。因此,該團(tuán)隊(duì)從 rollout 階段著手,將 8 bit 量化技術(shù)應(yīng)用于 rollout 生成,并通過 TIS 技術(shù)在保持下游性能的同時實(shí)現(xiàn)了顯著加速。

眾所周知,F(xiàn)P8 能讓強(qiáng)化學(xué)習(xí)運(yùn)行得更快,但往往以性能下降為代價。

劉力源、姚峰團(tuán)隊(duì)推出 FlashRL,是首個開源且可用的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)方案,在推理執(zhí)行(rollout)階段應(yīng)用 INT8/FP8,并且在性能上與 BF16 持平,沒有性能損失。該團(tuán)隊(duì)在博客中完整發(fā)布了該方法的技術(shù)細(xì)節(jié)。

image.png


  • 博客標(biāo)題:FlashRL: 8Bit Rollouts, Full Power RL
  • 博客地址:https://fengyao.notion.site/flash-rl
  • 代碼地址:https://github.com/yaof20/Flash-RL

Rollout 量化可能會降低性能

如圖 1 和圖 2 中 「?????」 曲線所示,在未使用 TIS 技術(shù)的情況下,采用 FP8 或 INT8 進(jìn)行 rollout 量化,相比 BF16 rollout 會帶來顯著的性能下降。

這一現(xiàn)象是預(yù)期中的,因?yàn)?rollout–訓(xùn)練之間的差異被放大了:rollout 是從量化策略 π_int8 采樣的,但梯度卻是基于高精度策略 π_bf16 計(jì)算的。

image.png

這種不匹配會使強(qiáng)化學(xué)習(xí)過程更加偏離策略,從而削弱強(qiáng)化學(xué)習(xí)訓(xùn)練的有效性。

image.png

圖 1  左圖:吞吐量加速比。FP8 結(jié)果在 H100 上測試;INT8 結(jié)果分別在 H100 和 A100 上測試。結(jié)果基于不同的響應(yīng)長度和設(shè)備測得。右圖:Qwen2.5-32B 模型在使用 BF16 rollout 與 INT8 rollout 時的 AIME 準(zhǔn)確率對比。所有實(shí)驗(yàn)均采用 BF16 FSDP 訓(xùn)練后端。

FlashRL 的獨(dú)門秘訣

FlashRL 是首個開源且可用的強(qiáng)化學(xué)習(xí)方案,能夠在不犧牲下游性能的前提下使用量化 rollout。

那么,它的「獨(dú)門秘訣」是什么呢?

解決 Rollout–訓(xùn)練不匹配問題

該團(tuán)隊(duì)引入了截?cái)嘀匾圆蓸樱═runcated Importance Sampling,TIS)來減輕 rollout 與訓(xùn)練之間的差距。正如圖 1 和圖 2 中的實(shí)線所示,TIS 使量化 - rollout 訓(xùn)練的性能達(dá)到了與采用 TIS 的 BF16 rollout 訓(xùn)練相同的水平 —— 甚至超過了未使用 TIS 的樸素 BF16 rollout 訓(xùn)練。

作者團(tuán)隊(duì)之前發(fā)表過有關(guān) TIS 的技術(shù)博客,感興趣的讀者可以參考:

image.png

  • 博客標(biāo)題:Your Efficient RL Framework Secretly Brings You Off-Policy RL Training
  • 博客鏈接:https://fengyao.notion.site/off-policy-rl

在這里簡單展示一下 TIS 的工作原理。

image.png

支持在線量化

現(xiàn)有的推理引擎(如 vLLM)針對大語言模型推理服務(wù)進(jìn)行了優(yōu)化,但在支持帶參數(shù)更新的模型量化方面能力有限。該團(tuán)隊(duì)提供了 Flash-LLM-RL 包,對 vLLM 進(jìn)行了補(bǔ)丁,使其能夠支持這一功能。

如圖所示,F(xiàn)lashRL 的 INT8 可帶來高達(dá) 1.7 倍的吞吐量提升,同時保持 RL 的優(yōu)勢。此外,如果不使用 TIS 而使用 naive FP8/INT8 ,性能將顯著下降。

image.png

圖 2  左圖與中圖:在使用量化 rollout 生成的強(qiáng)化學(xué)習(xí)大語言模型訓(xùn)練中,GSM8K 的準(zhǔn)確率表現(xiàn)。請注意,TIS 對緩解分布差異至關(guān)重要。右圖:π_fsdp 與 π_vllm 之間的 KL 散度。需要注意的是,INT8 rollout 的 KL 散度大于 FP8 rollout 的 KL 散度。

FlashRL 能有多快?

比較在強(qiáng)化學(xué)習(xí)訓(xùn)練中采用不同 rollout 精度的吞吐量并不簡單,因?yàn)槟P蜁粩喔?,對于同一個查詢,不同的量化策略在經(jīng)過一定的 RL 訓(xùn)練迭代后可能會生成長度不同的回復(fù)。

這里將探討 FlashRL 所實(shí)現(xiàn)的加速效果及其對訓(xùn)練效果的影響。

Rollout 加速表現(xiàn)

常規(guī)環(huán)境下的加速:

研究團(tuán)隊(duì)記錄了在 7B、14B 和 32B Deepseek-R1-Distill-Qwen 模型上使用 INT8、FP8 和 BF16 精度的 rollout 吞吐量。

圖 1 顯示了 8 位量化模型相對于 BF16 的加速比。對于較小的 7B 模型,加速比不足 1.2×;而在 32B 模型上,加速比可達(dá) 1.75×。這表明量化對大模型的收益遠(yuǎn)高于小模型?;诜治鼋Y(jié)果,團(tuán)隊(duì)建議僅在模型規(guī)模超過 140 億參數(shù)時使用量化。

內(nèi)存受限環(huán)境下的加速:

研究團(tuán)隊(duì)還評估了在標(biāo)準(zhǔn)推理場景(不涉及 RL)下,采用 8 位量化所能帶來的吞吐量提升。具體而言,團(tuán)隊(duì)測量了 INT8 的加速比,作為壓力測試,用于驗(yàn)證其在 A100/A6000 和 H100 GPU 上的適用性。

使用 vLLM 在相同數(shù)據(jù)集上分別服務(wù) BF16 與 INT8 量化版本的 Deepseek-R1-Distill-Qwen-32B 模型,并在 A100/A6000 和 H100 GPU 上記錄其吞吐量。

image.png

圖 3  在 4 種僅推理配置下,INT8 量化的 Deepseek-R1-Distill-Qwen-32B 相對于 BF16 的吞吐量加速比,測量結(jié)果涵蓋不同回復(fù)長度。

如圖 3 所示,當(dāng) GPU 內(nèi)存成為瓶頸時,量化能夠帶來極高的加速比 —— 在 TP2-A6000 配置下生成速度提升超過 3 倍,在 TP1-A100 配置下提升甚至超過 5 倍。這突顯了量化在 GPU 內(nèi)存受限場景(如服務(wù)更大規(guī)模模型)中的巨大潛力。

端到端加速與效果驗(yàn)證

研究團(tuán)隊(duì)將 FlashRL 部署于 DAPO-32B 的訓(xùn)練中,以驗(yàn)證所提方法的有效性。由于在圖 2 中 FP8 相比 INT8 擁有更小的分布差距,特意選擇 INT8 作為更具挑戰(zhàn)性的測試場景。

圖 4 展示了在 BF16 與 INT8 rollout 下的下游性能與訓(xùn)練加速效果。兩種配置在 AIME 基準(zhǔn)上的準(zhǔn)確率相當(dāng),但 INT8 顯著提高了訓(xùn)練速度。

這些結(jié)果證明,F(xiàn)lashRL 能在不犧牲訓(xùn)練效果的前提下,實(shí)現(xiàn)顯著的訓(xùn)練加速。

image.png

圖 4. 左圖:使用 BF16 與 INT8 rollout 精度進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練的下游性能對比。右圖:BF16 與 INT8 rollout 在單位小時內(nèi)可完成的更新步數(shù)。所有實(shí)驗(yàn)均基于 DAPO 配方,在 Qwen2.5-32B 模型上進(jìn)行,訓(xùn)練 250 步,硬件配置為 4 個節(jié)點(diǎn)、每節(jié)點(diǎn)配備 8 張 H100 GPU。

快速使用

使用 FlashRL 只需一條命令! 使用 pip install flash-llm-rl 進(jìn)行安裝,并將其應(yīng)用于你自己的 RL 訓(xùn)練,無需修改你的代碼。

FlashRL 方法支持 INT8 和 FP8 量化,兼容最新的 H100 GPU 以及較老的 A100 GPU。

image.png

更多方法細(xì)節(jié),請參閱原博客。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-04-02 09:30:00

2024-01-26 06:15:44

PythonCPython技巧

2024-08-19 08:54:02

2019-09-09 16:30:42

Redis架構(gòu)數(shù)據(jù)庫

2025-05-12 08:20:13

2023-08-11 07:20:04

開源工具項(xiàng)目

2025-07-22 07:43:26

2025-09-28 08:58:55

2017-08-14 10:52:17

小米MIUIMIUI9

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2025-04-08 08:10:00

C#代碼編程

2020-05-21 21:36:54

Windows 10Windows 7Windows

2016-12-07 08:36:58

2019-09-29 10:42:02

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-02-01 18:07:37

2023-09-12 13:28:36

AI模型

2023-06-25 11:30:47

可視化

2021-10-26 22:25:24

Windows 11Windows微軟

2025-05-08 09:16:00

模型強(qiáng)化學(xué)習(xí)訓(xùn)練

2020-11-16 08:54:05

Google 開源技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號