偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

開啟RL Scaling新紀(jì)元,siiRL開源:完全分布式強(qiáng)化學(xué)習(xí)框架,支持超千卡規(guī)模高效訓(xùn)練

人工智能 新聞
來自上海創(chuàng)智學(xué)院的研究團(tuán)隊(duì)正式推出 siiRL,一個(gè)支持大規(guī)模高效強(qiáng)化學(xué)習(xí)訓(xùn)練的 RL 框架!

還在為強(qiáng)化學(xué)習(xí)(RL)框架的擴(kuò)展性瓶頸和效率低下而煩惱嗎?當(dāng)模型和集群規(guī)模達(dá)到上千塊 GPU 時(shí),傳統(tǒng)的中心化控制器架構(gòu)難免會(huì)遇到性能瓶頸、內(nèi)存溢出甚至系統(tǒng)崩潰。

事實(shí)上,當(dāng)前最頂尖的基礎(chǔ)模型,從 DeepSeek-R1,到 o3-pro, Gemini 2.5-pro 和 Claude-4,其卓越的推理能力都離不開大規(guī)模強(qiáng)化學(xué)習(xí)的加持。這充分表明,RL Scaling 已經(jīng)成為大模型領(lǐng)域邁向更高智能的 “軍備競(jìng)賽” 核心,是大勢(shì)所趨。而 xAI 最近發(fā)布的 Grok 4,更是將這一趨勢(shì)推向了新的高度,他們直接在其擁有的 200,000 塊 GPU 大集群上,以前所未有的 “后訓(xùn)練規(guī)?!?來運(yùn)行強(qiáng)化學(xué)習(xí),旨在精進(jìn)模型的推理能力。

Grok 4 和其他頂尖推理模型的成功共同揭示了一個(gè)明確的事實(shí):解決強(qiáng)化學(xué)習(xí)的擴(kuò)展性瓶頸,已不再僅僅是一個(gè)工程挑戰(zhàn),而是解鎖下一代 AI 高級(jí)推理能力、實(shí)現(xiàn)更強(qiáng)通用智能的關(guān)鍵所在。因此,對(duì) RL Scaling 的投入和研究,是未來 AI 發(fā)展的重要方向和核心戰(zhàn)略。

現(xiàn)在,來自上海創(chuàng)智學(xué)院的研究團(tuán)隊(duì)正式推出 siiRL,一個(gè)支持大規(guī)模高效強(qiáng)化學(xué)習(xí)訓(xùn)練的 RL 框架!

siiRL 的核心在于其創(chuàng)新的 多控制器 范式和 全分布式 架構(gòu),它將數(shù)據(jù)加載、計(jì)算和數(shù)據(jù)流轉(zhuǎn)等任務(wù)均勻地分散到所有工作節(jié)點(diǎn),從根本上解決了傳統(tǒng) RL 框架中由單一控制器引發(fā)的性能瓶頸。 

  • 線性擴(kuò)展:全分布式架構(gòu)帶來近乎線性的擴(kuò)展能力,已在 1024 GPU 規(guī)模下成功驗(yàn)證 。
  • 性能再飛躍:徹底消除單點(diǎn)瓶頸,實(shí)現(xiàn)最高達(dá)到 7 倍 的端到端訓(xùn)練吞吐提升 。
  • 極致靈活:基于 DAG 的工作流定義,將算法邏輯與物理資源解耦,讓算法創(chuàng)新和實(shí)驗(yàn)迭代快如閃電,并且能夠更靈活的支持多智能體協(xié)同訓(xùn)練。
  • 跨硬件平臺(tái)兼容:siiRL 現(xiàn)已正式支持華為昇騰(Ascend)NPU,為用戶提供在不同的硬件平臺(tái)上進(jìn)行 RL 訓(xùn)練的高性能選擇。
  • 開箱即用:全面開源,輕松部署。

圖片

  • 論文鏈接: https://arxiv.org/abs/2507.13833 
  • 代碼鏈接: https://github.com/sii-research/siiRL

傳統(tǒng) RL 框架為何遭遇瓶頸?

解構(gòu)單控制器之痛

圖片

圖 1:傳統(tǒng)單控制器架構(gòu)瓶頸。所有數(shù)據(jù)操作(初始加載、中間數(shù)據(jù)流轉(zhuǎn))都需經(jīng)過中心控制器,導(dǎo)致嚴(yán)重的通信開銷和擴(kuò)展限制 。

在主流的強(qiáng)化學(xué)習(xí)框架中,系統(tǒng)通常采用一種混合或單一控制器架構(gòu),即由一個(gè)中心化的控制器節(jié)點(diǎn)來調(diào)度整個(gè)執(zhí)行邏輯和管理數(shù)據(jù)流 。無(wú)論是初始的數(shù)據(jù)集加載,還是各計(jì)算階段間海量中間數(shù)據(jù)的收集與分發(fā),所有數(shù)據(jù)都必須流經(jīng)這個(gè)中心節(jié)點(diǎn) 。

這種設(shè)計(jì)在小規(guī)模下尚可運(yùn)行,但一旦擴(kuò)展到數(shù)百乃至上千 GPU,該中心節(jié)點(diǎn)就會(huì)因巨大的 I/O 和通信開銷而成為系統(tǒng)的性能瓶頸 。更糟糕的是,海量數(shù)據(jù)很容易壓垮中心節(jié)點(diǎn)的內(nèi)存,導(dǎo)致系統(tǒng)崩潰(OOM),從根本上限制了系統(tǒng)的可擴(kuò)展性和穩(wěn)定性 。此外,固化的算法流程也大大增加了研究者進(jìn)行算法創(chuàng)新的難度 。

siiRL 的高效秘訣:全分布式架構(gòu)

為了徹底解決上述痛點(diǎn), siiRL 創(chuàng)新性地采用了 全分布式架構(gòu) 和 多控制器范式,移除了中心節(jié)點(diǎn),將數(shù)據(jù)與計(jì)算的調(diào)度權(quán)下放到每一個(gè)工作單元 。

圖片

圖 2:siiRL 架構(gòu)概覽 

siiRL 的整體設(shè)計(jì)包含三大核心組件:

a. DAG Planner (DAG 規(guī)劃器):用戶可以通過配置文件靈活定義一個(gè)代表完整 RL 工作流的 有向無(wú)環(huán)圖(DAG) 。DAG Planner 負(fù)責(zé)接收這個(gè)邏輯圖,并將其自動(dòng)解析、分解為一系列線性的執(zhí)行任務(wù),分發(fā)給每個(gè) Worker 。這種設(shè)計(jì)將算法邏輯與物理執(zhí)行完全解耦,賦予了研究者極大的靈活性 。

b. DAG Worker (DAG 工作單元):作為框架的基本執(zhí)行單位,每個(gè) DAG Worker 綁定到一個(gè) GPU,并獨(dú)立執(zhí)行由 DAG Planner 分配的任務(wù)鏈 。它通過動(dòng)態(tài)函數(shù)分發(fā)機(jī)制,將 DAG 節(jié)點(diǎn)定義(如角色、類型)與具體的計(jì)算函數(shù)實(shí)現(xiàn)解耦,使得框架極易擴(kuò)展 。

c. Data Coordinator (數(shù)據(jù)協(xié)調(diào)器):它負(fù)責(zé)管理整個(gè)數(shù)據(jù)生命周期,確保數(shù)據(jù)在全分布式系統(tǒng)中的高效、正確流動(dòng) 。

i. Distributed Dataloader:在初始加載階段,每個(gè) Worker 只加載自己所需的數(shù)據(jù)分片,通過并行加載的方式從源頭避免了單點(diǎn)瓶頸 。

ii. Distributed Databuffer:在階段轉(zhuǎn)換時(shí),當(dāng)并行策略(如數(shù)據(jù)并行度)發(fā)生變化,Databuffer 會(huì)自動(dòng)完成跨節(jié)點(diǎn)的數(shù)據(jù)重組與分發(fā),確保數(shù)據(jù)流無(wú)縫銜接 。

圖片

圖 3:Distributed Databuffer 示意圖。當(dāng)數(shù)據(jù)并行從 2(生成階段)變?yōu)?4(訓(xùn)練階段)時(shí),Databuffer 自動(dòng)將數(shù)據(jù)重新切分并分發(fā)給正確的 Worker 。

效果驗(yàn)證:速度與擴(kuò)展性雙豐收,

性能依舊強(qiáng)勁!

我們?cè)诤w 7B 到 72B 的多種模型尺寸和算法上,將 siiRL 與當(dāng)前最主流的開源框架 verl 進(jìn)行了全面對(duì)比。實(shí)驗(yàn)結(jié)果證明了 siiRL 架構(gòu)的巨大優(yōu)勢(shì)。

在 PPO 和 GRPO 算法的端到端訓(xùn)練中,siiRL 的性能全面超越基線。尤其是在數(shù)據(jù)交互量更大的 GRPO 算法下,siiRL 實(shí)現(xiàn)了高達(dá) 2.62 倍 的吞吐提升 。值得注意的是,在訓(xùn)練 72B 模型時(shí),基線框架在 32 卡配置下便遭遇了 OOM 錯(cuò)誤,而 siiRL 則能輕松完成任務(wù)。

圖片

圖片

圖 4:使用 PPO (上) 和 GRPO (下) 算法的端到端吞吐對(duì)比。siiRL(藍(lán)色)在所有模型尺寸和 GPU 規(guī)模上均大幅領(lǐng)先基線框架 verl(紅色) 。

擴(kuò)展性評(píng)估:千卡規(guī)模下的近線性擴(kuò)展

得益于全分布式設(shè)計(jì),siiRL 在擴(kuò)展至 1024 個(gè) GPU 時(shí)仍表現(xiàn)出近乎完美的線性擴(kuò)展能力 。如下圖所示,在訓(xùn)練 32B 模型時(shí),從 64 卡擴(kuò)展至 512 卡,系統(tǒng)依然保持了 80.5% 的線性擴(kuò)展效率 。由于基線框架在同等規(guī)模下無(wú)法運(yùn)行,我們轉(zhuǎn)而測(cè)試其所能支持的最大訓(xùn)練批次大小,在此條件下,siiRL 在 VLM 設(shè)定下實(shí)現(xiàn)了驚人的 7 倍 速度提升。

圖片

圖 5:siiRL 在 VLM 任務(wù)上的擴(kuò)展性評(píng)估,展示了從 32 到 1024 GPU 規(guī)模下的近線性擴(kuò)展能力 。

圖片

圖 6: siiRL 和基線框架在基線框架支持最大訓(xùn)練批次下對(duì)比實(shí)驗(yàn),7B 模型訓(xùn)練吞吐提升最高達(dá)到 7 倍。

數(shù)據(jù)密集型場(chǎng)景:優(yōu)勢(shì)愈發(fā)明顯

在長(zhǎng)上下文這類數(shù)據(jù)密集型任務(wù)中,siiRL 的優(yōu)勢(shì)愈發(fā)凸顯 。隨著上下文長(zhǎng)度從 8k 增加到 64k,siiRL 相對(duì)于基線的領(lǐng)先優(yōu)勢(shì)從 1.48 倍擴(kuò)大到 2.03 倍 。這充分證明,數(shù)據(jù)通信量越大,siiRL 的全分布式數(shù)據(jù)流設(shè)計(jì)的效率提升就越高 。

圖片

圖 7:長(zhǎng)上下文性能評(píng)估。隨著上下文長(zhǎng)度增加,siiRL(藍(lán)色)的性能優(yōu)勢(shì)愈發(fā)顯著 。

收斂性驗(yàn)證:性能提升,精度無(wú)損

為了確保性能提升不以犧牲模型精度為代價(jià),我們進(jìn)行了收斂性對(duì)比實(shí)驗(yàn) 。結(jié)果表明,在完全相同的超參數(shù)下,siiRL 和基線框架的獎(jiǎng)勵(lì)值與熵值曲線幾乎完全重合 。這意味著,siiRL 在將訓(xùn)練總耗時(shí)大幅減少的同時(shí),保證了與基線完全一致的訓(xùn)練效果 。

圖片

圖 8:收斂性對(duì)比。siiRL 與基線框架的訓(xùn)練曲線趨勢(shì)一致,證明其優(yōu)化不影響模型最終精度 。

未來計(jì)劃:

我們基于 DAG 的靈活設(shè)計(jì),為構(gòu)建復(fù)雜的 “多智能體系統(tǒng)” 奠定了天然且堅(jiān)實(shí)的基礎(chǔ)。展望未來,我們計(jì)劃將多智能體支持作為系統(tǒng)的核心特性進(jìn)行重點(diǎn)拓展,這包括支持更復(fù)雜的智能體交互工作流,擴(kuò)展對(duì)多智能體強(qiáng)化學(xué)習(xí)(MARL)算法的兼容性,并實(shí)現(xiàn)更豐富的智能體與環(huán)境的交互機(jī)制,從而將我們的框架打造為一個(gè)功能全面的多智能體研發(fā)平臺(tái)。

總結(jié):

開啟大規(guī)模強(qiáng)化學(xué)習(xí)新紀(jì)元

本文介紹了 siiRL,一個(gè)為解決大規(guī)模 RL 訓(xùn)練中的擴(kuò)展性和靈活性挑戰(zhàn)而設(shè)計(jì)的全新框架 。通過創(chuàng)新的全分布式架構(gòu) 和用戶自定義的 DAG 驅(qū)動(dòng)流程,siiRL 不僅徹底解決了傳統(tǒng)單控制器設(shè)計(jì)的瓶頸問題,實(shí)現(xiàn)了千卡規(guī)模的近線性擴(kuò)展和高達(dá) 7 倍的吞吐提升,還極大地增強(qiáng)了框架的靈活性,加速了算法的創(chuàng)新迭代周期 。

我們相信這項(xiàng)工作為大規(guī)模強(qiáng)化學(xué)習(xí)研究鋪平了道路,提供了一個(gè)更高效、更靈活、真正可擴(kuò)展的解決方案 。歡迎大家試用 siiRL,共同邁向大規(guī)模 AI 的未來!

上海創(chuàng)智學(xué)院 AI Infra 團(tuán)隊(duì)介紹

siiRL 誕生于上海創(chuàng)智學(xué)院產(chǎn)學(xué)研一體化人才培養(yǎng)模式。

  • 團(tuán)隊(duì)成員包括來自國(guó)內(nèi) 31 所頂尖高校的博士生和一線大廠豐富產(chǎn)業(yè)經(jīng)驗(yàn)的導(dǎo)師,含萬(wàn)卡集群建設(shè)者、中國(guó)第一批 CUDA 開發(fā)者、國(guó)產(chǎn)芯片優(yōu)化專家、互聯(lián)網(wǎng)大廠機(jī)器學(xué)習(xí)平臺(tái)負(fù)責(zé)人等。
  • 全鏈路開源:從硬件到框架,代碼 100% 開放。
  • 團(tuán)隊(duì)核心目標(biāo):讓大模型跑在中國(guó)芯,讓 AGI 基石全球共享。
責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2020-06-05 14:49:51

強(qiáng)化學(xué)習(xí)算法框架

2020-10-15 19:22:09

Menger機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

2021-07-22 15:25:14

開源技術(shù) 框架

2020-11-16 08:54:05

Google 開源技術(shù)

2025-06-25 13:44:09

開源訓(xùn)練模型

2023-05-04 15:53:34

強(qiáng)化學(xué)習(xí)開發(fā)

2025-03-28 10:16:15

2025-05-13 13:51:20

模型AI訓(xùn)練

2023-04-19 16:51:54

分布式Primus開源

2025-06-05 08:40:00

2020-12-25 13:56:27

數(shù)據(jù)庫(kù)易用穩(wěn)定

2020-01-16 15:57:36

AI 數(shù)據(jù)人工智能

2017-09-11 15:19:05

CoCoA機(jī)器學(xué)習(xí)分布式

2023-11-08 10:25:00

模型技術(shù)

2022-03-09 08:05:26

框架分布式開源

2010-06-03 19:46:44

Hadoop

2021-09-09 15:45:17

機(jī)器學(xué)習(xí)人工智能Ray

2017-10-27 08:40:44

分布式存儲(chǔ)剪枝系統(tǒng)

2017-09-01 05:35:58

分布式計(jì)算存儲(chǔ)

2025-08-08 09:15:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)