偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<thead id="dt6vp"><delect id="dt6vp"></delect></thead>

<wbr id="dt6vp"><fieldset id="dt6vp"></fieldset></wbr>

<thead id="dt6vp"></thead>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

開啟RL Scaling新紀(jì)元，siiRL開源：完全分布式強(qiáng)化學(xué)習(xí)框架，支持超千卡規(guī)模高效訓(xùn)練

2025-07-30 09:12:00

人工智能新聞

來自上海創(chuàng)智學(xué)院的研究團(tuán)隊(duì)正式推出 siiRL，一個(gè)支持大規(guī)模高效強(qiáng)化學(xué)習(xí)訓(xùn)練的 RL 框架！

還在為強(qiáng)化學(xué)習(xí)（RL）框架的擴(kuò)展性瓶頸和效率低下而煩惱嗎？當(dāng)模型和集群規(guī)模達(dá)到上千塊 GPU 時(shí)，傳統(tǒng)的中心化控制器架構(gòu)難免會(huì)遇到性能瓶頸、內(nèi)存溢出甚至系統(tǒng)崩潰。

事實(shí)上，當(dāng)前最頂尖的基礎(chǔ)模型，從 DeepSeek-R1，到 o3-pro， Gemini 2.5-pro 和 Claude-4，其卓越的推理能力都離不開大規(guī)模強(qiáng)化學(xué)習(xí)的加持。這充分表明，RL Scaling 已經(jīng)成為大模型領(lǐng)域邁向更高智能的 “軍備競(jìng)賽” 核心，是大勢(shì)所趨。而 xAI 最近發(fā)布的 Grok 4，更是將這一趨勢(shì)推向了新的高度，他們直接在其擁有的 200,000 塊 GPU 大集群上，以前所未有的 “后訓(xùn)練規(guī)?！?來運(yùn)行強(qiáng)化學(xué)習(xí)，旨在精進(jìn)模型的推理能力。

Grok 4 和其他頂尖推理模型的成功共同揭示了一個(gè)明確的事實(shí)：解決強(qiáng)化學(xué)習(xí)的擴(kuò)展性瓶頸，已不再僅僅是一個(gè)工程挑戰(zhàn)，而是解鎖下一代 AI 高級(jí)推理能力、實(shí)現(xiàn)更強(qiáng)通用智能的關(guān)鍵所在。因此，對(duì) RL Scaling 的投入和研究，是未來 AI 發(fā)展的重要方向和核心戰(zhàn)略。

現(xiàn)在，來自上海創(chuàng)智學(xué)院的研究團(tuán)隊(duì)正式推出 siiRL，一個(gè)支持大規(guī)模高效強(qiáng)化學(xué)習(xí)訓(xùn)練的 RL 框架！

siiRL 的核心在于其創(chuàng)新的多控制器范式和全分布式架構(gòu)，它將數(shù)據(jù)加載、計(jì)算和數(shù)據(jù)流轉(zhuǎn)等任務(wù)均勻地分散到所有工作節(jié)點(diǎn)，從根本上解決了傳統(tǒng) RL 框架中由單一控制器引發(fā)的性能瓶頸。

線性擴(kuò)展：全分布式架構(gòu)帶來近乎線性的擴(kuò)展能力，已在 1024 GPU 規(guī)模下成功驗(yàn)證。
性能再飛躍：徹底消除單點(diǎn)瓶頸，實(shí)現(xiàn)最高達(dá)到 7 倍的端到端訓(xùn)練吞吐提升。
極致靈活：基于 DAG 的工作流定義，將算法邏輯與物理資源解耦，讓算法創(chuàng)新和實(shí)驗(yàn)迭代快如閃電，并且能夠更靈活的支持多智能體協(xié)同訓(xùn)練。
跨硬件平臺(tái)兼容：siiRL 現(xiàn)已正式支持華為昇騰（Ascend）NPU，為用戶提供在不同的硬件平臺(tái)上進(jìn)行 RL 訓(xùn)練的高性能選擇。
開箱即用：全面開源，輕松部署。

論文鏈接: https://arxiv.org/abs/2507.13833
代碼鏈接： https://github.com/sii-research/siiRL

傳統(tǒng) RL 框架為何遭遇瓶頸？

解構(gòu)單控制器之痛

圖 1：傳統(tǒng)單控制器架構(gòu)瓶頸。所有數(shù)據(jù)操作（初始加載、中間數(shù)據(jù)流轉(zhuǎn)）都需經(jīng)過中心控制器，導(dǎo)致嚴(yán)重的通信開銷和擴(kuò)展限制。

在主流的強(qiáng)化學(xué)習(xí)框架中，系統(tǒng)通常采用一種混合或單一控制器架構(gòu)，即由一個(gè)中心化的控制器節(jié)點(diǎn)來調(diào)度整個(gè)執(zhí)行邏輯和管理數(shù)據(jù)流。無(wú)論是初始的數(shù)據(jù)集加載，還是各計(jì)算階段間海量中間數(shù)據(jù)的收集與分發(fā)，所有數(shù)據(jù)都必須流經(jīng)這個(gè)中心節(jié)點(diǎn) 。

這種設(shè)計(jì)在小規(guī)模下尚可運(yùn)行，但一旦擴(kuò)展到數(shù)百乃至上千 GPU，該中心節(jié)點(diǎn)就會(huì)因巨大的 I/O 和通信開銷而成為系統(tǒng)的性能瓶頸。更糟糕的是，海量數(shù)據(jù)很容易壓垮中心節(jié)點(diǎn)的內(nèi)存，導(dǎo)致系統(tǒng)崩潰（OOM），從根本上限制了系統(tǒng)的可擴(kuò)展性和穩(wěn)定性。此外，固化的算法流程也大大增加了研究者進(jìn)行算法創(chuàng)新的難度。

siiRL 的高效秘訣：全分布式架構(gòu)

為了徹底解決上述痛點(diǎn)， siiRL 創(chuàng)新性地采用了全分布式架構(gòu) 和多控制器范式，移除了中心節(jié)點(diǎn)，將數(shù)據(jù)與計(jì)算的調(diào)度權(quán)下放到每一個(gè)工作單元。

圖 2：siiRL 架構(gòu)概覽

siiRL 的整體設(shè)計(jì)包含三大核心組件：

a. DAG Planner (DAG 規(guī)劃器)：用戶可以通過配置文件靈活定義一個(gè)代表完整 RL 工作流的有向無(wú)環(huán)圖（DAG）。DAG Planner 負(fù)責(zé)接收這個(gè)邏輯圖，并將其自動(dòng)解析、分解為一系列線性的執(zhí)行任務(wù)，分發(fā)給每個(gè) Worker 。這種設(shè)計(jì)將算法邏輯與物理執(zhí)行完全解耦，賦予了研究者極大的靈活性。

b. DAG Worker (DAG 工作單元)：作為框架的基本執(zhí)行單位，每個(gè) DAG Worker 綁定到一個(gè) GPU，并獨(dú)立執(zhí)行由 DAG Planner 分配的任務(wù)鏈。它通過動(dòng)態(tài)函數(shù)分發(fā)機(jī)制，將 DAG 節(jié)點(diǎn)定義（如角色、類型）與具體的計(jì)算函數(shù)實(shí)現(xiàn)解耦，使得框架極易擴(kuò)展。

c. Data Coordinator (數(shù)據(jù)協(xié)調(diào)器)：它負(fù)責(zé)管理整個(gè)數(shù)據(jù)生命周期，確保數(shù)據(jù)在全分布式系統(tǒng)中的高效、正確流動(dòng) 。

i. Distributed Dataloader：在初始加載階段，每個(gè) Worker 只加載自己所需的數(shù)據(jù)分片，通過并行加載的方式從源頭避免了單點(diǎn)瓶頸。

ii. Distributed Databuffer：在階段轉(zhuǎn)換時(shí)，當(dāng)并行策略（如數(shù)據(jù)并行度）發(fā)生變化，Databuffer 會(huì)自動(dòng)完成跨節(jié)點(diǎn)的數(shù)據(jù)重組與分發(fā)，確保數(shù)據(jù)流無(wú)縫銜接。

圖 3：Distributed Databuffer 示意圖。當(dāng)數(shù)據(jù)并行從 2（生成階段）變?yōu)?4（訓(xùn)練階段）時(shí)，Databuffer 自動(dòng)將數(shù)據(jù)重新切分并分發(fā)給正確的 Worker 。

效果驗(yàn)證：速度與擴(kuò)展性雙豐收，

性能依舊強(qiáng)勁！

我們?cè)诤w 7B 到 72B 的多種模型尺寸和算法上，將 siiRL 與當(dāng)前最主流的開源框架 verl 進(jìn)行了全面對(duì)比。實(shí)驗(yàn)結(jié)果證明了 siiRL 架構(gòu)的巨大優(yōu)勢(shì)。

在 PPO 和 GRPO 算法的端到端訓(xùn)練中，siiRL 的性能全面超越基線。尤其是在數(shù)據(jù)交互量更大的 GRPO 算法下，siiRL 實(shí)現(xiàn)了高達(dá) 2.62 倍的吞吐提升。值得注意的是，在訓(xùn)練 72B 模型時(shí)，基線框架在 32 卡配置下便遭遇了 OOM 錯(cuò)誤，而 siiRL 則能輕松完成任務(wù)。

圖 4：使用 PPO (上) 和 GRPO (下) 算法的端到端吞吐對(duì)比。siiRL（藍(lán)色）在所有模型尺寸和 GPU 規(guī)模上均大幅領(lǐng)先基線框架 verl（紅色）。

擴(kuò)展性評(píng)估：千卡規(guī)模下的近線性擴(kuò)展

得益于全分布式設(shè)計(jì)，siiRL 在擴(kuò)展至 1024 個(gè) GPU 時(shí)仍表現(xiàn)出近乎完美的線性擴(kuò)展能力。如下圖所示，在訓(xùn)練 32B 模型時(shí)，從 64 卡擴(kuò)展至 512 卡，系統(tǒng)依然保持了 80.5% 的線性擴(kuò)展效率。由于基線框架在同等規(guī)模下無(wú)法運(yùn)行，我們轉(zhuǎn)而測(cè)試其所能支持的最大訓(xùn)練批次大小，在此條件下，siiRL 在 VLM 設(shè)定下實(shí)現(xiàn)了驚人的 7 倍速度提升。

圖 5：siiRL 在 VLM 任務(wù)上的擴(kuò)展性評(píng)估，展示了從 32 到 1024 GPU 規(guī)模下的近線性擴(kuò)展能力。

圖 6： siiRL 和基線框架在基線框架支持最大訓(xùn)練批次下對(duì)比實(shí)驗(yàn)，7B 模型訓(xùn)練吞吐提升最高達(dá)到 7 倍。

數(shù)據(jù)密集型場(chǎng)景：優(yōu)勢(shì)愈發(fā)明顯

在長(zhǎng)上下文這類數(shù)據(jù)密集型任務(wù)中，siiRL 的優(yōu)勢(shì)愈發(fā)凸顯。隨著上下文長(zhǎng)度從 8k 增加到 64k，siiRL 相對(duì)于基線的領(lǐng)先優(yōu)勢(shì)從 1.48 倍擴(kuò)大到 2.03 倍。這充分證明，數(shù)據(jù)通信量越大，siiRL 的全分布式數(shù)據(jù)流設(shè)計(jì)的效率提升就越高。

圖 7：長(zhǎng)上下文性能評(píng)估。隨著上下文長(zhǎng)度增加，siiRL（藍(lán)色）的性能優(yōu)勢(shì)愈發(fā)顯著。

收斂性驗(yàn)證：性能提升，精度無(wú)損

為了確保性能提升不以犧牲模型精度為代價(jià)，我們進(jìn)行了收斂性對(duì)比實(shí)驗(yàn) 。結(jié)果表明，在完全相同的超參數(shù)下，siiRL 和基線框架的獎(jiǎng)勵(lì)值與熵值曲線幾乎完全重合。這意味著，siiRL 在將訓(xùn)練總耗時(shí)大幅減少的同時(shí)，保證了與基線完全一致的訓(xùn)練效果。

圖 8：收斂性對(duì)比。siiRL 與基線框架的訓(xùn)練曲線趨勢(shì)一致，證明其優(yōu)化不影響模型最終精度。

未來計(jì)劃：

我們基于 DAG 的靈活設(shè)計(jì)，為構(gòu)建復(fù)雜的 “多智能體系統(tǒng)” 奠定了天然且堅(jiān)實(shí)的基礎(chǔ)。展望未來，我們計(jì)劃將多智能體支持作為系統(tǒng)的核心特性進(jìn)行重點(diǎn)拓展，這包括支持更復(fù)雜的智能體交互工作流，擴(kuò)展對(duì)多智能體強(qiáng)化學(xué)習(xí)（MARL）算法的兼容性，并實(shí)現(xiàn)更豐富的智能體與環(huán)境的交互機(jī)制，從而將我們的框架打造為一個(gè)功能全面的多智能體研發(fā)平臺(tái)。

總結(jié)：

開啟大規(guī)模強(qiáng)化學(xué)習(xí)新紀(jì)元

本文介紹了 siiRL，一個(gè)為解決大規(guī)模 RL 訓(xùn)練中的擴(kuò)展性和靈活性挑戰(zhàn)而設(shè)計(jì)的全新框架。通過創(chuàng)新的全分布式架構(gòu) 和用戶自定義的 DAG 驅(qū)動(dòng)流程，siiRL 不僅徹底解決了傳統(tǒng)單控制器設(shè)計(jì)的瓶頸問題，實(shí)現(xiàn)了千卡規(guī)模的近線性擴(kuò)展和高達(dá) 7 倍的吞吐提升，還極大地增強(qiáng)了框架的靈活性，加速了算法的創(chuàng)新迭代周期。

我們相信這項(xiàng)工作為大規(guī)模強(qiáng)化學(xué)習(xí)研究鋪平了道路，提供了一個(gè)更高效、更靈活、真正可擴(kuò)展的解決方案。歡迎大家試用 siiRL，共同邁向大規(guī)模 AI 的未來！

上海創(chuàng)智學(xué)院 AI Infra 團(tuán)隊(duì)介紹

siiRL 誕生于上海創(chuàng)智學(xué)院產(chǎn)學(xué)研一體化人才培養(yǎng)模式。

團(tuán)隊(duì)成員包括來自國(guó)內(nèi) 31 所頂尖高校的博士生和一線大廠豐富產(chǎn)業(yè)經(jīng)驗(yàn)的導(dǎo)師，含萬(wàn)卡集群建設(shè)者、中國(guó)第一批 CUDA 開發(fā)者、國(guó)產(chǎn)芯片優(yōu)化專家、互聯(lián)網(wǎng)大廠機(jī)器學(xué)習(xí)平臺(tái)負(fù)責(zé)人等。
全鏈路開源：從硬件到框架，代碼 100% 開放。
團(tuán)隊(duì)核心目標(biāo)：讓大模型跑在中國(guó)芯，讓 AGI 基石全球共享。

責(zé)任編輯：張燕妮來源：機(jī)器之心

強(qiáng)化學(xué)習(xí)AI 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<acronym id="fn5cm"></acronym>