英偉達&MIT等推出Long-RL,長視頻訓練速度翻倍
請想象……
一個 AI—— 它要完整看完一場幾十分鐘的世界杯決賽,不只是數(shù)球門數(shù),更要跨越上百個鏡頭的線索、情緒、戰(zhàn)術(shù)細節(jié),甚至要像人一樣推斷:誰會贏點球大戰(zhàn)?

足球比賽預測分析
預測《星際爭霸 2》這樣的即時戰(zhàn)略游戲同樣需要考慮許多不同的變量,難度也非常巨大。

星際爭霸 2 比賽預測分析
再換個場景:同樣是 AI,在一場緊張的德州撲克超級豪客賽上,面對職業(yè)牌手的每一次下注、加注、棄牌,能否像一個頂尖牌手一樣,推理出對手藏在手里的那兩張底牌?

德州撲克比賽猜牌
不只是「看」,還要記住所有公共牌、下注順序、翻牌后的心理博弈,甚至對手的打法偏好 —— 然后在最后一張河牌翻開時,做出最優(yōu)推斷。
再換一個小游戲:三只杯子,一顆小球。人盯著屏幕都可能跟丟,AI 能不能像魔術(shù)師一樣,在上百幀交換里牢牢盯住那顆小球的位置?

移動杯子猜測小球位置
這背后,AI 需要的不只是「識別」,更是跨時域、跨模態(tài)的推理、記憶和博弈洞察。
這,正是 Long-RL 想要解決的挑戰(zhàn):如何讓大模型在面對長視頻和復雜策略推理時,不只是看見,更能理解和推演。
今天,視覺語言模型(VLM)和大語言模型(LLM)越來越強,但現(xiàn)實里,當它們需要處理小時級視頻、多模態(tài)輸入、需要長時一致性和上下文推理時,傳統(tǒng)的開源方案往往力不從心。
要跑長序列?顯存炸了。
要多模態(tài)?上下游兼容難。
要 RL 高效?采樣慢,回報低。
針對這些難題,英偉達近日聯(lián)合 MIT、香港大學、UC Berkeley 重磅推出 Long-RL,其能提升 RL 訓練數(shù)據(jù)長度上限,讓訓練速度翻倍。

- 論文:Scaling RL to Long Videos
- 項目地址:https://github.com/NVlabs/Long-RL
- 論文鏈接:https://arxiv.org/abs/2507.07966
簡單來說,Long-RL 是一個真正面向長序列推理和多模態(tài)強化學習的全棧訓練框架。支持小時級長視頻 RL:單機可穩(wěn)定訓練 3600 幀(256k tokens)。
Long-RL 的核心是 MR-SP 并行框架
MR-SP 的全稱是 Multi-modal Reinforcement Sequence Parallelism,即多模態(tài)強化序列并行,可在不同幀數(shù)下顯著降低長視頻推理的訓練耗時和顯存:啟用 MR-SP 后,訓練速度提升可達 2.1×,而傳統(tǒng)方案會因顯存不足直接 OOM。

那么,這是如何做到的呢?具體來說,MR-SP 分為兩個階段。

Multi-modal Reinforcement Sequence Parallel (MR-SP) 系統(tǒng)
其中,第 1 階段是使用并行編碼的 Rollout。
為了高效地支持長視頻強化學習,該團隊在視頻編碼階段采用了序列并行 (SP) 機制。
如上圖左所示,輸入視頻幀首先會被均勻地分配到多臺 GPU(例如,GPU 1 至 GPU 3)上,每臺 GPU 都配備了各自的視覺塔(vision tower)。每臺 GPU 獨立處理視頻的一部分,并且僅對其中一部分幀進行編碼。然后,生成的視頻嵌入將通過 all-gather 操作與文本嵌入進行聚合,如圖中 All-Gather 箭頭所示。此策略可分散編碼工作負載,使系統(tǒng)能夠利用更多 GPU 來處理更長的視頻,同時避免 GPU 內(nèi)存溢出的風險。
并行編碼方案可確保視覺塔的均衡利用,并實現(xiàn)可擴展的長視頻處理,而這在單臺設(shè)備上是無法實現(xiàn)的。
視頻嵌入在被全局收集后,將在整個強化學習流程中被下游重復使用。
如上圖所示,收集到的嵌入在多次 rollout 過程中可重復使用,且無需重新計算。例如,在每個訓練步驟中,通常會執(zhí)行 8 到 16 次 rollout。如果不進行回收,同一視頻每一步都需要重新編碼數(shù)十次,這會嚴重影響訓練速度。通過緩存和重用收集到的嵌入,MR-SP 可消除這種冗余,并顯著加快訓練速度。
第 2 階段則是使用序列并行進行預填充。
對于每次 rollout,參考模型和策略模型都需要在強化學習中對長視頻進行計算密集型預填充。通過復用第 1 階段收集到的嵌入,可使用序列并行在各個設(shè)備之間并行化推理階段。
如上圖右所示,這里的方案是全局收集輸入嵌入 —— 這些嵌入首先會被填充到統(tǒng)一長度(Padding Sequence),然后均勻地分配到各臺 GPU(Sharding to Local GPU)。
這樣一來,每臺 GPU 在預填充期間只需處理輸入序列的一部分。這種并行性適用于策略和參考模型的預填充。然后,每臺 GPU 會在本地計算其 token 切片的 logit,并且并行進行預填充。
Long-RL 也是一個多模態(tài) RL 工具箱
該團隊也將 Long-RL 打造成了一個完整的多模態(tài) RL 工具箱,能適配:
- 多模型:除了 VILA 系列、Qwen/Qwen-VL 系列這些 LLMs/VLMs,也支持 Stable Diffusion、Wan 等生成模型。
- 多算法:GRPO、DAPO、Reinforce,一行切換。
- 多模態(tài):不僅文本,視頻、音頻一起上。

LongVILA-R1
使用 Long-RL,英偉達的這個團隊構(gòu)建了 LongVILA-R1 訓練框架。從名字也能看到出來,這個訓練框架基于 VILA—— 一個同樣來自該公司的視覺-語言模型(VLM),詳見論文《VILA: On Pre-training for Visual Language Models》。
訓練流程方面,LongVILA-R1 基于 LongVILA 的基礎(chǔ)訓練流程,然后進一步使用 MM-SP 以通過長 CoT 在長視頻理解任務進行 SFT。然后,通過多模態(tài)強化序列并行 (MR-SP) 進行強化 scaling 學習。

LongVILA-R1 訓練流程
框架上,LongVILA-R1 集成了 MR-SP 來實現(xiàn)可擴展視頻幀編碼和 LLM 預填充。強化學習采用了基于 vLLM 的引擎,并帶有緩存的視頻嵌入,并針對 LongVILA rollout 進行了定制。針對準確度和格式的獎勵將作為策略優(yōu)化的引導。

LongVILA-R1 強化學習訓練框架
LongVILA-R1 可以說是 Long-RL 的「明星學員」,專門攻克長視頻推理這塊硬骨頭。
總結(jié)起來,它的創(chuàng)新點可以用三個關(guān)鍵詞概括:
- 大規(guī)模高質(zhì)量數(shù)據(jù) LongVideo-Reason:52K 長視頻推理樣本,涵蓋 Temporal / Goal / Spatial / Plot 四大類推理。
- 兩階段訓練:先用 CoT-SFT 把鏈式推理打基礎(chǔ),再用 RL 強化泛化,學得更穩(wěn)更深。
- MR-SP 高效并行:多模態(tài)長序列并行,特征可復用,一次緩存多次用。

大規(guī)模數(shù)據(jù)集 LongVideo-Reason
效果如何?
在 LongVideo-Reason-eval 這種強推理基準上,隨著幀數(shù)增加,加入推理顯著提高了準確度,并且相比無推理設(shè)置優(yōu)勢逐漸擴大。

該團隊也通過消融實驗驗證了各組件的有效性。

在真實世界里,無論是看一場完整的足球賽、跟人多輪對話,還是讓機器人長時間工作,都需要 AI 能在長時間里保留上下文、持續(xù)推理,并根據(jù)反饋自我調(diào)整。這正是強化學習(RL)擅長的:不斷試錯、獲取回報、做出更優(yōu)決策。
該團隊表示:只有把 RL 和長序列推理結(jié)合起來,AI 才可能跨越「一次推理」走向「持續(xù)智能」—— 這也是 AGI 的必經(jīng)之路。
研究團隊

陳玉康現(xiàn)任 NVIDIA 研究科學家,于香港中文大學獲得博士學位,從事大語言模型(LLM)、視覺語言模型(VLM)、高效深度學習等方面研究。目前已在國際頂級會議和期刊發(fā)表論文 30 余篇;多項研究成果在 ICLR、CVPR 等頂級會議上獲選口頭報告,并在 Google Scholar 上累計引用超過 5,000 次,代表作包括 VoxelNeXt, LongLoRA, LongVILA, Long-RL. 他作為第一作者主導的多個開源項目在 GitHub 上已獲得超過 6,000 星標。并在包括 Microsoft COCO、ScanNet 和 nuScenes 等多個國際知名競賽和榜單中取得冠軍或第一名的成績。

黃煒,香港大學二年級博士生。主要研究方向為輕量化(多模態(tài))大語言模型,神經(jīng)網(wǎng)絡壓縮以及高效多模態(tài)推理模型訓練,在 ICML、ICLR、CVPR 等會議和期刊發(fā)表多篇文章。在 NVIDIA 實習期間完成此工作。

陸垚現(xiàn)任 NVIDIA 杰出科學家,UCSD 博士。目前主要研究方向為視覺語言模型和視覺語言動作模型。他是開源視覺語言模型 VILA 系列的負責人。在加入 NVIDIA 之前,他是 Google DeepMind 的研究經(jīng)理,曾一起領(lǐng)導研發(fā) SayCan, RT-1, RT-2 等具身智能領(lǐng)域的奠基性工作。

韓松是 MIT 電氣工程與計算機科學系副教授、NVIDIA 杰出科學家,斯坦福大學博士。他提出了廣泛用于高效 AI 計算的「深度壓縮」技術(shù),并首創(chuàng)將權(quán)重稀疏性引入 AI 芯片的「高效推理引擎」,該成果為 ISCA 50 年歷史引用量前五。他的團隊致力于將 AI 模型優(yōu)化、壓縮并部署到資源受限設(shè)備,提升了大語言模型(LLM)和生成式 AI 在訓練和推理階段的效率,成果已被 NVIDIA TensorRT-LLM 采用。他曾獲 ICLR、FPGA、MLSys 最佳論文獎,入選 MIT 科技評論「35 歲以下科技創(chuàng)新 35 人」,并獲得 NSF CAREER 獎、IEEE「AI’s 10 to Watch」獎和 Sloan 研究獎。



































