長視頻AI推理的“圣杯”!英偉達(dá)、MIT、港大、UC伯克利等重磅開源Long-RL
論文鏈接:https://arxiv.org/pdf/2507.07966
?Git鏈接:????https://github.com/NVlabs/Long-RL???
亮點(diǎn)直擊
- LongVILA-R1,一個(gè)面向長視頻理解推理能力的綜合性框架。
- 構(gòu)建了一個(gè)高質(zhì)量長視頻推理數(shù)據(jù)集LongVideo-Reason,包含了帶有鏈?zhǔn)剿季S(CoT)標(biāo)注的推理樣本。
- 整理了一個(gè)包含1000 條長視頻樣本的平衡評(píng)估集LongVideoReason-eval,從四個(gè)維度全面評(píng)估:時(shí)間推理、目標(biāo)與意圖推理、空間推理、情節(jié)與敘事推理。
- 提出了一種新的訓(xùn)練框架,用于提升 VLM 在長視頻推理方面的能力。
- LongVILA-R1-7B在VideoMME上達(dá)到了68.4% 的準(zhǔn)確率。大幅超越了Video-R1-7B和GPT-4o,并與Gemini-1.5-Pro表現(xiàn)相當(dāng)。
總結(jié)速覽
解決的問題
- 長視頻推理任務(wù)復(fù)雜性高:長視頻包含豐富的時(shí)間動(dòng)態(tài)、空間關(guān)系、目標(biāo)導(dǎo)向行為和敘事結(jié)構(gòu),理解難度遠(yuǎn)高于短視頻或圖像。
- 缺乏高質(zhì)量的長視頻推理數(shù)據(jù)集:相比于數(shù)學(xué)或代碼等領(lǐng)域,長視頻推理缺乏結(jié)構(gòu)化監(jiān)督信號(hào)和大規(guī)模、高質(zhì)量的標(biāo)注數(shù)據(jù)。
- 長視頻強(qiáng)化學(xué)習(xí)訓(xùn)練挑戰(zhàn)大:
- 視頻幀數(shù)多,導(dǎo)致內(nèi)存需求高;
- rollout 過程長,訓(xùn)練效率低;
- 上下文長度大,預(yù)填充開銷大;
- 訓(xùn)練成本高,難以擴(kuò)展。
提出的方案
- 構(gòu)建高質(zhì)量推理數(shù)據(jù)集 LongVideo-Reason:
- 包含 52K 條長視頻問答三元組(問題-推理-答案),涵蓋體育、游戲、vlog 等多領(lǐng)域;
- 引入鏈?zhǔn)剿季S(Chain-of-Thought, CoT)標(biāo)注;
- 數(shù)據(jù)集分為 CoT 微調(diào)用的 18K 條和 RL 訓(xùn)練用的 33K 條樣本。
- 提出兩階段訓(xùn)練框架:
- 階段一:Long CoT-SFT,通過鏈?zhǔn)剿季S監(jiān)督微調(diào),提升模型的基本推理與指令跟隨能力;
- 階段二:強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,進(jìn)一步優(yōu)化模型在復(fù)雜長視頻推理任務(wù)中的表現(xiàn)。
- 開發(fā) MR-SP 訓(xùn)練系統(tǒng)(Multi-modal Reinforcement Sequence Parallelism):
- 引入vLLM 引擎,定制支持長視頻;
- 實(shí)現(xiàn)視頻嵌入緩存機(jī)制,提升 rollout 和預(yù)填充效率;
- 采用序列并行策略,解決內(nèi)存瓶頸與計(jì)算瓶頸。
- 構(gòu)建評(píng)估基準(zhǔn) LongVideo-Reason-eval:
- 包含 1000 條長視頻樣本;
- 從四個(gè)維度系統(tǒng)評(píng)估模型:時(shí)間推理、目標(biāo)與意圖推理、空間推理、情節(jié)與敘事推理。
應(yīng)用的技術(shù)
- 視覺語言多模態(tài)模型(VLM):基于 NVILA-8B 和其他開源大模型;
- 鏈?zhǔn)剿季S監(jiān)督微調(diào)(CoT-SFT):引導(dǎo)模型進(jìn)行多步推理;
- 強(qiáng)化學(xué)習(xí)(RL):對(duì)齊模型行為與復(fù)雜推理目標(biāo);
- 多模態(tài)強(qiáng)化序列并行(MR-SP):
- 支持視頻、文本、音頻等多模態(tài)輸入;
- 使用 vLLM 引擎與視頻嵌入緩存優(yōu)化長視頻處理;
- 提升訓(xùn)練效率,降低資源消耗;
- 長上下文處理機(jī)制:支持處理長達(dá)一小時(shí)的視頻(約 3600 幀 / 256k token);
- 開源訓(xùn)練系統(tǒng):支持 VILA、Qwen 系列模型及圖像/視頻生成模型的 RL 訓(xùn)練。
達(dá)到的效果
- 在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異:
- 在VideoMME基準(zhǔn)測(cè)試中,LongVILA-R1-7B 達(dá)到68.4% 的準(zhǔn)確率;
- 在LongVideo-Reason-eval上四維推理平均準(zhǔn)確率為 **67.9%**,超過 Video-R1-7B 和 GPT-4o,媲美 Gemini-1.5-Pro。
- 推理能力顯著提升:
- 在時(shí)間推理、目標(biāo)與意圖推理、空間推理、情節(jié)推理四大維度均取得領(lǐng)先;
- 能夠處理更復(fù)雜的推理任務(wù),如戰(zhàn)術(shù)分析、目標(biāo)預(yù)測(cè)、空間定位、情節(jié)理解等。
- 訓(xùn)練效率顯著提高:
- MR-SP 系統(tǒng)在 RL 訓(xùn)練中實(shí)現(xiàn)最高 2.1× 加速;
- 支持更長幀數(shù)訓(xùn)練,避免內(nèi)存溢出問題。
- 良好的可擴(kuò)展性與開源支持:
- 模型性能隨輸入幀數(shù)穩(wěn)步提升;
- 訓(xùn)練系統(tǒng)已開源,支持多模態(tài)、多模型、多任務(wù)的強(qiáng)化學(xué)習(xí)訓(xùn)練。
LongVideo-Reason 數(shù)據(jù)構(gòu)建
高質(zhì)量的長視頻標(biāo)注數(shù)據(jù)集對(duì)于 VLM 至關(guān)重要?,F(xiàn)有公開的長視頻數(shù)據(jù)集缺乏高質(zhì)量的推理標(biāo)注。本節(jié)詳細(xì)介紹了一個(gè)包含 52K 條帶推理的長視頻問答對(duì)的數(shù)據(jù)構(gòu)建過程(見下圖 4)。
數(shù)據(jù)整理概覽
首先從 Shot2Story 數(shù)據(jù)集中整理出 18K 條長視頻(下圖 3,左)。隨后,應(yīng)用一個(gè)高質(zhì)量的自動(dòng)化鏈?zhǔn)剿季S(CoT)標(biāo)注流程,最終構(gòu)建了總計(jì) 52K 條“問題-推理-答案”三元組。每個(gè)樣本根據(jù)其所涉及的推理類型,可被歸類為時(shí)間推理、目標(biāo)與意圖推理、空間推理或情節(jié)與敘事推理(下圖 3,中)。該數(shù)據(jù)集旨在全面支持各種類型的長視頻推理任務(wù)。
鑒于 GRPO 對(duì) batch 采樣的敏感性,采用了一種數(shù)據(jù)篩選方法。具體而言,使用一種測(cè)試縮放方法:LongVILA 對(duì)原始數(shù)據(jù)集進(jìn)行 10 次推理。對(duì)問題始終回答正確或錯(cuò)誤的樣本被標(biāo)記為“簡單”或“困難”,而導(dǎo)致預(yù)測(cè)多樣性的樣本則被標(biāo)記為“中等”。本文將“簡單”和“困難”樣本用于第 1 階段的 COT-SFT,將“中等”樣本用于第 2 階段的強(qiáng)化學(xué)習(xí)訓(xùn)練。原因在于 GRPO 期望每個(gè)樣本的 rollout 具有多樣性,才能帶來有效的優(yōu)化優(yōu)勢(shì);如果所有 rollout 都預(yù)測(cè)正確或錯(cuò)誤答案,則梯度將消失。
?
COT-SFT 子集(18K)包含高質(zhì)量的 CoT 推理過程,采用標(biāo)準(zhǔn)格式 ??<think></think><answer></answer>?
?,為模型第 1 階段的推理能力預(yù)熱訓(xùn)練提供了豐富資源。與此同時(shí),RL 子集包含 33K 條具有挑戰(zhàn)性的長視頻問答樣本,用于第 2 階段通過強(qiáng)化學(xué)習(xí)擴(kuò)展推理能力。為了進(jìn)一步提升 RL 的擴(kuò)展性,本文還引入了來自其他數(shù)據(jù)集的額外 110K 條高質(zhì)量開源視頻(上圖 3,右)。這種組合提高了模型的泛化能力。
長視頻推理生成
本文引入了一個(gè)自動(dòng)化標(biāo)注流程(上圖 4),用于從長視頻中生成高質(zhì)量的“問題-推理-答案”三元組。該流程首先將視頻分割為多個(gè)短片段(每段約 10 秒),并使用 NVILA-8B 模型對(duì)每個(gè)片段生成描述性字幕。在此基礎(chǔ)上,借助文本推理的突破,本文調(diào)用領(lǐng)先的開源推理大語言模型,提供整段視頻中所有片段的字幕,并提示其生成涵蓋整段視頻內(nèi)容的多種類型“問題-推理-答案”三元組。
?
具體而言,本文設(shè)計(jì)了四種提示詞模板,引導(dǎo)大模型生成聚焦于以下四類推理之一的問答對(duì):時(shí)間推理、目標(biāo)與意圖推理、空間推理或情節(jié)與敘事推理。為了確保 VLM 聚焦于視覺細(xì)節(jié),本文在提示詞中加入了“檢查視頻”、“分析場景”等短語,引導(dǎo)模型對(duì)視覺內(nèi)容進(jìn)行反復(fù)觀察。最后,本文再使用一個(gè)大語言模型對(duì)推理步驟進(jìn)行精煉與簡化。
?
本文還手動(dòng)整理了 1000 條涵蓋四類推理的高質(zhì)量復(fù)雜問題,作為新的評(píng)估基準(zhǔn)(LongVideo-Reason-eval),用于評(píng)估 VLM 的推理能力。整個(gè)數(shù)據(jù)構(gòu)建過程共消耗約 40,000 小時(shí)的 H100 GPU 計(jì)算資源。
LongVILA 訓(xùn)練流程
如下圖 5 所示,LongVILA-R1 包含兩個(gè)擴(kuò)展訓(xùn)練階段:(1) 使用 18K 條高質(zhì)量 CoT 數(shù)據(jù)在 MM-SP 系統(tǒng)上進(jìn)行 SFT,用于長視頻推理的預(yù)熱訓(xùn)練;(2) 使用密集幀的長視頻進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。
長視頻 CoT 監(jiān)督微調(diào)
在 52K 條高質(zhì)量“問題-推理-答案”數(shù)據(jù)的基礎(chǔ)上,本文采用前文所述的數(shù)據(jù)篩選方法,選取其中 18K 條用于長視頻 CoT-SFT,作為后續(xù) RL 的預(yù)熱階段。該階段賦予模型基本的推理能力和長視頻場景下的指令跟隨能力。為了高效地在數(shù)百幀視頻上進(jìn)行 SFT,本文采用了 LongVILA 的 MM-SP 訓(xùn)練系統(tǒng)。如下文所示,僅使用 LongVideo-Reason 數(shù)據(jù)集進(jìn)行 SFT,也能有效提升模型的基礎(chǔ)推理能力。
長視頻的 GRPO
然而,由于處理數(shù)百到數(shù)千幀所需的高計(jì)算量,長視頻的強(qiáng)化學(xué)習(xí)面臨重大挑戰(zhàn)?,F(xiàn)有的強(qiáng)化學(xué)習(xí)框架在 rollout 和大語言模型預(yù)填充階段難以應(yīng)對(duì)如此長的上下文訓(xùn)練。為了解決這一問題,本文開發(fā)了 MR-SP 框架,該框架能夠高效擴(kuò)展用于長上下文視頻推理的強(qiáng)化學(xué)習(xí)。
?
考慮到 GRPO 在訓(xùn)練過程中對(duì)采樣的敏感性,本文使用前文匯總所述篩選后的 33K 條數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。此外,還引入了來自 Video-R1 的額外 110K 條樣本以擴(kuò)大強(qiáng)化學(xué)習(xí)規(guī)模。該方法旨在引導(dǎo)模型自由探索并發(fā)展出更有效且更具泛化能力的推理策略。
多模態(tài)強(qiáng)化學(xué)習(xí)序列并行
現(xiàn)有用于 VLM 的強(qiáng)化學(xué)習(xí)框架,如 R1-V 和 EasyR1,并未針對(duì)長視頻設(shè)計(jì),而長視頻由于其巨大的 token 數(shù)量帶來了獨(dú)特挑戰(zhàn)。為了解決這一問題,本文提出了多模態(tài)強(qiáng)化學(xué)習(xí)序列并行(MR-SP)框架,用于在長視頻上進(jìn)行高效的強(qiáng)化學(xué)習(xí)訓(xùn)練。MR-SP 在 rollout 和預(yù)填充階段都采用了序列并行技術(shù),從而在降低開銷的同時(shí)實(shí)現(xiàn)長視頻的強(qiáng)化學(xué)習(xí)。
階段一:并行編碼的 Rollout
為了高效支持長視頻的強(qiáng)化學(xué)習(xí),本文在視頻編碼階段采用了序列并行(SP)策略。如下圖 7 所示,輸入的視頻幀首先被平均分配到多個(gè) GPU(例如 GPU 1 到 GPU 3)上,每個(gè) GPU 配備其獨(dú)立的視覺編碼器。每個(gè) GPU 獨(dú)立處理視頻的一部分,僅編碼其分配到的幀子集。隨后,通過如圖中“All-Gather”箭頭所示的 all-gather 操作,將得到的視頻嵌入與文本嵌入進(jìn)行聚合。該策略分散了編碼負(fù)載,使系統(tǒng)能夠借助更多 GPU 處理顯著更長的視頻,同時(shí)避免 GPU 內(nèi)存溢出的風(fēng)險(xiǎn)。
這種并行編碼方案確保了視覺編碼器的負(fù)載均衡,并實(shí)現(xiàn)了原本在單設(shè)備上難以完成的可擴(kuò)展長視頻處理。
?
在全局聚合視頻嵌入之后,它們會(huì)在整個(gè)強(qiáng)化學(xué)習(xí)流程中被重復(fù)使用。如上圖 7 所示,這些聚合后的嵌入在多個(gè) rollout 中被復(fù)用,無需重新計(jì)算。例如,在每個(gè)訓(xùn)練步驟中,本文通常執(zhí)行 8 到 16 次 rollout。如果不進(jìn)行復(fù)用,同一個(gè)視頻在每一步中需要被重新編碼數(shù)十次,嚴(yán)重影響訓(xùn)練速度。通過緩存并復(fù)用聚合嵌入,MR-SP 消除了這種冗余,大幅加快了訓(xùn)練過程。
階段二:使用序列并行的預(yù)填充
對(duì)于每次 rollout,參考模型和策略模型都需要進(jìn)行計(jì)算密集型的預(yù)填充操作,尤其是在處理長視頻時(shí)。借助階段一中復(fù)用的聚合嵌入,本文在推理階段使用序列并行將計(jì)算分布到多個(gè)設(shè)備上。如上圖 7 所示,聚合后的輸入嵌入首先被填充至統(tǒng)一長度(Padding Sequence),然后平均劃分到各個(gè) GPU 上(Sharding to Local GPU)。這使得每個(gè) GPU 在預(yù)填充時(shí)只需處理輸入序列的一部分。
這種并行方式同時(shí)應(yīng)用于策略模型和參考模型的預(yù)填充階段。隨后,每個(gè) GPU 在本地為其對(duì)應(yīng)的 token 子序列計(jì)算 logits,實(shí)現(xiàn)并行預(yù)填充。
實(shí)驗(yàn)結(jié)果
主要結(jié)果
下表 1 展示了在 9 個(gè)視頻基準(zhǔn)測(cè)試上的性能比較。LongVILA-R1-7B 在所有基準(zhǔn)上均優(yōu)于 LongVILA-7B,性能差距根據(jù)推理任務(wù)的復(fù)雜程度有所不同。
下表 3 展示了 LongVILA-R1 在 Video-MME 基準(zhǔn)上與現(xiàn)有先進(jìn)模型在相似模型規(guī)模下的整體性能比較。LongVILA-R1-7B 在不同視頻長度下均取得領(lǐng)先分?jǐn)?shù)。
LongVILA-R1-7B 在不同視頻長度設(shè)置中均取得領(lǐng)先分?jǐn)?shù),在無字幕和有字幕設(shè)置下分別獲得 和 的得分。
?
下表 2 比較了本文在 LongVideo-Reason-eval 基準(zhǔn)上的結(jié)果。LongVILA-R1-7B 模型取得了平均得分 的強(qiáng)勁表現(xiàn),顯著超越了 Video-R1-7B 和 GPT-4o,略微優(yōu)于 Gemini-1.5-Pro。
盡管 Gemini-1.5-Pro 在時(shí)間推理、目標(biāo)與意圖推理以及情節(jié)與敘事推理方面表現(xiàn)出色,LongVILA-R1-7B 的得分總體上也具有可比性。值得注意的是,在空間推理類別中,LongVILA-R1-7B 獲得了 的得分。
消融實(shí)驗(yàn)
視頻幀數(shù)擴(kuò)展。 LongVILA-R1 的推理能力隨著輸入視頻幀數(shù)的增加而持續(xù)提升。具體來說,下圖 8 展示了 LongVILA-1.5B(灰線)和 LongVILA-1.5B-R1(紅線)在不同幀數(shù)輸入下,在長視頻推理基準(zhǔn)上的表現(xiàn)。
訓(xùn)練流程與數(shù)據(jù)集的消融。 如下表 4 所示,本文從 LongVILA-1.5B 出發(fā),評(píng)估訓(xùn)練階段與數(shù)據(jù)集的有效性。準(zhǔn)確率在 LongVideo-Reason-eval 上進(jìn)行評(píng)估。? 表示跳過該階段,? 表示使用本文數(shù)據(jù)集訓(xùn)練該階段,O 表示使用其他數(shù)據(jù)集訓(xùn)練該階段。
本文的 CoT-SFT 數(shù)據(jù)集比其他數(shù)據(jù)集帶來更好的性能。此外,在預(yù)熱階段(CoT-SFT)基礎(chǔ)上引入強(qiáng)化學(xué)習(xí)(RL)帶來了額外提升,相較于僅使用 SFT 更為有效。
?
本文展示了如果跳過 CoT-SFT 階段,直接使用 RL 訓(xùn)練模型,準(zhǔn)確率會(huì)下降。如果在 CoT-SFT 和 RL 兩個(gè)階段都使用 Video-R1 數(shù)據(jù)集,性能也不如使用本文數(shù)據(jù)集。
?
MR-SP 的訓(xùn)練效率。本文在一個(gè) A100 節(jié)點(diǎn)(即 8 張 A100 80GB GPU)上對(duì) MR-SP 系統(tǒng)的訓(xùn)練效率進(jìn)行了比較。本文測(cè)量每個(gè)訓(xùn)練步驟的前向時(shí)間。結(jié)果是在 10 次預(yù)熱迭代后,取 5 次迭代的平均值以減少方差。
?
本文使用 LongVILA-7B-R1 模型,訓(xùn)練時(shí)每個(gè) GPU 的 batch size 為1 ,rollout 數(shù)為 2。上圖 1 展示了在不同幀數(shù)下的訓(xùn)練效率比較,繪制了三種設(shè)置下每步運(yùn)行時(shí)間(秒):不使用 MR-SP 的原始 RL 系統(tǒng),僅使用 MR-SP 的階段一,以及完整的 MR-SP 系統(tǒng)(階段一和階段二)。
?
基線系統(tǒng)的運(yùn)行時(shí)間隨著幀數(shù)的增加急劇上升。僅使用 MR-SP 的階段一在 512 幀以內(nèi)顯著提升了效率,但在超過該點(diǎn)后出現(xiàn) GPU 內(nèi)存溢出(OOM)問題。相比之下,完整的 MR-SP 系統(tǒng)持續(xù)減少運(yùn)行時(shí)間,在 512 幀時(shí)實(shí)現(xiàn)了最高2.1x 的加速,并可高效擴(kuò)展至1024 幀而不會(huì)出現(xiàn) OOM,突顯了序列重用與序列并行結(jié)合在長視頻強(qiáng)化學(xué)習(xí)訓(xùn)練中的優(yōu)勢(shì)。
結(jié)論
本文提出了一個(gè)全面的框架,旨在實(shí)現(xiàn)視覺語言模型(VLM)在長視頻推理任務(wù)中的完全擴(kuò)展。LongVILA-R1 包含一個(gè)精心構(gòu)建的大規(guī)模數(shù)據(jù)集 LongVideo-Reason,以及一個(gè)并行化訓(xùn)練框架 MR-SP。借助本文整理的包含 52K 條長視頻問題-推理-答案對(duì)的數(shù)據(jù)集,并結(jié)合其他開源視頻數(shù)據(jù)集,本文采用了結(jié)合 CoT-SFT 和 RL 的兩階段訓(xùn)練流程。
此外,公開了訓(xùn)練系統(tǒng),支持多模態(tài)(視頻、文本和音頻)下的 RL 訓(xùn)練,適用于多種模型(包括 VILA 和 Qwen 系列),甚至支持圖像和視頻生成模型。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/b-_oWJDpNrwHjPUabMLFlg??
