偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架

發(fā)布于 2025-10-22 09:16
瀏覽
0收藏

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2510.09608
Git鏈接:https://github.com/mit-han-lab/streaming-vlm 
Demo鏈接:https://streamingvlm.hanlab.ai/

亮點直擊

  • 訓(xùn)練與推理統(tǒng)一的流式架構(gòu): 通過重疊窗口全注意力SFT,將有限長度訓(xùn)練與無限長度推理自然對齊。
  • 高效KV緩存復(fù)用機制: 結(jié)合 attention sink、短窗口視覺緩存與長窗口文本緩存,實現(xiàn)低延遲、高穩(wěn)定的實時視頻理解。
  • 真實長時評測基準構(gòu)建: 構(gòu)建了首個平均時長超2小時的實時視頻評測集Inf-Streams-Eval,推動長時視頻理解領(lǐng)域標準化評測。

總結(jié)速覽

解決的問題

  • 具體困境
  • 無重疊時打斷上下文連貫性;
  • 有重疊時重復(fù)計算過多,延遲高。
  1. 全注意力(Full Attention)→ 計算與內(nèi)存成本呈二次增長,無法處理長視頻。
  2. 滑動窗口(Sliding Window)
  3. 訓(xùn)練與推理不對齊→ 模型無法在短視頻訓(xùn)練下泛化到無限視頻流。

提出的方案

StreamingVLM —— 一個統(tǒng)一的實時流式視覺語言理解框架,核心思路是讓訓(xùn)練過程與流式推理機制對齊。

  • 訓(xùn)練階段(Streaming-aligned SFT): 使用短視頻片段的全注意力訓(xùn)練,片段間存在重疊,以此模擬推理時的注意力模式,無需在超長視頻上訓(xùn)練。
  • 推理階段(Streaming Inference): 采用輕量、可擴展的 KV 緩存策略,包括:
  1. Attention Sink:長期保留關(guān)鍵狀態(tài);
  2. 短窗口視覺Token緩存:保持最新畫面信息;
  3. 長窗口文本Token緩存:維持語言連續(xù)性;
  4. 連續(xù)位置編碼(Contiguous Position IDs):確保推理穩(wěn)定性。

應(yīng)用的技術(shù)

  • 模型基座:Qwen2.5-VL-7B-Instruct
  • 訓(xùn)練數(shù)據(jù)集
  • Inf-Streams-Train(超過4000小時體育解說SFT數(shù)據(jù)集)
  • Inf-Streams-Eval(平均時長2小時的視頻評測集,要求逐秒幀-文本對齊)
  • 訓(xùn)練策略:全注意力SFT + 重疊窗口,模擬流式推理
  • 推理優(yōu)化:KV狀態(tài)復(fù)用 + 分層緩存機制,實現(xiàn)低延遲持續(xù)理解

達到的效果

  • 性能表現(xiàn)
  • Inf-Streams-Eval上對比 GPT-4O mini,勝率 66.18%
  • LongVideoBench上提升+4.30,OVOBench Realtime上提升+5.96
  • 實時性能:在單張 NVIDIA H100 上實現(xiàn)8 FPS 穩(wěn)定流式推理
  • 泛化能力:即使未針對VQA微調(diào),也顯著提升視頻問答能力

方法

模型和數(shù)據(jù)的方法部分包含三個組成部分: (1) 用于視覺-語言處理的推理方案,支持在無限視頻上的低延遲更新; (2) 賦予 StreamingVLM 流式推理能力的訓(xùn)練策略;(3) 提供長時、實時訓(xùn)練數(shù)據(jù)和新基準 Inf-Streams 的數(shù)據(jù)處理流程。

STREAMINGVLM 的推理方案

如下圖 3 所示,StreamingVLM 推理結(jié)構(gòu)。這些設(shè)計選擇在保持與下圖 1(c) 相當(dāng)性能的同時,降低了計算量。

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

通過這種結(jié)構(gòu),較舊的視覺 token 會首先被移除;早期文本僅在超出預(yù)算時才被移除。與重新計算先前 token 不同,這種非對稱保留策略在保持生成連貫性的同時,保持了最低的計算量,其性能與帶重疊的滑動窗口(圖 1(c))相當(dāng)。


連續(xù) RoPE為了防止在移除后出現(xiàn)位置漂移,應(yīng)用了連續(xù)旋轉(zhuǎn)位置嵌入(RoPE)。當(dāng)較早的 token 被移除時,后續(xù)和新進入的 token 的 RoPE 索引會被平移,以便其位置在數(shù)值上與最后保留的 token 連續(xù)。 一旦視頻長度超過總窗口大小,有效的 RoPE 索引將停止增長并保持在一個有界范圍內(nèi)。這使得位置值保持在分布內(nèi),從而穩(wěn)定長時流式推理。


當(dāng)應(yīng)用于使用三維位置嵌入的 Qwen-VL 系列時,我們使用連續(xù)的三維 RoPE。RoPE 索引仍然左移以保持連續(xù);對于視覺 token,我們構(gòu)建三維索引(時間、高度、寬度),并按三維規(guī)則組裝,匹配交錯的視覺-文本布局。

訓(xùn)練策略

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

如圖 4 右側(cè)面板所示,這種重疊的全注意力監(jiān)督與推理時的有效注意力模式——即注意力匯聚(sink)、最近文本的較長窗口以及最近視覺的較短窗口——高度近似。訓(xùn)練監(jiān)督與測試時上下文的對齊,使模型學(xué)習(xí)到預(yù)期的時間新近偏好(recency bias),并在無需在計算量呈二次增長的超長上下文上訓(xùn)練的情況下實現(xiàn)穩(wěn)定的流式行為。


重要的是,為了與推理時的調(diào)度保持一致,在每個訓(xùn)練片段中交錯視覺和文本 token——而不是采用常見的“先視覺、后文本”的 VLM 結(jié)構(gòu)。我們僅在與逐秒解說對齊的文本位置上計算損失;當(dāng)某一秒沒有解說時,我們在該位置插入占位符 token “...”,同時保持交錯的 V/T 布局。 這種監(jiān)督方式教會模型與流同步生成——學(xué)會何時說話、何時保持沉默——從而在推理時賦予 StreamingVLM 可靠的流式解說行為。

數(shù)據(jù)處理流程

視頻收集與語音識別

如下圖 5 所示,從五種運動項目中收集了比賽視頻:籃球、足球、冰球、棒球和美式橄欖球,包括 712 場籃球比賽、544 場足球比賽、402 場冰球比賽、399 場棒球比賽和 392 場美式橄欖球比賽。解說語言為英語。

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

為了保證視頻質(zhì)量與讀取速度,將視頻分辨率限制在 360P–720P,幀率為 24 FPS。首先,使用 WhisperX 模型從這些比賽中提取實時語音(ASR),獲得了一個包含超過 6000 小時視頻及其實時解說的初始語料庫。

數(shù)據(jù)清洗

在完整的解說視頻中,通常包含許多無用片段,如廣告和主持人獨白。這些片段的視覺內(nèi)容與 ASR 語義之間聯(lián)系較弱,使模型無法從畫面中推斷內(nèi)容。此外,ASR 模型有時會錯誤識別球員或球隊名稱。


因此,制定規(guī)則并使用 GPT 清洗這些數(shù)據(jù)。首先將一場比賽劃分為 120 秒的片段,并將每個片段內(nèi)的解說內(nèi)容拼接起來,然后拆分為句子。使用該片段及視頻標題(包括比賽時間和雙方隊伍)作為上下文,要求 GPT-5 模型根據(jù)規(guī)則作出決策,選項包括 “keep”(保留)、“delete”(刪除)和 “edit”(編輯)每個句子。

  • “keep” 表示內(nèi)容為比賽解說且正確;
  • “edit” 表示為解說內(nèi)容但需要修改細節(jié)(如錯誤的名字),并返回修改后的完整句子;
  • “delete” 表示不符合要求的內(nèi)容,不應(yīng)出現(xiàn)在訓(xùn)練數(shù)據(jù)中。


對于保留的句子,時間戳與 ASR 結(jié)果一致;對于編輯的句子,將原句持續(xù)時間均勻分配給編輯后句子的每個詞(由于一個句子通常持續(xù)約 3–5 秒,誤差在可接受范圍內(nèi))。在原始 ASR 數(shù)據(jù)中,46.32% 被保留,37.89% 被編輯,15.79% 被刪除,最終形成了我們數(shù)據(jù)的原始視頻-解說對。

SFT 與評測數(shù)據(jù)分段

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

在評測中,創(chuàng)建了一個新基準 Inf-Streams-Eval。它包含 20 場完整比賽,平均長度為 2.12 小時。將每場比賽劃分為 100 秒的片段,并選擇其中至少包含 200 個詞的片段。這些片段的解說被視為真實標簽。為了評分,使用更大的模型(此處為 gpt-5)在兩個模型輸出之間進行投票,并可訪問真實參考。獲得更多投票(更高勝率)的模型被判定為提供更好的解說。


Inf-Streams-Eval 有兩種設(shè)置:chunk 和 infinite,分別在后續(xù)表格中用 ? 和 ∞ 表示。在前圖 1 中,chunk 模式對應(yīng)面板 (b),infinite 模式對應(yīng)面板 (d)。對于無法進行無限推理的模型,我們將視頻切分為多個 chunk;模型接收前文文本和當(dāng)前 chunk 來生成字幕。對于支持無限推理的模型,模型在整個流上運行;我們保留其先前輸出作為前文文本,并持續(xù)生成字幕直到視頻結(jié)束。

高質(zhì)量退火數(shù)據(jù)

上述數(shù)據(jù)集可以微調(diào)模型的實時視頻理解能力。然而,它包含大量關(guān)于球隊信息和賽季歷史的內(nèi)容;對于解說任務(wù)的人類體驗而言,我們更希望模型提供對場上事件的實時解說。因此,我們創(chuàng)建了高質(zhì)量退火數(shù)據(jù)。


首先在無重疊的情況下切分所有數(shù)據(jù),要求每個片段長度為 16–64 秒,內(nèi)部靜音時間不超過 3 秒;每個片段還必須包含至少 2XD(以秒為單位的持續(xù)時間)個詞??缢斜荣悾覀児搏@得了 52,530 個新樣本。隨后,我們定義“實時解說”的標準。對于每個樣本,我們使用 GPT-5 判斷“實時解說”比例是否超過 80%,以決定是否保留。最終,僅保留了 14,786 個樣本。后續(xù)實驗(表 6)表明,在使用這部分數(shù)據(jù)進行微調(diào)后,模型的能力和解說質(zhì)量得到了進一步提升。

實驗

首先描述實現(xiàn)細節(jié),然后在視頻字幕生成和 VQA 任務(wù)上與強基線進行比較。接下來測試 StreamingVLM 的效率。最后,進行消融實驗以更好地理解其行為。

實驗設(shè)置

訓(xùn)練 

從 Qwen2.5-VL-Instruct-7B 微調(diào) StreamingVLM。


步驟 1:訓(xùn)練模型以學(xué)習(xí)無限流式推理模式。我們在自構(gòu)建的 SFT 數(shù)據(jù)集(525K 個流式樣本)以及 LiveCC 的 Live-WhisperX-526K(526K 個流式樣本)上訓(xùn)練。步驟 2:使用我們高質(zhì)量的退火數(shù)據(jù)(14K 個流式樣本,每個 16–64 秒,包含詳細動作)來增強實時動作解說能力并提升人類體驗。經(jīng)過這兩個階段后,我們得到 StreamingVLM??傆嬎懔考s為 128 張 H100 天。

基線模型

本文選擇強基線與 StreamingVLM 進行比較。


在字幕生成任務(wù)中,使用 GPT-4o mini 展示解說能力,并使用 Livecc-7B-Instruct,它在 550 萬個 YouTube 視頻片段(30–240 秒)和 178K 個視頻問答樣本上訓(xùn)練,表現(xiàn)出良好的短視頻解說性能。包括 ReKV,這是一種無需訓(xùn)練的強流式推理方法。


由于設(shè)計限制,GPT-4o mini 在 Inf-Streams-Eval 上僅在 chunk 設(shè)置下評測,而 StreamingVLM 使用 infinite 模式。LiveCC-7B-Instruct 在 chunk 和 infinite 兩種設(shè)置下均進行測試。 在 VQA 任務(wù)中,我們使用 Qwen2.5-VL-7B-Instruct(StreamingVLM SFT 前的基礎(chǔ)模型)來展示我們的 SFT 流程如何提升基礎(chǔ)能力。

基準

在多個任務(wù)上評估實時字幕生成與視頻理解性能。


對于字幕生成,使用 Inf-Streams-Eval(平均長度 2.12 小時),測試長時解說能力;以及 LiveSports3K-CC 基準(49 種運動,416 個片段,每個≥10 秒)。

對于視頻理解,在四個公開套件上評估 StreamingVLM:

  • VideoMME:多任務(wù)集合(問答、字幕、定位),涵蓋短視頻和長視頻的一般理解;
  • MVBench:針對短片的細粒度能力測試(動作、物體、計數(shù)、時間順序);
  • LongVideoBench:需要長時記憶和跨片段推理的長視頻問答;
  • OVOBench:測試實時理解與流式感知的視頻問答集。

準確率結(jié)果

字幕生成

首先在字幕生成任務(wù)上將我們的推理策略與 ReKV 進行比較。我們觀察到一個無訓(xùn)練的 ReKV 悖論:未經(jīng)過任務(wù)特定微調(diào)的模型表現(xiàn)較差,而經(jīng)過特殊微調(diào)的模型(例如 StreamingVLM)依賴于固定的上下文格式,而 ReKV 的淘汰策略會破壞這種格式,常常導(dǎo)致沒有輸出。相比之下,StreamingVLM 的訓(xùn)練–推理一致性設(shè)計解決了這個問題。

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

然后,在 LiveCC-3K-Sports-CC 和 Inf-Streams-Eval 上評估了 StreamingVLM、Qwen-2.5-VL-7B-Instruct 和 LiveCC-7B-Instruct。如下表1 所示,在 Inf-Streams-Eval 上,Qwen-2.5-VL-7B-Instruct 無法保持連續(xù)解說,因此表現(xiàn)較差。LiveCC-7B-Instruct 在分塊推理下表現(xiàn)更好。下圖6 進一步顯示,短塊會破壞連貫性;這些設(shè)計不支持無限推理,而使用長塊時,很快會超出訓(xùn)練長度并導(dǎo)致退化。

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

相比之下,StreamingVLM 以無限模式運行;其長期記憶和流式視頻感知能力使其具有明顯優(yōu)勢,在解說質(zhì)量上超過了 GPT-4o mini。下圖2(所示圖)展示了一個真實案例,其中 StreamingVLM 保持連貫輸出、實時延遲和長期記憶,解決了無限視頻流實時感知的核心挑戰(zhàn)。在 LiveCC-3K-Sports-CC 上,StreamingVLM 也優(yōu)于基線,展示了在不同長度視頻上的穩(wěn)定流式字幕生成能力。

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

VQA

在四個 VQA 任務(wù)上評估了 StreamingVLM 及其基礎(chǔ)模型 Qwen-2.5-VL-7B-Instruct。如下表3 所示,即使沒有任何 VQA SFT,StreamingVLM 在所有任務(wù)上都優(yōu)于基礎(chǔ)模型,表明我們的 SFT 改善了通用視覺能力。OVOBench Realtime 測試模型對即時流式場景的理解。在這個流式感知任務(wù)上,StreamingVLM 提升了 5.96%。這突出了 Inf-Streams-Train 及我們訓(xùn)練策略的優(yōu)勢,增強了模型的核心能力。

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

效率測試

如下圖 7 所示,報告了圖 1 中三種方法在無限解說下的每 token 延遲:分別是具有全注意力的 VLM、滑動窗口注意力(無重疊)、滑動窗口注意力(有重疊)以及 StreamingVLM 的推理策略,它們分別對應(yīng)圖 1 的面板 (a)、(b)、(c) 和 (d)。

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

實時響應(yīng)要求延遲低于虛線所示的固定閾值。全注意力很快超過限制并導(dǎo)致顯存溢出(OOM)?;瑒哟翱冢o重疊)需要較大的塊以保持連貫性,因此顯示出周期性延遲模式:在每個塊的開始階段,模型重建上下文,導(dǎo)致解說與過去內(nèi)容不連貫;在塊的后期,延遲急劇上升,無法滿足實時需求?;瑒哟翱冢ㄓ兄丿B)由于計算冗余,效率仍然較低。StreamingVLM 保持固定上下文長度并重用 KV,維持較低且穩(wěn)定的延遲,并能在單個 NVIDIA H100 上以 8 FPS 支持實時解說。

消融研究

連續(xù) RoPE

本文研究了連續(xù) RoPE 索引的效果。由于訓(xùn)練時使用全注意力,訓(xùn)練中僅使用原生 RoPE。在推理時,比較了連續(xù) RoPE 與原生版本。如下表 4 所示,原生 RoPE 在無限流上性能急劇下降,因為其索引增長過快并超出訓(xùn)練范圍。將視頻分割為 100 秒的塊可以部分恢復(fù)準確率,但會損害長期連貫性。使用連續(xù) RoPE 時,位置索引保持有界,因此模型能夠在無限推理下保持性能不損失。

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

滑動窗口與 Sink

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

接下來,研究不同的  選擇。表 5 右表顯示,16 秒的視覺窗口是一個不錯的選擇:它足夠長以覆蓋最近的動作,同時又足夠短以保持高效。相反,將視覺上下文設(shè)為 0 秒會導(dǎo)致明顯的性能下降,這驗證了保留最近的視覺 token 對連續(xù)動作理解至關(guān)重要。

訓(xùn)練策略與數(shù)據(jù)集

本文研究了 SFT 數(shù)據(jù)和高質(zhì)量退火數(shù)據(jù)的效果。SFT 數(shù)據(jù)集教會模型無限流式推理模式,而高質(zhì)量退火數(shù)據(jù)進一步提升了解說質(zhì)量。

SFT 策略 

如下表 6 所示,采用重疊訓(xùn)練策略后,SFT 子集幫助模型適應(yīng)交錯的視覺–文本模式,并理解超長視頻。與僅在 Live-WhisperX-526K 上訓(xùn)練的模型相比,在重疊 SFT 數(shù)據(jù)上訓(xùn)練的模型增強了對無限視頻的感知,在 Inf-Streams-Eval 上相較 GPT-4o-mini 的勝率提升 +31.29,在 Livecc-Sports-3K cc 上相較 LLaVA-Video-72B-Qwen2 的勝率提升 +3.68。

破解長視頻理解困局!MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

高質(zhì)量退火數(shù)據(jù) 

高質(zhì)量退火數(shù)據(jù)專注于實時內(nèi)容,并進一步提升了模型能力。如表 6 所示,我們比較了使用和不使用高質(zhì)量退火數(shù)據(jù)進行訓(xùn)練的情況??梢杂^察到,在字幕生成和 VQA 基準測試上均有顯著提升。

結(jié)論

StreamingVLM,一個統(tǒng)一的訓(xùn)練–推理框架,為現(xiàn)有 VLM 帶來了實時流式感知能力。首先提出了一種高效的流式 VLM 訓(xùn)練策略和數(shù)據(jù)構(gòu)建流程,兩者共同提升了在流式任務(wù)和 VQA 上的性能。接著,在真實場景中展示了我們的推理設(shè)計如何實現(xiàn)實時視頻理解,能夠在單個 NVIDIA H100 上以最高 8 FPS 穩(wěn)定解說超過 3 小時的視頻。最后,發(fā)布了 Inf-Streams,一個新的 SFT 數(shù)據(jù)集和基準,用于測試平均時長超過 2 小時視頻的秒級實時理解??傮w而言,這項工作為實際場景中的部署鋪平了道路。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/agGaqaM_pJVp37IHdJ6D4Q??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦