偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="zvtlh"><rt id="zvtlh"></rt></sub><pre id="zvtlh"></pre>

<legend id="zvtlh"></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架

發(fā)布于 2025-10-22 09:16

瀏覽

0收藏

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2510.09608
Git鏈接：https://github.com/mit-han-lab/streaming-vlm
Demo鏈接：https://streamingvlm.hanlab.ai/

亮點直擊

訓(xùn)練與推理統(tǒng)一的流式架構(gòu)：通過重疊窗口全注意力SFT，將有限長度訓(xùn)練與無限長度推理自然對齊。
高效KV緩存復(fù)用機制：結(jié)合 attention sink、短窗口視覺緩存與長窗口文本緩存，實現(xiàn)低延遲、高穩(wěn)定的實時視頻理解。
真實長時評測基準構(gòu)建：構(gòu)建了首個平均時長超2小時的實時視頻評測集Inf-Streams-Eval，推動長時視頻理解領(lǐng)域標準化評測。

總結(jié)速覽

解決的問題

具體困境：

無重疊時打斷上下文連貫性；
有重疊時重復(fù)計算過多，延遲高。

全注意力（Full Attention）→ 計算與內(nèi)存成本呈二次增長，無法處理長視頻。
滑動窗口（Sliding Window）→
訓(xùn)練與推理不對齊→ 模型無法在短視頻訓(xùn)練下泛化到無限視頻流。

提出的方案

StreamingVLM —— 一個統(tǒng)一的實時流式視覺語言理解框架，核心思路是讓訓(xùn)練過程與流式推理機制對齊。

訓(xùn)練階段（Streaming-aligned SFT）：使用短視頻片段的全注意力訓(xùn)練，片段間存在重疊，以此模擬推理時的注意力模式，無需在超長視頻上訓(xùn)練。
推理階段（Streaming Inference）：采用輕量、可擴展的 KV 緩存策略，包括：

Attention Sink：長期保留關(guān)鍵狀態(tài)；
短窗口視覺Token緩存：保持最新畫面信息；
長窗口文本Token緩存：維持語言連續(xù)性；
連續(xù)位置編碼（Contiguous Position IDs）：確保推理穩(wěn)定性。

應(yīng)用的技術(shù)

模型基座：Qwen2.5-VL-7B-Instruct
訓(xùn)練數(shù)據(jù)集：

Inf-Streams-Train（超過4000小時體育解說SFT數(shù)據(jù)集）
Inf-Streams-Eval（平均時長2小時的視頻評測集，要求逐秒幀-文本對齊）

訓(xùn)練策略：全注意力SFT + 重疊窗口，模擬流式推理
推理優(yōu)化：KV狀態(tài)復(fù)用 + 分層緩存機制，實現(xiàn)低延遲持續(xù)理解

達到的效果

性能表現(xiàn)：

在Inf-Streams-Eval上對比 GPT-4O mini，勝率 66.18%
在LongVideoBench上提升+4.30，OVOBench Realtime上提升+5.96

實時性能：在單張 NVIDIA H100 上實現(xiàn)8 FPS 穩(wěn)定流式推理
泛化能力：即使未針對VQA微調(diào)，也顯著提升視頻問答能力

方法

模型和數(shù)據(jù)的方法部分包含三個組成部分： (1) 用于視覺-語言處理的推理方案，支持在無限視頻上的低延遲更新； (2) 賦予 StreamingVLM 流式推理能力的訓(xùn)練策略；(3) 提供長時、實時訓(xùn)練數(shù)據(jù)和新基準 Inf-Streams 的數(shù)據(jù)處理流程。

STREAMINGVLM 的推理方案

如下圖 3 所示，StreamingVLM 推理結(jié)構(gòu)。這些設(shè)計選擇在保持與下圖 1(c) 相當(dāng)性能的同時，降低了計算量。

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

通過這種結(jié)構(gòu)，較舊的視覺 token 會首先被移除；早期文本僅在超出預(yù)算時才被移除。與重新計算先前 token 不同，這種非對稱保留策略在保持生成連貫性的同時，保持了最低的計算量，其性能與帶重疊的滑動窗口（圖 1(c)）相當(dāng)。

連續(xù) RoPE為了防止在移除后出現(xiàn)位置漂移，應(yīng)用了連續(xù)旋轉(zhuǎn)位置嵌入（RoPE）。當(dāng)較早的 token 被移除時，后續(xù)和新進入的 token 的 RoPE 索引會被平移，以便其位置在數(shù)值上與最后保留的 token 連續(xù)。一旦視頻長度超過總窗口大小，有效的 RoPE 索引將停止增長并保持在一個有界范圍內(nèi)。這使得位置值保持在分布內(nèi)，從而穩(wěn)定長時流式推理。

當(dāng)應(yīng)用于使用三維位置嵌入的 Qwen-VL 系列時，我們使用連續(xù)的三維 RoPE。RoPE 索引仍然左移以保持連續(xù)；對于視覺 token，我們構(gòu)建三維索引（時間、高度、寬度），并按三維規(guī)則組裝，匹配交錯的視覺-文本布局。

訓(xùn)練策略

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

如圖 4 右側(cè)面板所示，這種重疊的全注意力監(jiān)督與推理時的有效注意力模式——即注意力匯聚（sink）、最近文本的較長窗口以及最近視覺的較短窗口——高度近似。訓(xùn)練監(jiān)督與測試時上下文的對齊，使模型學(xué)習(xí)到預(yù)期的時間新近偏好（recency bias），并在無需在計算量呈二次增長的超長上下文上訓(xùn)練的情況下實現(xiàn)穩(wěn)定的流式行為。

重要的是，為了與推理時的調(diào)度保持一致，在每個訓(xùn)練片段中交錯視覺和文本 token——而不是采用常見的“先視覺、后文本”的 VLM 結(jié)構(gòu)。我們僅在與逐秒解說對齊的文本位置上計算損失；當(dāng)某一秒沒有解說時，我們在該位置插入占位符 token “...”，同時保持交錯的 V/T 布局。這種監(jiān)督方式教會模型與流同步生成——學(xué)會何時說話、何時保持沉默——從而在推理時賦予 StreamingVLM 可靠的流式解說行為。

數(shù)據(jù)處理流程

視頻收集與語音識別

如下圖 5 所示，從五種運動項目中收集了比賽視頻：籃球、足球、冰球、棒球和美式橄欖球，包括 712 場籃球比賽、544 場足球比賽、402 場冰球比賽、399 場棒球比賽和 392 場美式橄欖球比賽。解說語言為英語。

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

為了保證視頻質(zhì)量與讀取速度，將視頻分辨率限制在 360P–720P，幀率為 24 FPS。首先，使用 WhisperX 模型從這些比賽中提取實時語音（ASR），獲得了一個包含超過 6000 小時視頻及其實時解說的初始語料庫。

數(shù)據(jù)清洗

在完整的解說視頻中，通常包含許多無用片段，如廣告和主持人獨白。這些片段的視覺內(nèi)容與 ASR 語義之間聯(lián)系較弱，使模型無法從畫面中推斷內(nèi)容。此外，ASR 模型有時會錯誤識別球員或球隊名稱。

因此，制定規(guī)則并使用 GPT 清洗這些數(shù)據(jù)。首先將一場比賽劃分為 120 秒的片段，并將每個片段內(nèi)的解說內(nèi)容拼接起來，然后拆分為句子。使用該片段及視頻標題（包括比賽時間和雙方隊伍）作為上下文，要求 GPT-5 模型根據(jù)規(guī)則作出決策，選項包括 “keep”（保留）、“delete”（刪除）和 “edit”（編輯）每個句子。

“keep” 表示內(nèi)容為比賽解說且正確；
“edit” 表示為解說內(nèi)容但需要修改細節(jié)（如錯誤的名字），并返回修改后的完整句子；
“delete” 表示不符合要求的內(nèi)容，不應(yīng)出現(xiàn)在訓(xùn)練數(shù)據(jù)中。

對于保留的句子，時間戳與 ASR 結(jié)果一致；對于編輯的句子，將原句持續(xù)時間均勻分配給編輯后句子的每個詞（由于一個句子通常持續(xù)約 3–5 秒，誤差在可接受范圍內(nèi)）。在原始 ASR 數(shù)據(jù)中，46.32% 被保留，37.89% 被編輯，15.79% 被刪除，最終形成了我們數(shù)據(jù)的原始視頻-解說對。

SFT 與評測數(shù)據(jù)分段

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

在評測中，創(chuàng)建了一個新基準 Inf-Streams-Eval。它包含 20 場完整比賽，平均長度為 2.12 小時。將每場比賽劃分為 100 秒的片段，并選擇其中至少包含 200 個詞的片段。這些片段的解說被視為真實標簽。為了評分，使用更大的模型（此處為 gpt-5）在兩個模型輸出之間進行投票，并可訪問真實參考。獲得更多投票（更高勝率）的模型被判定為提供更好的解說。

Inf-Streams-Eval 有兩種設(shè)置：chunk 和 infinite，分別在后續(xù)表格中用 ? 和 ∞ 表示。在前圖 1 中，chunk 模式對應(yīng)面板 (b)，infinite 模式對應(yīng)面板 (d)。對于無法進行無限推理的模型，我們將視頻切分為多個 chunk；模型接收前文文本和當(dāng)前 chunk 來生成字幕。對于支持無限推理的模型，模型在整個流上運行；我們保留其先前輸出作為前文文本，并持續(xù)生成字幕直到視頻結(jié)束。

高質(zhì)量退火數(shù)據(jù)

上述數(shù)據(jù)集可以微調(diào)模型的實時視頻理解能力。然而，它包含大量關(guān)于球隊信息和賽季歷史的內(nèi)容；對于解說任務(wù)的人類體驗而言，我們更希望模型提供對場上事件的實時解說。因此，我們創(chuàng)建了高質(zhì)量退火數(shù)據(jù)。

首先在無重疊的情況下切分所有數(shù)據(jù)，要求每個片段長度為 16–64 秒，內(nèi)部靜音時間不超過 3 秒；每個片段還必須包含至少 2XD（以秒為單位的持續(xù)時間）個詞?？缢斜荣悾覀児搏@得了 52,530 個新樣本。隨后，我們定義“實時解說”的標準。對于每個樣本，我們使用 GPT-5 判斷“實時解說”比例是否超過 80%，以決定是否保留。最終，僅保留了 14,786 個樣本。后續(xù)實驗（表 6）表明，在使用這部分數(shù)據(jù)進行微調(diào)后，模型的能力和解說質(zhì)量得到了進一步提升。

實驗

首先描述實現(xiàn)細節(jié)，然后在視頻字幕生成和 VQA 任務(wù)上與強基線進行比較。接下來測試 StreamingVLM 的效率。最后，進行消融實驗以更好地理解其行為。

實驗設(shè)置

訓(xùn)練

從 Qwen2.5-VL-Instruct-7B 微調(diào) StreamingVLM。

步驟 1：訓(xùn)練模型以學(xué)習(xí)無限流式推理模式。我們在自構(gòu)建的 SFT 數(shù)據(jù)集（525K 個流式樣本）以及 LiveCC 的 Live-WhisperX-526K（526K 個流式樣本）上訓(xùn)練。步驟 2：使用我們高質(zhì)量的退火數(shù)據(jù)（14K 個流式樣本，每個 16–64 秒，包含詳細動作）來增強實時動作解說能力并提升人類體驗。經(jīng)過這兩個階段后，我們得到 StreamingVLM?？傆嬎懔考s為 128 張 H100 天。

基線模型

本文選擇強基線與 StreamingVLM 進行比較。

在字幕生成任務(wù)中，使用 GPT-4o mini 展示解說能力，并使用 Livecc-7B-Instruct，它在 550 萬個 YouTube 視頻片段（30–240 秒）和 178K 個視頻問答樣本上訓(xùn)練，表現(xiàn)出良好的短視頻解說性能。包括 ReKV，這是一種無需訓(xùn)練的強流式推理方法。

由于設(shè)計限制，GPT-4o mini 在 Inf-Streams-Eval 上僅在 chunk 設(shè)置下評測，而 StreamingVLM 使用 infinite 模式。LiveCC-7B-Instruct 在 chunk 和 infinite 兩種設(shè)置下均進行測試。在 VQA 任務(wù)中，我們使用 Qwen2.5-VL-7B-Instruct（StreamingVLM SFT 前的基礎(chǔ)模型）來展示我們的 SFT 流程如何提升基礎(chǔ)能力。

基準

在多個任務(wù)上評估實時字幕生成與視頻理解性能。

對于字幕生成，使用 Inf-Streams-Eval（平均長度 2.12 小時），測試長時解說能力；以及 LiveSports3K-CC 基準（49 種運動，416 個片段，每個≥10 秒）。

對于視頻理解，在四個公開套件上評估 StreamingVLM：

VideoMME：多任務(wù)集合（問答、字幕、定位），涵蓋短視頻和長視頻的一般理解；
MVBench：針對短片的細粒度能力測試（動作、物體、計數(shù)、時間順序）；
LongVideoBench：需要長時記憶和跨片段推理的長視頻問答；
OVOBench：測試實時理解與流式感知的視頻問答集。

準確率結(jié)果

字幕生成

首先在字幕生成任務(wù)上將我們的推理策略與 ReKV 進行比較。我們觀察到一個無訓(xùn)練的 ReKV 悖論：未經(jīng)過任務(wù)特定微調(diào)的模型表現(xiàn)較差，而經(jīng)過特殊微調(diào)的模型（例如 StreamingVLM）依賴于固定的上下文格式，而 ReKV 的淘汰策略會破壞這種格式，常常導(dǎo)致沒有輸出。相比之下，StreamingVLM 的訓(xùn)練–推理一致性設(shè)計解決了這個問題。

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

然后，在 LiveCC-3K-Sports-CC 和 Inf-Streams-Eval 上評估了 StreamingVLM、Qwen-2.5-VL-7B-Instruct 和 LiveCC-7B-Instruct。如下表1 所示，在 Inf-Streams-Eval 上，Qwen-2.5-VL-7B-Instruct 無法保持連續(xù)解說，因此表現(xiàn)較差。LiveCC-7B-Instruct 在分塊推理下表現(xiàn)更好。下圖6 進一步顯示，短塊會破壞連貫性；這些設(shè)計不支持無限推理，而使用長塊時，很快會超出訓(xùn)練長度并導(dǎo)致退化。

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

相比之下，StreamingVLM 以無限模式運行；其長期記憶和流式視頻感知能力使其具有明顯優(yōu)勢，在解說質(zhì)量上超過了 GPT-4o mini。下圖2（所示圖）展示了一個真實案例，其中 StreamingVLM 保持連貫輸出、實時延遲和長期記憶，解決了無限視頻流實時感知的核心挑戰(zhàn)。在 LiveCC-3K-Sports-CC 上，StreamingVLM 也優(yōu)于基線，展示了在不同長度視頻上的穩(wěn)定流式字幕生成能力。

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

VQA

在四個 VQA 任務(wù)上評估了 StreamingVLM 及其基礎(chǔ)模型 Qwen-2.5-VL-7B-Instruct。如下表3 所示，即使沒有任何 VQA SFT，StreamingVLM 在所有任務(wù)上都優(yōu)于基礎(chǔ)模型，表明我們的 SFT 改善了通用視覺能力。OVOBench Realtime 測試模型對即時流式場景的理解。在這個流式感知任務(wù)上，StreamingVLM 提升了 5.96%。這突出了 Inf-Streams-Train 及我們訓(xùn)練策略的優(yōu)勢，增強了模型的核心能力。

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

效率測試

如下圖 7 所示，報告了圖 1 中三種方法在無限解說下的每 token 延遲：分別是具有全注意力的 VLM、滑動窗口注意力（無重疊）、滑動窗口注意力（有重疊）以及 StreamingVLM 的推理策略，它們分別對應(yīng)圖 1 的面板 (a)、(b)、(c) 和 (d)。

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

實時響應(yīng)要求延遲低于虛線所示的固定閾值。全注意力很快超過限制并導(dǎo)致顯存溢出（OOM）?；瑒哟翱冢o重疊）需要較大的塊以保持連貫性，因此顯示出周期性延遲模式：在每個塊的開始階段，模型重建上下文，導(dǎo)致解說與過去內(nèi)容不連貫；在塊的后期，延遲急劇上升，無法滿足實時需求?；瑒哟翱冢ㄓ兄丿B）由于計算冗余，效率仍然較低。StreamingVLM 保持固定上下文長度并重用 KV，維持較低且穩(wěn)定的延遲，并能在單個 NVIDIA H100 上以 8 FPS 支持實時解說。

消融研究

連續(xù) RoPE

本文研究了連續(xù) RoPE 索引的效果。由于訓(xùn)練時使用全注意力，訓(xùn)練中僅使用原生 RoPE。在推理時，比較了連續(xù) RoPE 與原生版本。如下表 4 所示，原生 RoPE 在無限流上性能急劇下降，因為其索引增長過快并超出訓(xùn)練范圍。將視頻分割為 100 秒的塊可以部分恢復(fù)準確率，但會損害長期連貫性。使用連續(xù) RoPE 時，位置索引保持有界，因此模型能夠在無限推理下保持性能不損失。

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

滑動窗口與 Sink

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

接下來，研究不同的選擇。表 5 右表顯示，16 秒的視覺窗口是一個不錯的選擇：它足夠長以覆蓋最近的動作，同時又足夠短以保持高效。相反，將視覺上下文設(shè)為 0 秒會導(dǎo)致明顯的性能下降，這驗證了保留最近的視覺 token 對連續(xù)動作理解至關(guān)重要。

訓(xùn)練策略與數(shù)據(jù)集

本文研究了 SFT 數(shù)據(jù)和高質(zhì)量退火數(shù)據(jù)的效果。SFT 數(shù)據(jù)集教會模型無限流式推理模式，而高質(zhì)量退火數(shù)據(jù)進一步提升了解說質(zhì)量。

SFT 策略

如下表 6 所示，采用重疊訓(xùn)練策略后，SFT 子集幫助模型適應(yīng)交錯的視覺–文本模式，并理解超長視頻。與僅在 Live-WhisperX-526K 上訓(xùn)練的模型相比，在重疊 SFT 數(shù)據(jù)上訓(xùn)練的模型增強了對無限視頻的感知，在 Inf-Streams-Eval 上相較 GPT-4o-mini 的勝率提升 +31.29，在 Livecc-Sports-3K cc 上相較 LLaVA-Video-72B-Qwen2 的勝率提升 +3.68。

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架-AI.x社區(qū)

高質(zhì)量退火數(shù)據(jù)

高質(zhì)量退火數(shù)據(jù)專注于實時內(nèi)容，并進一步提升了模型能力。如表 6 所示，我們比較了使用和不使用高質(zhì)量退火數(shù)據(jù)進行訓(xùn)練的情況?？梢杂^察到，在字幕生成和 VQA 基準測試上均有顯著提升。

結(jié)論

StreamingVLM，一個統(tǒng)一的訓(xùn)練–推理框架，為現(xiàn)有 VLM 帶來了實時流式感知能力。首先提出了一種高效的流式 VLM 訓(xùn)練策略和數(shù)據(jù)構(gòu)建流程，兩者共同提升了在流式任務(wù)和 VQA 上的性能。接著，在真實場景中展示了我們的推理設(shè)計如何實現(xiàn)實時視頻理解，能夠在單個 NVIDIA H100 上以最高 8 FPS 穩(wěn)定解說超過 3 小時的視頻。最后，發(fā)布了 Inf-Streams，一個新的 SFT 數(shù)據(jù)集和基準，用于測試平均時長超過 2 小時視頻的秒級實時理解?？傮w而言，這項工作為實際場景中的部署鋪平了道路。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/agGaqaM_pJVp37IHdJ6D4Q??

標簽

贊

收藏

回復(fù)

舉報

社區(qū)頭條

熱門內(nèi)容榜 ? 最近上榜

回復(fù)

相關(guān)推薦

首個開源世界模型！百萬級上下文，長視頻理解吊打GPT-4，UC伯克利華人一作

duhorse ? 4614瀏覽 ? 0回復(fù)
CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達)

angel ? 5352瀏覽 ? 0回復(fù)
英偉達開源大模型對齊框架—NeMo-Aligner

Aceryt ? 4257瀏覽 ? 0回復(fù)
快手可靈團隊最新開源項目火了：大叔實時變身少女，GitHub狂攬7.5K星

Crystalcxt ? 4134瀏覽 ? 0回復(fù)
比OpenAI的Whisper快50%，最新開源語音模型

Aceryt ? 4197瀏覽 ? 0回復(fù)
NVIDIA 聯(lián)合團隊提出長視頻理解的前沿技術(shù)BREASE，新框架連接情節(jié)和語義

xuxiangda ? 5342瀏覽 ? 0回復(fù)
從秒級到小時級：TikTok等發(fā)布首篇面向長視頻理解的多模態(tài)大語言模型全面綜述

angel ? 8351瀏覽 ? 0回復(fù)
VideoLLaMB：創(chuàng)新開源框架，引領(lǐng)多模態(tài)長視頻理解

穿越時空111 ? 3737瀏覽 ? 0回復(fù)
Janus 統(tǒng)一多模態(tài)理解和生成

kede96 ? 4081瀏覽 ? 0回復(fù)
自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成！DeepSeek&北大等開源JanusFlow

angel ? 4285瀏覽 ? 0回復(fù)
NeurIPS 2024 | 像素級LLM實現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一

angel ? 6209瀏覽 ? 0回復(fù)
視頻編輯最新SOTA！港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp

angel ? 3366瀏覽 ? 0回復(fù)
EVEv2.0，視覺語言分開編碼，多模態(tài)視覺語言理解；視覺信息引導(dǎo)與標記邏輯增強減少大語言模型幻覺

AI研究前瞻 ? 4112瀏覽 ? 0回復(fù)
Tiktok多模態(tài)大模型最新研究：顯示序列建模提升視頻理解能力

海因斯DK ? 4203瀏覽 ? 0回復(fù)
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎勵模型；將獎勵模型多模態(tài)情緒識別上

AI研究前瞻 ? 3487瀏覽 ? 0回復(fù)
VARGPT：視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成

AIRoobt ? 2974瀏覽 ? 0回復(fù)
長視頻AI推理的“圣杯”！英偉達、MIT、港大、UC伯克利等重磅開源Long-RL

zhangyannni ? 3031瀏覽 ? 0回復(fù)
ICML 2025 | 快手&上交提出統(tǒng)一多模態(tài)生成理解模型Orthus：多模態(tài)理解/圖像編輯/圖文交織生成一鍵搞定

AIGCStudio ? 3866瀏覽 ? 0回復(fù)
視頻生成模型中的零樣本學(xué)習(xí)和推理能力；視頻生成和編輯統(tǒng)一框架；掩碼擴散模型，圖片理解生成一體；物理驅(qū)

AI研究前瞻 ? 2863瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

告別“無腦”生成！VChain視頻推理鏈：僅靠幾個關(guān)鍵幀，自動拍出因果清晰的“電影級”短片 0回復(fù)

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

上一篇：英偉達發(fā)布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！

下一篇：速度狂飆12倍！清華FlashVSR：首次實現(xiàn)超高清視頻實時超分辨率，超越所有擴散VSR模型

社區(qū)精華內(nèi)容

目錄