多榜單登頂！華為 & 哈工深團隊提出 AdaReTaKe，突破長視頻理解極限

作者：機器之心 2025-04-07 07:55:00

華為與哈爾濱工業(yè)大學(xué)（深圳）聯(lián)合提出了一個全新的長視頻理解框架 ——AdaReTaKe。

第一作者為哈爾濱工業(yè)大學(xué)（深圳）博士生王霄和華為大模型研究員佀慶一，該工作完成于王霄在華為實習(xí)期間。王霄的研究方向為多模態(tài)視頻理解和生成，佀慶一的研究方向為多模態(tài)理解、LLM post-training和高效推理。

隨著視頻內(nèi)容的重要性日益提升，如何處理理解長視頻成為多模態(tài)大模型面臨的關(guān)鍵挑戰(zhàn)。長視頻理解能力，對于智慧安防、智能體的長期記憶以及多模態(tài)深度思考能力有著重要價值。

華為與哈爾濱工業(yè)大學(xué)（深圳）聯(lián)合提出了一個全新的長視頻理解框架 ——AdaReTaKe（Adaptively Reducing Temporal and Knowledge redundancy）。無需訓(xùn)練，該框架通過在推理時動態(tài)壓縮視頻冗余信息，使多模態(tài)大模型能夠處理長度提升至原來的 8 倍（高達 2048 幀），在多個基準(zhǔn)測試中超越同規(guī)模模型 3-5%，位列 VideoMME、MLVU、LongVideoBench 和 LVBench 四個長視頻理解榜單開源模型第一，為長視頻理解設(shè)立了新標(biāo)桿。

論文標(biāo)題：AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding
論文鏈接：https://arxiv.org/abs/2503.12559
開源代碼：https://github.com/SCZwangxiao/video-FlexReduc.git

下圖展示了 AdaReTaKe 的效果。在單卡 A100 上基于 QWen2VL 實驗，AdaReTaKe 將輸入視頻 context length 壓縮固定的 16K，進而將所能處理的最大幀數(shù)由 256 提升至 2048，持續(xù)地提升多個 benchmark 上的表現(xiàn)。

在 AdaReTaKe 的 Github 倉庫中可以發(fā)現(xiàn)其使用方法比較簡潔，只需要對 transformers 導(dǎo)入的模型進行簡單的 patch 即可，支持 QWen2VL、QWen2.5VL、LLaVA-OneVision 等多種多模態(tài)理解模型。

接下來，將從前言、設(shè)計思路、方法以及實驗效果四個方面介紹 AdaReTaKe。

前言

隨著多模態(tài)大模型需要處理的序列長度越來越長，其顯存開銷的大頭越來越趨向于被 KV Cache [1] 占據(jù)。為了減少顯存開銷，從而處理更長視頻以獲得更多有效信息，現(xiàn)有方法主要采用視覺序列壓縮技術(shù)，基于 Attention 的稀疏性質(zhì)，通過刪除、合并冗余 token 減少序列長度。但是已有方法未能充分挖掘視覺稀疏程度在視頻時序上、大模型層間的不一致性。

設(shè)計思路

大多數(shù)視覺序列壓縮技術(shù)的核心是尋找 attention 過程中的 Heavy Hitter [2]。即最收到 prompt 關(guān)注的多個視覺 token，如下圖所示。

Heavy Hitter 在視頻時序上分布不均勻。如下圖所示，研究團隊對 VideoMME 上隨機采樣的 64 個視頻實驗發(fā)現(xiàn)，時序上 Heavy Hitter 密度差距最多可以達到 7 倍。

Heavy Hitter 在大模型層間分布不均勻。如下圖所示，研究團隊對 VideoMME 全量視頻實驗發(fā)現(xiàn)，大模型不同層之間 Heavy Hitter 密度差距最多可以達到 4 倍，且這種密度差異并非單調(diào)變化。

基于上述發(fā)現(xiàn)，團隊設(shè)計了 AdaReTaKe 方法，賦能視頻大模型在相同的計算資源和上下文窗口下盡可能多的放入更有信息量的信息，從而實現(xiàn)對更長序列的理解和更多細節(jié)的捕捉。具體方法如下：

方法

AdaReTaKe 框架圖

ReTaKe 系列的核心有兩個方面，其一是大模型視頻序列分塊壓縮方法（來自 ReTaKe），其二是動態(tài)壓縮率分配方法（AdaReTaKe），根據(jù)時間與模型層間冗余性差異動態(tài)分配壓縮率。

大模型視頻序列分塊壓縮方法

大模型視頻序列分塊壓縮方法首先將視頻幀分割成若干個包含 τ 幀的塊，通過視覺編碼器和投影層提取每塊的特征，并根據(jù)最大上下文長度為每個塊分配一個基于其內(nèi)容的壓縮比率，確保最終序列長度不超過。然后，將每個塊依次輸入大模型進行預(yù)填充。每一個分塊預(yù)填充（chunk prefilling）結(jié)束后，壓縮其對應(yīng)的 KV cache，從而在減少冗余的同時保持重要細節(jié)，提高長視頻序列處理能力。

基于視頻時間與模型層間冗余性的壓縮率分配

1. 時間自適應(yīng)分配

將長視頻分塊，根據(jù)相鄰幀相似度動態(tài)分配壓縮比。靜態(tài)片段高壓縮，動態(tài)片段保留更多細節(jié)。

2. 層次自適應(yīng)分配

不同模型層關(guān)注不同抽象特征（如淺層紋理、深層語義），通過注意力分?jǐn)?shù)調(diào)整各層壓縮比率，避免 “一刀切” 策略。

3. 理論保障

提出壓縮損失上界理論，確保動態(tài)分配策略接近最優(yōu)解，信息保留最大化。

實驗結(jié)果分析

基準(zhǔn)方法比較

ReTaKe 方法能夠一致提升各個基準(zhǔn)的長視頻理解能力。實驗結(jié)果顯示，AdaReTaKe 方法在 VideoMME、MLVU、LongVideoBench 和 LVBench 四個長視頻理解基準(zhǔn)上，對于 LLaVA-Video、QWen2VL 和 QWen2.5VL 三種基準(zhǔn)模型有一致且穩(wěn)定的性能提升，平均提升幅度高達 3%-5%。對于平均時長最長（超過 1 小時）的 LVBench，AdaReTaKe 將 7B 和 72B 模型的準(zhǔn)確率分別提升 5.9% 和 6.0%。

消融實驗

研究團隊通過一系列對比實驗深入探討了 AdaReTaKe 模型各組件對性能提升的具體貢獻。首先，將基線模型（#0）與加入了 token 壓縮的方法進行對比，發(fā)現(xiàn)盡管 token 壓縮引入了輕微的性能下降（#1），但它允許模型在同一上下文長度內(nèi)處理更多的幀（#2），從而捕捉到更豐富的信息，最終實現(xiàn)了凈性能增益。其次，在不同層和不同幀之間應(yīng)用不同的壓縮比率（分別為 #3 和 #4），結(jié)果顯示這種分配策略能夠有效提升模型性能，驗證了 AdaReTaKe 方法的有效性。最后，通過擴展上下文長度至 MLLMs 的一般上限（#5），模型性能得到了顯著提升。

ReTaKe 對細粒度時序感知能力的影響

總的來說，如果單純考慮 ReTaKe 對視頻的壓縮，可能會對某些細粒度任務(wù)（如 Needle QA，NQA）的性能造成輕微損害。但由于它使得模型能夠在相同上下文長度內(nèi)處理更多的幀，從而吸收了更豐富的信息。因此最終，這種潛在的損害不僅被有效抵消，還在多個任務(wù)中實現(xiàn)了超越基線的表現(xiàn)。

實驗對比了基線模型 LLaVA-Video-7B 和 QWen2VL-7B 的表現(xiàn)，結(jié)果顯示：單純實現(xiàn) token 壓縮導(dǎo)致 Needle QA 性能略有下降，這是由于壓縮不可避免地帶來了一定的信息丟失，但在其他相對粗粒度的任務(wù)中，如動作順序（AO）、關(guān)鍵信息檢索（KIR）以及時間定位（TG），ReTaKe 的壓縮策略帶來了略微的性能提升。最終，得益于更密集的幀采樣，模型能夠補償因壓縮造成的細微信息損失，并有效增強了對動作的理解及關(guān)鍵信息的提取。

可視化結(jié)果

可視化結(jié)果顯示，ReTaKe 能有效識別并保留關(guān)鍵信息和細微語義變化的區(qū)域，如身體動作和面部表情，同時過濾掉靜態(tài)場景中的冗余幀。

長視頻理解榜單

團隊于 VideoMME 榜單位列第二位，開源模型第一位，僅次于 Gemini-1.5-Pro。在 MLVU、LongVideoBench 和 LVBench 榜單位列第一位，其中 LongVideoBench 是超過 GPT-4o 的首個開源模型。

未來研究方向

原生視頻壓縮模塊：當(dāng)前依賴訓(xùn)練后的啟發(fā)式壓縮策略，未來可設(shè)計端到端壓縮模塊，將壓縮能力和模型深度融合。
智能分塊策略：現(xiàn)有視頻分塊方法依賴固定時長，探索基于語義邊界的分塊（如場景切換）可進一步提升效率。
多模態(tài)聯(lián)合優(yōu)化：結(jié)合音頻、文本等多模態(tài)信號，構(gòu)建冗余評估的綜合指標(biāo)，實現(xiàn)更精準(zhǔn)的壓縮。

總結(jié)

長視頻理解是最接近人類接收信息方式的場景，也是長序列推理在多模態(tài)場景下的首要戰(zhàn)場，ReTaKe 系列論文通過大模型視頻 token 壓縮技術(shù)，解決了長視頻理解中的動態(tài)冗余難題，為 AI 處理小時級視頻提供了新范式，助力學(xué)術(shù)界與工業(yè)界探索視頻智能的邊界。未來，隨著原生壓縮與多模態(tài)融合的突破，長視頻理解將邁向更智能的時代！

責(zé)任編輯：張燕妮來源：機器之心

視頻訓(xùn)練生成

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多榜單登頂！華為 & 哈工深團隊提出 AdaReTaKe，突破長視頻理解極限

前言