偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICML 2025 | 長視頻理解新SOTA!螞蟻&人大開源ViLAMP-7B,單卡可處理3小時(shí)視頻

人工智能 新聞
近日,螞蟻和人大的研究團(tuán)隊(duì)帶來了一個(gè)創(chuàng)新性的解決方案。他們提出視覺語言大模型?ViLAMP(Video-Language Model with Mixed Precision),實(shí)現(xiàn)了對(duì)超長視頻的高效處理。

該工作第一作者為中國人民大學(xué)高瓴人工智能學(xué)院碩士生程傳奇,目前于螞蟻技術(shù)研究院實(shí)習(xí),其主要研究領(lǐng)域?yàn)槎嗄B(tài)大模型,螞蟻技術(shù)研究院副研究員關(guān)健為共同第一作者。

在視覺語言模型(Vision-Language Models,VLMs)取得突破性進(jìn)展的當(dāng)下,長視頻理解的挑戰(zhàn)顯得愈發(fā)重要。以標(biāo)準(zhǔn) 24 幀率的標(biāo)清視頻為例,僅需數(shù)分鐘即可產(chǎn)生逾百萬的視覺 token,這已遠(yuǎn)超主流大語言模型 4K-128K 的上下文處理極限。當(dāng)面對(duì)影視級(jí)的長視頻內(nèi)容時(shí),傳統(tǒng)解決方案的不足愈加凸顯:粗放式的幀采樣策略往往造成關(guān)鍵幀信息遺漏,而特征融合方法雖能降低數(shù)據(jù)維度,卻不可避免地導(dǎo)致語義完整性受損。

近日,螞蟻和人大的研究團(tuán)隊(duì)帶來了一個(gè)創(chuàng)新性的解決方案。他們提出視覺語言大模型 ViLAMP(Video-Language Model with Mixed Precision),實(shí)現(xiàn)了對(duì)超長視頻的高效處理。這個(gè)方法的核心在于其獨(dú)特的 “混合精度” 策略:對(duì)視頻中的關(guān)鍵內(nèi)容保持高精度分析,而對(duì)次要內(nèi)容進(jìn)行強(qiáng)力壓縮,就像人類在觀看視頻時(shí)會(huì)重點(diǎn)關(guān)注關(guān)鍵場景,而對(duì)過渡時(shí)空信息只做快速掃描一樣。

圖片


  • 論文標(biāo)題:Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
  • 論文地址:https://arxiv.org/abs/2504.02438
  • Github:https://github.com/steven-ccq/ViLAMP

實(shí)驗(yàn)結(jié)果令人振奮:ViLAMP 在 Video-MME 等五個(gè)主流視頻理解基準(zhǔn)上全面超越現(xiàn)有方案,特別是在處理長視頻時(shí)展現(xiàn)出顯著優(yōu)勢。更重要的是,它可以在單張 A100 GPU 上連續(xù)處理長達(dá) 1 萬幀(按每秒 1 幀計(jì)算約 3 小時(shí))的視頻內(nèi)容,同時(shí)保持穩(wěn)定的理解準(zhǔn)確率。這一突破不僅大大提升了視頻處理效率,更為在線教育、視頻監(jiān)控、直播分析等實(shí)際應(yīng)用場景帶來了新的可能。相關(guān)論文已被 ICML 2025 接收。

圖片

橫軸:處理的視頻幀數(shù)(從 0 到 10,000 幀),縱軸: GPU 內(nèi)存使用量(MB)。測試在單塊 NVIDIA A100 GPU 上進(jìn)行。

圖片

VideoNIAH(視頻版本大海撈針任務(wù))測試結(jié)果。橫軸:視頻總長度(2K-10K 幀);縱軸:表示目標(biāo)視頻在完整視頻中的相對(duì)位置(0% 表示在開頭,100% 表示在結(jié)尾)。

視頻信息在時(shí)空維度均呈現(xiàn)稀疏性與冗余性

為解決長視頻處理的效率問題,研究團(tuán)隊(duì)首先對(duì)主流視覺語言模型(包括 LLaVA-OneVision、LLaVA-Video、Qwen2-VL 和 LongVA)進(jìn)行了系統(tǒng)性分析,發(fā)現(xiàn)了視頻信息在時(shí)間和空間上均存在顯著的稀疏性和冗余性:

  • 幀間注意力分析:在現(xiàn)有模型中,用戶 Query 對(duì)相應(yīng)視頻的注意力高度集中 ——90% 的注意力僅分布在不到 5% 的視頻幀上(稱為關(guān)鍵幀)。更重要的是,這 5% 的關(guān)鍵幀之間往往存在很強(qiáng)的視覺相似度。
  • 幀內(nèi)注意力分析:在每一幀的內(nèi)部,模型的注意力也展現(xiàn)出相似的稀疏性質(zhì) ——50% 的 patch(幀劃分的最小單位)就承載了 80% 的模型注意力,但這些受關(guān)注的 patch 與關(guān)鍵幀中的對(duì)應(yīng) patch 具有遠(yuǎn)超隨機(jī)基線水平的相似度。

這一發(fā)現(xiàn)表明現(xiàn)有模型在處理視頻時(shí)存在大量計(jì)算資源的浪費(fèi)。實(shí)際上,處理長視頻不需要對(duì)每一幀、每個(gè) patch 都投入同樣的計(jì)算量?;诖耍芯繄F(tuán)隊(duì)提出 “差分蒸餾原則”(Differential Distill Principle):識(shí)別并保留重要的視頻信息,同時(shí)壓縮那些雖然相關(guān)但高度冗余的信息。其中,重要信息應(yīng)該同時(shí)滿足兩個(gè)條件:(1)高查詢相關(guān)性:與當(dāng)前用戶 Query 高度相關(guān);(2)低信息冗余性:包含獨(dú)特的視頻信息。這一原則為后續(xù)設(shè)計(jì)高效的視頻處理算法奠定了理論基礎(chǔ)。

ViLAMP: 基于差分蒸餾的雙層混合精度架構(gòu)

前文的注意力分析揭示了一個(gè)關(guān)鍵問題:現(xiàn)有視覺語言模型對(duì)視頻中所有幀和 patch 都采用相同的處理方式,導(dǎo)致大量計(jì)算資源的浪費(fèi)?;谶@一認(rèn)識(shí),研究團(tuán)隊(duì)提出了專門面向長視頻處理的高效架構(gòu) ViLAMP,它能夠根據(jù)信息的重要程度自適應(yīng)地分配計(jì)算資源。

圖片

ViLAMP 模型結(jié)構(gòu)圖

ViLAMP 通過層次化的壓縮框架實(shí)現(xiàn)這一策略:在幀級(jí)別,對(duì)重要的關(guān)鍵幀保留完整的視覺 token 表示,以捕獲關(guān)鍵信息;而對(duì)于非關(guān)鍵幀,則采用強(qiáng)力壓縮策略;在 patch 級(jí)別,通過差分機(jī)制增大重要 patch 的權(quán)重。

模型具體包含兩個(gè)核心機(jī)制:

1. 差分關(guān)鍵幀選擇(Differential Keyframe Selection,DKS)

為實(shí)現(xiàn)關(guān)鍵幀的高效識(shí)別,ViLAMP 采用了基于貪心策略的選擇算法。該算法在最大化與用戶 Query 的相關(guān)性的同時(shí),通過差分機(jī)制降低幀間冗余,確保選中的關(guān)鍵幀既重要又多樣化。

2. 差分特征合并(Differential Feature Merging,DFM)

針對(duì)非關(guān)鍵幀的處理,ViLAMP 創(chuàng)新性地通過差分加權(quán)池化,將每個(gè)非關(guān)鍵幀壓縮為單個(gè)信息量最大化的 token。在壓縮過程中,模型賦予那些與用戶 Query 相關(guān)且具有獨(dú)特性的 patch 較高的權(quán)重,同時(shí)降低與相鄰的關(guān)鍵幀有顯著重復(fù)的 patch 的權(quán)重,從而在大幅降低計(jì)算量的同時(shí)保留關(guān)鍵信息。

這種雙層混合精度架構(gòu)既確保了模型能夠準(zhǔn)確捕獲視頻中的關(guān)鍵信息,又顯著降低了計(jì)算開銷。

突破性性能:全面超越現(xiàn)有方案

在五個(gè)主流視頻理解基準(zhǔn)上的實(shí)驗(yàn)表明:

1.ViLAMP 以 7B 參數(shù)量達(dá)到或超越了部分 70B 量級(jí)模型的表現(xiàn),特別是在 Video-MME 長視頻子集上比現(xiàn)有最優(yōu)模型提升 4.8%。

2. 針對(duì)當(dāng)前視頻理解基準(zhǔn)中視頻長度不足的問題,本文提出了面向視頻理解場景的 “大海撈針” 任務(wù) ——VideoNIAH。該任務(wù)將一段目標(biāo)短視頻(1 分鐘以內(nèi))插入到小時(shí)級(jí)別的長視頻中,要求模型在不依賴先驗(yàn)信息的情況下,從超長視頻上下文中定位并理解該片段,進(jìn)而回答相關(guān)問題。與傳統(tǒng)基于文本的 NIAH 任務(wù)不同,VideoNIAH 中的答案無法直接從視頻對(duì)應(yīng)的文本描述中提取。因此,該任務(wù)本質(zhì)上更具挑戰(zhàn)性,難以達(dá)到語言模型在文本 NIAH 任務(wù)中所表現(xiàn)出的近乎完美的準(zhǔn)確率(例如 99%)。VideoNIAH 任務(wù)的性能上限受限于模型對(duì)目標(biāo)短視頻原始 QA 的理解水平,進(jìn)一步凸顯了該任務(wù)對(duì)視頻內(nèi)容深層次理解能力的嚴(yán)格要求。在這一新提出的超長視頻理解基準(zhǔn)上,ViLAMP 在處理包含 10K 幀(約 3 小時(shí))的視頻時(shí)仍能保持 58.15% 的準(zhǔn)確率(原始 QA 數(shù)據(jù)集準(zhǔn)確率 78.9%),超越 VideoChat-Flash 基線模型 12.82%,展現(xiàn)出較強(qiáng)的長視頻建模能力。

3. 計(jì)算效率顯著提升:內(nèi)存消耗相比 LLaMA-VID 基線降低約 50%,在 8,192 幀情況下計(jì)算量減少 80% 以上。

4. 深入的消融實(shí)驗(yàn)表明:與已有的關(guān)鍵幀選擇方案相比,DKS 在長視頻場景下表現(xiàn)出明顯優(yōu)勢;與 Q-former 和平均池化等特征融合方案相比,DFM 在所有數(shù)據(jù)集上都展現(xiàn)出 3 個(gè)百分點(diǎn)以上的性能優(yōu)勢。

圖片

模型表現(xiàn)

圖片

Video-MME 排行榜

圖片

計(jì)算效率對(duì)比

結(jié)語

ViLAMP 通過創(chuàng)新的差分蒸餾框架成功突破了長視頻處理的計(jì)算瓶頸,不僅在性能上實(shí)現(xiàn)了飛躍,更為視頻理解領(lǐng)域提供了新的研究思路。該工作的原理性貢獻(xiàn)和實(shí)用價(jià)值將推動(dòng)視頻理解技術(shù)在更多實(shí)際場景中的落地應(yīng)用。期待未來看到更多基于此框架的創(chuàng)新發(fā)展。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-07-21 09:07:00

模型訓(xùn)練視頻

2024-07-15 08:58:00

2025-03-27 12:20:25

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2021-09-07 16:15:07

微信視頻號(hào)移動(dòng)應(yīng)用

2025-06-04 13:51:43

視頻生成模型

2024-12-26 11:48:27

2024-03-29 13:55:22

AI訓(xùn)練

2023-03-20 13:43:00

AI論文

2021-01-12 05:57:49

AI人工智能機(jī)器學(xué)習(xí)

2024-08-13 15:40:00

2025-06-30 14:01:03

LLM模型AI

2025-05-06 09:55:00

2025-07-30 08:40:00

AI編程模型

2024-07-30 13:42:57

2025-10-20 17:07:20

AI機(jī)器學(xué)習(xí)模型

2025-03-13 12:39:22

2025-06-03 14:15:33

視頻生成開源

2025-02-18 13:30:00

2023-11-20 22:02:54

開源模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)