偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

輕量高效,即插即用:Video-RAG為長視頻理解帶來新范式

人工智能 新聞
廈門大學(xué)、羅切斯特大學(xué)與南京大學(xué)聯(lián)合提出了一種輕量高效、無需微調(diào)的創(chuàng)新框架 ——Video-RAG。該研究已被機器學(xué)習(xí)頂級會議 NeurIPS 2025 接收,為長視頻理解任務(wù)提供了全新的解決思路。

盡管視覺語言模型(LVLMs)在圖像與短視頻理解中已取得顯著進展,但在處理長時序、復(fù)雜語義的視頻內(nèi)容時仍面臨巨大挑戰(zhàn) —— 上下文長度限制、跨模態(tài)對齊困難、計算成本高昂等問題制約著其實際應(yīng)用。針對這一難題,廈門大學(xué)、羅切斯特大學(xué)與南京大學(xué)聯(lián)合提出了一種輕量高效、無需微調(diào)的創(chuàng)新框架 ——Video-RAG。該研究已被機器學(xué)習(xí)頂級會議 NeurIPS 2025 接收,為長視頻理解任務(wù)提供了全新的解決思路。

  • 項目主頁:https://video-rag.github.io/
  • 論文鏈接:https://arxiv.org/abs/2411.13093
  • 開源代碼:https://github.com/Leon1207/Video-RAG-master

挑戰(zhàn):現(xiàn)有方法為何難以勝任?

當(dāng)前主流方案主要分為兩類:

  • 擴展上下文法(如 LongVA):依賴大規(guī)模長視頻 - 文本配對數(shù)據(jù)進行微調(diào),訓(xùn)練成本高且數(shù)據(jù)稀缺;
  • 智能體驅(qū)動法(如 VideoAgent):通過任務(wù)分解與外部代理決策增強推理,但頻繁調(diào)用 GPT-4o 等商業(yè) API 導(dǎo)致開銷巨大。

更重要的是,兩種方法在長時間跨度下的視覺 - 語義對齊上表現(xiàn)有限,往往犧牲效率換取精度,難以兼顧實用性與可擴展性。

創(chuàng)新:用 “檢索” 打通視覺與語言的橋梁

Video-RAG 提出一種低資源消耗、高語義對齊的新路徑 —— 多模態(tài)輔助文本檢索增強生成(Retrieval-Augmented Generation, RAG),不依賴模型微調(diào),也不需昂貴的商業(yè)大模型支持。其核心思想是:從視頻中提取與視覺內(nèi)容強對齊的文本線索,按需檢索并注入現(xiàn)有 LVLM 輸入流中,實現(xiàn)精準(zhǔn)引導(dǎo)與語義增強。

具體流程如下:

1. 查詢解耦(Query Decoupling)

將用戶問題自動拆解為多個檢索請求(JSON 格式),指導(dǎo)系統(tǒng)從不同模態(tài)數(shù)據(jù)庫中查找相關(guān)信息,LVLM 此階段僅處理文本,不接觸視頻幀,大幅降低初期計算負(fù)擔(dān)。

2. 多模態(tài)輔助文本構(gòu)建與檢索

利用開源工具構(gòu)建三大語義對齊數(shù)據(jù)庫:

  • OCR 文本庫:使用 EasyOCR 提取幀內(nèi)文字,結(jié)合 Contriever 編碼 + FAISS 向量索引,支持快速檢索;
  • 語音轉(zhuǎn)錄庫(ASR):通過 Whisper 模型提取音頻內(nèi)容并嵌入存儲;
  • 對象語義庫(DET):采用 APE 模型檢測關(guān)鍵幀中的物體及其空間關(guān)系,經(jīng)場景圖預(yù)處理生成結(jié)構(gòu)化描述文本。

這些文本不僅與畫面同步,還具備明確語義標(biāo)簽,有效緩解傳統(tǒng)采樣幀缺乏上下文關(guān)聯(lián)的問題。

3. 信息融合與響應(yīng)生成

將檢索到的相關(guān)文本片段、原始問題與少量關(guān)鍵視頻幀共同輸入現(xiàn)有的 LVLM(如 LLaMA-VID、Qwen-VL 等),由模型完成最終推理輸出。整個過程無需微調(diào)、即插即用,顯著降低部署門檻與計算開銷。

可以發(fā)現(xiàn),在經(jīng)過檢索之后,LVLM 可以將更多的注意力集中到對應(yīng)的關(guān)鍵視覺信息上,減少模態(tài)鴻溝:

優(yōu)勢:輕量、高效、性能卓越

  • 即插即用:兼容任意開源 LVLM,無需修改模型架構(gòu)或重新訓(xùn)練。
  • 資源友好:在 Video-MME 基準(zhǔn)測試中,平均每問僅增加約 2000 token,遠低于主流 Agent 方法的通信與計算開銷。
  • 性能領(lǐng)先:當(dāng)與一個 72B 參數(shù)規(guī)模的開源 LVLM 結(jié)合時,Video-RAG 在多個長視頻理解基準(zhǔn)上超越 GPT-4o 和 Gemini 1.5 等商業(yè)閉源模型,展現(xiàn)出驚人的競爭力。

成果與意義

Video-RAG 的成功驗證了一個重要方向:通過高質(zhì)量、視覺對齊的輔助文本引入外部知識,可以在不改變模型的前提下,突破上下文窗口瓶頸,顯著提升跨模態(tài)理解能力。它不僅解決了長視頻理解中的 “幻覺” 與 “注意力分散” 問題,更構(gòu)建了一套低成本、高可擴展的技術(shù)范式,適用于教育、安防、醫(yī)療影像分析等多種現(xiàn)實場景。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-12-26 00:51:38

2017-09-19 10:11:57

德國電信

2009-06-30 19:12:16

云計算SOAIT

2022-11-28 14:00:24

人工智能

2024-01-08 08:23:08

OpenCV機器學(xué)習(xí)計算機視覺

2025-07-01 09:21:33

2025-03-03 11:41:11

2025-02-06 13:50:06

2024-12-26 07:20:00

2009-08-19 16:59:51

美國西蒙光纜結(jié)構(gòu)綜合布線

2011-11-11 16:29:00

斐訊電力貓FH2001

2025-08-19 09:12:00

AI模型訓(xùn)練

2024-11-12 10:20:00

模型數(shù)據(jù)

2019-09-23 16:06:50

物聯(lián)網(wǎng)大數(shù)據(jù)IOT

2009-12-11 19:04:52

移動計算高效企業(yè)

2022-06-10 10:38:07

數(shù)據(jù)中心模塊化設(shè)計服務(wù)器

2025-06-05 08:20:00

2024-07-17 09:38:26

點贊
收藏

51CTO技術(shù)棧公眾號