7B最強(qiáng)長(zhǎng)視頻模型! LongVA視頻理解超千幀,霸榜多個(gè)榜單
本文主要作者來自 LMMs-Lab 團(tuán)隊(duì)與新加坡南洋理工大學(xué)。共同一作中,張培源是南洋理工大學(xué)研究助理,張愷宸是南洋理工大學(xué)四年級(jí)本科生,李博為南洋理工大學(xué)三年級(jí)博士生,指導(dǎo)教師為 MMLab@NTU 劉子緯教授。LMMs-Lab 是一個(gè)由學(xué)生、研究人員和教師組成的團(tuán)隊(duì),致力于多模態(tài)模型的研究,主要研究方向包括多模態(tài)模型的訓(xùn)練與全面評(píng)估,此前的工作包括多模態(tài)測(cè)評(píng)框架 lmms-eval 等。
為什么說理解長(zhǎng)視頻難如 “大海撈針”?
現(xiàn)有的 LMMs 在處理長(zhǎng)視頻時(shí)面臨的一個(gè)主要挑戰(zhàn)是視覺 token 數(shù)量過多。比如,LLaVA-1.6 對(duì)單張圖片就能生成 576 到 2880 個(gè)視覺 token。視頻幀數(shù)越多,token 數(shù)量也就更多。雖然 BLIP2,LLaMA-VID, Chat-UniVI 等工作 通過改動(dòng) ViT 和語(yǔ)言模型之間的連接層來減少視覺 token 數(shù)量,但仍然不能處理特別多的幀數(shù)。
此外,缺乏高質(zhì)量的長(zhǎng)視頻數(shù)據(jù)集也是一大瓶頸?,F(xiàn)有訓(xùn)練數(shù)據(jù)集大多是 1 分鐘內(nèi)的短視頻,即使有長(zhǎng)視頻,標(biāo)注的文本對(duì)僅限于視頻的幾個(gè)幀,缺乏密集的監(jiān)督信號(hào)。
近日 LMMs-Lab, 南洋理工大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)推出了 LongVA 長(zhǎng)視頻模型, 它可以理解超過千幀的視頻數(shù)據(jù),超越了當(dāng)前一眾開源視頻多模態(tài)模型的性能!
- 論文鏈接:https://arxiv.org/abs/2406.16852
- 演示地址:https://longva-demo.lmms-lab.com/
- 代碼地址:https://github.com/EvolvingLMMs-Lab/LongVA
作者團(tuán)隊(duì)首次在多模態(tài)領(lǐng)域提出長(zhǎng)上下文遷移(Long Context Transfer),這一技術(shù)使得多模態(tài)大模型(LMMs)能夠在不進(jìn)行長(zhǎng)視頻訓(xùn)練的情況下,處理和理解超長(zhǎng)視頻。他們的新模型 LongVA 能夠處理 2000 幀或者超過 20 萬(wàn)個(gè)視覺 token, 在視頻理解榜單 Video-MME 上實(shí)現(xiàn)了 7B 規(guī)模的 SoTA。在最新的長(zhǎng)視頻 MLVU 榜單上, LongVA 更是僅次于 GPT4-o 的最強(qiáng)模型!
LongVA 的作者總結(jié)了下面這張圖, 可以看到,目前的多模態(tài)大模型在長(zhǎng)視頻理解上還不盡如人意,能夠處理的幀數(shù)限制了長(zhǎng)視頻的處理和理解。為了處理更多的幀,LLaMA-VID 等工作不得不急劇壓縮單張幀對(duì)應(yīng)的 token 數(shù)量。
長(zhǎng)上下文遷移
針對(duì)處理長(zhǎng)視頻面臨的挑戰(zhàn),研究團(tuán)隊(duì)提出了 “長(zhǎng)上下文遷移” 這一全新思路。他們認(rèn)為, 目前長(zhǎng)視頻大模型的多幀瓶頸不在如如何從 Vision Encoder 抽取壓縮的特征上面(下圖(a)), 而在于擴(kuò)展模型的長(zhǎng)上下文能力上。
他們發(fā)現(xiàn),通過簡(jiǎn)單地?cái)U(kuò)展語(yǔ)言模型的在文字上的上下文長(zhǎng)度,他們能成功地將這種能力傳遞到視覺模態(tài)上,而無需進(jìn)行任何長(zhǎng)視頻訓(xùn)練。具體做法是,首先通過長(zhǎng)文本數(shù)據(jù)訓(xùn)練語(yǔ)言模型,然后利用短圖像數(shù)據(jù)進(jìn)行模態(tài)對(duì)齊。他們發(fā)現(xiàn)在這樣訓(xùn)練的模型在測(cè)試時(shí)就可以直接理解多幀的視頻, 省去了長(zhǎng)視頻訓(xùn)練的必要性。
在長(zhǎng)語(yǔ)言模型訓(xùn)練過程中,作者團(tuán)隊(duì)使用了 Qwen2-7B-Instruct 作為底座,并通過長(zhǎng)上下文訓(xùn)練將其文本上下文長(zhǎng)度擴(kuò)展到 224K。訓(xùn)練過程中使用了 FlashAttention-2、Ring Attention、activation checkpoint 和 parameter offload 等多種優(yōu)化策略,以提高訓(xùn)練效率和內(nèi)存利用率。
在模態(tài)對(duì)齊階段,作者設(shè)計(jì)了一個(gè)名為 “UniRes” 的統(tǒng)一編碼方案,用于同時(shí)處理圖像和視頻。UniRes 方案與 LLaVA-1.6 中的 AnyRes 編碼方案類似,但去處了 base image 部分,針對(duì)每個(gè) grid 分別一維化,并在每個(gè)網(wǎng)格內(nèi)進(jìn)行了 2x2 特征池化。這種方法確保了在將圖像數(shù)據(jù)擴(kuò)展到視頻時(shí),能夠保持一致的表示形式。
LongVA 采用了 “短上下文訓(xùn)練,長(zhǎng)上下文測(cè)試” 的策略,也就是讓模型在模態(tài)對(duì)齊階段僅使用圖像 - 文本數(shù)據(jù)進(jìn)行訓(xùn)練,而在測(cè)試直接利用長(zhǎng)視頻進(jìn)行處理測(cè)試。這種策略有效地展示了長(zhǎng)上下文遷移的現(xiàn)象,使得模型能夠在未進(jìn)行長(zhǎng)視頻訓(xùn)練的情況下,可以獲得理解和處理長(zhǎng)視頻的能力。
LongVA 的超強(qiáng)性能
目前還沒有評(píng)估 LMMs 長(zhǎng)視頻視覺上下文長(zhǎng)度的基準(zhǔn)測(cè)試。為了解決這一問題,LongVA 團(tuán)隊(duì)將大海撈針測(cè)試從文本擴(kuò)展到視覺,并提出了 Visual Needle-In-A-Haystack (V-NIAH) 基準(zhǔn)測(cè)試。
在 V-NIAH 測(cè)試中,團(tuán)隊(duì)設(shè)計(jì)了 5 個(gè)圖像問答問題,將每個(gè)問題作為單幀插入到數(shù)小時(shí)的電影中,并以 1 幀 / 秒的頻率采樣視頻作為視覺輸入。這些 “針” 的圖像來源于現(xiàn)有的視覺問答數(shù)據(jù)集或 AI 生成的圖像,這樣是為了確保模型無法僅通過語(yǔ)言知識(shí)來回答問題。每個(gè)問題都包含一個(gè) “定位提示”,使得正確的系統(tǒng)或人類能夠從視頻中定位 “針” 幀并回答問題。
V-NIAH 測(cè)試結(jié)果顯示,LongVA 在 2000 幀(每幀 144 個(gè) token)以內(nèi)的視覺大海撈針測(cè)試幾乎全對(duì), 在 3000 幀的尺度上也保持了不錯(cuò)的正確率 。有趣的是,和語(yǔ)言模型類似, 他們發(fā)現(xiàn) LongVA 在 V-NIAH 上也存在一定程度的 Lost-In-The-Middle 現(xiàn)象。
在最近騰訊,中科大等機(jī)構(gòu)提出的 Video-MME 榜單上, LongVA 排名第七并且達(dá)到了 7B 模型的 SoTA。
https://video-mme.github.io/home_page.html#leaderboard
在智源聯(lián)合北郵、北大和浙大等多所高校推出的 MLVU 基準(zhǔn)測(cè)試中, LongVA 更是僅次于 GPT-4o, 位列最強(qiáng)的開源模型。
https://github.com/JUNJIE99/MLVU/
作者團(tuán)隊(duì)在論文中也附上了一些效果展示。
更多細(xì)節(jié), 感興趣的讀者可以查看原論文。