偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從秒級到小時(shí)級:TikTok等發(fā)布首篇面向長視頻理解的多模態(tài)大語言模型全面綜述 精華

發(fā)布于 2024-10-10 09:45
瀏覽
0收藏

從秒級到小時(shí)級:TikTok等發(fā)布首篇面向長視頻理解的多模態(tài)大語言模型全面綜述-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2409.18938

亮點(diǎn)直擊

  • 追蹤并總結(jié)從圖像理解到長視頻理解的MM-LLMs的進(jìn)展;
  • 回顧了各種視覺理解任務(wù)之間的差異,并強(qiáng)調(diào)了長視頻理解中的挑戰(zhàn),包括更細(xì)粒度的時(shí)空細(xì)節(jié)、動(dòng)態(tài)事件和長期依賴性;
  • 詳細(xì)總結(jié)了MM-LLMs在理解長視頻方面的模型設(shè)計(jì)和訓(xùn)練方法的進(jìn)展;
  • 比較了現(xiàn)有MM-LLMs在不同長度視頻理解基準(zhǔn)上的表現(xiàn),并討論了MM-LLMs在長視頻理解中的潛在未來方向。


將大語言模型(LLMs)與視覺編碼器的集成最近在視覺理解任務(wù)中顯示出良好的性能,利用它們理解和生成類人文本的固有能力進(jìn)行視覺推理??紤]到視覺數(shù)據(jù)的多樣性,多模態(tài)大語言模型(MM-LLMs)在圖像、短視頻和長視頻理解的模型設(shè)計(jì)和訓(xùn)練上存在差異。本論文集中討論長視頻理解與靜態(tài)圖像和短視頻理解之間的顯著差異和獨(dú)特挑戰(zhàn)。與靜態(tài)圖像不同,短視頻包含具有空間和事件內(nèi)時(shí)間信息的連續(xù)幀,而長視頻則由多個(gè)事件組成,涉及事件之間和長期的時(shí)間信息。在本次調(diào)研中,旨在追蹤并總結(jié)從圖像理解到長視頻理解的MM-LLMs的進(jìn)展?;仡櫫烁鞣N視覺理解任務(wù)之間的差異,并強(qiáng)調(diào)了長視頻理解中的挑戰(zhàn),包括更細(xì)粒度的時(shí)空細(xì)節(jié)、動(dòng)態(tài)事件和長期依賴性。然后,詳細(xì)總結(jié)了MM-LLMs在理解長視頻方面的模型設(shè)計(jì)和訓(xùn)練方法的進(jìn)展。最后,比較了現(xiàn)有MM-LLMs在不同長度視頻理解基準(zhǔn)上的表現(xiàn),并討論了MM-LLMs在長視頻理解中的潛在未來方向。

從秒級到小時(shí)級:TikTok等發(fā)布首篇面向長視頻理解的多模態(tài)大語言模型全面綜述-AI.x社區(qū)

引言

大語言模型(LLMs)通過擴(kuò)大模型規(guī)模和訓(xùn)練數(shù)據(jù),展現(xiàn)了在理解和生成類人文本方面的卓越多功能性和能力。為了將這些能力擴(kuò)展到視覺理解任務(wù),提出了多種方法將LLMs與特定視覺模態(tài)編碼器集成,從而賦予LLMs視覺感知能力。單張圖像或多幀圖像被編碼為視覺tokens,并與文本tokens結(jié)合,以幫助多模態(tài)大語言模型(MM-LLMs)實(shí)現(xiàn)視覺理解。針對長視頻理解,MM-LLMs被設(shè)計(jì)為處理更多的視覺幀和多樣的事件,使其能夠應(yīng)用于廣泛的現(xiàn)實(shí)場景,例如自動(dòng)分析體育視頻、電影、監(jiān)控錄像和在具身AI中的自我中心視頻的精彩片段。例如,一臺(tái)機(jī)器人可以通過長時(shí)間的自我中心視頻學(xué)習(xí)如何制作咖啡。它需要分析長視頻中的關(guān)鍵事件,包括:1)每6盎司水測量1到2湯匙的咖啡粉;2)將水加入咖啡機(jī)的水箱;3)將咖啡粉放入濾網(wǎng);4)啟動(dòng)咖啡機(jī)并等待沖泡。建模具有復(fù)雜時(shí)空細(xì)節(jié)和依賴關(guān)系的長格式視頻仍然是一個(gè)挑戰(zhàn)性問題。


長視頻理解與其他視覺理解任務(wù)之間存在顯著差異。與僅關(guān)注靜態(tài)圖像空間內(nèi)容的靜態(tài)圖像理解相比,短視頻理解還必須考慮連續(xù)幀變化中的事件內(nèi)時(shí)間信息。此外,超過一分鐘的長視頻通常包含多個(gè)場景和視覺內(nèi)容不同的事件, necessitating捕捉顯著的事件間和長期變化以實(shí)現(xiàn)有效理解。有效平衡有限數(shù)量的視覺tokens中的空間和時(shí)間細(xì)節(jié),對長視頻大語言模型(LV-LLMs)構(gòu)成了相當(dāng)大的挑戰(zhàn)。此外,不同于僅持續(xù)幾秒并包含數(shù)十個(gè)視覺幀的短視頻,長視頻往往涵蓋數(shù)千幀。因此,LV-LLMs必須能夠記憶并持續(xù)學(xué)習(xí)跨越數(shù)分鐘甚至數(shù)小時(shí)的視頻中的長期關(guān)聯(lián)。MM-LLMs在全面長視頻理解方面的進(jìn)展,特別是在模型設(shè)計(jì)和訓(xùn)練上,值得特別關(guān)注。


我們在圖2中總結(jié)了MM-LLMs在圖像、短視頻和長視頻理解方面的比較。除了上述討論的長視頻理解與其他視覺理解任務(wù)之間的繼承和發(fā)展關(guān)系外,LV-LLMs還建立在多圖像和短視頻MM-LLMs的進(jìn)展之上,具有相似的視覺編碼器結(jié)構(gòu)、LLM主干和跨模態(tài)連接器。為有效應(yīng)對長視頻理解任務(wù)中新引入的挑戰(zhàn),LV-LLMs設(shè)計(jì)了更高效的長視頻級連接器,這些連接器不僅橋接跨模態(tài)表示,還將視覺tokens壓縮到可管理的數(shù)量。此外,通常還會(huì)結(jié)合時(shí)間感知模塊,以增強(qiáng)LV-LLMs中時(shí)間信息的捕獲。在預(yù)訓(xùn)練和指令調(diào)優(yōu)中,視頻-文本對和視頻-指令數(shù)據(jù)對MM-LLMs處理圖像和視頻具有重要意義,因其共享空間感知和推理能力。長視頻訓(xùn)練數(shù)據(jù)集對于時(shí)間跨模態(tài)語義對齊和捕獲長期相關(guān)性尤其有益,這對于LV-LLMs至關(guān)重要。本文調(diào)查將全面總結(jié)最近在模型設(shè)計(jì)和訓(xùn)練方法上的進(jìn)展,追蹤MM-LLMs從圖像到長視頻的演變。

從秒級到小時(shí)級:TikTok等發(fā)布首篇面向長視頻理解的多模態(tài)大語言模型全面綜述-AI.x社區(qū)

近期關(guān)于視覺理解任務(wù)的調(diào)查通常采用單一視角,或從全局視角回顧MM-LLMs,或從局部視角關(guān)注圖像或視頻理解任務(wù)。雖然這些研究對研究主題進(jìn)行了廣泛的回顧,但未討論不同任務(wù)和方法之間的開發(fā)和繼承關(guān)系。此外,現(xiàn)有關(guān)于視頻理解任務(wù)的評述往往更側(cè)重于一般視頻理解,而不是更具挑戰(zhàn)性的長視頻理解任務(wù)。超過一分鐘的長視頻被廣泛應(yīng)用于教育、娛樂、交通等領(lǐng)域,迫切需要強(qiáng)大的模型進(jìn)行全面的自動(dòng)理解。我們的工作是較早從發(fā)展視角總結(jié)和討論長視頻理解任務(wù)的研究之一。

長視頻理解

由于長視頻理解與圖像或短視頻理解之間的固有差異,包括存在多個(gè)事件、更多幀以及動(dòng)態(tài)場景,長視頻理解任務(wù)為視覺理解帶來了額外的挑戰(zhàn)。

視覺推理與理解

視覺推理要求模型理解和解釋視覺信息,并將多模態(tài)感知與常識理解相結(jié)合。主要有三種類型的視覺推理任務(wù):視覺問答(VQA)、視覺描述(VC)或說明(VD)、以及視覺對話(VDia)。VQA涉及基于輸入的視覺數(shù)據(jù)和相關(guān)問題生成自然語言答案。VC和VD系統(tǒng)通常生成簡潔的自然語言句子,總結(jié)視覺數(shù)據(jù)的主要內(nèi)容,或者對相應(yīng)視覺數(shù)據(jù)進(jìn)行詳細(xì)而全面的描述。VDia涉及多輪對話,由圍繞視覺內(nèi)容的一系列問答對組成。


圖像理解。如圖3(a)所示,圖像理解任務(wù)涉及單張圖像用于各種視覺推理任務(wù),如圖像標(biāo)注和以圖像為中心的問題回答。這些任務(wù)僅關(guān)注空間信息,包括對全球視覺上下文的粗略理解和對局部視覺細(xì)節(jié)的細(xì)致理解。

從秒級到小時(shí)級:TikTok等發(fā)布首篇面向長視頻理解的多模態(tài)大語言模型全面綜述-AI.x社區(qū)

短視頻理解。與僅涉及靜態(tài)視覺數(shù)據(jù)的圖像理解任務(wù)不同,短視頻理解還結(jié)合了來自多個(gè)視覺幀的時(shí)間信息。除了空間推理,事件內(nèi)的時(shí)間推理和跨幀的時(shí)空推理在短視頻理解中發(fā)揮著至關(guān)重要的作用。


長視頻理解。長視頻通常持續(xù)數(shù)分鐘甚至數(shù)小時(shí),通常由多個(gè)事件組成,與短視頻相比,包含更豐富的空間內(nèi)容和時(shí)間變化。如圖3(c)所總結(jié),長視頻理解不僅涉及空間和事件內(nèi)的時(shí)間推理,還涉及事件間推理和來自不同視頻事件的長期推理。

長視頻理解的挑戰(zhàn)

與圖像和短視頻相比,長格式視頻為全面的視覺理解帶來了新的挑戰(zhàn),具體如下:

豐富的細(xì)粒度時(shí)空細(xì)節(jié)。長視頻涵蓋了廣泛的話題、場景和活動(dòng),包含了多樣的細(xì)節(jié),如物體、事件和屬性。與靜態(tài)圖像和具有多個(gè)相似幀的短視頻相比,這些細(xì)節(jié)更加豐富,使得長視頻理解更加具有挑戰(zhàn)性。例如,細(xì)粒度的空間問答可以在任何幀中引入,而時(shí)間問答可以在幀之間或幀內(nèi)引入,以進(jìn)行長視頻推理任務(wù)。用于長視頻理解的多模態(tài)大語言模型(MM-LLMs)必須從持續(xù)數(shù)分鐘甚至數(shù)小時(shí)的視頻幀中捕捉所有相關(guān)的細(xì)粒度時(shí)空細(xì)節(jié),同時(shí)使用有限數(shù)量的視覺tokens。


動(dòng)態(tài)事件與場景轉(zhuǎn)換和內(nèi)容變化。長視頻通常包含各種動(dòng)態(tài)事件,場景和內(nèi)容存在顯著差異。這些事件可能在語義上相關(guān)并且按照出現(xiàn)的順序進(jìn)行時(shí)間協(xié)調(diào),或者由于情節(jié)轉(zhuǎn)折而表現(xiàn)出顯著的語義差異。涉及多事件的事件間推理,對于準(zhǔn)確理解內(nèi)容至關(guān)重要。對于MM-LLMs來說,區(qū)分語義差異并在不同事件之間保持語義一致性是長視頻理解的關(guān)鍵。


長期關(guān)聯(lián)與依賴關(guān)系。長視頻通常包含跨越較長時(shí)間段的動(dòng)作和事件。捕捉長期依賴關(guān)系并理解視頻不同部分之間在長期內(nèi)的關(guān)聯(lián)是一個(gè)挑戰(zhàn)。針對圖像或短視頻設(shè)計(jì)的視頻大語言模型通常無法將當(dāng)前事件與遠(yuǎn)離當(dāng)前時(shí)刻的過去或未來事件進(jìn)行上下文化,也難以進(jìn)行長期決策。

模型架構(gòu)的進(jìn)展

在本節(jié)中,我們討論了多模態(tài)大語言模型(MM-LLMs)從針對圖像的模型到針對長視頻的模型的進(jìn)展,重點(diǎn)在于模型架構(gòu)。正如圖4所示,針對圖像、短視頻和長視頻的MM-LLMs共享一個(gè)相似的結(jié)構(gòu),包括視覺編碼器、LLM主干和中介連接器。與圖像級連接器不同,視頻級連接器對于整合跨幀視覺信息至關(guān)重要。在長視頻大語言模型(LV-LLMs)中,連接器的設(shè)計(jì)更具挑戰(zhàn)性,需要高效壓縮大量視覺信息并融入時(shí)間知識以管理長期關(guān)聯(lián)。

從秒級到小時(shí)級:TikTok等發(fā)布首篇面向長視頻理解的多模態(tài)大語言模型全面綜述-AI.x社區(qū)

視覺編碼器和LLM主干

MM-LLMs通常使用相似的視覺編碼器來提取視覺信息。早期MM-LLM方法中的LLM主干通常是通用的,而現(xiàn)有的LV-LLMs傾向于在實(shí)現(xiàn)中使用長上下文LLMs。


視覺編碼器。預(yù)訓(xùn)練的視覺編碼器負(fù)責(zé)從原始視覺數(shù)據(jù)中捕獲視覺知識??偨Y(jié)于表1中,像CLIP-ViT-L/14、EVA-CLIP-ViT-G/14、OpenCLIP-ViT-bigG/14和SigLIP-SO400M等圖像編碼器被廣泛用于圖像和視頻目標(biāo)LLMs。最近的研究表明,視覺表示(包括圖像分辨率、視覺tokens的大小和預(yù)訓(xùn)練的視覺資源)在性能上比視覺編碼器的大小更為重要。

從秒級到小時(shí)級:TikTok等發(fā)布首篇面向長視頻理解的多模態(tài)大語言模型全面綜述-AI.x社區(qū)

LLM主干。LLM是視覺理解系統(tǒng)的核心模塊,繼承了推理和決策能力的屬性。與封閉源的LLMs(如GPT-3/和Gemini-1.5)相比,各種開源LLMs在實(shí)現(xiàn)視覺LLMs中更為常見。這些包括Flan-T5、LLaMA、Vicuna、QWen、Mistral、Openflamingo、Yi和InternLM。

LLM的強(qiáng)度通常與視覺LLMs中的多模態(tài)能力優(yōu)越性相關(guān)。這意味著,對于相同規(guī)模的LLMs,語言能力更強(qiáng)的模型表現(xiàn)更好,而對于相同的LLMs,不同模型大小的情況,較大的模型往往產(chǎn)生更好的多模態(tài)性能。此外,長上下文LLMs將上下文長度擴(kuò)展到數(shù)十萬個(gè)tokens,支持更廣泛的數(shù)據(jù)學(xué)習(xí)。最近的LV-LLMs有效地將LLM的長上下文理解能力轉(zhuǎn)移到視覺模態(tài)中。

模態(tài)接口

視覺編碼器與LLM之間的連接器充當(dāng)模態(tài)接口,將視覺特征映射到語言特征空間。鑒于視覺數(shù)據(jù)源的多樣性,這些連接器可以分為圖像級、視頻級和長視頻級連接器。

圖像級連接器

圖像級連接器用于將圖像特征映射到語言空間,以處理原始視覺tokens,廣泛用于圖像目標(biāo)和視頻目標(biāo)的MM-LLMs。這些連接器可以分為三類:第一類直接使用單一線性層或多層感知器(MLP)將圖像特征映射到語言嵌入空間。然而,這種保留所有視覺tokens的方法不適合涉及多個(gè)圖像的視覺理解任務(wù)。為了解決保留所有視覺tokens的局限性,第二類采用各種基于池化的方法。這些方法包括空間池化、自適應(yīng)池化、語義相似tokens合并和相鄰tokens平均。第三類利用跨注意力或基于transformer的結(jié)構(gòu),如Q-Former和Perceiver Resampler,用于圖像特征壓縮。Q-Former是一種輕量級transformer結(jié)構(gòu),采用一組可學(xué)習(xí)的查詢向量來提取和壓縮視覺特征。許多視覺LLMs(Dai et al., 2023;Li et al., 2023b;Ma et al., 2023a;Liu et al., 2024e)遵循BLIP-2,選擇基于Q-Former的連接器。其他視覺LLMs(Ma et al., 2023b;Jiang et al., 2024)則選擇Perceiver Resampler,通過提取補(bǔ)丁特征來降低計(jì)算負(fù)擔(dān)。

視頻級連接器

視頻級連接器用于提取順序視覺數(shù)據(jù)并進(jìn)一步壓縮視覺特征。與圖像目標(biāo)MM-LLMs中的圖像級連接器相比,視頻級連接器對于視頻目標(biāo)MM-LLMs(包括LV-LLMs)至關(guān)重要。一些方法直接在輸入LLMs之前連接圖像tokens,使其對幀圖像數(shù)量敏感。用于圖像級連接器中的tokens壓縮的類似結(jié)構(gòu)可以適應(yīng)視頻級接口,如基于池化和基于transformer的結(jié)構(gòu)。沿時(shí)間序列維度的池化是一種減少時(shí)間信息冗余的簡單方法?;趖ransformer的方法,如Video Q-Former和Video Perceiver,在提取視頻特征的同時(shí)減少數(shù)據(jù)復(fù)雜性。此外,基于3D卷積的方法可以從空間和時(shí)間維度提取和壓縮視覺數(shù)據(jù)。

長視頻級連接器

專為長視頻LLMs設(shè)計(jì)的連接器考慮了兩個(gè)特殊因素:高效的視覺信息壓縮以處理長格式視覺數(shù)據(jù),以及時(shí)間感知設(shè)計(jì)以保留時(shí)間信息。高效壓縮視覺信息不僅需要減少輸入視覺tokens到可接受數(shù)量,還需保留長視頻中包含的完整時(shí)空細(xì)節(jié)。視頻中包含兩種數(shù)據(jù)冗余:幀內(nèi)的空間數(shù)據(jù)冗余和幀間的時(shí)空數(shù)據(jù)冗余。一方面,空間數(shù)據(jù)冗余是在幀內(nèi)區(qū)域級像素相同時(shí)產(chǎn)生的,這導(dǎo)致通過完整的視覺tokens表示冗余視覺幀時(shí)效率低下。為減少空間視頻數(shù)據(jù)冗余,LLaVA-Next系列方法合并相鄰幀的補(bǔ)丁tokens,而Chat-UniVi則合并相似幀的補(bǔ)丁tokens。另一方面,時(shí)空數(shù)據(jù)冗余包括跨幀像素冗余和運(yùn)動(dòng)冗余,其中這些冗余視頻幀之間的語義信息相似。為減少時(shí)空視頻冗余,MovieChat和MALMM在輸入LLMs之前合并幀特征,以提高幀相似性。除了減少冗余信息外,保留更多視頻時(shí)空細(xì)節(jié)對于準(zhǔn)確的長視頻推理至關(guān)重要。為了平衡全局和局部視覺信息并支持更多幀輸入,SlowFast-LLaVA采用慢通道以低幀率提取特征,同時(shí)保留更多視覺tokens,并以較高幀率和較大空間池化步幅的快通道關(guān)注運(yùn)動(dòng)線索。

時(shí)間相關(guān)視覺數(shù)據(jù)

此外,時(shí)間相關(guān)的視覺數(shù)據(jù)高效管理長格式視頻中固有的時(shí)間和空間信息。時(shí)間感知設(shè)計(jì)可以增強(qiáng)視頻相關(guān)LLM的時(shí)間捕獲能力,這對于長視頻理解尤其有利。VTimeLLM和InternLM-XComposer-2.5(IXC-2.5)使用幀索引來增強(qiáng)時(shí)間關(guān)系。兩者的區(qū)別在于方法:VTimeLLM通過訓(xùn)練包含幀索引的解碼文本來學(xué)習(xí)時(shí)間信息,而IXC-2.5則將幀索引與幀圖像上下文一起編碼。TimeChat和Momentor將時(shí)間信息直接注入幀特征中,以實(shí)現(xiàn)細(xì)粒度的時(shí)間信息捕獲。具體來說,TimeChat設(shè)計(jì)了一種時(shí)間感知幀編碼器,以提取與幀級別相應(yīng)時(shí)間戳描述的視覺特征,而Momentor則利用時(shí)間感知模塊進(jìn)行連續(xù)的時(shí)間編碼和解碼,將時(shí)間信息注入幀特征中。

模型訓(xùn)練的進(jìn)展

用于視覺理解的多模態(tài)LLMs由兩個(gè)主要階段組成:預(yù)訓(xùn)練(PT)用于視覺與語言特征對齊,指令微調(diào)(IT)用于響應(yīng)指令。

預(yù)訓(xùn)練

MM-LLMs的視覺語言預(yù)訓(xùn)練旨在使用文本配對數(shù)據(jù)將視覺特征與語言空間對齊。這包括對圖像、短視頻和長視頻文本數(shù)據(jù)集的預(yù)訓(xùn)練。最初為專注于圖像的視覺LLMs引入的圖像文本預(yù)訓(xùn)練,也廣泛應(yīng)用于與視頻相關(guān)的理解任務(wù)。粗粒度的圖像文本對數(shù)據(jù)集,如COCO Captions和CC-3M,用于全球視覺語言對齊。細(xì)粒度的圖像文本數(shù)據(jù)集,如ShareGPT4V-PT,則用于局部空間語義對齊??紤]到短視頻語義內(nèi)容的變化有限,短視頻文本配對數(shù)據(jù)集,如Webvid-2M,也可以類似地用于短視頻文本預(yù)訓(xùn)練。類似地,長視頻文本預(yù)訓(xùn)練對于捕獲長視頻的時(shí)間語義對齊非常重要。由于圖像文本和短視頻文本對中缺乏長期跨模態(tài)關(guān)聯(lián),因此需要長視頻文本預(yù)訓(xùn)練數(shù)據(jù)集,其中包含長視頻及其對應(yīng)的文本描述。此外,如圖5(a)所示,長視頻中的場景和事件在幀之間變化顯著,因此需要事件級視覺語言對齊來進(jìn)行長視頻文本預(yù)訓(xùn)練,這與圖像文本和短視頻文本預(yù)訓(xùn)練顯著不同。

從秒級到小時(shí)級:TikTok等發(fā)布首篇面向長視頻理解的多模態(tài)大語言模型全面綜述-AI.x社區(qū)

指令微調(diào)

使用視覺語言源進(jìn)行的指令微調(diào)使LLMs能夠遵循指令并生成類人文本。多模態(tài)視覺語言指令跟隨數(shù)據(jù),包括圖像文本和視頻文本對,用于將多模態(tài)LLMs與人類意圖對齊,從而增強(qiáng)其完成現(xiàn)實(shí)任務(wù)的能力。


與預(yù)訓(xùn)練階段類似,圖像文本指令微調(diào)也被應(yīng)用于各種視覺理解任務(wù),包括圖像、短視頻和長視頻理解任務(wù)?;镜幕趫D像的指令跟隨數(shù)據(jù)集,如ShareGPT4V-Instruct和LLaVA-Instruct,為基本的空間推理和聊天能力提供高質(zhì)量的指令微調(diào)數(shù)據(jù)。對于視頻相關(guān)的LLM,短視頻文本指令微調(diào)是必要的,以使多模態(tài)LLM能夠理解時(shí)間序列,這在Video-ChatGPT和VideoChat等模型中得以體現(xiàn)。短視頻LLM需要同時(shí)進(jìn)行空間和事件內(nèi)推理的指令,以理解短視頻的空間和小規(guī)模時(shí)間內(nèi)容。然而,短視頻中有限的內(nèi)容和語義變化不足以支持長視頻理解任務(wù),因?yàn)殚L視頻的幀數(shù)更多且變化顯著。長視頻文本指令微調(diào)的引入旨在更好地捕獲和理解長視頻。除了空間和事件內(nèi)推理指令外,事件間和長期推理指令對于全面理解長視頻也是必要的,如圖5(b)所示。在引入的長視頻指令格式數(shù)據(jù)集中,Long-VideoQA和Video-ChatGPT不具備時(shí)間意識,僅包含長視頻及其對應(yīng)數(shù)據(jù)。VTimeLLM、TimeIT和Moment-10M具備時(shí)間意識,加入額外的時(shí)間信息以增強(qiáng)時(shí)間相關(guān)性。

評估、性能與分析

在本節(jié)中,我們將對不同長度視頻的流行評估數(shù)據(jù)集進(jìn)行性能比較,并提供分析。比較從兩個(gè)角度進(jìn)行:首先,我們評估視頻理解方法在視頻長度從秒到分鐘的任務(wù)上的表現(xiàn);其次,我們特別比較超長視頻數(shù)據(jù)集(視頻長度從分鐘到小時(shí))的性能。

視頻理解:秒到分鐘

如表2所示,我們總結(jié)了各種視覺LLM在開放式視頻問答基準(zhǔn)測試上的一般視頻理解性能,包括TGIF-QA、MSVD-QA、MSRVTT-QA、NEXT-QA和ActivityNet-QA。此外,我們還考慮了VideoChatGPT引入的視頻生成性能基準(zhǔn),該基準(zhǔn)評估視頻文本生成的五個(gè)方面:信息正確性(CI)、細(xì)節(jié)導(dǎo)向(DO)、上下文理解(CU)、時(shí)間理解(TU)和一致性(CO)。


視頻基準(zhǔn)測試中長度少于1分鐘的,如TGIF-QA、MSVD-QA、MSRVTT-QA和NEXT-QA,通常用于短視頻理解。相比之下,長度超過一分鐘的基準(zhǔn)測試,如ActivityNet-QA和基于ActivityNet-200的生成性能基準(zhǔn),則用于長視頻理解。


通過比較表2中的性能,我們可以得出以下結(jié)論:長視頻理解具有挑戰(zhàn)性,主要發(fā)現(xiàn)如下:(1)包含更多幀的視頻推理引入了更復(fù)雜的視覺信息,挑戰(zhàn)性更大。旨在支持長視頻的方法,如LongVA(Zhang et al., 2024d),在同一視頻數(shù)據(jù)集上與更少幀相比表現(xiàn)更好。然而,對于沒有專門設(shè)計(jì)用于長視頻的方法,如VideoLLaMA2,當(dāng)輸入更多幀時(shí),性能則下降。(2)在秒級視頻理解上表現(xiàn)良好的短視頻理解方法,往往在分鐘級中等長視頻理解上表現(xiàn)不佳,例如RED-VILLM和MiniGPT4-Video。長視頻理解方法在短視頻和中等長視頻基準(zhǔn)測試上通常表現(xiàn)一致良好,例如ST-LLM、SlowFast-LLaVA、PLLaVA和

MovieChat。這種改善可能源于專門設(shè)計(jì)的長視頻理解方法更好地捕獲了時(shí)空信息。

從秒級到小時(shí)級:TikTok等發(fā)布首篇面向長視頻理解的多模態(tài)大語言模型全面綜述-AI.x社區(qū)

視頻理解:分鐘到小時(shí)

為了解決長視頻的獨(dú)特特征,近年來引入了多個(gè)長視頻基準(zhǔn)測試,視頻長度從幾百秒到幾千秒不等。EgoSchema和QVHighlights是為多選問答和高亮檢測而設(shè)計(jì)的長視頻理解數(shù)據(jù)集,要求訪問所有幀。VideoVista、MMBench-Video和MLVU涵蓋各種主題,并旨在進(jìn)行細(xì)粒度能力評估。LongVideoBench引入了指稱推理問題,以解決長視頻中的單幀偏差問題。Video-MME和LVBench包含大量小時(shí)級視頻。Video-MME進(jìn)一步將視頻分類為短、中、長三類,而LVBench旨在挑戰(zhàn)模型展示長期記憶和擴(kuò)展理解能力。


如表3所示,我們進(jìn)一步比較和分析長視頻理解方法的性能,特別總結(jié)它們在長度從幾百秒到幾千秒的長視頻基準(zhǔn)測試上的表現(xiàn)。與第5.1節(jié)的發(fā)現(xiàn)不同,長視頻理解方法通常優(yōu)于短視頻理解方法。這表明,專門設(shè)計(jì)的強(qiáng)大視頻級連接器對于長視頻理解至關(guān)重要。此外,視頻長度較長的基準(zhǔn)測試上的性能通常較差。例如,使用相同評估指標(biāo)的VideoVista和MLVU、Video-MME和LVBench之間的方法性能隨著視頻長度的增加而下降。這表明,長視頻理解仍然是一個(gè)具有挑戰(zhàn)性的研究主題。

從秒級到小時(shí)級:TikTok等發(fā)布首篇面向長視頻理解的多模態(tài)大語言模型全面綜述-AI.x社區(qū)

未來方向

如上所述,現(xiàn)有的長視頻理解方法的效果不如圖像或短視頻理解方法。為了滿足一個(gè)日益依賴AI的社會(huì)對越來越多和更長的多模態(tài)數(shù)據(jù)的需求,開發(fā)更強(qiáng)大的視覺大語言模型(LLM)以實(shí)現(xiàn)長視頻理解至關(guān)重要。以下考慮事項(xiàng)應(yīng)予以重視。

更多長視頻訓(xùn)練資源

現(xiàn)有的兩階段訓(xùn)練流程——跨模態(tài)對齊預(yù)訓(xùn)練和視覺語言格式指令調(diào)優(yōu)——廣泛用于訓(xùn)練多模態(tài)LLM。然而,與常用的圖像-語言和短視頻-語言對比,缺乏細(xì)粒度的長視頻-語言訓(xùn)練對。依賴圖像-語言和短視頻-語言資源的方法無法在預(yù)訓(xùn)練階段捕捉長期關(guān)聯(lián)。此外,新引入的長視頻指令數(shù)據(jù)的視頻長度僅限于分鐘級,顯著限制了長視頻理解的有效推理應(yīng)用場景。因此,需要?jiǎng)?chuàng)建具有更長(小時(shí)級)視頻和高質(zhì)量注釋的長視頻-語言配對預(yù)訓(xùn)練數(shù)據(jù)集和長視頻指令數(shù)據(jù)集。

更具挑戰(zhàn)性的長視頻理解基準(zhǔn)測試

在前面的部分中總結(jié)了各種視頻理解基準(zhǔn)測試,其中大多數(shù)是最近引入的。然而,這些基準(zhǔn)主要集中在長視頻理解的一個(gè)或多個(gè)方面,例如,LongVideoBench用于長上下文交錯(cuò)視頻理解,QVHighlights用于基于語言的視頻高亮理解,以及VideoVista和MLVU用于細(xì)粒度視頻理解。需要全面的長視頻基準(zhǔn)測試,以覆蓋具有時(shí)間和語言的幀級和片段級推理,但目前尚未探索以全面評估通用的長視頻理解方法。此外,現(xiàn)有基準(zhǔn)通常處于分鐘級,無法充分測試方法的長期能力。長視頻理解方法在處理大量連續(xù)視覺信息(例如小時(shí)級視頻)時(shí),常常會(huì)遭遇災(zāi)難性遺忘和時(shí)空細(xì)節(jié)的損失。最后,大多數(shù)現(xiàn)有的長視頻理解基準(zhǔn)僅關(guān)注視覺模態(tài)。結(jié)合額外的音頻和語言等多模態(tài)數(shù)據(jù),無疑會(huì)使長視頻理解任務(wù)受益。

強(qiáng)大而高效的框架

視頻的視覺大語言模型(LLM)需要支持更多的視覺幀,并在固定數(shù)量的視覺tokens下保留更多的視覺細(xì)節(jié)。在實(shí)現(xiàn)長視頻LLM時(shí),有四個(gè)主要考慮因素:


  1. 選擇長上下文LLM作為基礎(chǔ)模型。以往的方法受到LLM上下文容量的限制,必須特別微調(diào)LLM以支持更多的tokens。最近的長上下文LLM,如QWen2、LLaMA-3.1和DeepSeek-V2(DeepSeek-AI, 2024),具有128K的上下文窗口長度,可用于長視頻LLM的設(shè)計(jì)。


  1. 更高效地壓縮視覺tokens,減少信息損失。一些現(xiàn)有方法面臨壓縮不足的問題,例如Chat-UniVi采用多尺度tokens合并,而LongVA僅合并相鄰tokens。其他方法則壓縮過多視覺信息,例如LLaMA-VID使用上下文和內(nèi)容tokens,MA-LMM合并相似幀tokens,導(dǎo)致幀細(xì)節(jié)顯著損失。針對長視頻的新框架必須高效壓縮視覺tokens,以支持更多時(shí)間幀,并在全面的長視頻理解任務(wù)中保留更多時(shí)空細(xì)節(jié)。


  1. 結(jié)合額外的時(shí)間感知設(shè)計(jì)(Ren et al., 2024; Qian et al., 2024),通過整合時(shí)間信息增強(qiáng)視頻推理,從而提高長視頻理解性能中的時(shí)間信息提取能力。


  1. 利用能夠支持內(nèi)存密集型長上下文訓(xùn)練的基礎(chǔ)設(shè)施(Xue et al., 2024),提供在配備大量GPU設(shè)備時(shí)能夠輸入更多視覺數(shù)據(jù)的能力。

更多應(yīng)用場景

使用大型模型的長視頻理解面臨多個(gè)關(guān)鍵挑戰(zhàn),以滿足更多長視頻應(yīng)用的需求。上下文理解至關(guān)重要,因?yàn)殚L視頻需要模型在較長時(shí)間內(nèi)保持時(shí)間一致性和上下文意識。實(shí)時(shí)處理對監(jiān)控、實(shí)時(shí)事件分析和具身AI等應(yīng)用至關(guān)重要,需要開發(fā)能夠?qū)崟r(shí)處理視頻流的低延遲模型。多模態(tài)整合是另一個(gè)前沿領(lǐng)域,因?yàn)殚L視頻通常包含音頻、文本和視覺信息。未來的模型應(yīng)更好地整合這些模態(tài),以增強(qiáng)理解并提供對視頻內(nèi)容的更全面分析。

結(jié)論

本文總結(jié)了視覺LLM從圖像到長視頻的進(jìn)展?;趯D像理解、短視頻理解和長視頻理解任務(wù)差異的分析,我們識別了長視頻學(xué)習(xí)的關(guān)鍵挑戰(zhàn)。這些挑戰(zhàn)包括捕捉動(dòng)態(tài)序列事件中的更細(xì)粒度時(shí)空細(xì)節(jié)和長期依賴關(guān)系,同時(shí)壓縮視覺信息,涉及場景轉(zhuǎn)換和內(nèi)容變化。接著,我們介紹了從圖像LLM到長視頻LLM的模型架構(gòu)和模型訓(xùn)練的進(jìn)展,旨在改善長視頻理解和推理。隨后,回顧了多種不同長度的視頻基準(zhǔn)測試,并比較了各種方法在視頻理解上的表現(xiàn)。這一比較為長視頻理解的未來研究方向提供了洞見。本論文首次聚焦于長視頻LLM的發(fā)展與改進(jìn),以實(shí)現(xiàn)更好的長視頻理解。我們希望我們的工作能夠推動(dòng)長視頻理解和推理的進(jìn)步。

限制

本文回顧了關(guān)于綜合長視頻理解的文獻(xiàn),包括方法、訓(xùn)練數(shù)據(jù)集和基準(zhǔn)測試。由于篇幅限制,省略了實(shí)時(shí)處理和多模態(tài)任務(wù)等詳細(xì)應(yīng)用場景。我們將維護(hù)一個(gè)開源庫,并添加這些內(nèi)容以補(bǔ)充我們的調(diào)查。性能比較基于先前論文和官方基準(zhǔn)的最終結(jié)果,這些結(jié)果在訓(xùn)練資源、策略和模型架構(gòu)上存在差異,使得分析具體模型和訓(xùn)練差異變得困難。計(jì)劃在公共基準(zhǔn)上進(jìn)行詳細(xì)的消融研究,以便對模型設(shè)計(jì)、訓(xùn)練資源和方法進(jìn)行更直接的分析。


本文轉(zhuǎn)自 AI生成未來 ,作者:Heqing Zou等  


原文鏈接:??https://mp.weixin.qq.com/s/4wZcw5IR-iDevB5AGCXKDA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦