【LLM】ShareGPT4Video:借助更優(yōu)質(zhì)的標(biāo)題提升視頻理解和生成能力
一、結(jié)論寫在前面
這篇論文來自:中國(guó)科學(xué)技術(shù)大學(xué)、香港中文大學(xué)、北京大學(xué)、上海 AI Lab。
論文推出了ShareGPT4Video系列,旨在通過密集且精確的標(biāo)注促進(jìn)大型視頻語(yǔ)言模型(LVLMs)的視頻理解和文本到視頻模型(T2VMs)的視頻生成。該系列包括:
1)ShareGPT4Video,包含4萬個(gè)GPT4V標(biāo)注的密集視頻標(biāo)注,這些視頻具有不同長(zhǎng)度和來源,通過精心設(shè)計(jì)的數(shù)據(jù)過濾和標(biāo)注策略開發(fā)。
2)ShareCaptioner-Video,一個(gè)高效且能力強(qiáng)大的任意視頻標(biāo)注模型,由其標(biāo)注了480萬個(gè)高質(zhì)量美學(xué)視頻。
3)ShareGPT4Video-8B,一個(gè)簡(jiǎn)單卻卓越的LVLM,在三個(gè)前沿視頻基準(zhǔn)測(cè)試中達(dá)到了最先進(jìn)(SOTA)性能。
為此,論文摒棄了不可擴(kuò)展且成本高昂的人工標(biāo)注者,發(fā)現(xiàn)使用GPT4V對(duì)視頻進(jìn)行標(biāo)注,采用簡(jiǎn)單的多幀或幀連接輸入策略,會(huì)導(dǎo)致細(xì)節(jié)不足且有時(shí)時(shí)間上混亂的結(jié)果。論文認(rèn)為設(shè)計(jì)高質(zhì)量視頻標(biāo)注策略的挑戰(zhàn)在于三個(gè)方面:1) 幀間精確的時(shí)間變化識(shí)別。2) 幀內(nèi)詳細(xì)內(nèi)容描述。3) 任意長(zhǎng)度視頻的幀數(shù)可擴(kuò)展性。
為此,論文精心設(shè)計(jì)了一種差異視頻標(biāo)注策略,該策略穩(wěn)定、可擴(kuò)展且高效,適用于生成任意分辨率、寬高比和長(zhǎng)度的視頻標(biāo)注?;诖?,論文構(gòu)建了ShareGPT4Video,包含4萬個(gè)高質(zhì)量視頻,涵蓋廣泛類別,其標(biāo)注涵蓋豐富的世界知識(shí)、物體屬性、攝像機(jī)運(yùn)動(dòng),以及關(guān)鍵的、詳細(xì)且精確的事件時(shí)間描述。基于ShareGPT4Video,論文進(jìn)一步開發(fā)了ShareCaptioner-Video,一個(gè)能夠高效生成任意視頻高質(zhì)量標(biāo)注的優(yōu)秀標(biāo)注器。
論文通過它標(biāo)注了480萬個(gè)具有美學(xué)吸引力的視頻,并在10秒文本到視頻生成任務(wù)中驗(yàn)證了其有效性。對(duì)于視頻理解,論文驗(yàn)證了ShareGPT4Video在幾種當(dāng)前LVLM架構(gòu)上的有效性,并展示了論文卓越的新LVLM ShareGPT4Video-8B。所有模型、策略和標(biāo)注將開源,論文希望該項(xiàng)目能作為推動(dòng)LVLMs和T2VMs社區(qū)進(jìn)步的關(guān)鍵資源。
二、論文的簡(jiǎn)單介紹
2.1 論文的背景
盡管視頻內(nèi)容具有豐富的語(yǔ)義和時(shí)間信息,但現(xiàn)有數(shù)據(jù)中視頻通常只配有簡(jiǎn)短的描述。這些簡(jiǎn)短的描述限制了對(duì)視頻的深入理解以及視頻生成的可控性。雖然圖像-文本對(duì)話和文本到圖像生成任務(wù)中已認(rèn)識(shí)到詳細(xì)描述的重要性,但在視頻理解和生成方面類似的努力仍然不足。
然而,創(chuàng)建大規(guī)模、高質(zhì)量的視頻描述是一項(xiàng)挑戰(zhàn)性任務(wù)。即使是人類,為長(zhǎng)視頻生成詳細(xì)的描述也是復(fù)雜且耗時(shí)的,這阻礙了大規(guī)模的標(biāo)注工作。當(dāng)前的開源大規(guī)模視覺語(yǔ)言模型(LVLMs)缺乏這種能力,而閉源API尚不支持視頻輸入。
論文認(rèn)為,制定有效的視頻描述策略的挑戰(zhàn)源于三個(gè)基本方面:1) 幀間精確的時(shí)間變化識(shí)別:時(shí)間維度將視頻與圖像區(qū)分開來。不精確的時(shí)間描述會(huì)顯著降低視頻描述的質(zhì)量,并在訓(xùn)練模型時(shí)引起混淆。2) 幀內(nèi)詳細(xì)內(nèi)容的描述:詳細(xì)描述對(duì)于圖像與文本模態(tài)之間的對(duì)齊至關(guān)重要,對(duì)于視頻-文本對(duì)齊也同樣重要。3) 任意長(zhǎng)度視頻的幀數(shù)可擴(kuò)展性:在實(shí)際應(yīng)用中,視頻的長(zhǎng)度差異很大。理想的描述策略應(yīng)能適應(yīng)這種變化,并為任何長(zhǎng)度的視頻生成適當(dāng)?shù)拿枋觥?/p>
為此,論文提出了差分滑動(dòng)窗口描述策略(DiffSW),該策略穩(wěn)定、可擴(kuò)展且高效,適用于為任意視頻生成描述。DiffSW的核心理念是將所有幀到描述的任務(wù)轉(zhuǎn)化為差分描述任務(wù)。
2.2 ShareGPT4Video數(shù)據(jù)集
這里詳細(xì)闡述了如何構(gòu)建ShareGPT4Video數(shù)據(jù)集。論文在圖2中詳細(xì)描述了整個(gè)過程。
圖2:生成高質(zhì)量視頻-標(biāo)題數(shù)據(jù)的流程。論文首先根據(jù)美學(xué)質(zhì)量和內(nèi)容復(fù)雜性選擇多樣化的視頻來源。接下來,論文使用基于語(yǔ)義的數(shù)據(jù)過濾來防止內(nèi)容同質(zhì)化。然后,論文應(yīng)用語(yǔ)義感知的幀提取進(jìn)行稀疏采樣,保持顯著的語(yǔ)義變化。最后,論文實(shí)施差異滑動(dòng)窗口標(biāo)題生成策略,利用GPT-4V生成詳細(xì)且時(shí)間上豐富的標(biāo)題
2.2.1 數(shù)據(jù)收集
數(shù)據(jù)源選擇。為了服務(wù)于視頻理解和視頻生成任務(wù),論文在收集過程中考慮視頻的美學(xué)質(zhì)量和內(nèi)容復(fù)雜性:
?論文首先考慮Panda-70M,這是一個(gè)從YouTube獲取的高分辨率視頻數(shù)據(jù)集,包含時(shí)長(zhǎng)約一分鐘的片段。這個(gè)開放領(lǐng)域來源覆蓋了野生動(dòng)物、烹飪、體育、新聞與電視節(jié)目、游戲與3D渲染等多樣領(lǐng)域。它通常包含復(fù)雜的內(nèi)容和過渡,為理解各種現(xiàn)實(shí)世界場(chǎng)景提供了堅(jiān)實(shí)基礎(chǔ)。
?然而,這些內(nèi)容和過渡的復(fù)雜性對(duì)視頻生成領(lǐng)域提出了重大挑戰(zhàn)。為了解決這一問題,論文還從一些用戶上傳視頻網(wǎng)站獲取了大量美學(xué)上吸引人的視頻。這些視頻主要由風(fēng)景和美學(xué)上令人愉悅的人類活動(dòng)組成,涉及較少的過渡和更簡(jiǎn)單的事件。
?最后,論文通過選擇來自Ego4D 和BDD100K 的視頻來補(bǔ)充論文的收集,填補(bǔ)自我中心人類活動(dòng)和自動(dòng)駕駛場(chǎng)景中的空白,確保論文的視頻來源盡可能多地涵蓋現(xiàn)實(shí)世界場(chǎng)景。
基于語(yǔ)義的數(shù)據(jù)過濾。盡管論文的字幕生成方法能夠支持較長(zhǎng)時(shí)間的視頻,但由于視頻時(shí)長(zhǎng)與數(shù)量之間的權(quán)衡,論文的收集主要集中在短于兩分鐘的視頻上。
?論文首先從選定的數(shù)據(jù)源中過濾掉超過兩分鐘的視頻,將兩分鐘內(nèi)的視頻作為候選。隨后,論文引入了一種基于語(yǔ)義的數(shù)據(jù)過濾策略,以減少這些候選視頻之間的內(nèi)容同質(zhì)性,并保持最終視頻數(shù)據(jù)集的多樣性。該方法旨在從候選視頻池中選擇具有顯著主題差異的視頻,以構(gòu)成論文的最終視頻集合。
?具體而言,論文首先使用Panda-Student 模型為每個(gè)候選視頻生成一個(gè)簡(jiǎn)短的單句字幕,然后維護(hù)一個(gè)最終的視頻候選池。論文提供了偽代碼,如圖14所示。
2.2.2 視頻處理
論文開發(fā)了一種語(yǔ)義感知的關(guān)鍵幀提取方法,該方法在減少時(shí)間冗余和保持語(yǔ)義連貫性之間取得了平衡。
圖3:綜合視頻-標(biāo)題數(shù)據(jù)集:(a) 該數(shù)據(jù)集涵蓋了廣泛的內(nèi)容,包括野生動(dòng)物、烹飪、體育、風(fēng)景、以自我為中心的人類活動(dòng)、自動(dòng)駕駛場(chǎng)景等。(b) 數(shù)據(jù)集中的視頻長(zhǎng)度從2秒到2分鐘不等。(c) 標(biāo)題主要在200到400字之間,提供了豐富的時(shí)序信息,很好地服務(wù)于視頻理解和生成任務(wù) 。
2.2.3標(biāo)題生成流程
文發(fā)現(xiàn)如果直接將所有幀輸入GPT4V,GPT4V難以穩(wěn)定生成具有正確時(shí)序關(guān)系的標(biāo)題,并且隨著幀數(shù)的增加,其性能進(jìn)一步惡化。另一方面,如果論文將所有幀合并成一張大圖,隨著幀數(shù)的增加,GPT4V會(huì)丟失更多細(xì)節(jié),如圖11-12所示。
差異滑動(dòng)窗口字幕生成。為此,論文開發(fā)了一種差異滑動(dòng)窗口字幕生成流程,用于為各種視頻生成高質(zhì)量的字幕,并附帶詳細(xì)的時(shí)序描述。具體而言,每次輸入到圖像多模態(tài)模型的內(nèi)容包括當(dāng)前關(guān)鍵幀及其與前一關(guān)鍵幀的差異字幕。接著,論文引入了差異提示,引導(dǎo)GPT4V關(guān)注當(dāng)前幀與前一幀之間的變化,如姿態(tài)、位置、攝像機(jī)角度等。此外,將前一幀的差異字幕作為補(bǔ)充上下文融入,提高了響應(yīng)質(zhì)量并減少了幻覺現(xiàn)象。這是因?yàn)閳D像嵌入和文本字幕分別提供了圖像的顯式和隱式表示。差異字幕不僅增加了額外的上下文,還整合了來自兩幀之前的時(shí)序信息,進(jìn)一步增強(qiáng)了模型的時(shí)序理解能力。最后,論文將所有差異字幕及其相應(yīng)的時(shí)戳輸入到GPT4中。設(shè)計(jì)了一個(gè)特定的總結(jié)提示,指導(dǎo)大型語(yǔ)言模型生成具有精確時(shí)序動(dòng)態(tài)和詳細(xì)空間信息的高質(zhì)量視頻字幕。在實(shí)踐中,論文使用GPT-4-Turbo-04-09進(jìn)行所有標(biāo)注。
2.3 ShareCaptioner-Video
2.3.1 模型設(shè)計(jì)
論文使用收集的視頻字幕數(shù)據(jù)對(duì)IXC2-4KHD 進(jìn)行微調(diào),從而得到論文的ShareCaptioner-Video。為了靈活使用,論文對(duì)數(shù)據(jù)進(jìn)行了重新組織,以支持以下功能:
圖 4:ShareCaptioner-Video 是一個(gè)具有以下功能的四合一出色視頻字幕模型:快速字幕生成、滑動(dòng)字幕、剪輯總結(jié)以及提示重新字幕
1.快速字幕生成:該模型采用圖像網(wǎng)格格式進(jìn)行直接視頻字幕生成,提供了適用于短視頻的快速生成速度。在實(shí)踐中,論文將視頻的所有關(guān)鍵幀連接成一個(gè)垂直拉長(zhǎng)的圖像,并在字幕任務(wù)上對(duì)模型進(jìn)行訓(xùn)練。
2.滑動(dòng)字幕:該模型支持以差分滑動(dòng)窗口格式進(jìn)行流式字幕生成,生成適用于長(zhǎng)視頻的高質(zhì)量字幕。與第2.3節(jié)中使用的字幕流程類似,論文將前一個(gè)差分字幕旁邊的兩個(gè)相鄰關(guān)鍵幀作為輸入,并訓(xùn)練模型描述它們之間發(fā)生的事件。
3.剪輯總結(jié):該模型可以快速總結(jié)來自ShareGPT4Video或經(jīng)歷了差分滑動(dòng)窗口字幕生成過程的視頻的任何剪輯,無需重新處理幀。論文將所有差分描述作為輸入,輸出為視頻字幕。
4.提示重新字幕:該模型可以重新表達(dá)用戶輸入的提示,這些用戶偏好特定的視頻生成區(qū)域,確?;诟哔|(zhì)量視頻字幕數(shù)據(jù)訓(xùn)練的T2VM在推理過程中與其訓(xùn)練中保持格式對(duì)齊。在實(shí)踐中,論文使用GPT-4生成Sora風(fēng)格的提示用于論文的密集字幕,并以相反的方式訓(xùn)練重新字幕任務(wù),即使用生成的提示作為輸入,密集字幕作為訓(xùn)練目標(biāo)。
2.3.2 字幕生成規(guī)?;?nbsp;
為了驗(yàn)證論文的ShareCaptioner-Video在視頻字幕生成任務(wù)中的有效性,并進(jìn)一步支持視頻生成領(lǐng)域的發(fā)展,論文利用它對(duì)大量審美吸引人的視頻進(jìn)行了注釋。
2.4實(shí)驗(yàn)
2.4.1 視頻理解
數(shù)據(jù)集和基準(zhǔn)。為了全面探索論文高質(zhì)量視頻字幕數(shù)據(jù)給LVLMs帶來的益處,論文在三個(gè)多模態(tài)視頻基準(zhǔn)上對(duì)模型進(jìn)行了全面評(píng)估。VideoBench從13個(gè)現(xiàn)有數(shù)據(jù)源(如MSVD-QA,MSRVTT-QA,Activitynet-QA等)中策劃了約15,000個(gè)跨10個(gè)評(píng)估維度的QA對(duì)。MVBench 旨在挑戰(zhàn)LVLMs處理視頻任務(wù),這些任務(wù)不能通過單幀依賴有效解決,其包含了從11個(gè)公共視頻測(cè)試中派生出的4,000個(gè)QA對(duì)基準(zhǔn)。TempCompass 特別評(píng)估了LVLMs在各種時(shí)間方面的微妙性能,如速度、方向和屬性變化。它包含410個(gè)視頻和7,540個(gè)精心收集的指令,強(qiáng)調(diào)時(shí)間理解和交互。
通過ShareGPT4Video提升當(dāng)前LVLM的性能。論文驗(yàn)證了ShareGPT4Video收集的高質(zhì)量視頻字幕數(shù)據(jù)對(duì)于提升當(dāng)前LVLM性能的有效性。為了公平和簡(jiǎn)化,論文將ShareGPT4Video中與復(fù)雜場(chǎng)景相關(guān)的28K高質(zhì)量視頻字幕數(shù)據(jù)(包括Panda-70M 、Ego4D [18]和BDD100K )整合,以同等數(shù)量替換VideoChatGPT-100K 對(duì)話數(shù)據(jù)中的字幕數(shù)據(jù)。然后,論文使用默認(rèn)的訓(xùn)練設(shè)置和超參數(shù)訓(xùn)練VideoLLaVA 和LLaMA-VID。如表1所示,ShareGPT4Video在不同的LVLM架構(gòu)和規(guī)模上持續(xù)提高了視頻與語(yǔ)言模態(tài)之間的對(duì)齊。具體而言,集成高質(zhì)量字幕后,VideoLLaVA-7B在三個(gè)全面的多模態(tài)視頻基準(zhǔn)測(cè)試上平均性能提升了1.1,而LLaMA-VID-7B和LLaMA-VID-13B分別實(shí)現(xiàn)了平均2.0和2.3的提升。論文高質(zhì)量的視頻字幕數(shù)據(jù)特別有助于LVLM在需要復(fù)雜時(shí)間理解的基準(zhǔn)測(cè)試上實(shí)現(xiàn)顯著的性能提升,例如TempCompass 。
ShareGPT4Video-8B。為了獲得最終的ShareGPT4Video-8B模型,論文從LLaVA-Next-8B [26]圖像多模態(tài)模型開始。與之前的LVLM方法一致,論文遵循lG-VLM策略,從每個(gè)視頻中均勻采樣16幀,并將這些幀排列成4x4的圖像網(wǎng)格,以形成訓(xùn)練和推理的輸入。對(duì)于訓(xùn)練數(shù)據(jù),論文首先從各種教學(xué)視頻到文本數(shù)據(jù)集中收集153K的VQA數(shù)據(jù)來構(gòu)建論文的基準(zhǔn)。這一收集包括來自VideoChatGPT的13K對(duì)話數(shù)據(jù)和140K問答對(duì),其中45K數(shù)據(jù)點(diǎn)來自CLEVRER ,8K來自EGO-QA ,34K來自NextQA ,53K來自TGIF-Transition 。然后,這些VQA數(shù)據(jù)與28K視頻字幕數(shù)據(jù)結(jié)合,形成一個(gè)包含181K樣本的綜合訓(xùn)練數(shù)據(jù)集。
如表3、4、5所示,論文展示了論文的ShareGPT4Video-8B模型(由論文的ShareGPT4Video數(shù)據(jù)集增強(qiáng))與現(xiàn)有最先進(jìn)的LVLMs之間的定量比較。值得注意的是,與之前的LVLMs相比,論文的ShareGPT4Video-8B在所有三個(gè)綜合基準(zhǔn)測(cè)試中均取得了最優(yōu)性能。具體而言,得益于ShareGPT4Video提供的豐富時(shí)間信息,論文的ShareGPT4Video-8B模型在TempCompass基準(zhǔn)上實(shí)現(xiàn)了令人印象深刻的平均準(zhǔn)確率61.59%。這比之前表現(xiàn)最佳的LVLM,VideoLLaVA-7B提高了11.6%。此外,盡管VideoBench和MVBench基準(zhǔn)從各種現(xiàn)有視頻數(shù)據(jù)集中收集了多樣化的QA數(shù)據(jù),論文在這兩個(gè)基準(zhǔn)上均取得了穩(wěn)健的性能,平均準(zhǔn)確率分別超過之前的最先進(jìn)水平2.7%和8.2%。
關(guān)于標(biāo)題質(zhì)量和ViT的消融研究?;赟hareGPT4Video-8B,論文研究了標(biāo)題質(zhì)量和可學(xué)習(xí)的視覺編碼器如何影響模態(tài)對(duì)齊。如表2所示,在VQA數(shù)據(jù)之上引入簡(jiǎn)短的標(biāo)題可能不會(huì)帶來顯著的性能提升。由于模態(tài)對(duì)齊不佳,它甚至可能在某些基準(zhǔn)上降低性能。比較表2中的第一、第二和第四行,得益于論文高質(zhì)量標(biāo)題數(shù)據(jù)理解時(shí)間序列所帶來的顯著性能提升是顯而易見的。此外,在訓(xùn)練時(shí)使用詳細(xì)標(biāo)題解鎖視覺編碼器有助于更好地實(shí)現(xiàn)LVLMs的模態(tài)對(duì)齊。
2.4.2 視頻字幕生成
為了驗(yàn)證ShareCapitoner-Video的能力,論文通過人類偏好投票定量比較了ShareCapitoner-Video與GPT4V之間的視頻字幕質(zhì)量。如表7顯示,其性能與GPT4V相當(dāng)。圖9中還展示了定性結(jié)果。更多詳情,請(qǐng)參閱附錄A.4節(jié)。
表3:與TempCompass上的SOTA方法進(jìn)行比較。盡管競(jìng)爭(zhēng)對(duì)手使用了更大的訓(xùn)練數(shù)據(jù)或更多的參數(shù),但擁有70億參數(shù)的ShareGPT4Video-8B在20個(gè)維度中的19個(gè)維度上超越了競(jìng)爭(zhēng)對(duì)手。最佳結(jié)果以粗體顯示,次佳結(jié)果以下劃線標(biāo)出
表 4:在 VideoBench 上與 SOTA 方法的比較。 表示論文使用公開檢查點(diǎn)進(jìn)行評(píng)估的結(jié)果。最佳結(jié)果以粗體顯示,次佳結(jié)果以下劃線顯示
表 5:與MVBench上的SOTA方法的比較。表示論文使用公共檢查點(diǎn)的評(píng)估結(jié)果。最佳結(jié)果加粗,次佳結(jié)果下劃線*
2.4.3 視頻生成
模型設(shè)置。為了驗(yàn)證高質(zhì)量字幕在T2VMs領(lǐng)域的有效性,論文使用ShareCaptioner-Video和Panda-Student 分別為450萬個(gè)65幀視頻和30萬個(gè)221幀視頻生成高質(zhì)量且簡(jiǎn)短的視頻字幕。遵循Open-Sora-Plan [25]中概述的流程,論文對(duì)預(yù)訓(xùn)練的T2VM進(jìn)行了微調(diào),以生成高保真度10秒視頻。作為比較,論文對(duì)具有相同數(shù)量視頻-簡(jiǎn)短字幕對(duì)的基線模型進(jìn)行了微調(diào)。
定性分析。如圖5所示,T2VM在ShareCaptioner-Video生成的高質(zhì)量詳細(xì)字幕輔助下,能夠準(zhǔn)確遵循詳細(xì)提示,并在語(yǔ)義內(nèi)容和相機(jī)運(yùn)動(dòng)控制方面表現(xiàn)出卓越的控制能力。生成的視頻展示了復(fù)雜而生動(dòng)的畫面。相比之下,當(dāng)提供簡(jiǎn)短字幕時(shí),T2VM難以遵循復(fù)雜的生成提示,導(dǎo)致結(jié)果不佳。
論文標(biāo)題:ShareGPT4Video: Improving Video Understanding and Generation with Better Captions
論文鏈接:??https://arxiv.org/pdf/2406.04325??
論文項(xiàng)目地址:??https://sharegpt4video.github.io/??
本文轉(zhuǎn)載自?? AI帝國(guó)??,作者: 無影寺
