360發(fā)布FancyVideo:通過(guò)跨幀文本指導(dǎo)實(shí)現(xiàn)動(dòng)態(tài)且一致的視頻生成SOTA! 精華
文章鏈接:https://arxiv.org/pdf/2408.08189
項(xiàng)目鏈接:https://360cvgroup.github.io/FancyVideo/
亮點(diǎn)直擊
- 本文介紹了FancyVideo,據(jù)眾所知的首個(gè)探索T2V任務(wù)中跨幀文本指導(dǎo)的開(kāi)創(chuàng)性嘗試。該方法為增強(qiáng)當(dāng)前的文本控制方法提供了新的視角。
- 本文提出了跨幀文本指導(dǎo)模塊(CTGM),該模塊構(gòu)建跨幀文本條件,并隨后以強(qiáng)大的時(shí)間合理性引導(dǎo)潛在特征的建模。它可以有效地增強(qiáng)視頻的運(yùn)動(dòng)性和一致性。
- 本文證明了結(jié)合跨幀文本指導(dǎo)是一種實(shí)現(xiàn)高質(zhì)量視頻生成的有效方法。實(shí)驗(yàn)表明,該方法在定量和定性評(píng)估中均取得了最先進(jìn)的結(jié)果。
合成動(dòng)作豐富且時(shí)間一致的視頻在人工智能領(lǐng)域仍然是一項(xiàng)挑戰(zhàn),尤其是在處理較長(zhǎng)時(shí)間的視頻時(shí)?,F(xiàn)有的文本到視頻(T2V)模型通常使用空間交叉注意力來(lái)實(shí)現(xiàn)文本控制,這等效于在沒(méi)有針對(duì)特定幀的文本指導(dǎo)的情況下引導(dǎo)不同幀的生成。因此,模型理解提示中所傳達(dá)的時(shí)間邏輯并生成具有連貫動(dòng)作的視頻的能力受到限制。
為了解決這一局限性,本文引入了FancyVideo,一種創(chuàng)新的視頻生成器,它通過(guò)精心設(shè)計(jì)的跨幀文本指導(dǎo)模塊(CTGM)改進(jìn)了現(xiàn)有的文本控制機(jī)制。具體來(lái)說(shuō),CTGM在交叉注意力的開(kāi)始、中間和結(jié)束分別加入了時(shí)間信息注入器(TII)、時(shí)間相關(guān)性精煉器(TAR)和時(shí)間特征增強(qiáng)器(TFB),以實(shí)現(xiàn)幀特定的文本指導(dǎo)。首先,TII將幀特定的信息從潛在特征中注入到文本條件中,從而獲得跨幀文本條件。然后,TAR在時(shí)間維度上優(yōu)化跨幀文本條件和潛在特征之間的相關(guān)矩陣。最后,TFB增強(qiáng)了潛在特征的時(shí)間一致性。大量的實(shí)驗(yàn),包括定量和定性評(píng)估,證明了FancyVideo的有效性。本文的方法在EvalCrafter基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的T2V生成結(jié)果,并促進(jìn)了動(dòng)態(tài)且一致的視頻的合成。
方法
預(yù)備知識(shí)
潛在擴(kuò)散模型:潛在擴(kuò)散模型(LDMs)是一類高效的擴(kuò)散模型,它將去噪過(guò)程轉(zhuǎn)換到壓縮的潛在空間中,而不是像素空間中。具體來(lái)說(shuō),LDMs使用VAE的編碼器將圖像壓縮為潛在編碼,并通過(guò)在潛在編碼上執(zhí)行正向和反向擴(kuò)散過(guò)程來(lái)學(xué)習(xí)數(shù)據(jù)分布。它假設(shè)一個(gè)正向過(guò)程,逐漸將高斯噪聲(? ~ N(0, I))引入潛在編碼(z)中,得到:
模型架構(gòu)
跨幀文本指導(dǎo)模塊
實(shí)驗(yàn)
定量實(shí)驗(yàn):在定量實(shí)驗(yàn)中,F(xiàn)ancyVideo利用T2I基礎(chǔ)模型生成作為第一幀的圖像。在定性實(shí)驗(yàn)中,為了美學(xué)目的和去除水印,使用了一個(gè)外部模型來(lái)生成美麗的第一幀。
定性評(píng)估:研究者們選擇了AnimateDiff、DynamiCrafter以及兩個(gè)商業(yè)化產(chǎn)品,Pika和Gen2,進(jìn)行綜合定性分析。值得注意的是,在定量實(shí)驗(yàn)中,F(xiàn)ancyVideo的第一幀由SDXL生成,以獲得更具美學(xué)效果的結(jié)果并盡量減少水印的出現(xiàn)(盡管后續(xù)幀可能仍會(huì)顯示水?。?。如下圖4所示,本文的方法展現(xiàn)了卓越的性能,在時(shí)間一致性和動(dòng)作豐富性方面超過(guò)了先前的方法。相比之下,AnimateDiff、DynamiCrafter和Gen2生成的視頻動(dòng)作較少。Pika在生成物體一致性和高質(zhì)量視頻幀方面存在困難。值得注意的是,本文的方法能夠準(zhǔn)確理解文本提示中的動(dòng)作指令(例如,“一只泰迪熊走路...美麗的日落”和“一只泰迪熊跑步...城市”的案例)。
定量評(píng)估:為了與最先進(jìn)的方法進(jìn)行全面比較,采用了三個(gè)流行的基準(zhǔn)測(cè)試(例如,EvalCrafter、UCF-101和MSR-VTT以及人工評(píng)估來(lái)評(píng)估視頻生成的質(zhì)量。其中,EvalCrafter是目前相對(duì)全面的視頻生成基準(zhǔn)。UCF-101和MSR-VTT是先前方法中常用的基準(zhǔn)。同時(shí),人工評(píng)估可以彌補(bǔ)現(xiàn)有文本條件視頻生成評(píng)估系統(tǒng)中的不準(zhǔn)確性。
EvalCrafter基準(zhǔn)測(cè)試:EvalCrafter從四個(gè)方面(包括視頻質(zhì)量、文本視頻對(duì)齊、動(dòng)作質(zhì)量和時(shí)間一致性)定量評(píng)估文本到視頻生成的質(zhì)量。每個(gè)維度包含多個(gè)子類別的指標(biāo),如下表1所示。正如社區(qū)討論中提到的,作者承認(rèn)原始的綜合指標(biāo)計(jì)算方式是不適當(dāng)?shù)?。為了更直觀的比較,通過(guò)考慮每個(gè)子指標(biāo)的數(shù)值規(guī)模和正負(fù)屬性,引入了每個(gè)方面的綜合指標(biāo)。有關(guān)綜合指標(biāo)的詳細(xì)信息可以在補(bǔ)充材料中找到。
具體來(lái)說(shuō),比較了先前視頻生成SOTA方法的性能(例如,Pika、Gen2、Show-1、ModelScope、DynamiCrafter和AnimateDiff),并展示在上表1中。本文的方法在視頻質(zhì)量和文本視頻對(duì)齊方面表現(xiàn)出色,超過(guò)了現(xiàn)有方法。盡管Show-1在動(dòng)作質(zhì)量方面表現(xiàn)最佳(81.56),但其視頻質(zhì)量較差(僅為85.08)。這表明它無(wú)法生成具有合理動(dòng)作的高質(zhì)量視頻。然而,本文的方法在動(dòng)作質(zhì)量(72.99)方面排名第二,在視頻質(zhì)量(177.72)方面表現(xiàn)最佳,實(shí)現(xiàn)了質(zhì)量與動(dòng)作之間的權(quán)衡。以上結(jié)果表明FancyVideo的優(yōu)越性及其生成時(shí)間一致和動(dòng)作準(zhǔn)確的視頻的能力。
UCF-101 & MSR-VTT:根據(jù)先前的工作,研究者們?cè)赨CF-101和MSR-VTT上評(píng)估了零-shot生成性能,如下表2所示。使用Frechet視頻距離(FVD)、Inception評(píng)分(IS)、Frechet Inception距離(FID)和CLIP相似度(CLIPSIM)作為評(píng)估指標(biāo),并與一些當(dāng)前的SOTA方法進(jìn)行了比較。FancyVideo取得了競(jìng)爭(zhēng)力的結(jié)果,特別是在IS和CLIPSIM上表現(xiàn)優(yōu)異,分別為43.66和0.3076。此外,先前的研究指出這些指標(biāo)不能準(zhǔn)確反映人類感知,并受到訓(xùn)練和測(cè)試數(shù)據(jù)分布之間差距以及圖像低級(jí)細(xì)節(jié)的影響。
人工評(píng)估:受到EvalCrafter的啟發(fā),引入了一種多候選排名協(xié)議,涵蓋四個(gè)方面:視頻質(zhì)量、文本視頻對(duì)齊、動(dòng)作質(zhì)量和時(shí)間一致性。在該協(xié)議中,參與者對(duì)每個(gè)方面的多個(gè)候選模型的結(jié)果進(jìn)行排名。每個(gè)候選模型根據(jù)其排名獲得一個(gè)分?jǐn)?shù)。例如,如果有N個(gè)候選模型按視頻質(zhì)量排名,第一個(gè)模型得到N?1分,第二個(gè)模型得到N?2分,以此類推,最后一個(gè)模型得到0分。遵循這一協(xié)議,從EvalCrafter驗(yàn)證集中選擇了108個(gè)樣本,并收集了100名個(gè)體的評(píng)判。如下圖5所示,本文的方法在所有四個(gè)方面顯著優(yōu)于包括AnimateDiff、Pika和Gen2在內(nèi)的文本到視頻轉(zhuǎn)換方法。FancyVideo展現(xiàn)了卓越的動(dòng)作質(zhì)量,同時(shí)保持了優(yōu)越的文本視頻一致性。此外,還對(duì)四種圖像到視頻的方法進(jìn)行了類似的比較,包括DynamiCrafter、Pika和Gen2,如下圖5所示。
消融研究:研究者們進(jìn)行了實(shí)驗(yàn)并展示了在EvalCrafter上的視覺(jué)比較,以探討CTGM中關(guān)鍵設(shè)計(jì)的效果。具體而言,消融組件包括三個(gè)核心模塊(TII、TAR和TFB)。如下表3所示,TAR可以有效提升兩個(gè)指標(biāo)的性能,表明時(shí)間精煉注意力圖操作對(duì)視頻生成是有益的。持續(xù)插入TFB和TII進(jìn)一步提升了生成器的性能,這歸因于精煉的潛在特征和幀級(jí)個(gè)性化文本條件。同時(shí),定性分析包含在附錄中。
結(jié)論
本文提出了一種新的視頻生成方法,名為FancyVideo,它通過(guò)跨幀文本指導(dǎo)優(yōu)化了常見(jiàn)的文本控制機(jī)制(如空間交叉注意力)。它通過(guò)精心設(shè)計(jì)的跨幀文本指導(dǎo)模塊(CTGM)改進(jìn)了交叉注意力,實(shí)現(xiàn)了針對(duì)視頻生成的時(shí)間特定文本條件指導(dǎo)。綜合的定性和定量分析表明,該方法能夠生成更具動(dòng)態(tài)性和一致性的視頻。隨著幀數(shù)的增加,這一特點(diǎn)變得更加明顯。本文的方法在EvalCrafter基準(zhǔn)測(cè)試和人工評(píng)估中取得了最先進(jìn)的結(jié)果。
本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Ao Ma等
