偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp

發(fā)布于 2025-1-9 11:29
瀏覽
0收藏

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2412.19761
項(xiàng)目鏈接:https://genprop.github.io

亮點(diǎn)直擊

  • 定義了一個(gè)新的生成視頻傳播問(wèn)題,目標(biāo)是利用 I2V 模型的生成能力,將視頻第一幀的各種變化傳播到整個(gè)視頻中。
  • 精心設(shè)計(jì)了模型 GenProp,包含選擇性?xún)?nèi)容編碼器(Selective Content Encoder, SCE)、專(zhuān)用損失函數(shù)以及mask預(yù)測(cè)頭,并提出了一個(gè)用于訓(xùn)練模型的合成數(shù)據(jù)生成pipeline。
  • 本文的模型支持多種下游應(yīng)用,如移除、插入、替換、編輯和跟蹤。實(shí)驗(yàn)還表明,即使沒(méi)有特定任務(wù)的數(shù)據(jù)進(jìn)行訓(xùn)練,模型也能支持視頻擴(kuò)展(outpainting)。
  • 實(shí)驗(yàn)結(jié)果顯示,本文的模型在視頻編輯和對(duì)象移除任務(wù)中優(yōu)于 SOTA 方法,同時(shí)擴(kuò)展了包括跟蹤在內(nèi)的現(xiàn)有任務(wù)范圍。

總結(jié)速覽

解決的問(wèn)題
當(dāng)前大規(guī)模視頻生成模型在處理各種視頻編輯任務(wù)時(shí),往往聚焦于單一任務(wù)(如視頻修復(fù)、外觀編輯、對(duì)象插入等),而傳統(tǒng)的視頻傳播方法(如光流或深度傳播)易受錯(cuò)誤積累影響,缺乏魯棒性和泛化能力?,F(xiàn)有方法還需要密集標(biāo)注或?qū)iT(mén)針對(duì)任務(wù)進(jìn)行重新訓(xùn)練,流程復(fù)雜且效率較低。

提出的方案

  • 框架設(shè)計(jì):提出了一個(gè)統(tǒng)一的視頻生成傳播框架——GenProp。
  • 使用選擇性?xún)?nèi)容編碼器(Selective Content Encoder, SCE)對(duì)原視頻的未變部分進(jìn)行編碼。
  • 使用圖像到視頻生成模型(Image-to-Video, I2V)將第一幀的編輯傳播至整段視頻。
  • 損失函數(shù)設(shè)計(jì):引入?yún)^(qū)域感知損失(region-aware loss),確保SCE只編碼未編輯區(qū)域的內(nèi)容,同時(shí)優(yōu)化I2V模型在修改區(qū)域的生成能力。
  • 數(shù)據(jù)生成方案:利用實(shí)例級(jí)視頻分割數(shù)據(jù)集生成合成數(shù)據(jù),覆蓋多種視頻任務(wù)。

應(yīng)用的技術(shù)

  • 生成模型:通過(guò) I2V 生成模型進(jìn)行內(nèi)容傳播,無(wú)需依賴(lài)光流或運(yùn)動(dòng)預(yù)測(cè)。
  • 輔助訓(xùn)練模塊:加入輔助解碼器預(yù)測(cè)修改區(qū)域,以提高編輯區(qū)域的生成質(zhì)量。
  • 選擇性編碼:通過(guò)區(qū)域感知機(jī)制,減少對(duì)已修改區(qū)域的編碼干擾,增強(qiáng)未編輯內(nèi)容的保真度。

達(dá)到的效果

  • 編輯:支持對(duì)對(duì)象形狀進(jìn)行顯著修改。
  • 插入:插入的對(duì)象能夠獨(dú)立運(yùn)動(dòng)。
  • 移除:可有效移除陰影、反射等對(duì)象效果。
  • 跟蹤:能夠精確跟蹤對(duì)象及其相關(guān)效果。
  • 統(tǒng)一性:無(wú)需密集標(biāo)注或任務(wù)特定的重新訓(xùn)練,簡(jiǎn)化了編輯流程。

方法

生成視頻傳播面臨以下關(guān)鍵挑戰(zhàn):

  • 真實(shí)性– 第一幀中的變化應(yīng)自然傳播到后續(xù)幀中。
  • 一致性– 所有其他區(qū)域應(yīng)與原始視頻保持一致。
  • 通用性– 模型應(yīng)具有足夠的通用性,適用于多種視頻任務(wù)。

在 GenProp 中,通過(guò) I2V 生成模型解決 真實(shí)性(1);引入選擇性?xún)?nèi)容編碼器和掩膜預(yù)測(cè)解碼器,并使用區(qū)域感知損失進(jìn)行訓(xùn)練以解決 一致性(2);通過(guò)數(shù)據(jù)生成方案和通用 I2V 模型,滿(mǎn)足 通用性(3)。

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

問(wèn)題定義

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

其中, L是一個(gè)區(qū)域感知損失,用于解耦修改區(qū)域和未修改區(qū)域,保證未修改區(qū)域的穩(wěn)定性,同時(shí)允許在編輯區(qū)域進(jìn)行準(zhǔn)確的傳播。為了確保最終輸出符合真實(shí)視頻數(shù)據(jù)的分布,合成數(shù)據(jù)僅輸入到內(nèi)容編碼器。I2V 生成模型則使用原始視頻,防止模型無(wú)意中學(xué)習(xí)到合成偽影。

模型設(shè)計(jì)

為了保持原始視頻的未修改部分,并僅傳播修改區(qū)域,我們將兩個(gè)額外的組件集成到基本的 I2V 模型中:選擇性?xún)?nèi)容編碼器(Selective Content Encoder,SCE)和mask預(yù)測(cè)解碼器(Mask Prediction Decoder,MPD),如下圖 4 所示。

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

選擇性?xún)?nèi)容編碼器 (SCE)
SCE 架構(gòu)是主生成模型初始N個(gè)塊的復(fù)制版本,類(lèi)似于 ControlNet 。在每個(gè)編碼器塊后,提取的特征將添加到 I2V 模型中的相應(yīng)特征中,從而實(shí)現(xiàn)內(nèi)容信息的平滑和層次化流動(dòng)。注入層是一個(gè)具有零初始化的多層感知機(jī)(MLP),該層也會(huì)進(jìn)行訓(xùn)練。此外,為了實(shí)現(xiàn)雙向信息交換,I2V 模型的特征在第一個(gè)塊之前與 SCE 的輸入進(jìn)行融合。這使得 SCE 能夠識(shí)別修改區(qū)域,從而能夠選擇性地編碼未修改區(qū)域的信息。

Mask預(yù)測(cè)解碼器 (MPD)

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

區(qū)域感知損失 (Region-Aware Loss)

在訓(xùn)練過(guò)程中,使用實(shí)例分割數(shù)據(jù)來(lái)確保編輯和未編輯區(qū)域都能得到適當(dāng)?shù)谋O(jiān)督。本文設(shè)計(jì)了區(qū)域感知損失(RA Loss),如下圖 5 所示,旨在平衡兩個(gè)區(qū)域的損失,即使編輯區(qū)域相對(duì)較小。

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

RA損失L是三個(gè)項(xiàng)的加權(quán)和,以確保對(duì)mask區(qū)域和非mask區(qū)域都有足夠的監(jiān)督。

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

合成數(shù)據(jù)生成

創(chuàng)建大規(guī)模配對(duì)視頻數(shù)據(jù)集可能既昂貴又具有挑戰(zhàn)性,尤其是對(duì)于視頻傳播任務(wù),因?yàn)楹茈y涵蓋所有視頻任務(wù)。為了解決這個(gè)問(wèn)題,本文提出使用從視頻實(shí)例分割數(shù)據(jù)集中派生的合成數(shù)據(jù)。在訓(xùn)練中,使用了Youtube-VOS、SAM-V2 和一個(gè)內(nèi)部數(shù)據(jù)集。然而,這一數(shù)據(jù)生成pipeline可以應(yīng)用于任何可用的視頻實(shí)例分割數(shù)據(jù)集。

采用了多種增強(qiáng)技術(shù)來(lái)處理分割數(shù)據(jù),針對(duì)不同的傳播子任務(wù)進(jìn)行了定制:

  • 復(fù)制并粘貼:從一個(gè)視頻中隨機(jī)分割對(duì)象并粘貼到另一個(gè)視頻中,模擬物體插入;
  • Mask填充:對(duì)mask區(qū)域進(jìn)行修復(fù),在選定區(qū)域內(nèi)創(chuàng)建逼真的編輯;
  • 顏色填充:用特定的顏色填充mask區(qū)域,表示基本的物體追蹤場(chǎng)景。

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

比較

由于生成視頻傳播是一個(gè)新問(wèn)題,在GenProp的三個(gè)子任務(wù)中與現(xiàn)有的最先進(jìn)方法進(jìn)行了比較。請(qǐng)注意,本文的模型能夠在同一個(gè)模型中處理這些任務(wù),并進(jìn)一步涵蓋了如外延(outpainting)以及這些子任務(wù)的組合等附加任務(wù),如下圖1底部所示。

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

基于擴(kuò)散的視頻編輯
在下圖6(a)和(b)中,將GenProp與其他基于擴(kuò)散的視頻編輯方法進(jìn)行了比較,包括文本引導(dǎo)和圖像引導(dǎo)的方法。InsV2V依賴(lài)于指令文本來(lái)控制生成。然而,由于訓(xùn)練數(shù)據(jù)有限,它在形狀變化較大時(shí)表現(xiàn)不佳,并且不支持對(duì)象插入。Pika也使用文本提示在框選區(qū)域內(nèi)進(jìn)行編輯,但當(dāng)物體形狀發(fā)生顯著變化時(shí),它表現(xiàn)較差,且無(wú)法處理背景編輯或?qū)ο蟛迦?。AnyV2V是一個(gè)無(wú)需訓(xùn)練的方法,使用第一幀來(lái)引導(dǎo)編輯。雖然它能夠處理外觀變化,但在發(fā)生大規(guī)模形狀或背景修改時(shí)會(huì)失敗,通常會(huì)導(dǎo)致退化或鬼影效果。像InsV2V和Pika一樣,它也無(wú)法插入物體。使用ReVideo通過(guò)先移除一個(gè)物體再重新插入來(lái)處理大規(guī)模的形狀變化,但這種兩階段過(guò)程有缺點(diǎn)?;诳虻膮^(qū)域可能導(dǎo)致模糊的邊界,并且物體運(yùn)動(dòng)會(huì)受到原始點(diǎn)跟蹤的影響,導(dǎo)致錯(cuò)誤累積。此外,框選區(qū)域限制了它有效編輯復(fù)雜背景的能力。

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

視頻物體移除
對(duì)于物體移除,將GenProp與傳統(tǒng)的修補(bǔ)pipeline進(jìn)行了比較,其中級(jí)聯(lián)了兩個(gè)最先進(jìn)的模型來(lái)實(shí)現(xiàn)類(lèi)似傳播的修補(bǔ),因?yàn)閭鹘y(tǒng)方法需要對(duì)所有幀進(jìn)行密集的遮罩注釋?zhuān)篠AM-V2用于遮罩跟蹤,然后Propainter用于修補(bǔ)估計(jì)遮罩中的區(qū)域。如上圖6(c)和(d)所示,GenProp具有幾個(gè)優(yōu)點(diǎn):(1)不需要密集的遮罩注釋作為輸入;(2)去除物體的反射和陰影等效果;(3)去除大物體并在大面積內(nèi)進(jìn)行自然填充。

視頻物體跟蹤
在上圖6(e)中將GenProp與SAM-V2在跟蹤性能上進(jìn)行了比較。由于SAM-V2是在大規(guī)模SA-V數(shù)據(jù)集上訓(xùn)練的,因此SAM-V2通常會(huì)生成比GenProp更精確的跟蹤遮罩。此外,GenProp比像SAM-V2這樣的實(shí)時(shí)跟蹤方法要慢。然而,它有顯著的優(yōu)勢(shì)。由于其視頻生成的預(yù)訓(xùn)練,GenProp具有強(qiáng)大的物理規(guī)則理解能力。如圖6所示,與SAM-V2不同,后者由于訓(xùn)練數(shù)據(jù)有限且偏倚,難以處理物體的反射和陰影等效果,GenProp能夠穩(wěn)定地跟蹤這些效果。這突顯了通過(guò)生成模型處理經(jīng)典視覺(jué)任務(wù)的潛力。

定量結(jié)果
對(duì)多個(gè)測(cè)試集進(jìn)行了定量評(píng)估。在視頻編輯(如表1所示)中,在兩種類(lèi)型的測(cè)試集上進(jìn)行了評(píng)估:(1)經(jīng)典測(cè)試集,使用TGVE的DAVIS部分及其“對(duì)象變化描述”作為文本提示,重點(diǎn)關(guān)注對(duì)象替換和外觀編輯;(2)挑戰(zhàn)性測(cè)試集,包括從Pexels和Adobe Stock收集的30個(gè)手動(dòng)選擇的視頻,涵蓋了大規(guī)模物體替換、物體插入和背景替換。對(duì)于(2),第一幀使用商業(yè)圖像編輯工具進(jìn)行了編輯。對(duì)于Pika,使用在線(xiàn)框選工具,每個(gè)結(jié)果運(yùn)行三次。

對(duì)于ReVideo,選擇一個(gè)框選區(qū)域,然后使用其代碼提取原始物體的運(yùn)動(dòng)點(diǎn)以跟蹤外觀變化。對(duì)于具有顯著形狀變化的編輯,首先移除原始物體,再插入新物體并分配未來(lái)軌跡。

為了評(píng)估未編輯區(qū)域的一致性,在編輯遮罩外計(jì)算PSNR,記作PSNRm。對(duì)于形狀變化較大的情況,我們?cè)谠己途庉媴^(qū)域上應(yīng)用粗略的遮罩,僅計(jì)算這些遮罩外區(qū)域的PSNR。對(duì)于文本對(duì)齊,我們計(jì)算編輯幀與文本提示的CLIP嵌入之間的余弦相似度(CLIP-T)。對(duì)于結(jié)果質(zhì)量,計(jì)算跨幀的CLIP特征距離(CLIP-I)。


如下表1所示,GenProp在大多數(shù)指標(biāo)上優(yōu)于其他方法,特別是在挑戰(zhàn)性測(cè)試集上。Pika在經(jīng)典測(cè)試集上表現(xiàn)出較好的一致性,因?yàn)楫?dāng)物體形狀相對(duì)不變時(shí),其邊界框表現(xiàn)得相當(dāng)好。ReVideo在多個(gè)物體上效果較差。對(duì)于物體移除,收集了15個(gè)復(fù)雜場(chǎng)景的視頻,包括物體效果和遮擋,因?yàn)楝F(xiàn)有的測(cè)試集沒(méi)有覆蓋這些情況。對(duì)于SAM,我們點(diǎn)擊物體和副作用以確保完整的覆蓋。

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

如表2所示,GenProp實(shí)現(xiàn)了最高的一致性,而ReVideo可能會(huì)產(chǎn)生邊界框偽影,ProPainter在物體效果方面表現(xiàn)較差。

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

由于質(zhì)量指標(biāo)往往不能準(zhǔn)確捕捉生成結(jié)果的真實(shí)感,使用Amazon MTurk進(jìn)行了用戶(hù)研究,共有121名參與者。每個(gè)參與者查看由GenProp和隨機(jī)基線(xiàn)生成的幾個(gè)視頻,以及原始視頻和文本提示。他們被問(wèn)到兩個(gè)問(wèn)題:

  • 哪個(gè)視頻與說(shuō)明更匹配?
  • 哪個(gè)視頻在視覺(jué)上更好?

然后參與者為每個(gè)問(wèn)題選擇一個(gè)視頻。在上面表1和表2中,展示了用戶(hù)在對(duì)齊/質(zhì)量上的偏好,GenProp在所有基線(xiàn)上均大幅領(lǐng)先,特別是在挑戰(zhàn)性測(cè)試集上。

消融研究

Mask預(yù)測(cè)解碼器(MPD)
在下表3中,評(píng)估了MPD在挑戰(zhàn)性測(cè)試集上的效果,結(jié)果顯示它可以改善文本對(duì)齊和一致性。如圖7的第1和第2行所示,未使用MPD時(shí),輸出mask往往嚴(yán)重退化,導(dǎo)致移除質(zhì)量更差。如果沒(méi)有MPD的顯式監(jiān)督,模型可能會(huì)混淆應(yīng)該傳播的部分和應(yīng)該保留的部分,導(dǎo)致在后續(xù)幀中部分移除的物體重新出現(xiàn)。MPD有助于解耦,使得移除結(jié)果和預(yù)測(cè)掩碼更加準(zhǔn)確,即使在嚴(yán)重遮擋的情況下也能實(shí)現(xiàn)完全物體移除。

區(qū)域感知損失 (RA Loss)
在表3中,進(jìn)一步測(cè)試了所提議的RA Loss在挑戰(zhàn)性測(cè)試集上的有效性。GenProp中的一個(gè)核心挑戰(zhàn)是,SCE可能錯(cuò)誤地選擇原始視頻的所有區(qū)域,包括編輯區(qū)域,這會(huì)因?yàn)橹亟〒p失而削弱I2V生成能力。

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

如下圖7的第3至第5行所示,在沒(méi)有RA Loss的情況下,原始物體往往會(huì)逐漸重新出現(xiàn),從而阻礙了第一幀編輯(綠色摩托車(chē))的傳播。使用RA Loss后,編輯區(qū)域能夠以穩(wěn)定一致的方式傳播。

視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp-AI.x社區(qū)

顏色填充增強(qiáng) (Color Fill Augmentation)
顏色填充增強(qiáng)是解決傳播失敗的另一個(gè)關(guān)鍵因素。盡管復(fù)制粘貼和遮罩填充增強(qiáng)使得模型能夠隱式學(xué)習(xí)物體修改、替換和刪除,但顏色填充增強(qiáng)明確地訓(xùn)練模型進(jìn)行跟蹤,引導(dǎo)模型在整個(gè)序列中保持第一幀所做的修改,提示為“跟蹤彩色區(qū)域”。如上圖7的第6至第8行所示,由于形狀差異顯著,將女孩變成一只小貓是具有挑戰(zhàn)性的。然而,使用顏色填充增強(qiáng)后,GenProp成功地將這一大幅修改在整個(gè)序列中傳播。

結(jié)論

本文設(shè)計(jì)了一種新型的生成視頻傳播框架——GenProp,利用I2V模型固有的視頻生成能力,實(shí)現(xiàn)了包括物體移除、插入和跟蹤等多種下游應(yīng)用。通過(guò)展示其能夠擴(kuò)展可實(shí)現(xiàn)的編輯范圍(例如,移除或跟蹤物體及其相關(guān)效果)并生成高度逼真的視頻,且不依賴(lài)于傳統(tǒng)的中間表示(如光流或深度圖),我們展示了其潛力。通過(guò)集成選擇性?xún)?nèi)容編碼器并利用I2V生成模型,GenProp能夠始終保持未改變的內(nèi)容,同時(shí)動(dòng)態(tài)傳播變化。合成數(shù)據(jù)和區(qū)域感知損失進(jìn)一步提升了其在跨幀解耦和細(xì)化編輯方面的能力。實(shí)驗(yàn)結(jié)果表明,GenProp在范圍和精度上均優(yōu)于現(xiàn)有方法,確立了其作為一種強(qiáng)大、靈活的解決方案的地位。未來(lái),計(jì)劃擴(kuò)展該模型以支持多個(gè)關(guān)鍵幀的編輯,并探索可以支持的其他視頻任務(wù)。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/0CqmY4cQSJHrIUM3omhzIA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄