偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!

發(fā)布于 2024-8-26 10:04
瀏覽
0收藏

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2407.21475

github鏈接:https://densechen.github.io/zss/

亮點(diǎn)直擊

  • 本文提出了一種新穎的zero-shot視頻采樣算法,該算法能夠直接從預(yù)訓(xùn)練的圖像擴(kuò)散模型中采樣高質(zhì)量的視頻片段。
  • 本文提出了一個(gè)依賴(lài)噪聲模型和時(shí)間動(dòng)量注意力機(jī)制,首次能夠靈活地控制生成視頻中的時(shí)間變化。
  • 通過(guò)廣泛的應(yīng)用展示了本文方法的有效性,包括條件和專(zhuān)門(mén)的視頻生成,以及由文本指令引導(dǎo)的視頻編輯。

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

將時(shí)間維度引入預(yù)訓(xùn)練的圖像擴(kuò)散模型中用于視頻生成是一種常見(jiàn)的方法。然而,這種方法計(jì)算量大,并且需要大規(guī)模的視頻數(shù)據(jù)集。更為關(guān)鍵的是,圖像和視頻數(shù)據(jù)集之間的異質(zhì)性常常導(dǎo)致圖像專(zhuān)業(yè)知識(shí)的災(zāi)難性遺忘。最近,直接從圖像擴(kuò)散模型中提取視頻片段的嘗試在一定程度上緩解了這些問(wèn)題。然而,這些方法只能生成帶有簡(jiǎn)單運(yùn)動(dòng)的短視頻片段,無(wú)法捕捉細(xì)粒度的運(yùn)動(dòng)或非網(wǎng)格變形。

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

依賴(lài)噪聲模型

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

在訓(xùn)練視頻擴(kuò)散模型時(shí)使用混合和漸進(jìn)噪聲模型已證明是有效的,如[11]所示。這種方法使得在訓(xùn)練過(guò)程中能夠有效地學(xué)習(xí)幀之間的動(dòng)畫(huà)過(guò)渡。

依賴(lài)噪聲模型

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

如下面算法1所示,本文提出了一種兩階段噪聲搜索算法,這與傳統(tǒng)的解析解方法有所不同。

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

從而最小化公式1。

時(shí)間動(dòng)量注意力

為了利用跨幀注意力的潛力,并使用預(yù)訓(xùn)練的圖像擴(kuò)散模型而無(wú)需重新訓(xùn)練,F(xiàn)ateZero將每個(gè)自注意力層替換為跨幀注意力。在這種設(shè)置中,每一幀的注意力主要集中在初始幀。類(lèi)似的結(jié)構(gòu)也在 [19] 中采用。

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

跨幀注意力的應(yīng)用有助于將外觀、結(jié)構(gòu)以及物體和背景的身份從第一幀傳遞到后續(xù)幀。然而,這種方法缺乏相鄰幀之間的連接,這可能導(dǎo)致生成的視頻序列中出現(xiàn)顯著的變化,如下圖3所示。

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

時(shí)間動(dòng)量注意力

本文的觀察表明,自注意力由于缺乏幀間上下文,會(huì)導(dǎo)致采樣特征的多樣性更高。另一方面,跨幀注意力僅依賴(lài)于初始幀的信息。這雖然保證了采樣結(jié)果的一致性,但也導(dǎo)致了多樣性的減少。


為了在自注意力和跨幀注意力的不同效果之間取得平衡,本文引入了時(shí)間動(dòng)量注意力(Temporal Momentum Attention, TMA)。TMA的數(shù)學(xué)表示如下:

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

其中,

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

Zero-Shot 視頻采樣算法

通過(guò)結(jié)合依賴(lài)噪聲模型和時(shí)間動(dòng)量注意力,本文成功地利用現(xiàn)有的 DDIM 算法從圖像擴(kuò)散模型中采樣出高質(zhì)量的視頻。這個(gè)過(guò)程在上面的算法 1 中進(jìn)行了概述。

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

實(shí)驗(yàn)

文本與視頻任務(wù)的綜合比較

在本研究中,本文從定量和定性?xún)蓚€(gè)方面對(duì)本文的方法和另一個(gè)zero-shot視頻合成方法 Text2Video-Zero 進(jìn)行了廣泛的比較。

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

從定性角度來(lái)看, 本文在上圖3中提供了一些生成視頻片段的可視化。本文方法生成的視頻片段明顯表現(xiàn)出更優(yōu)越的連續(xù)性,顯著減少了突兀的幀。與[19]中的簡(jiǎn)單上下物體運(yùn)動(dòng)相比,本文的依賴(lài)噪聲模型采樣的噪聲可以擴(kuò)散出更具體、復(fù)雜的運(yùn)動(dòng),并在不同的擴(kuò)散模型中很好地泛化,如下圖2所示。結(jié)合時(shí)間動(dòng)量注意力,本文的方法可以為更具挑戰(zhàn)性的對(duì)象生成更復(fù)雜的運(yùn)動(dòng),例如流體的非剛性變形、復(fù)雜的煙霧擴(kuò)散效果,甚至是微妙的面部微表情,如下圖1所示。

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

擴(kuò)展

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)

結(jié)論

超越Text2Video-Zero|無(wú)需額外訓(xùn)練,條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定!-AI.x社區(qū)


本文轉(zhuǎn)自AI生成未來(lái),作者:Dengsheng Chen等


原文鏈接:??https://mp.weixin.qq.com/s/gVJD7uMLxmGrqmepp2hsQg?poc_token=HCDgy2ajRdlE1q4u81WYfSWxRlbctni_ZZk5f1B4??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦