偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成 精華

發(fā)布于 2024-8-2 09:52
瀏覽
0收藏

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2407.21705
項目鏈接:https://ali-videoai.github.io/tora_video/

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

亮點直擊

  • 本文引入了Tora,這是第一個軌跡導(dǎo)向的DiT用于視頻生成。如下圖2所示,Tora無縫整合了廣泛的視覺和軌跡指令,從而能夠熟練地創(chuàng)建可操控運動的視頻。
  • 為了與DiT的可擴(kuò)展性保持一致,本文設(shè)計了一種新穎的軌跡提取器和運動引導(dǎo)融合機(jī)制,以獲取時空運動塊,隨后將這些塊注入DiT塊中。本文對幾種架構(gòu)選擇進(jìn)行了消融實驗,并為未來基于DiT的運動控制研究提供了實證基線。
  • 實驗表明,Tora能夠生成具有不同縱橫比的720p分辨率視頻,最長可達(dá)204幀,所有這些都由指定的軌跡引導(dǎo)。此外,它在模擬物理世界中的運動方面表現(xiàn)出色。

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

最近在 Diffusion Transformer (DiT) 方面的進(jìn)展展示了其在生成高質(zhì)量視頻內(nèi)容方面的卓越能力。然而,基于transformer的擴(kuò)散模型在有效生成具有可控運動的視頻方面的潛力仍然是一個探索有限的領(lǐng)域。本文介紹了Tora,這是第一個軌跡導(dǎo)向的DiT框架,它同時整合了文本、視覺和軌跡條件用于視頻生成。具體來說,Tora由軌跡提取器 (TE)、時空DiT和運動引導(dǎo)融合器 (MGF) 組成。TE通過3D視頻壓縮網(wǎng)絡(luò)將任意軌跡編碼為分層時空運動塊。MGF將運動塊整合到DiT塊中,以生成遵循軌跡的一致視頻。本文的設(shè)計與DiT的可擴(kuò)展性無縫對接,允許對視頻內(nèi)容的動態(tài)進(jìn)行精確控制,支持多種時長、縱橫比和分辨率。大量實驗表明,Tora在實現(xiàn)高運動保真度方面表現(xiàn)出色,同時還精細(xì)地模擬了物理世界的運動。

方法

Preliminary

潛在視頻擴(kuò)散模型(Latent Video Diffusion Model, LVDM)。LVDM通過集成3D U-Net增強(qiáng)了Stable Diffusion模型,從而提升了視頻數(shù)據(jù)處理的效率。這個3D U-Net設(shè)計在每個空間卷積中增加了一個額外的時間卷積,并在每個空間注意力塊之后跟隨相應(yīng)的時間注意力塊。它通過噪聲預(yù)測目標(biāo)函數(shù)進(jìn)行優(yōu)化:

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

Tora

Tora 采用 OpenSora 作為其 DiT 架構(gòu)的基礎(chǔ)模型。為了在不同持續(xù)時間內(nèi)實現(xiàn)精確且用戶友好的運動控制,Tora 引入了兩個新的運動處理組件:軌跡提取器(Trajectory Extractor, TE)和運動引導(dǎo)融合器(Motion-guidance Fuser, MGF)。這些模塊用于將提供的軌跡編碼為多層次時空運動補(bǔ)丁,并將這些補(bǔ)丁精細(xì)地集成到 DiT 塊的堆疊結(jié)構(gòu)中。Tora 的工作流程概述如下圖 3 所示。

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

時空 DiT(ST-DiT) ST-DiT 架構(gòu)包含兩種不同類型的塊:空間 DiT 塊(S-DiT-B)和時間 DiT 塊(T-DiT-B),它們以交替順序排列。S-DiT-B 包含兩個注意力層,每個注意力層依次執(zhí)行空間自注意(Spatial Self-Attention, SSA)和交叉注意(Cross-Attention),然后是一個逐點前饋層,用于連接相鄰的 T-DiT-B 塊。值得注意的是,T-DiT-B 僅通過用時間自注意(Temporal Self-Attention, TSA)替換 SSA 來修改此架構(gòu),從而保持架構(gòu)的一致性。在每個塊內(nèi),輸入在歸一化后,通過跳躍連接(skip-connections)連接回塊的輸出。通過利用處理可變長度序列的能力,去噪 ST-DiT 可以處理不同持續(xù)時間的視頻。


寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

運動引導(dǎo)融合器。 為了將基于 DiT 的視頻生成與軌跡相結(jié)合,本文探索了三種將運動塊注入每個 ST-DiT 塊的融合架構(gòu)變體。這些設(shè)計如下圖 4 所示。

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)


本文實驗了三種類型的融合架構(gòu),發(fā)現(xiàn)自適應(yīng)歸一化表現(xiàn)出最佳的生成性能和計算效率。在本文的其余部分,MGF 使用自適應(yīng)歸一化層,除非另有說明。

訓(xùn)練策略和數(shù)據(jù)處理

為了在使用任意軌跡生成視頻時實現(xiàn)細(xì)粒度控制,以及文本、圖像或它們的組合,本文為不同的條件注入引入了幾種訓(xùn)練策略。


運動條件訓(xùn)練,受到 DragNUWA 和 MotionCtrl 的啟發(fā),本文采用兩階段的訓(xùn)練方法來進(jìn)行軌跡學(xué)習(xí)。在第一階段,本文從訓(xùn)練視頻中提取稠密光流作為軌跡,提供更豐富的信息以加速運動學(xué)習(xí)。在第二階段,為了使模型從完整的光流適應(yīng)到更用戶友好的軌跡,本文根據(jù)運動分割結(jié)果和光流得分隨機(jī)選擇 1 到N個對象軌跡樣本。從稀疏軌跡中解決分散問題,本文應(yīng)用高斯濾波進(jìn)行細(xì)化。完成兩階段訓(xùn)練后,Tora 能夠使用任意軌跡實現(xiàn)靈活的運動控制。


圖像條件訓(xùn)練,本文遵循 OpenSora 使用的mask策略來支持視覺條件。具體來說,本文在訓(xùn)練期間隨機(jī)解除幀的mask,未mask幀的視頻塊不受任何噪聲影響。這使得本文的 Tora 模型能夠無縫地將文本、圖像和軌跡整合到一個統(tǒng)一的模型中。


寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

實驗

定量和定性結(jié)果

本文將本文的方法與流行的運動引導(dǎo)視頻生成方法進(jìn)行了比較。評估在三種設(shè)置下進(jìn)行:16幀、64幀和128幀,所有幀的分辨率均為512X512,以確保公平比較。提供的軌跡被剪裁以適應(yīng)不同評估的視頻長度。對于大多數(shù)基于U-Net的方法,本文采用序列推理,其中上一批生成的最后一幀作為當(dāng)前批次的視覺條件,以符合其推理設(shè)置。如下表1所示,在基于U-Net的方法常用的16幀設(shè)置下,MotionCtrl和DragNUWA與提供的軌跡對齊較好,但仍不及本文提出的Tora。當(dāng)幀數(shù)增加時,基于U-Net的方法在某些幀中表現(xiàn)出顯著的偏差,錯位誤差傳播并導(dǎo)致后續(xù)序列中的變形、運動模糊或?qū)ο笙?。相比之下,Tora由于整合了transformer的縮放能力,對不同幀數(shù)表現(xiàn)出高度的魯棒性。Tora生成的運動更加平滑,并且更符合物理世界。當(dāng)在128幀測試設(shè)置下進(jìn)行評估時,Tora的軌跡準(zhǔn)確性超過其他方法3到5倍,展示了其卓越的運動控制能力。在下圖5中,本文提供了不同分辨率和時長下的軌跡誤差分析。與基于U-Net的模型不同,后者隨時間推移表現(xiàn)出顯著的軌跡誤差,Tora的軌跡誤差僅隨時長增加而逐漸增加。這種誤差的逐漸增加與DiT模型在時長延長時觀察到的視頻質(zhì)量下降相一致。結(jié)果清楚地表明,本文的方法在較長時長內(nèi)保持了有效的軌跡控制。

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

下圖6展示了本文提出的方法與主流運動控制技術(shù)的對比分析。在第一個場景中,涉及兩個人的共同運動,所有方法都能夠生成相對準(zhǔn)確的運動軌跡。然而,本文的方法在視覺質(zhì)量上表現(xiàn)出色。這一優(yōu)勢主要歸功于使用了更長的序列幀,從而實現(xiàn)了更平滑的運動軌跡和更逼真的背景渲染。例如,在本文生成的自行車場景中,人類的腿部表現(xiàn)出真實的踩踏動作,而DragNUWA的輸出中腿部幾乎水平漂浮,違反了物理現(xiàn)實。此外,DragNUWA和MotionCtrl在視頻結(jié)尾處都出現(xiàn)了顯著的運動模糊。更進(jìn)一步,盡管沒有攝像機(jī)運動條件,MotionCtrl在騎行序列中引入了意外的攝像機(jī)移動。在另一個案例中,隨著提供的軌跡不斷上升和下降,DragNUWA顯示了燈籠的嚴(yán)重變形。盡管MotionCtrl的軌跡相對準(zhǔn)確,但生成的視頻未能匹配預(yù)期的兩個燈籠的描繪??傮w而言,本文的方法不僅緊密遵循提供的軌跡,還最大限度地減少了物體變形,從而確保了更高保真度的運動表現(xiàn)。

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

消融實驗

本文進(jìn)行了若干消融研究以分析設(shè)計選擇的影響。所有模型均在480p分辨率、16:9寬高比和204幀的條件下進(jìn)行評估。


軌跡壓縮。 為了將軌跡向量整合到與視頻片段相同的潛在空間中,本文研究了三種不同的軌跡壓縮方法,如下表2所總結(jié)的。第一種方法在連續(xù)的4幀區(qū)間內(nèi)采樣中幀作為關(guān)鍵幀,并采用Patch-Unshuffle進(jìn)行空間壓縮。盡管其簡單,但由于在遇到快速運動或遮擋時可能產(chǎn)生潛在的流估計誤差,這種方法在運動控制方面表現(xiàn)不佳。此外,所選幀間隔引起的片段間相似性放大,增加了學(xué)習(xí)難度。第二種方法使用平均池化來匯總連續(xù)幀。雖然這捕捉到了一般的運動感,但通過均質(zhì)化軌跡的方向和幅度,它無意中犧牲了精度,從而稀釋了關(guān)鍵的運動細(xì)節(jié)。為了盡可能保留連續(xù)幀之間的軌跡信息,本文進(jìn)一步使用3D VAE提取連續(xù)軌跡區(qū)間的全局上下文。軌跡數(shù)據(jù)被視覺化為RGB圖像格式,以利用現(xiàn)有的3D VAE權(quán)重。在大量軌跡視頻上進(jìn)行廣泛訓(xùn)練的這種設(shè)置下,產(chǎn)生了最有利的結(jié)果,強(qiáng)調(diào)了本文定制的3D VAE方法在軌跡壓縮中的有效性。

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

設(shè)計塊和MGF的集成位置,本文按照之前描述的方法訓(xùn)練了三種不同的MFG塊,結(jié)果如下表3所示。值得注意的是,自適應(yīng)歸一化塊在FVD和軌跡誤差方面都比交叉注意力和額外通道條件方法更低,同時還表現(xiàn)出最高的計算效率。這種優(yōu)勢歸因于其在不同條件下無需嚴(yán)格對齊的情況下進(jìn)行動態(tài)特征適應(yīng)的能力,這是交叉注意力常遇到的限制。此外,通過隨時間調(diào)節(jié)條件信息,它確保了時間一致性,這對于注入運動提示至關(guān)重要。相比之下,通道連接可能會導(dǎo)致信息擁塞,使運動信號的效果減弱。在訓(xùn)練過程中,本文觀察到將歸一化層初始化為恒等函數(shù)對于實現(xiàn)最佳性能非常重要。

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

此外,本文評估了MGF模塊在Spatial DiT和Temporal DiT塊中的集成位置。本文的研究結(jié)果表明,將MGFembeddingTemporal DiT塊中顯著增強(qiáng)了軌跡運動控制,軌跡誤差從23.39下降到14.25。這種方法提高了MGF與時間動態(tài)交互的效率,從而顯著改善了運動合成的保真度。


訓(xùn)練策略。 本文評估了兩階段訓(xùn)練方法的有效性,結(jié)果總結(jié)在下表4中。僅使用密集光流進(jìn)行訓(xùn)練效果不佳,因為它無法準(zhǔn)確捕捉提供的稀疏軌跡中的復(fù)雜細(xì)節(jié)。另一方面,僅使用稀疏軌跡進(jìn)行訓(xùn)練提供的信息有限,使得學(xué)習(xí)過程更加困難。通過首先使用密集光流進(jìn)行訓(xùn)練,然后使用稀疏軌跡進(jìn)行微調(diào),本文的模型展示了對各種類型軌跡數(shù)據(jù)的更高適應(yīng)性。這種方法不僅增強(qiáng)了整體性能,還提高了模型處理多樣化運動模式的能力。

寥寥數(shù)筆,動畫自成!阿里Tora: 首個軌跡引導(dǎo)的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成-AI.x社區(qū)

結(jié)論

本文介紹了Tora,這是第一個面向軌跡的擴(kuò)散Transformer框架,用于視頻生成,集成了文本、圖像和軌跡條件。Tora有效地將任意軌跡編碼為時空運動塊,這與DiT的縮放特性相一致,從而實現(xiàn)了更逼真的物理世界運動模擬。通過采用兩階段訓(xùn)練過程,Tora在各種持續(xù)時間、縱橫比和分辨率下實現(xiàn)了運動可控的視頻生成。值得注意的是,它可以生成符合指定軌跡的高質(zhì)量視頻,最高可達(dá)204幀,分辨率為720p。這一能力突顯了Tora在處理多樣化運動模式時的多功能性和魯棒性,同時保持高視覺保真度。本文希望本文的工作為未來的運動引導(dǎo)擴(kuò)散Transformer方法研究提供一個強(qiáng)有力的基線。


本文轉(zhuǎn)自 AI生成未來 ,作者:Zhenghao Zhang


原文鏈接:??https://mp.weixin.qq.com/s/QGz1sWZAgJQ02Ew96WcLtA??

標(biāo)簽
已于2024-8-2 09:53:37修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦