MotionClone:無需訓(xùn)練,一鍵克隆視頻運動
無需訓(xùn)練或微調(diào),在提示詞指定的新場景中克隆參考視頻的運動,無論是全局的相機運動還是局部的肢體運動都可以一鍵搞定。

- 論文:https://arxiv.org/abs/2406.05338
- 主頁:https://bujiazi.github.io/motionclone.github.io/
- 代碼:https://github.com/Bujiazi/MotionClone
本文提出了名為 MotionClone 的新框架,給定任意的參考視頻,能夠在不進行模型訓(xùn)練或微調(diào)的情況下提取對應(yīng)的運動信息;這種運動信息可以直接和文本提示一起指導(dǎo)新視頻的生成,實現(xiàn)具有定制化運動的文本生成視頻 (text2video)。

相較于先前的研究,MotionClone 具備如下的優(yōu)點:
- 無需訓(xùn)練或微調(diào):先前的方法通常需要訓(xùn)練模型來編碼運動線索或微調(diào)視頻擴散模型來擬合特定運動模式。訓(xùn)練模型編碼運動線索對于訓(xùn)練域之外的運動泛化能力較差,而微調(diào)已有的視頻生成模型可能會損害基模型潛在的視頻生成質(zhì)量。MotionClone 無需引入任何額外的訓(xùn)練或微調(diào),在提高運動泛化能力的同時最大程度保留了基座模型的生成質(zhì)量。
- 更高的運動質(zhì)量:已有的開源文生視頻模型很難生成大幅度的合理的運動,MotionClone 通過引入主成分時序注意力運動指導(dǎo)在大幅加強生成視頻運動幅度的同時有效保障了運動的合理性。
- 更好的空間位置關(guān)系:為了避免直接的運動克隆可能導(dǎo)致的空間語義錯配,MotionClone 提出了基于交叉注意力掩碼的空間語義信息指導(dǎo)來輔助空間語義信息和時空運動信息的正確耦合。
時序注意力模塊中的運動信息

在文本生視頻工作中,時序注意力模塊 (Temporal Attention) 被廣泛用于建模視頻的幀間相關(guān)性。由于時序注意力模塊中的注意力分?jǐn)?shù) (attention map score) 表征了幀間的相關(guān)性,因此一個直觀的想法是是否可以通過約束完全一致的注意力分?jǐn)?shù)來復(fù)制的幀間聯(lián)系從而實現(xiàn)運動克隆。
然而,實驗發(fā)現(xiàn)直接復(fù)制完整的注意力圖 (plain control) 只能實現(xiàn)非常粗糙的運動遷移,這是因為注意力中大多數(shù)權(quán)重對應(yīng)的是噪聲或者非常細(xì)微的運動信息,這些信息一方面難以和文本指定的新場景相結(jié)合,另一方面掩蓋了潛在的有效的運動指導(dǎo)。
為了解決這一問題,MotionClone 引入了主成分時序注意力運動指導(dǎo)機制 (Primary temporal-attention guidance),僅利用時序注意力中的主要成分來對視頻生成進行稀疏指導(dǎo),從而過濾噪聲和細(xì)微運動信息的負(fù)面影響,實現(xiàn)運動在文本指定的新場景下的有效克隆。

空間語義修正
主成分時序注意力運動指導(dǎo)能夠?qū)崿F(xiàn)對參考視頻的運動克隆,但是無法確保運動的主體和用戶意圖相一致,這會降低視頻生成的質(zhì)量,在某些情況下甚至?xí)?dǎo)致運動主體的錯位。
為了解決上述問題,MotionClone 引入空間語義引導(dǎo)機制 (Location-aware semantic guidance),通過交叉注意力掩碼(Cross Attention Mask)劃分視頻的前后背景區(qū)域,通過分別約束視頻前后背景的語義信息來保障空間語義的合理布局,促進時序運動和空間語義的正確耦合。
MotionClone 實現(xiàn)細(xì)節(jié)

- DDIM 反轉(zhuǎn):MotionClone 采用 DDIM Inversion 將輸入的參考視頻反轉(zhuǎn)至 latent space 中,實現(xiàn)對參考視頻的時序注意力主成分提取。
- 引導(dǎo)階段:在每次去噪時,MotionClone 同時引入了主成分時序注意力運動指導(dǎo)和空間語義信息指導(dǎo),它們協(xié)同運行,為可控視頻生成提供全面的運動和語義引導(dǎo)。
- 高斯掩碼:在空間語義引導(dǎo)機制中,采用高斯核函數(shù)對交叉注意力掩碼進行模糊處理,消除潛在的結(jié)構(gòu)信息影響。
DAVIS 數(shù)據(jù)集中的 30 個視頻被用于測試。實驗結(jié)果表明 MotionClone 實現(xiàn)了在文本契合度、時序一致性以及多項用戶調(diào)研指標(biāo)上的顯著提升,超越了以往的運動遷移方法,具體結(jié)果如下表所示。

MotionClone 與已有運動遷移方法的生成結(jié)果對比如下圖所示,可見 MotionClone 具有領(lǐng)先的性能。

綜上所述,MotionClone 是一種新的運動遷移框架,能夠在無需訓(xùn)練或微調(diào)的情況下,有效地將參考視頻中的運動克隆到用戶給定提示詞指定的新場景,為已有的文生視頻模型提供了即插即用的運動定制化方案。
MotionClone 在保留已有基座模型的生成質(zhì)量的基礎(chǔ)上引入高效的主成分運動信息指導(dǎo)和空間語義引導(dǎo),在保障和文本的語義對齊能力的同時顯著提高了和參考視頻的運動一致性,實現(xiàn)高質(zhì)量的可控的視頻生成。
此外,MotionClone 能夠直接適配豐富的社區(qū)模型實現(xiàn)多樣化的視頻生成,具備極高的擴展性。

































