Magic Mirror：可從單個(gè)參考圖像生成電影級(jí)質(zhì)量身份一致性和自然運(yùn)動(dòng)視頻

作者：AIGC Sdudio 2025-03-11 10:15:00

大量實(shí)驗(yàn)表明Magic Mirror 有效地平衡了身份一致性和自然運(yùn)動(dòng)，在多個(gè)指標(biāo)上優(yōu)于現(xiàn)有方法，同時(shí)只需添加最少的參數(shù)。

Magic Mirror 可以生成合成身份配對(duì)的視頻數(shù)據(jù)。該框架利用視頻擴(kuò)散模型，能夠在保持身份一致性的同時(shí)，生成具有電影級(jí)質(zhì)量和動(dòng)態(tài)運(yùn)動(dòng)的視頻。

Magic Mirror 根據(jù) ID 參考圖像生成文本轉(zhuǎn)視頻結(jié)果。每對(duì)視頻顯示 24 幀（總共 49 幀），其對(duì)應(yīng)的面部參考顯示在左下角。

論文介紹

Magic Mirror 是一個(gè)用于生成具有電影級(jí)質(zhì)量和動(dòng)態(tài)運(yùn)動(dòng)的身份保留視頻的框架。雖然視頻擴(kuò)散模型的最新進(jìn)展在文本到視頻生成方面表現(xiàn)出了令人印象深刻的能力，但在產(chǎn)生自然運(yùn)動(dòng)的同時(shí)保持一致的身份仍然具有挑戰(zhàn)性。以前的方法要么需要針對(duì)個(gè)人進(jìn)行微調(diào)，要么難以平衡身份保留與運(yùn)動(dòng)多樣性。

Magic Mirror基于視頻擴(kuò)散變換器，引入了三個(gè)關(guān)鍵組件：

雙分支面部特征提取器，可同時(shí)捕獲身份和結(jié)構(gòu)特征；
具有條件自適應(yīng)規(guī)范化的輕量級(jí)跨模態(tài)適配器，可實(shí)現(xiàn)有效的身份集成；
結(jié)合合成身份對(duì)和視頻數(shù)據(jù)的兩階段訓(xùn)練策略。

Magic Mirror 可生成動(dòng)態(tài)面部動(dòng)作。由于身份保留約束較強(qiáng)，IDAnimator 和 Video Ocean 的運(yùn)動(dòng)范圍有限。Magic Mirror 在保持參考身份保真度的同時(shí)，實(shí)現(xiàn)了更加動(dòng)態(tài)的面部表情。

方法

Magic Mirror 概述。 該框架采用雙分支特征提取系統(tǒng)，包括 ID 和面部感知器，然后是跨模態(tài)適配器，用于基于 DiT 的視頻生成。通過優(yōu)化火焰標(biāo)記的可訓(xùn)練模塊，我們的方法可以有效地整合面部特征，實(shí)現(xiàn)受控的視頻合成，同時(shí)保持模型效率。

Magic Mirror的方法可分為以下幾個(gè)關(guān)鍵組成部分：

雙分支面部特征提取器：該組件同時(shí)提取身份特征和結(jié)構(gòu)信息，確保在視頻生成中保持高水平的身份一致性。
輕量級(jí)跨模態(tài)適配器：該適配器集成到視頻擴(kuò)散模型中，允許在生成過程中有效地結(jié)合面部特征和文本提示。
條件自適應(yīng)歸一化（CAN）：此模塊用于在生成過程中動(dòng)態(tài)調(diào)整面部特征的分布，確保在不同視頻幀之間保持一致的身份特征。
兩階段訓(xùn)練策略：首先在圖像數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，以學(xué)習(xí)穩(wěn)健的身份表示，然后在視頻數(shù)據(jù)上進(jìn)行微調(diào)，以確保面部表情的時(shí)間一致性。

DiT 塊中的跨模態(tài)適配器，具有條件自適應(yīng)歸一化 (CAN)，用于特定模態(tài)的特征調(diào)制和解耦注意力整合。

訓(xùn)練數(shù)據(jù)集概述。 管道包括圖像預(yù)訓(xùn)練數(shù)據(jù)（A-D）和視頻后訓(xùn)練數(shù)據(jù)（D）。利用自參考數(shù)據(jù)（A，B）和具有相同身份的過濾合成對(duì)（C，D）。報(bào)告了（圖像+合成圖像）的數(shù)量。

實(shí)驗(yàn)

定性比較。 每個(gè)案例的左上角均顯示標(biāo)題和參考身份圖像。

消融研究示例。 左：消融模塊。右：消融和訓(xùn)練策略。

使用 Magic Mirror 生成圖像。圖像預(yù)訓(xùn)練階段的模型會(huì)捕獲參考 ID 的 ID 嵌入（Ref-ID），但在某些低級(jí)分布（如圖像質(zhì)量、風(fēng)格和背景）上會(huì)出現(xiàn)過度擬合。

視頻生成結(jié)果。 結(jié)果展示了 Magic Mirror 在不同面部比例和構(gòu)圖中的能力。

總結(jié)

Magic Mirror是一個(gè)用于身份保留視頻生成的零樣本框架。Magic Mirror 將雙人臉嵌入和條件自適應(yīng)規(guī)范化 (CAN) 融入基于 DiT 的架構(gòu)中。該方法可以實(shí)現(xiàn)強(qiáng)大的身份保留和穩(wěn)定的訓(xùn)練收斂。實(shí)驗(yàn)表明Magic Mirror 可以從單個(gè)參考圖像生成高質(zhì)量的個(gè)性化視頻，同時(shí)保持身份一致性，在多個(gè)基準(zhǔn)和人工評(píng)估中的表現(xiàn)優(yōu)于現(xiàn)有方法。

責(zé)任編輯：張燕妮來源： AIGC Sdudio

模型視頻生成

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Magic Mirror：可從單個(gè)參考圖像生成電影級(jí)質(zhì)量身份一致性和自然運(yùn)動(dòng)視頻

相關(guān)鏈接

論文介紹

方法

實(shí)驗(yàn)

總結(jié)