數(shù)字人動(dòng)畫革命!全球首創(chuàng)4D運(yùn)動(dòng)建模技術(shù),超越第二名65%的爆款黑科技MTVCrafter來了
論文鏈接:https://arxiv.org/pdf/2505.10238
代碼鏈接:https://github.com/DINGYANB/MTVCrafter
亮點(diǎn)直擊
- MTVCrafter,首個(gè)直接建模原始4D動(dòng)作(而非2D渲染姿態(tài)圖像)用于開放世界人像動(dòng)畫生成的流程,實(shí)現(xiàn)了復(fù)雜三維世界中的動(dòng)畫生成。
- 4DMoT,一種新穎的 4D 動(dòng)作tokenizer,能夠?qū)⒃既梭w動(dòng)作數(shù)據(jù)編碼為緊湊而富有表現(xiàn)力4D 動(dòng)作token,相較于 2D 圖像表示提供了更穩(wěn)健的時(shí)空引導(dǎo)。
- 設(shè)計(jì)了MV-DiT,一種具備運(yùn)動(dòng)感知能力的視頻 DiT 模型,配備了獨(dú)特的 4D 動(dòng)作注意力機(jī)制和 4D 位置編碼,從而實(shí)現(xiàn)了由 4D 動(dòng)作 token 有效引導(dǎo)的動(dòng)畫生成。
- MTVCrafter 在 TikTok 基準(zhǔn)上實(shí)現(xiàn)了SOTA性能,在 FID-VID 指標(biāo)上超越第二名達(dá)65%。
圖1,MTVCrafter 還具有良好的泛化能力,能夠適應(yīng)未見過的動(dòng)作和角色,包括單人或多人、全身或半身角色,覆蓋多種風(fēng)格和場(chǎng)景。
總結(jié)速覽
解決的問題
現(xiàn)有人像動(dòng)畫方法的局限性:當(dāng)前方法主要依賴于二維渲染的姿態(tài)圖像進(jìn)行動(dòng)作引導(dǎo),這種方式存在兩個(gè)主要問題:
- 泛化能力差:二維圖像難以適應(yīng)多樣化角色和開放世界場(chǎng)景。
- 三維信息缺失:忽略了真實(shí)動(dòng)作中的三維結(jié)構(gòu),限制了動(dòng)畫的真實(shí)感與表現(xiàn)力。
提出的方案
- MTVCrafter 框架:首個(gè)直接建模原始三維動(dòng)作序列(即 4D 動(dòng)作)的通用人像動(dòng)畫生成框架,能夠在復(fù)雜的三維世界中生成高質(zhì)量動(dòng)畫。
- 核心思想:不再使用 2D 姿態(tài)圖像作為中間表示,而是引入更加緊湊且表達(dá)力強(qiáng)的4D 動(dòng)作 token,從而提供更穩(wěn)健的時(shí)空提示。
應(yīng)用的技術(shù)
- 4DMoT(4D Motion Tokenizer):
- 將三維動(dòng)作序列量化為 4D 動(dòng)作 token。
- 提供更強(qiáng)的時(shí)空引導(dǎo)信息,避免像素級(jí)對(duì)齊問題,實(shí)現(xiàn)更靈活的控制。
- MV-DiT(Motion-aware Video DiT):
- 基于 DiT 架構(gòu)的視頻生成模型。
- 引入4D 動(dòng)作注意力機(jī)制 和 4D 位置編碼,有效融合動(dòng)作 token,用于指導(dǎo)視頻生成。
達(dá)到的效果
- 生成質(zhì)量領(lǐng)先:在 TikTok基準(zhǔn)測(cè)試集上,MTVCrafter 在FID-VID 指標(biāo)上達(dá)到 6.98,**超越第二名 65%**,實(shí)現(xiàn)當(dāng)前SOTA性能。
- 強(qiáng)泛化能力:
- 支持單人/多人、全身/半身角色。
- 適用于多種風(fēng)格和復(fù)雜場(chǎng)景,能夠處理未見過的動(dòng)作和角色。
- 推動(dòng)領(lǐng)域發(fā)展:首次實(shí)現(xiàn)基于原始 4D 動(dòng)作的人像視頻生成,為姿態(tài)引導(dǎo)視頻生成開辟了新方向。
方法
概述
介紹了用于 4D 動(dòng)作分詞的 4DMoT。所得到的 4D 動(dòng)作 token 相較于 2D 渲染的姿態(tài)圖像展現(xiàn)出更強(qiáng)的時(shí)空提示能力。然后介紹MV-DiT,它在強(qiáng)大的 DiT 架構(gòu)中利用 4D 動(dòng)作 token 作為視覺上下文。該模型具有獨(dú)特的 4D 動(dòng)作注意力機(jī)制,結(jié)合 4D 位置編碼和具備運(yùn)動(dòng)感知能力的無分類器引導(dǎo)(CFG),能夠?qū)崿F(xiàn)由緊湊而富有表現(xiàn)力的 4D 動(dòng)作 token 引導(dǎo)的開放世界動(dòng)畫生成。
4D 動(dòng)作分詞器
為了利用豐富的 4D 引導(dǎo)信息驅(qū)動(dòng)人像圖像動(dòng)畫,本文從驅(qū)動(dòng)視頻中提取 SMPL序列作為條件輸入。盡管已有工作 [6, 8, 18] 也使用了 SMPL,但它們通常將 3D 網(wǎng)格簡單渲染為 2D 圖像作為條件,這種方式在開放世界動(dòng)畫中常常導(dǎo)致運(yùn)動(dòng)表示不足,如下圖 2 所示。相比之下,本文直接將原始 SMPL 序列分詞為 4D 動(dòng)作 token。首先,構(gòu)建 SMPL 動(dòng)作-視頻序列的訓(xùn)練數(shù)據(jù)集。然后,設(shè)計(jì)了一個(gè) 4D 動(dòng)作 VQVAE(見圖 3)來學(xué)習(xí)無噪聲的動(dòng)作表示。
4DMoT 的模型架構(gòu) 由于 VQVAE 架構(gòu)被廣泛應(yīng)用于下游任務(wù)中的離散分詞[24, 79, 80],采用并構(gòu)建了其結(jié)構(gòu)。如下圖 3 所示,4DMoT 包含一個(gè)用于動(dòng)作序列重建的編碼器-解碼器結(jié)構(gòu),以及一個(gè)輕量級(jí)的量化器用于學(xué)習(xí)離散的動(dòng)作 token。編碼器-解碼器在 4D 動(dòng)作中保持時(shí)空一致性,而量化器則使得學(xué)習(xí)緊湊而富有表現(xiàn)力的 4D 動(dòng)作表示成為可能。
四維動(dòng)作視頻擴(kuò)散 Transformer
在獲得 4D 動(dòng)作 token 后,目標(biāo)是有效地利用它們進(jìn)行人物圖像動(dòng)畫生成。本節(jié)將介紹如何將 4D 動(dòng)作 token 作為條件集成到視頻 DiT 模型中。設(shè)計(jì)包含四個(gè)關(guān)鍵組件:參考圖像保留、4D 位置編碼、4D 動(dòng)作注意力以及具備運(yùn)動(dòng)感知的無分類器引導(dǎo)。
參考圖像保留 在人物圖像動(dòng)畫中,保持視覺和時(shí)間一致性仍然是一項(xiàng)關(guān)鍵挑戰(zhàn)。與之前的方法 [2, 6, 7, 15, 19] 不同,這些方法使用與去噪模型結(jié)構(gòu)相同的參考網(wǎng)絡(luò)來單獨(dú)學(xué)習(xí)參考圖像,本文的 MV-DiT 采用了一種簡單而有效的重復(fù)-拼接策略。
這些拼接后的隱空間表示隨后被劃分為小塊并投影,以匹配注意力 token 的維度。得益于 DiT 中的 3D 全自注意力機(jī)制,模型在生成過程中可以直接與參考圖像特征進(jìn)行交互,從而無需額外的參考網(wǎng)絡(luò)即可高效地保留身份信息。
4D 位置編碼 為了增強(qiáng) 4D 動(dòng)作 token 的時(shí)空信息,引入了簡潔的 4D RoPE,它結(jié)合了 1D 時(shí)間和 3D 空間的 RoPE。與標(biāo)準(zhǔn)的3D表達(dá)形式[30, 33]不同,4D RoPE 能夠捕捉到更優(yōu)的4D動(dòng)作位置信息:
注意力機(jī)制的公式如下:
4 實(shí)驗(yàn)
數(shù)據(jù)集與指標(biāo) 遵循先前的工作 [2, 21, 62],使用 TikTok 數(shù)據(jù)集中的序列 335 到 340 進(jìn)行測(cè)試。評(píng)估基于六個(gè)指標(biāo):圖像級(jí)指標(biāo)包括峰值信噪比(PSNR)、結(jié)構(gòu)相似性指數(shù)(SSIM)、感知圖像補(bǔ)丁相似性(LPIPS)、Fréchet Inception 距離(FID);視頻級(jí)指標(biāo)包括視頻級(jí) FID(FID-VID)和 Fréchet 視頻距離(FVD)。
SOTA 對(duì)比
本文進(jìn)行了與現(xiàn)有方法的定性和定量對(duì)比。定性對(duì)比如上圖 1 和下圖 5 所示,MTVCrafter 在姿態(tài)準(zhǔn)確性和身份一致性方面展現(xiàn)了最佳的動(dòng)畫表現(xiàn)。此外,MTVCrafter 具有強(qiáng)大的泛化能力,能夠處理單人或多人、全身或半身的外觀,以及多樣的風(fēng)格、動(dòng)作和場(chǎng)景。更重要的是,即使目標(biāo)姿態(tài)與參考圖像不對(duì)齊(例如下圖 5 中的牛仔),MTVCrafter 依然表現(xiàn)出穩(wěn)健性,說明其能夠有效地將動(dòng)作從驅(qū)動(dòng)視頻中解耦。這一問題無法通過 Champ [18] 或 UniAnimate [63] 等簡單嘗試將姿態(tài)重定向以匹配參考圖像比例的方法從根本上解決。
在定量對(duì)比中,如下表 1 所示,MTVCrafter 在 TikTok 數(shù)據(jù)集上在所有指標(biāo)上均取得了最優(yōu)性能,尤其是在 FID 和 FID-VID 上表現(xiàn)突出。這突顯了直接建模動(dòng)作序列而非渲染姿態(tài)圖像的優(yōu)勢(shì)。對(duì)于 SSIM 和 PSNR,各方法結(jié)果相近,差異不大,因?yàn)檫@些是面向圖像超分辨等任務(wù)的低級(jí)指標(biāo)。
消融實(shí)驗(yàn)
為了驗(yàn)證本文關(guān)鍵設(shè)計(jì)的有效性,本文對(duì) 4D 動(dòng)作分詞器(MT)、4D 動(dòng)作注意力(MA)和 CFG 進(jìn)行了消融實(shí)驗(yàn)。如下表 2 所示,本文通過修改或移除特定組件來評(píng)估不同變體,并測(cè)量它們?cè)?TikTok 數(shù)據(jù)集上的影響。
動(dòng)作分詞器(MT) 研究了移除向量量化器的影響。沒有量化時(shí),VQVAE 退化為一個(gè)標(biāo)準(zhǔn)的自動(dòng)編碼器,直接處理連續(xù)且不一致的動(dòng)作特征,導(dǎo)致性能下降(例如,上表 2 中 FID-VID 從6.98上升到9.79 )。這證實(shí)了使用離散且統(tǒng)一的動(dòng)作 token 對(duì)于穩(wěn)定動(dòng)作學(xué)習(xí)至關(guān)重要。此外,量化還有助于提升開放世界動(dòng)畫的泛化能力。
動(dòng)作注意力(MA) 探索了多種位置編碼(PE)設(shè)計(jì)用于動(dòng)作注意力模塊:
- 動(dòng)態(tài) PE 使用第一幀的關(guān)節(jié)點(diǎn)坐標(biāo)計(jì)算 RoPE,但由于不穩(wěn)定性和訓(xùn)練困難表現(xiàn)較差;
- 可學(xué)習(xí) PE 難以收斂,未能提供可靠的位置提示;
- 一維時(shí)間 RoPE 僅在時(shí)間軸上應(yīng)用 RoPE;
- 三維空間 RoPE 僅在空間軸上應(yīng)用 RoPE。這兩種方式都未能建模完整的 4D 依賴關(guān)系,導(dǎo)致如身份漂移或抖動(dòng)等視覺偽影;
- 無 PE 完全移除位置編碼,整體表現(xiàn)最差(FVD:235.57 對(duì)比140.60 ,SSIM:0.717 對(duì)比0.784 ),突出顯示了顯式位置信息的重要性。
為了更好地說明效果,在下圖 6 中提供了可視化消融。圖中生動(dòng)展示了分詞器和 4D RoPE 的有效性,帶來了更好的動(dòng)作質(zhì)量和角色保真度。
運(yùn)動(dòng)感知的無分類引導(dǎo)(CFG) 下圖 7 展示了運(yùn)動(dòng)感知 CFG 比例w的定性和定量評(píng)估。在 TikTok 基準(zhǔn)上,CFG 比例為3.0時(shí)表現(xiàn)最佳,尤其是在 FVD 指標(biāo)上。對(duì)于 FID-VID 指標(biāo),該比例的影響較小。在右側(cè)的可視化對(duì)比中,增加 CFG 比例增強(qiáng)了姿態(tài)對(duì)齊,但也引入了更多偽影,并可能降低視頻質(zhì)量。
結(jié)論
MTVCrafter,一個(gè)新穎的框架,直接對(duì)原始動(dòng)作序列進(jìn)行 token 化,而不是依賴于二維渲染的姿態(tài)圖像進(jìn)行人物視頻生成。通過在 DiT 中集成 4D 動(dòng)作 VQVAE 和動(dòng)作注意力,MTVCrafter 有效地保持了時(shí)空一致性和身份保真度,同時(shí)實(shí)現(xiàn)了角色與動(dòng)作的解耦。實(shí)驗(yàn)顯示其在多樣角色與動(dòng)作上的 SOTA 表現(xiàn)和強(qiáng)泛化能力,為該領(lǐng)域設(shè)立了新的范式。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
