任意骨骼系統(tǒng)的模型都能驅(qū)動?AnimaX提出基于世界模型的3D動畫生成新范式
本文的主要作者來自北京航空航天大學(xué)、清華大學(xué)、香港大學(xué)和 VAST。本文的第一作者為北京航空航天大學(xué)碩士生黃澤桓。本文的通訊作者為北京航空航天大學(xué)盛律教授與 VAST 公司首席科學(xué)家曹炎培博士。
在游戲、影視制作、虛擬人和交互式內(nèi)容創(chuàng)作等行業(yè)中,高質(zhì)量的 3D 動畫是實現(xiàn)真實感與表現(xiàn)力的基礎(chǔ)。然而,傳統(tǒng)計算機圖形學(xué)中的動畫制作通常依賴于骨骼綁定與關(guān)鍵幀編輯,這一流程雖然能夠帶來高質(zhì)量與精細控制,但需要經(jīng)驗豐富的藝術(shù)家投入大量人力與時間,代價昂貴。
隨著生成模型的快速發(fā)展,自動化的角色動畫生成逐漸成為可能,為行業(yè)提供了新的解決思路。然而,現(xiàn)有方法存在顯著局限:
- 基于動作捕捉的擴散模型或自回歸模型只能在固定骨骼拓撲下工作,主要面向類人動作,難以推廣至更廣泛的角色類別;
- 基于視頻生成模型的工作雖然能夠生成多樣化的動態(tài)序列,卻往往依賴于高自由度的三維形變場優(yōu)化,計算開銷大、結(jié)果不穩(wěn)定,往往需要耗時的優(yōu)化過程。
為解決這一難題,北京航空航天大學(xué)團隊提出了 AnimaX,一個高效的前饋式 3D 動畫生成框架,并且支持任意類別的骨骼拓撲結(jié)構(gòu)。

論文題目:AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models
論文鏈接:https://arxiv.org/abs/2506.19851
項目主頁:https://anima-x.github.io/
AnimaX 的核心思想是將視頻擴散模型的運動先驗與骨骼動畫的低自由度控制相結(jié)合。創(chuàng)新性地將 3D 動作表示為多視角、多幀的二維姿態(tài)圖,并設(shè)計了一種視頻-姿態(tài)聯(lián)合擴散模型,能夠同時生成 RGB 視頻與對應(yīng)的姿態(tài)序列。
通過共享位置編碼與模態(tài)特定嵌入,該模型實現(xiàn)了跨模態(tài)的時空對齊,有效地將視頻中的豐富運動知識遷移到 3D 動畫生成中。最終,通過反投影與逆向運動學(xué)將生成的姿態(tài)轉(zhuǎn)化為 3D 動畫。
總結(jié)而言,AnimaX 的主要貢獻包括:
- 提出了 AnimaX,首個支持任意類別的骨骼拓撲結(jié)構(gòu),同時兼顧視頻先驗的多樣性與骨骼動畫的可控性的高效前饋式 3D 動畫框架。
- 設(shè)計視頻-姿態(tài)聯(lián)合擴散模型,通過共享位置編碼實現(xiàn)跨模態(tài)時空對齊,顯著提升運動表達能力。
- 構(gòu)建了一個涵蓋約 16 萬條綁定骨骼的 3D 動畫數(shù)據(jù)集,包含人形、動物及其他多種類別,為訓(xùn)練通用的動畫模型提供了重要資源。
效果展示:不限物體類別的 3D 骨骼動畫生成

AnimaX 能夠為多種類別的 3D 網(wǎng)格生成自然連貫的動畫視頻,不論是人形角色、動物還是家具與機械結(jié)構(gòu),都能實現(xiàn)時空一致的動作表現(xiàn)。不同于以往依賴高代價優(yōu)化的方法,AnimaX 可以在幾分鐘內(nèi)完成 3D 動畫序列生成,并在保持動作多樣性和真實性的同時展現(xiàn)出極強的泛化能力。
技術(shù)突破:基于視頻擴散模型的任意骨骼動畫生成
骨骼動畫的局限與挑戰(zhàn)
傳統(tǒng) 3D 動畫生成依賴骨骼綁定與關(guān)鍵幀設(shè)計,雖然能帶來高質(zhì)量和可控性,但需要大量人工成本。近期基于動作捕捉的擴散模型和視頻生成模型提供了自動化可能性,但前者受限于固定骨骼拓撲,難以泛化至非人形角色;后者則依賴高自由度的形變場優(yōu)化,計算昂貴、結(jié)果不穩(wěn)定,甚至需要數(shù)十小時才能得到一條動畫。
新思路:聯(lián)合視頻-姿態(tài)擴散建模
AnimaX 打破了這一局限。團隊提出將 3D 動作重新表示為多視角、多幀的二維姿態(tài)圖,并訓(xùn)練一個視頻-姿態(tài)聯(lián)合擴散模型,同時生成 RGB 視頻與姿態(tài)序列。通過共享位置編碼與模態(tài)嵌入,團隊首次在視頻和姿態(tài)之間實現(xiàn)了穩(wěn)健的時空對齊,使視頻擴散模型中學(xué)到的運動先驗?zāi)軌驘o縫遷移到姿態(tài)序列生成。

團隊首先提出了一種姿態(tài)圖表示方式,將三維骨骼的關(guān)節(jié)位置投影到二維圖像平面,使模型能夠精確定位姿態(tài)結(jié)構(gòu),為后續(xù)的三維動作重建打下基礎(chǔ)。
在此基礎(chǔ)上,研究者構(gòu)建了一個視頻-姿態(tài)聯(lián)合擴散模型。該模型在原有視頻擴散模型上引入了模態(tài)嵌入與共享位置編碼,前者用于區(qū)分 RGB 與姿態(tài)兩類信號,后者則確保兩種模態(tài)在空間位置上的對齊,使模型能夠同時學(xué)習(xí) RGB 視頻與姿態(tài)序列的聯(lián)合分布。
通過這一機制,視頻和姿態(tài)序列的生成過程得以在同一框架下協(xié)同進行。之后,為了進一步發(fā)揮視頻擴散模型的時空建模能力,團隊設(shè)計了一種統(tǒng)一序列建模策略,即將輸入的模板圖像(包括 RGB 與姿態(tài)圖)與目標(biāo)生成序列拼接在一起,再通過三維自注意力進行聯(lián)合推理。這種方式使預(yù)訓(xùn)練模型的時空先驗?zāi)軌蜃匀贿w移,從而保證了輸出動畫的穩(wěn)定性與連貫性。
最后,團隊采用 Plücker ray 來編碼相機參數(shù),并在網(wǎng)絡(luò)中加入多視角注意力機制以解決多視角不一致的問題,使得不同視角下的視頻與姿態(tài)能夠直接建立空間對應(yīng)關(guān)系。得益于這一設(shè)計,生成的動畫在不同相機角度下依然保持協(xié)調(diào)一致,避免了常見的視角漂移和形變不穩(wěn)的問題。
3D 姿態(tài)重建與動畫生成
在生成多視角姿態(tài)序列后,團隊設(shè)計了一套高效的三維動作重建與動畫生成流程:先通過聚類提取二維關(guān)節(jié)位置,再利用多視角三角化與最小二乘優(yōu)化恢復(fù)三維關(guān)節(jié)坐標(biāo),最終通過逆向運動學(xué)將其映射為骨骼旋轉(zhuǎn)驅(qū)動網(wǎng)格,從而生成自然流暢的三維動畫。不同于以往依賴長時間迭代優(yōu)化的方法,AnimaX 僅需數(shù)分鐘即可得到結(jié)構(gòu)合理、動作連貫的結(jié)果,并能夠泛化到人形、動物乃至家具、機械等多種類別。
卓越性能:泛化的動畫合成
團隊將 AnimaX 與眾多優(yōu)秀的開源模型進行定性定量的對比??梢钥吹?AnimaX 的結(jié)果基本都優(yōu)于現(xiàn)有方法,并在后續(xù)的人類偏好測試中取得了顯著優(yōu)勢。
動畫生成

團隊對比了 AnimaX、MotionDreamer 和 Animate3D。
從結(jié)果中可以看出,AnimaX 通過聯(lián)合視頻-姿態(tài)建模,將視頻中的運動先驗有效遷移到骨骼驅(qū)動的動畫合成中,能夠高質(zhì)量地生成各類物體 3D 運動動畫,并同時保持物體的一致性。
相比之下,MotionDreamer 依賴預(yù)訓(xùn)練視頻擴散模型來監(jiān)督模型形變,但由于形變場的自由度過高,約束能力有限,往往導(dǎo)致幾何不一致和時序不穩(wěn)定;Animate3D 則通過微調(diào)多視圖視頻擴散模型提升跨視角一致性,雖然在一定程度上減少了偽影,但重建過程困難,常出現(xiàn)幾乎靜止的結(jié)果。

團隊從 VBench 中選取了四個指標(biāo)進行評測,包括主體一致性(I2V Subject)、運動平滑度(Smooth)、動態(tài)程度(Dynamic Deg.)和外觀質(zhì)量(Quality)。
結(jié)果顯示,AnimaX 在除運動豐富度外的所有指標(biāo)上均顯著優(yōu)于現(xiàn)有方法,尤其在外觀質(zhì)量上表現(xiàn)突出。而對于運動豐富度指標(biāo),團隊通過進一步實驗發(fā)現(xiàn)由于其對部分樣本不夠魯棒,比如,在視頻中物體突然消失也會產(chǎn)生虛高分數(shù),因此難以說明視頻的實際運動表現(xiàn)。

團隊還額外進行了用戶評測,以檢驗人類在實際使用中對不同方法的偏好。團隊共招募了 30 位參與者,使其對測試集中不同方法的生成結(jié)果從動作與文本的匹配度、三維形體的一致性以及整體運動質(zhì)量三個方面分別選擇最佳結(jié)果。結(jié)果顯示,AnimaX 在所有指標(biāo)上均獲得了最高偏好率,進一步說明了 AnimaX 將視頻擴散模型的運動先驗遷移到骨骼驅(qū)動的 3D 動畫的做法具有更強優(yōu)勢。
消融實驗

團隊還進一步進行了消融實驗,對比了三種不同的設(shè)置:
- 在視頻擴散模型基礎(chǔ)上僅生成動作序列;
- 同時生成視頻與動作序列,但兩種模態(tài)不共享位置編碼;
- 完整的 AnimaX 模型,即聯(lián)合視頻-姿態(tài)生成并共享位置編碼。
實驗結(jié)果表明,方案 1 由于動作序列稀疏且與視頻模態(tài)差異較大,難以充分利用視頻先驗,往往生成畸變或近乎靜止的結(jié)果;方案 2 雖然一定程度緩解了問題,但視頻與動作之間缺乏空間對齊,仍存在不穩(wěn)定現(xiàn)象。
相比之下,完整的 AnimaX 模型通過共享位置編碼實現(xiàn)了視頻與姿態(tài)的緊密對齊,更好地繼承了視頻擴散模型的運動先驗,在一致性與動作表現(xiàn)力上均顯著優(yōu)于其他對比方案,進一步驗證了方法設(shè)計的有效性。
未來展望
AnimaX 研究團隊提出了一種新方法,將視頻擴散模型中可遷移的運動先驗與骨架動畫的結(jié)構(gòu)化可控性相結(jié)合,實現(xiàn)對任意骨架結(jié)構(gòu)的三維網(wǎng)格進行高效動畫生成,為更靈活的多視角三維動畫生成奠定了基礎(chǔ)。
同時,AnimaX 的設(shè)計思路也為多個方向提供了新的可能性。一方面,聯(lián)合視頻-姿態(tài)建模不僅適用于骨骼動畫,還可擴展到場景級動態(tài)建模,從而推動更廣泛的 4D 內(nèi)容生成;另一方面,當(dāng)前方法基于單次前饋生成,未來可嘗試結(jié)合長時序視頻生成,以提升長程動畫的連貫性與細節(jié)保真度,進而支持更復(fù)雜、更豐富的 3D 動畫生成。



































