偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICCV 2025 | 無需NeRF/高斯點后處理,視頻秒變游戲模型成現(xiàn)實!新方法平均每幀僅需60秒

人工智能 新聞
來自KAUST的研究團隊提出全新方法V2M4,能夠?qū)崿F(xiàn)從單目視頻直接生成高質(zhì)量、顯式的4D網(wǎng)格動畫資源。這意味著無需NeRF/高斯點后處理,可直接導入游戲/圖形引擎。

只需一段視頻,就可以直接生成可用的4D網(wǎng)格動畫?!

來自KAUST的研究團隊提出全新方法V2M4,能夠?qū)崿F(xiàn)從單目視頻直接生成高質(zhì)量、顯式的4D網(wǎng)格動畫資源。這意味著無需NeRF/高斯點后處理,可直接導入游戲/圖形引擎。

該方法構(gòu)建了一個系統(tǒng)化的多階段流程,涵蓋相機軌跡恢復、外觀優(yōu)化、拓撲統(tǒng)一、紋理合成等關鍵步驟,讓視頻“秒變模型”,大幅提升動畫與游戲內(nèi)容的生成效率與可用性。

論文已被ICCV 2025正式接收。

圖片

結(jié)果顯示,其生成的外觀和結(jié)構(gòu)高度還原,平均每幀僅需約60秒處理,比現(xiàn)有方法顯著提速;而且還支持「長視頻」,在300幀時長的視頻上依然表現(xiàn)優(yōu)異

視頻生成4D動畫模型有多難?

從一段視頻生成連續(xù)動畫網(wǎng)格資產(chǎn),一直是視覺計算長期未解的問題:傳統(tǒng)動畫制作需依賴多攝像頭、動捕設備、人工建模等高成本手段。隱式方法如NeRF雖能復現(xiàn)外觀,卻難以直接輸出拓撲一致的顯式網(wǎng)格。

而近期的原生3D生成模型能夠重建出高質(zhì)量的3D網(wǎng)格,但常常存在姿態(tài)錯位、拓撲不一致、紋理閃爍等問題。

在該工作中,V2M4首次展示了利用原生3D生成模型,從單目視頻生成可用4D網(wǎng)格動畫資產(chǎn)的可能性,并展現(xiàn)了其視覺效果與實用性。

V2M4提出一套系統(tǒng)化的五階段方法,直接從單目視頻構(gòu)建可編輯的4D網(wǎng)格動畫資產(chǎn)。該方法以“生成高質(zhì)量顯式網(wǎng)格+拓撲一致+紋理統(tǒng)一”為目標,從結(jié)構(gòu)、外觀、拓撲和時序角度逐步優(yōu)化模型,輸出可直接用于圖形/游戲引擎的4D動畫文件。

圖片

相機軌跡恢復與網(wǎng)格重定位

由于原生3D生成模型輸出的每幀網(wǎng)格常處于標準坐標系中心并且朝向固定,因此直接采用原生3D模型生成視頻幀對應的3D網(wǎng)格會導致真實的平移和旋轉(zhuǎn)信息的丟失,進而使得動畫無法還原物體在視頻中的真實運動。

為解決該問題,V2M4設計了三階段相機估計策略,通過重建每幀視頻的相機視角,進而將“相機運動”轉(zhuǎn)化為“網(wǎng)格運動”。

  • 候選相機采樣+DreamSim評分:在物體周圍均勻采樣多個視角,渲染并與真實幀對比,挑選相似度最高的相機姿態(tài)。
  • DUSt3R點云輔助估計:引入幾何基礎模型DUSt3R,通過預測點云來推算出更穩(wěn)定的相機位姿,再與采樣結(jié)果融合。
  • 粒子群優(yōu)化+梯度下降精調(diào):用PSO算法避免局部最優(yōu),再以渲染出的掩模差異為優(yōu)化目標,通過gradient descent精細調(diào)整最終相機參數(shù)。

最終,將估計得到的相機軌跡反向應用于每一幀3D網(wǎng)格,從而將網(wǎng)格從標準姿態(tài)中“還原”回視頻中的真實空間位置,實現(xiàn)真實的動態(tài)建模。

圖片

外觀一致性優(yōu)化:條件嵌入微調(diào)

即使完成空間對齊,初始生成的網(wǎng)格外觀往往與輸入視頻存在一定外觀差異。為此,V2M4借鑒圖像編輯中的null text optimization策略,對生成網(wǎng)絡的條件嵌入進行微調(diào),以DreamSim、LPIPS、MSE等指標衡量渲染結(jié)果與參考視頻幀的相似度,從而優(yōu)化嵌入向量,使生成的網(wǎng)格外觀更加貼合原視頻,實現(xiàn)更高質(zhì)量的外觀一致性。

圖片

拓撲對齊與結(jié)構(gòu)一致性:幀間對齊+局部約束

由于現(xiàn)有3D生成模型在每幀輸出中存在隨機性,相鄰幀的網(wǎng)格往往在拓撲結(jié)構(gòu)上存在差異,例如頂點數(shù)量、邊的連接方式或面片組織均不一致。這類結(jié)構(gòu)差異會嚴重阻礙動畫的連續(xù)性與可編輯性。為解決此問題,V2M4引入了逐幀配準與拓撲統(tǒng)一機制:以首幀網(wǎng)格為標準形態(tài)(rest pose),通過全局剛體變換和局部形變優(yōu)化,逐步將其拓撲結(jié)構(gòu)傳遞給所有后續(xù)幀。在配準過程中,該方法結(jié)合Chamfer距離、可微渲染損失與ARAP剛性形變約束,實現(xiàn)對整體姿態(tài)和局部結(jié)構(gòu)的精準調(diào)整。最終,所有幀網(wǎng)格不僅在形狀上保持高度連續(xù)性,更在拓撲層面實現(xiàn)完全一致,從而為后續(xù)紋理生成與時間插值奠定穩(wěn)定基礎。

跨幀紋理一致性優(yōu)化:共享UV提圖,消除閃爍與斷裂

為了確保動畫過程中外觀的一致性,V2M4為所有幀構(gòu)建了一張共享的全局紋理貼圖,避免了逐幀獨立紋理所帶來的色彩跳變與貼圖斷裂問題。由于前述拓撲統(tǒng)一后,各幀網(wǎng)格的結(jié)構(gòu)保持一致,該方法以第一幀網(wǎng)格的UV展開作為所有幀的紋理基準,并基于多視角渲染優(yōu)化貼圖細節(jié)。為提升與原視頻匹配的局部質(zhì)量,該方法引入視角加權(quán)機制,對應視頻幀的相機視圖被賦予更高權(quán)重。最終,實現(xiàn)外觀一致、幀間平滑的動畫體驗。

網(wǎng)格插幀與4D動畫導出:輕量封裝,一鍵部署

為了提升動畫的時間連續(xù)性與軟件適配性,V2M4對生成的網(wǎng)格序列進行時間插幀與結(jié)構(gòu)封裝。具體而言,該方法對關鍵幀網(wǎng)格的頂點位置進行線性插值,生成時序上更平滑的動畫序列,并進一步將其表示為:單個靜態(tài)網(wǎng)格,加上一組隨時間變化的頂點位移張量。最終結(jié)果被導出為符合GLTF標準的動畫文件,包含統(tǒng)一拓撲結(jié)構(gòu)、共享紋理貼圖與頂點時序變形,可直接導入Blender等主流圖形與游戲引擎進行編輯與復用。由此,該方法實現(xiàn)了從視頻到4D網(wǎng)格動畫資產(chǎn)的完整轉(zhuǎn)換路徑,具備可視化、可編輯與實際應用兼容性。

效果驗證與評估

為系統(tǒng)評估 V2M4 的性能,該工作在比以往更具挑戰(zhàn)性的視頻數(shù)據(jù)上開展實驗,結(jié)合定量與定性對比,驗證其在重建質(zhì)量、運行效率與泛化能力上的全面優(yōu)勢。

定量對比:性能全面領先

該方法基于CLIP、LPIPS、FVD和DreamSim等主流指標,從語義一致性、視覺細節(jié)與時序流暢性等維度,評估輸入視頻與重建網(wǎng)格渲染之間的匹配度,更貼近真實用戶感知。

與DreamMesh4D和Naive TRELLIS等方法相比,V2M4在Simple(輕微動作)及Complex(復雜動作)兩個數(shù)據(jù)集上各項指標均實現(xiàn)領先。同時,依托高效的插幀與紋理共享機制,平均每幀僅需約60秒即可完成重建,大幅優(yōu)于現(xiàn)有方法。

圖片

視覺對比:結(jié)構(gòu)更清晰、外觀更真實

在視覺效果方面,V2M4生成的網(wǎng)格在渲染細節(jié)、法線結(jié)構(gòu)與跨幀一致性上表現(xiàn)更出色,不僅還原度高、拓撲完整,更能穩(wěn)定生成連續(xù)、流暢的動畫,展現(xiàn)出優(yōu)異的實用性與泛化能力。

論文鏈接:https://arxiv.org/abs/2503.09631

項目主頁:https://windvchen.github.io/V2M4

責任編輯:張燕妮 來源: 量子位
相關推薦

2009-09-02 15:37:26

Windows 7Windows XP操作系統(tǒng)

2023-12-29 13:18:23

模型NeRFTICD

2025-04-10 09:38:37

2025-08-05 01:45:00

2025-09-23 12:48:36

AGI模型框架

2024-08-12 09:52:00

2024-12-10 15:30:00

AI模型

2025-01-16 10:05:00

3D模型代碼

2023-04-25 17:13:03

模型AI

2025-07-21 09:26:00

AI開源模型

2023-04-27 13:06:46

AI手機模型

2024-11-08 17:34:38

2025-09-18 08:44:12

2011-04-21 15:56:10

筆記本硬盤

2021-02-20 16:07:27

神經(jīng)網(wǎng)絡AI算法

2025-08-29 09:09:00

AI模型數(shù)據(jù)

2025-06-11 09:10:00

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡攻擊

2022-01-28 09:15:54

電腦間歇卡頓

2017-12-06 08:06:47

IBMGPU機器學習
點贊
收藏

51CTO技術(shù)棧公眾號