偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

通向世界模型關(guān)鍵一步:EX-4D來(lái)了,實(shí)現(xiàn)單目視頻到自由視角生成

人工智能 新聞
PICO-MR 團(tuán)隊(duì)提出了一個(gè)破局方案:EX-4D,可以從任意單目視頻生成其對(duì)應(yīng)的新視角視頻。

本文主要作者是 Bytedance Pico 北美高級(jí)研究員胡濤博士,近年來(lái)研究領(lǐng)域包括3D 重建與 4D 場(chǎng)景和視頻生成,致力于得到一種最佳的物理世界表示模型。其他作者均為 Pico MR 團(tuán)隊(duì)核心成員。

去年一年來(lái),Sora、可靈、Veo 等模型掀起了視頻生成領(lǐng)域的革新。而在構(gòu)建更逼近真實(shí)的世界模型征程中,相機(jī)可控的視頻生成技術(shù)堪稱核心拼圖 —— 它讓視頻生成模型不再是單向的 “世界模擬器”,而是能被用戶自由探索的 “平行宇宙”,為沉浸式 3D 電影等顛覆性應(yīng)用奠定基礎(chǔ)!

然而,從單視角視頻,生成其對(duì)應(yīng)的極端視角(比如方位角在 ±90° 改變)新視頻仍是行業(yè)難題。現(xiàn)有的開源方法或依賴多視角相機(jī) - 視頻數(shù)據(jù)集訓(xùn)練 [4,5],或受困于遮擋區(qū)域表示的局限 [1,2],難以跨越 “視角自由” 與 “物理真實(shí)” 的雙重鴻溝。

對(duì)此,PICO-MR 團(tuán)隊(duì)提出了一個(gè)破局方案:EX-4D,可以從任意單目視頻生成其對(duì)應(yīng)的新視角視頻。EX-4D:

  • 一致性更強(qiáng):EX-4D 在 FID、FVD 等指標(biāo)上超越了最新的開源方法,支持生成高物理一致性的新視角視頻。
  • 視角跨度更大:得益于新幾何先驗(yàn)格式,EX-4D 能支持極端視角下的高質(zhì)量視頻生成。
  • 綜合效果更好:輕量級(jí) LoRA Adapter 能充分利用 WAN-2.1 基座模型的強(qiáng)大生成能力,生成細(xì)節(jié)、質(zhì)量更好的視頻。

圖片

  • Arxiv 鏈接: https://arxiv.org/abs/2506.05554
  • 項(xiàng)目主頁(yè)鏈接: https://tau-yihouxiang.github.io/projects/EX-4D/EX-4D.html
  • 代碼鏈接: https://github.com/tau-yihouxiang/EX-4D

現(xiàn)有方法的困境

目前相機(jī)可控的視頻生成方法可分為 2 種主要思路。一類方法直接利用相機(jī)外參作為條件控制視角生成。這種方法需要自行構(gòu)建多個(gè)視角下的相機(jī) - 視頻數(shù)據(jù)對(duì),并且難以控制不同數(shù)據(jù)分布下的相機(jī)的位移尺度,在未知分布的視頻輸入上可能出現(xiàn)嚴(yán)重的視角偏移。第二類方法則直接將像素點(diǎn)投影成點(diǎn)云作為額外的先驗(yàn)信息。這些點(diǎn)云投影無(wú)法保留物體之間的遮擋關(guān)系,在物體的交界部分非常依賴基座模型本身的能力。這種不可控性容易導(dǎo)致錯(cuò)誤的幾何關(guān)系。

EX-4D 的三大核心設(shè)計(jì)

EX-4D 的核心目標(biāo)是實(shí)現(xiàn)一個(gè)泛用的,從單目視頻生成新視角下視頻的模型。其總體框架如下圖所示:

圖片

為了充分利用豐富的各類視頻數(shù)據(jù),同時(shí)保證生成視頻滿足高質(zhì)量和高物理一致性,EX-4D 提出了如下三個(gè)關(guān)鍵設(shè)計(jì)。

  • 深度密閉網(wǎng)格(DW-Mesh)實(shí)現(xiàn)遮擋面提?。篋W-Mesh 表示是 EX-4D 框架的核心。它突破了點(diǎn)云的局限,首次提出使用一個(gè)全密閉網(wǎng)格結(jié)構(gòu),同時(shí)記錄可見 / 隱面片,無(wú)需多視角監(jiān)督就能統(tǒng)一處理場(chǎng)景拓?fù)?。EX-4D 利用最新的預(yù)訓(xùn)練深度預(yù)測(cè)出每幀深度圖,從而將像素點(diǎn)投影到 3D 空間形成網(wǎng)格頂點(diǎn),并從相鄰頂點(diǎn)中構(gòu)建出網(wǎng)格面片。

圖片

EX-4D 根據(jù)幾何關(guān)系標(biāo)記遮擋面片。通過設(shè)置當(dāng)面片最小角度小于指定閾值,或者跨度大于指定閾值時(shí),可以提取出前景與背景之間的遮擋面。

圖片

生成的 DW-Mesh 表達(dá)能為每一幀提供連續(xù)的遮擋 mask,以此確保極端視角下的生成視頻的物理一致性。

  • 模擬 mask 生成策略構(gòu)建數(shù)據(jù)集:為解決多視角訓(xùn)練數(shù)據(jù)缺乏的問題,EX-4D 提出了 2 種模擬 mask 生成策略。

圖片

  • 渲染 mask 關(guān)注模擬視角移動(dòng)下的物體間的遮擋關(guān)系。EX-4D 利用 DW-Mesh 表示來(lái)模擬新視角下的遮擋關(guān)系。通過構(gòu)建輸入視角的 DW-Mesh,并在給定相機(jī)軌跡下渲染來(lái)獲得不可見區(qū)域的 mask。形態(tài)學(xué)膨脹可以進(jìn)一步去除噪聲,滿足更真實(shí)的遮擋邏輯。
  • 跟蹤 mask 的則關(guān)注保持可見區(qū)域的邊緣像素一致,以更貼近推理階段視頻下的真實(shí) mask。EX-4D 使用 Cotracker3 [3] 模型,通過跟蹤錨點(diǎn)來(lái)確保幀間的可見部分一致性,讓訓(xùn)練數(shù)據(jù)無(wú)限逼近真實(shí)場(chǎng)景。

借助這兩種生成策略,無(wú)需昂貴多視角采集,僅憑單目視頻就能 “腦補(bǔ)” 全視角數(shù)據(jù),破解世界模型訓(xùn)練的數(shù)據(jù)困局!

  • 輕量級(jí) LoRA Adapter:EX-4D 基于預(yù)訓(xùn)練的 WAN-2.1 模型,引入 LoRA-based Adapter,來(lái)完成 mask video inpainting 任務(wù)。基于 LoRA 的 adapter 架構(gòu)將 DW-Mesh 的幾何先驗(yàn)信息融入視頻生成過程,在保持計(jì)算需求可控的同時(shí),保證了補(bǔ)全視頻的幾何一致性和幀間一致性。

實(shí)驗(yàn)結(jié)果:EX-4D 如何定義「極致」

為了展示 EX-4D 在新視角生成的巨大潛力,EX-4D 使用包含 150 個(gè)網(wǎng)絡(luò)視頻的數(shù)據(jù)集,并使用 FID、FVD 和 VBench [6] 等指標(biāo)評(píng)估模型性能。

圖片

在各種視角跨度范圍之內(nèi),EX-4D 均全面超越了現(xiàn)有的開源可控視角生成方法。值得關(guān)注的是,新輸入視角角度越極端(越偏向 90°),EX-4D 性能優(yōu)勢(shì)越明顯,充分展示了 DW-Mesh 表示在物理一致性保持上的潛力。在 VBench 指標(biāo)上,EX-4D 在絕大多數(shù)指標(biāo)上取得最高分,進(jìn)一步展現(xiàn)了強(qiáng)大的綜合生成能力。

此外,EX-4D 還邀請(qǐng)了 50 位志愿者對(duì) EX-4D 和其他開源方法的生成效果進(jìn)行評(píng)分。70.70% 的參與者認(rèn)為 EX-4D 方法在極端視角下的物理一致性斷層領(lǐng)先。

圖片

當(dāng)已有的開源方法在劇烈視角變化中 “露破綻”(物體穿幫、遮擋錯(cuò)亂),EX-4D 卻能精確保留高一致性的物體細(xì)節(jié)。 

圖片

針對(duì) EX-4D 的充分消融實(shí)驗(yàn)充分論證 EX-4D 中每種策略的有效性。其中 DW-Mesh 表示對(duì)性能的提升最大。兩種針對(duì)訓(xùn)練數(shù)據(jù)的 mask 生成策略對(duì)于模型的訓(xùn)練都至關(guān)重要。而 EX-4D 采用的 16 rank 輕量級(jí) LoRA-based Adapter 效率已經(jīng)足夠高,增加 rank 僅帶來(lái)輕微性能提升。

圖片

總結(jié)與未來(lái)展望

定性和定量實(shí)驗(yàn)說明,EX-4D 方法能夠生成高物理一致性、高質(zhì)量的視頻結(jié)果,并且可以廣泛用于小角度偏移到極端視角的各種場(chǎng)景,提升了新視角預(yù)測(cè)的自由度。后續(xù)的視頻可控生成之中,EX-4D 將著眼于提高深度預(yù)測(cè)的精度,并提高模型推理速度,向更快、更好的可控視頻生成進(jìn)發(fā),為世界模型助力。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-12-16 14:40:00

AI模型訓(xùn)練

2025-01-07 08:40:00

視頻生成AI

2017-09-13 09:05:29

iOS11iOS蘋果

2022-08-29 15:19:09

CSS煙花動(dòng)畫

2025-04-10 09:10:00

模型AI評(píng)測(cè)

2023-09-13 13:21:52

模型數(shù)據(jù)

2011-06-07 16:03:48

匿名SQL Server

2024-10-22 09:40:00

模型生成

2012-06-13 10:48:01

英特爾

2020-12-24 11:19:55

JavaMapHashMap

2025-05-12 09:31:44

2017-07-15 21:10:58

CTOCEO技術(shù)

2023-04-03 10:04:44

開源模型

2017-11-29 11:14:52

離線緩存URL協(xié)議緩存

2009-07-06 19:29:37

云計(jì)算私有云服務(wù)器虛擬化

2019-11-20 10:54:46

無(wú)密碼身份驗(yàn)證網(wǎng)絡(luò)安全

2011-05-10 09:19:55

數(shù)據(jù)庫(kù)設(shè)計(jì)

2011-04-25 15:22:26

數(shù)據(jù)庫(kù)設(shè)計(jì)

2013-07-19 13:20:56

電信網(wǎng)絡(luò)云計(jì)算虛擬化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)