偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

單張照片生成360°3D場(chǎng)景,支持靈活視角漫游|人大&北師大&字節(jié)

人工智能 新聞
本文介紹了FlexWorld,這是一個(gè)從單張圖像生成靈活視角3D場(chǎng)景的框架。

從單張圖像生成靈活視角3D場(chǎng)景的技術(shù)來(lái)了,在考古保護(hù)、自主導(dǎo)航等直接獲取3D數(shù)據(jù)成本高昂或不可行的領(lǐng)域具有重要應(yīng)用價(jià)值。

這一任務(wù)本質(zhì)上是高度不適定的:?jiǎn)我坏?D圖像無(wú)法提供足夠的信息來(lái)消除完整3D結(jié)構(gòu)的歧義,尤其是在極端視角(如180°旋轉(zhuǎn))下,先前被遮擋或缺失的內(nèi)容可能會(huì)引入顯著的不確定性。

生成模型,特別是擴(kuò)散模型,為解決這一問(wèn)題提供了一種潛在的技術(shù)路徑。盡管現(xiàn)有方法通常依賴預(yù)訓(xùn)練的生成模型作為新視角合成的先驗(yàn),但它們?nèi)悦媾R顯著挑戰(zhàn)。

例如,基于圖像的擴(kuò)散方法容易累積內(nèi)容誤差,基于視頻的擴(kuò)散方法則難以處理可能生成的動(dòng)態(tài)內(nèi)容構(gòu)建靜態(tài)3D場(chǎng)景的影響。最近的研究嘗試通過(guò)在視頻擴(kuò)散模型中引入點(diǎn)云先驗(yàn)來(lái)提升一致性,雖然取得了一定進(jìn)展,但在可擴(kuò)展性方面仍存在局限,尤其是在大視角變化下的表現(xiàn)有待提升。

針對(duì)上述問(wèn)題,人大高瓴李崇軒、文繼榮團(tuán)隊(duì)、北師大王一凱團(tuán)隊(duì)與字節(jié)跳動(dòng)的研究員提出了一種新方法FlexWorld,用于從單張圖像生成靈活視角的3D場(chǎng)景。

與現(xiàn)有方法不同,F(xiàn)lexWorld通過(guò)合成和整合新的3D內(nèi)容,逐步構(gòu)建并擴(kuò)展一個(gè)持久的3D表示。

圖片

該方法包含兩個(gè)核心組件:

(1) 一個(gè)強(qiáng)大的視頻到視頻(video-to-video, V2V)擴(kuò)散模型,用于從粗糙場(chǎng)景渲染的不完整圖像生成完整的視角圖像;(2) 一個(gè)幾何感知的3D場(chǎng)景擴(kuò)展過(guò)程,用于提取新的3D內(nèi)容并將其整合到全局結(jié)構(gòu)中。研究團(tuán)隊(duì)在精確深度估計(jì)的訓(xùn)練數(shù)據(jù)上對(duì)先進(jìn)的視頻基礎(chǔ)模型進(jìn)行了微調(diào),使其能夠在大幅度相機(jī)變化下生成高質(zhì)量?jī)?nèi)容。

基于V2V模型,場(chǎng)景擴(kuò)展過(guò)程通過(guò)相機(jī)軌跡規(guī)劃、場(chǎng)景整合和細(xì)化步驟,逐步從單張圖像構(gòu)建出支持靈活視角觀察(包括360°旋轉(zhuǎn)和縮放等)的3D場(chǎng)景生成。

通過(guò)大量實(shí)驗(yàn),研究團(tuán)隊(duì)驗(yàn)證了FlexWorld在高質(zhì)量視頻和靈活視角3D場(chǎng)景合成方面的性能。FlexWorld在生成大幅度相機(jī)變化控制下的視頻中展現(xiàn)了出色的視覺(jué)質(zhì)量,同時(shí)在生成靈活視角3D場(chǎng)景時(shí)保持了較高的空間一致性。為促進(jìn)學(xué)術(shù)交流和技術(shù)推廣,團(tuán)隊(duì)已開源相關(guān)代碼倉(cāng)庫(kù)與訓(xùn)練權(quán)重,供研究社區(qū)進(jìn)一步探索和應(yīng)用。

性能展示

支持大幅轉(zhuǎn)角的視頻到視頻生成

在多種不同來(lái)源的輸入圖像和相機(jī)軌跡下,F(xiàn)lexWorld 中微調(diào)的視頻模型可以生成較高質(zhì)量且3D一致的視頻內(nèi)容。受益于較好的一致性,這些視頻可以直接用于3D重建,為后續(xù)生成靈活視角的場(chǎng)景提供了較好的視覺(jué)內(nèi)容。

圖片

靈活視角的場(chǎng)景生成

根據(jù)單張圖片輸入,F(xiàn)lexWorld可以生成靈活視角下的3D場(chǎng)景,這些生成的場(chǎng)景可以在360度旋轉(zhuǎn),前進(jìn)和后退等視角進(jìn)行探索。這些場(chǎng)景通過(guò)多段視頻逐漸構(gòu)筑生成,旨在擴(kuò)展出更大的可探索區(qū)域,而非僅關(guān)注前方區(qū)域。

圖片

核心方法

下圖展示了FlexWorld的整體框架。

圖片

逐步構(gòu)建場(chǎng)景

FlexWorld采用多段視頻逐步構(gòu)建出一個(gè)具有更大可探索區(qū)域的場(chǎng)景。在場(chǎng)景內(nèi)容不足的區(qū)域,F(xiàn)lexWorld渲染出該區(qū)域的殘缺場(chǎng)景視頻,并通過(guò)一個(gè)經(jīng)過(guò)微調(diào)的視頻到視頻模型,獲得補(bǔ)完的場(chǎng)景視頻。在場(chǎng)景融合階段,視頻中的關(guān)鍵幀將會(huì)被填充置入場(chǎng)景的不足區(qū)域,其他幀則會(huì)作為場(chǎng)景表示(即3D Gaussian splatting)的參考圖像優(yōu)化整體場(chǎng)景表征。

支持大轉(zhuǎn)角的視頻到視頻模型

FlexWorld中包含一個(gè)經(jīng)過(guò)微調(diào)的視頻模型,該模型以視頻作為條件,可以從殘缺的輸入視頻中捕捉到相機(jī)運(yùn)行軌跡,輸出符合輸入軌跡的完好視頻,保持良好的3D一致性。該視頻模型選用CogVideoX-5B-I2V作為基座模型,并構(gòu)造了一系列深度良好的殘缺視頻-良好視頻訓(xùn)練對(duì)。不同于依賴深度估計(jì)模型獲得的訓(xùn)練對(duì),F(xiàn)lexWorld構(gòu)建的訓(xùn)練對(duì)來(lái)自于同一場(chǎng)景密集重建提供的深度,這種訓(xùn)練對(duì)使模型始終明確應(yīng)該修復(fù)的區(qū)域,從而能夠在推理時(shí)支持更大轉(zhuǎn)角的相機(jī)運(yùn)動(dòng)。

基于視頻內(nèi)容的場(chǎng)景融合

FlexWorld一方面通過(guò)高斯優(yōu)化將多段視頻內(nèi)容融合進(jìn)持久化的3D表征中,另一方面通過(guò)密集立體模型和深度融合策略,將多段視頻的關(guān)鍵幀直接作為初始三維高斯加入表征作為初始化,以充分利用深度估計(jì)模型提供的先驗(yàn)和視頻內(nèi)部的一致性。

總結(jié)

本文介紹了FlexWorld,這是一個(gè)從單張圖像生成靈活視角3D場(chǎng)景的框架。它結(jié)合了一個(gè)微調(diào)的視頻到視頻擴(kuò)散模型,用于高質(zhì)量的新視角合成,以及一個(gè)漸進(jìn)的靈活視角3D場(chǎng)景生成過(guò)程。通過(guò)利用先進(jìn)的預(yù)訓(xùn)練視頻基礎(chǔ)模型和精確的訓(xùn)練數(shù)據(jù),F(xiàn)lexWorld能夠處理大幅度的相機(jī)姿態(tài)變化,從而實(shí)現(xiàn)一致的、支持360°旋轉(zhuǎn)和前進(jìn)后退觀察的3D場(chǎng)景生成。大量實(shí)驗(yàn)表明,與現(xiàn)有方法相比,F(xiàn)lexWorld在視角靈活性和視覺(jué)質(zhì)量性能方面表現(xiàn)優(yōu)異。我們相信FlexWorld具有廣闊的前景,并在虛擬現(xiàn)實(shí)內(nèi)容創(chuàng)作和3D旅游領(lǐng)域具有重要潛力。

本文由中國(guó)人民大學(xué)高瓴人工智能學(xué)院李崇軒、文繼榮教授團(tuán)隊(duì)、北京師范大學(xué)人工智能學(xué)院王一凱副教授和字節(jié)跳動(dòng)共同完成。共同一作陳路晰和周子晗分別是中國(guó)人民大學(xué)高瓴人工智能學(xué)院的博士生與碩士生,導(dǎo)師為李崇軒副教授。王一凱副教授、李崇軒副教授為共同通訊作者。

論文鏈接:https://arxiv.org/abs/2503.13265項(xiàng)目地址:https://ml-gsai.github.io/FlexWorld/代碼倉(cāng)庫(kù):https://github.com/ML-GSAI/FlexWorld

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-01-27 09:32:23

2009-08-06 09:56:36

IT培訓(xùn)北師大

2025-01-07 13:19:48

模型AI訓(xùn)練

2011-06-27 15:57:21

Qt 3D OpenGL

2013-09-13 10:13:33

2023-08-28 00:41:36

研究優(yōu)化

2024-09-30 09:35:55

圖像生成AI

2023-07-14 09:41:01

3DAI

2023-01-13 09:28:46

2009-12-10 10:21:23

2024-07-31 15:30:05

2024-10-08 09:25:00

3D模型生成

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2009-03-20 08:18:18

北師大網(wǎng)上求職

2023-03-03 21:42:18

鴻蒙

2024-12-10 15:17:11

2011-10-06 13:30:45

宏碁投影儀

2022-03-02 13:44:10

3D模型數(shù)據(jù)

2025-01-14 09:24:46

2020-11-29 18:58:44

AI 數(shù)據(jù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)