偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成 精華

發(fā)布于 2024-6-21 12:35
瀏覽
0收藏

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2406.09394
項目地址: https://WonderWorld-2024.github.io/

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

今天推薦一種新穎的框架—— WonderWorld,它可以進(jìn)行交互式三維場景外推,使用戶能夠基于單張輸入圖像和用戶指定的文本探索和塑造虛擬環(huán)境。盡管現(xiàn)有方法在場景生成的視覺質(zhì)量上有了顯著改進(jìn),但這些方法通常是離線運行的,生成一個場景需要幾十分鐘到幾個小時。通過利用快速高斯曲面(Fast Gaussian Surfels)和基于引導(dǎo)擴(kuò)散的深度估計方法,WonderWorld 在顯著減少計算時間的同時,生成了幾何一致的外推場景。本文的框架在單個 A6000 GPU 上生成相關(guān)且多樣的三維場景用時不到10秒,實現(xiàn)了實時用戶交互和探索。展示了 WonderWorld 在虛擬現(xiàn)實、游戲和創(chuàng)意設(shè)計中的潛力,用戶可以從單張圖像快速生成和導(dǎo)航身臨其境的、可能無限的虛擬世界。本文的方法代表了交互式三維場景生成的重大進(jìn)展,為用戶驅(qū)動的內(nèi)容創(chuàng)建和虛擬環(huán)境中的探索開辟了新的可能性。

介紹

在過去的一年中,3D場景生成變得非常熱門,許多研究成功地探索了強(qiáng)大的生成圖像先驗和單目深度估計的改進(jìn)。這些工作大大提高了生成場景的視覺質(zhì)量、可能的視角和多樣性。然而,所有這些工作都是離線完成的,用戶提供單個起始圖像或文本提示后,系統(tǒng)在幾十分鐘到幾小時后返回一個固定的3D場景或特定攝像路徑的視頻。雖然離線生成可能適用于小型、離散的場景或視頻,但這種設(shè)置對于許多場景生成的使用場景來說是有問題的。例如,在游戲開發(fā)中,世界設(shè)計師希望逐步構(gòu)建3D世界,能夠控制生成過程,并能夠低延遲地查看中間步驟。在虛擬現(xiàn)實和視頻游戲中,用戶期望可擴(kuò)展、多樣化的內(nèi)容,這些內(nèi)容比當(dāng)前生成的場景更大、更豐富。在未來,用戶可能會希望更多:一個系統(tǒng)允許他們自由探索和塑造動態(tài)演變的、無限的虛擬世界。所有這些都促使了交互式3D場景生成的問題,在這種情況下,用戶可以低延遲地控制場景外推的內(nèi)容(例如,通過文本提示),并且可以控制場景外推的位置(例如,通過相機(jī)控制)。


為了理解阻礙交互性的技術(shù)問題,本文檢查了幾種最先進(jìn)的3D場景生成方法,并確定了兩個主要限制。首先,場景生成速度太慢,無法實現(xiàn)交互性。每個生成的場景需要幾十分鐘進(jìn)行多次生成圖像修補(bǔ)和深度估計。其次,生成的場景在場景邊界處存在強(qiáng)烈的幾何失真,阻礙了從生成場景進(jìn)行外推。


本文提出了一個名為WonderWorld的框架,用于交互式場景生成。輸入是一張單一的圖像,輸出是一組相互連接但多樣化的3D場景。為了解決速度問題,本文的核心技術(shù)涉及快速高斯表面(Fast Gaussian Surfels),其優(yōu)化由于采用了原理性、基于幾何的初始化而需要不到1秒的時間,以及分層場景生成,其中每個場景都解析可能發(fā)生遮擋的區(qū)域,然后預(yù)先生成內(nèi)容以填充這些特殊區(qū)域。為了解決幾何失真問題,本文引入了一種引導(dǎo)擴(kuò)散的深度估計方法,確保外推場景和現(xiàn)有場景之間的幾何對齊。


使用本文的框架,外推或生成一個場景在單個A6000 GPU上花費不到10秒的時間。這一突破解鎖了交互式場景生成的潛力,使用戶能夠?qū)我粓D像外推成一個廣闊而身臨其境的虛擬世界。本文的方法為虛擬現(xiàn)實、游戲和創(chuàng)意設(shè)計中的應(yīng)用開啟了新的可能性,用戶可以快速生成和探索多樣化的3D場景。

實現(xiàn)

本文的目標(biāo)是生成一組多樣但連貫連接的3D場景,形成一個潛在的無限虛擬世界。為此提出了WonderWorld,這是一個允許快速場景外推和實時渲染的框架,并提供了交互式視覺體驗。概覽下圖2展示了本文的WonderWorld框架的示意圖。其主要思想是從輸入圖像生成3D場景,并通過外推現(xiàn)有場景逐步擴(kuò)展。用戶可以提供文本來指定要生成的場景內(nèi)容,也可以將其留給大型語言模型(LLM)處理。

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

主要的技術(shù)挑戰(zhàn)包括場景生成速度和外推場景中的幾何失真問題。為了加快場景生成速度,本文采用了傳統(tǒng)的surfels思想,將其擴(kuò)展為3DGS,并展示這種擴(kuò)展允許基于幾何的原則初始化,顯著降低了優(yōu)化時間至小于1秒。針對生成場景中的透視洞(disocclusion holes),本文引入了逐層場景生成策略,不再依賴多視角圖像生成。因此,WonderWorld能夠在單個GPU上實現(xiàn)快速場景生成(不超過10秒)和實時渲染。為了解決幾何失真問題,本文提出利用引導(dǎo)式深度擴(kuò)散來生成新場景的幾何形狀。引導(dǎo)式深度擴(kuò)散具有魯棒性和靈活性,可以指定各種幾何約束。

快速高斯面

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

渲染化和阿爾法混合渲染過程與 3D 高斯分割(3DGS) 相同。


基于幾何的初始化 本文的快速優(yōu)化核心思想是,因為從單視圖圖像生成快速高斯表面,因此可以假設(shè)圖像中的每個像素揭示了底層 3D 場景中的一個表面。因此,可以利用對應(yīng)像素的信息來直接求解或近似表面的參數(shù),而不是隨機(jī)初始化和優(yōu)化。這樣,優(yōu)化過程得以簡化、加速并適當(dāng)正則化。


具體來說,給定一個HxW像素的輸入圖像I,目標(biāo)是生成HxW個表面來表示底層 3D 場景。表面的顏色c初始化為像素的 RGB 值。表面的位置p可以通過反投影估計:

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

分層場景生成

為了填補(bǔ)生成場景中的遮擋空洞,本文引入了一種分層場景生成策略。其主要思想是解析場景的幾何層結(jié)構(gòu),發(fā)現(xiàn)可能出現(xiàn)顯著遮擋的區(qū)域,通過去除遮擋內(nèi)容來顯露這些區(qū)域,并生成內(nèi)容以填補(bǔ)這些區(qū)域。本文稱這一過程為深度引導(dǎo)的層分解。上圖2頂部展示了一個示例。


單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

給定層分割后,本文首先通過擴(kuò)散模型對天空層進(jìn)行修復(fù),并使用修復(fù)后的天空圖像來訓(xùn)練相應(yīng)的FGS。然后,對背景層進(jìn)行修復(fù),并在固定的天空FGS之上訓(xùn)練背景FGS。最后,本文在固定的背景FGS和天空FGS之上訓(xùn)練前景FGS。

引導(dǎo)深度擴(kuò)散

為了生成一個無限的世界,本文需要將現(xiàn)有的場景推廣到未探索的空間。一個基本的挑戰(zhàn)是在推廣過程中的幾何扭曲,即新生成的場景內(nèi)容可能與現(xiàn)有場景內(nèi)容存在顯著的幾何差距,因此在從除了外部觀點以外的視角看時會顯得不連貫。這是由于估計的深度與現(xiàn)有幾何之間的不一致造成的。


特別地,設(shè)  是從外部觀點渲染的現(xiàn)有內(nèi)容的深度圖,大小為 ,使用二進(jìn)制mask  表示可見區(qū)域; 是外推新圖像  的估計深度。本文觀察到  和  之間存在明顯的差異,其中  表示逐元素乘積。本文在下圖6中展示了一個例子來說明這個問題。

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

簡單的后處理啟發(fā)式方法,例如通過計算全局平移和縮放來對齊,或者微調(diào)深度估計器以匹配估計的深度與現(xiàn)有幾何體,都不足以解決問題,因為它們無法減少在估計新場景深度時存在的固有歧義。

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

本文通過修改去噪器來注入可見深度作為引導(dǎo)信息,具體做法是

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)


解決地面平面失真問題 本文注意到引入的導(dǎo)向深度擴(kuò)散公式非常靈活,可以允許指定不同的深度約束。例如,另一個重要的幾何失真是地面平面通常是彎曲的。因此,對于所有生成的場景,本文通過以下方式添加地面平面的深度指導(dǎo):在公式中,將mask  替換為從語義分割中獲得的地面mask ,并用從分析計算出的平坦地面深度  替換可見內(nèi)容的深度 。

結(jié)果

在本節(jié)中,本文展示了WonderWorld的結(jié)果。由于不知道任何允許交互式場景生成的基準(zhǔn)方法,因此本文專注于展示生成大規(guī)模3D場景的質(zhì)量。為此,本文考慮了開源基準(zhǔn)方法,并使用它們的官方代碼。本文展示了交互式場景生成的示例視頻,并強(qiáng)烈建議讀者先觀看視頻。


本文的基準(zhǔn)方法包括WonderJourney,這是一種最新的永久視角生成方法,以及LucidDreamer,一種最近的3D場景生成方法。WonderJourney接受單張圖像作為輸入,并通過繪制圖像和反投影像素來生成一系列點云。LucidDreamer接受單張圖像作為輸入,并從中合成多視角圖像來訓(xùn)練3DGS。本文在示例中使用了公開可用的真實和合成圖像。

實現(xiàn)細(xì)節(jié)

在本文的實現(xiàn)中,使用了Stable Diffusion修復(fù)模型作為本文的出畫模型。并且還將它用于修復(fù)背景和天空層。本文使用 OneFormer 對天空、地面和前景對象進(jìn)行分割。在初始場景中,本文使用 SyncDiffusion 離線生成整個天空。本文使用 Marigold 法作為深度擴(kuò)散模型,并估計法線使用 Marigold 法。在本文的引導(dǎo)深度擴(kuò)散中,設(shè)置了引導(dǎo)權(quán)重St,使得引導(dǎo)信號的范數(shù)與預(yù)測更新的范數(shù)成比例。本文使用 Euler 調(diào)度器進(jìn)行深度擴(kuò)散,共進(jìn)行 30 步,其中在最后 8 步應(yīng)用本文的引導(dǎo)。本文使用高效的 SAM 對估計的深度進(jìn)行后處理,類似于 WonderJourney 。本文還遵循 WonderJourney 的做法,當(dāng)用戶未提供文本時,使用 GPT-4 生成提示,并根據(jù)場景名稱添加可能的對象和背景文本來豐富提示。

定性結(jié)果

本文在下圖10中使用相同的輸入圖像展示了WonderWorld和基線方法的定性比較結(jié)果。請注意,本文的WonderWorld結(jié)果包括9個場景,而LucidDreamer方法的結(jié)果只有一個場景。WonderJourney方法僅支持在兩個連續(xù)場景之間提取3D點;本文在此擴(kuò)展了代碼,以支持生成多達(dá)4個場景的點。

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

從上圖10中可以看到,像LucidDreamer 這樣的單一3D場景生成方法不會超出預(yù)定義的場景范圍,并且在生成場景邊界處存在嚴(yán)重的幾何失真。雖然WonderJourney 允許生成多個場景,在特定視角下這些場景看起來是連貫的,但在不同的攝像機(jī)角度渲染時,幾何失真問題顯著。與基線方法相比,本文的WonderWorld顯著減輕了幾何失真問題,生成了連貫的大規(guī)模3D場景。本文在下圖8、下圖12和下圖13中展示了更多示例。

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

由于WonderWorld允許選擇不同的文本提示來改變內(nèi)容,生成的場景在每次運行時可以是多樣化和不同的。本文在下圖9中展示了從同一輸入圖像生成的多樣化結(jié)果的示例。WonderWorld還允許用戶在同一生成的虛擬世界中指定不同的風(fēng)格,例如Minecraft、繪畫和樂高風(fēng)格,如下圖11所示。

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

生成速度

由于本文的重點是使3D場景生成具有互動性,本文報告了從開始生成到可以看到結(jié)果的場景生成時間成本。在下表1中顯示了單個場景的生成時間。從下表1可以看出,即使是現(xiàn)有最快的方法WonderJourney,生成單個場景也需要超過700秒,大部分時間花在生成多個視圖以填補(bǔ)現(xiàn)有場景和新生成場景之間的空隙上。LucidDreamer從輸入圖像生成稍微擴(kuò)展的場景,并花費大部分時間生成多個視圖,調(diào)整這些視圖的深度,并訓(xùn)練一個3DGS以適應(yīng)這些視圖??偟膩碚f,以往的方法需要生成或提取多個視圖,并花費大量時間優(yōu)化其3D場景表示。本文通過使用基于幾何的初始化原則的FGS加速了表示優(yōu)化,并通過分層場景生成策略減少了所需的圖像數(shù)量。共同提升快速場景生成的能力。本文在下表2中展示了時間成本的分析。由于擴(kuò)散模型推理(外繪、層內(nèi)繪、深度和法線估計)花費了最多時間,本文的方法將受益于未來在加速擴(kuò)散推理方面的進(jìn)展。

單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成-AI.x社區(qū)

結(jié)論

本文介紹了WonderWorld,一個用于交互3D場景生成的系統(tǒng),具有顯著加快生成時間和提升大規(guī)模多樣場景性能的技術(shù)改進(jìn)。WonderWorld允許用戶以互動方式生成和探索他們想要的場景部分,并按其需求生成內(nèi)容。


限制:WonderWorld的一個局限性是場景密度較低,因為每個場景最多只有HxW個高斯表面。另一個局限性是處理細(xì)節(jié)對象(如樹木)的困難,這可能導(dǎo)致深度估計不準(zhǔn)確,從而在視點改變時出現(xiàn)“空洞”或“浮動物”。本文在視頻中展示了一個失敗案例。因此,一個令人興奮的未來方向是利用WonderWorld互動地原型化一個粗略的世界結(jié)構(gòu),然后通過較慢的單場景多視圖擴(kuò)散模型進(jìn)行細(xì)化,以提高場景密度、填補(bǔ)空洞和去除浮動物。


本文轉(zhuǎn)自 AI生成未來 ,作者:Hong-Xing Yu等


原文鏈接:??https://mp.weixin.qq.com/s/aXq-2cR7UhN-m-pWezQRiA??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦