偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從程序化生成到AIGC:3D場(chǎng)景生成技術(shù)如何跨越"虛假→真實(shí)"鴻溝? 精華

發(fā)布于 2025-5-14 09:31
瀏覽
0收藏

從程序化生成到AIGC:3D場(chǎng)景生成技術(shù)如何跨越"虛假→真實(shí)"鴻溝?-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2505.05474 
Git 鏈接:https://github.com/hzxie/Awesome-3D-Scene-Generation 

亮點(diǎn)直擊

  • 綜述了3D場(chǎng)景生成SOTA方法;
  • 組織為四種范式:程序化生成、基于神經(jīng)網(wǎng)絡(luò)的3D生成基于圖像的生成和基于視頻的生成;
  • 分析了它們的技術(shù)基礎(chǔ)、權(quán)衡和代表性結(jié)果,并回顧了常用數(shù)據(jù)集、評(píng)估協(xié)議和下游應(yīng)用;
  • 討論了生成能力、3D表示、數(shù)據(jù)和標(biāo)注以及評(píng)估中的關(guān)鍵挑戰(zhàn),并概述了包括更高真實(shí)度、物理感知和交互生成以及統(tǒng)一感知生成模型等有前景的方向;
  • 回顧了場(chǎng)景編輯、人-場(chǎng)景交互、具身智能、機(jī)器人和自動(dòng)駕駛中的關(guān)鍵應(yīng)用,并強(qiáng)調(diào)了生成AI、3D視覺和具身智能交叉領(lǐng)域的有前景方向。

從程序化生成到AIGC:3D場(chǎng)景生成技術(shù)如何跨越"虛假→真實(shí)"鴻溝?-AI.x社區(qū)

3D場(chǎng)景生成旨在為沉浸式媒體、機(jī)器人技術(shù)、自動(dòng)駕駛和具身智能等應(yīng)用合成具有空間結(jié)構(gòu)、語義意義和逼真效果的環(huán)境。早期基于程序規(guī)則的方法具備可擴(kuò)展性,但多樣性有限。最近在深度生成模型(如GANs、擴(kuò)散模型)和3D表示(如NeRF、3D高斯)方面的進(jìn)展,使得學(xué)習(xí)真實(shí)世界場(chǎng)景分布成為可能,提高了真實(shí)度、多樣性和視圖一致性。最近的進(jìn)展如擴(kuò)散模型,通過將生成重新框定為圖像或視頻合成問題,連接了3D場(chǎng)景合成與逼真效果。

從程序化生成到AIGC:3D場(chǎng)景生成技術(shù)如何跨越"虛假→真實(shí)"鴻溝?-AI.x社區(qū)

范圍。 本次調(diào)研主要關(guān)注3D場(chǎng)景表示中的3D場(chǎng)景生成方法。值得注意的是,這些生成方法旨在合成多樣化的3D場(chǎng)景,而3D重建方法只能從給定輸入生成單一場(chǎng)景。對(duì)于重建方法的回顧,可參考[59], [60]。此外,本次調(diào)研不包括一般視頻生成 [38], [61] 和一般3D對(duì)象生成[62], [63], [64] 方法,盡管它們?cè)?D場(chǎng)景生成中展示了一些能力。該調(diào)查是對(duì)現(xiàn)有3D生成模型綜述[51][52][53][54][55]的重要補(bǔ)充——由于當(dāng)前尚無研究能全面概述3D場(chǎng)景生成技術(shù)及其相關(guān)核心見解。


組織。 下圖2展示了本次調(diào)研的結(jié)構(gòu)。下文中先提供基礎(chǔ)概念,包括任務(wù)定義和公式化、3D場(chǎng)景表示和生成模型。隨后將現(xiàn)有方法分為四種類型,詳細(xì)說明每個(gè)類別的范式、優(yōu)點(diǎn)和缺點(diǎn)。然后介紹相關(guān)數(shù)據(jù)集和評(píng)估指標(biāo)。還回顧了與3D場(chǎng)景生成相關(guān)的各種下游任務(wù)。最后討論當(dāng)前挑戰(zhàn)、未來方向,并總結(jié)該綜述。

從程序化生成到AIGC:3D場(chǎng)景生成技術(shù)如何跨越"虛假→真實(shí)"鴻溝?-AI.x社區(qū)

前置知識(shí)

任務(wù)定義與公式化

3D場(chǎng)景生成將輸入(例如,隨機(jī)噪聲、文本、圖像或其他條件)映射到3D場(chǎng)景表示,使用生成模型。

從程序化生成到AIGC:3D場(chǎng)景生成技術(shù)如何跨越"虛假→真實(shí)"鴻溝?-AI.x社區(qū)

生成的場(chǎng)景在空間上是連貫的,隱式或顯式地定義了3D幾何結(jié)構(gòu),并支持多視圖渲染或3D重建。

3D場(chǎng)景表示

在計(jì)算機(jī)視覺和圖形學(xué)中,已經(jīng)開發(fā)和使用了多種3D場(chǎng)景表示。在本節(jié)中,我們概述了關(guān)鍵的3D場(chǎng)景表示,討論它們的結(jié)構(gòu)、屬性及其在3D場(chǎng)景生成中的適用性。

從程序化生成到AIGC:3D場(chǎng)景生成技術(shù)如何跨越"虛假→真實(shí)"鴻溝?-AI.x社區(qū)

生成模型

生成模型通過學(xué)習(xí)統(tǒng)計(jì)模式(例如,AR 模型、VAEs、GANs、擴(kuò)散模型)或應(yīng)用預(yù)定義規(guī)則(例如,程序生成器)來合成數(shù)據(jù)。前者通過逼近數(shù)據(jù)分布以生成新穎的輸出,后者則通過確定性或隨機(jī)邏輯構(gòu)建結(jié)構(gòu)化的 3D 場(chǎng)景,而無需學(xué)習(xí)先驗(yàn)知識(shí)。本節(jié)簡(jiǎn)要介紹 3D 場(chǎng)景生成中的代表性生成模型,突出它們的特征和機(jī)制。

自回歸模型(Autoregressive Models,AR 模型) 按順序生成數(shù)據(jù),其中每個(gè)元素都依賴于先前生成的元素。AR 模型的一個(gè)常見形式是將數(shù)據(jù)的聯(lián)合概率分布分解為條件概率的乘積:

從程序化生成到AIGC:3D場(chǎng)景生成技術(shù)如何跨越"虛假→真實(shí)"鴻溝?-AI.x社區(qū)

從程序化生成到AIGC:3D場(chǎng)景生成技術(shù)如何跨越"虛假→真實(shí)"鴻溝?-AI.x社區(qū)

方法:分層分類法

我們根據(jù)其生成范式將現(xiàn)有方法分為四類,如下圖3到下圖6所示:

  • 程序生成使用預(yù)定義規(guī)則、強(qiáng)制約束或來自LLM的先驗(yàn)知識(shí)創(chuàng)建3D場(chǎng)景,產(chǎn)生與圖形引擎無縫集成的高質(zhì)量輸出。
  • 基于神經(jīng)3D的生成采用3D感知生成架構(gòu)來合成場(chǎng)景布局以進(jìn)行對(duì)象放置或直接生成3D表示,如體素、點(diǎn)云、網(wǎng)格、NeRF和3D高斯。
  • 基于圖像的生成使用2D圖像生成器來合成圖像,可以一步完成或迭代進(jìn)行,有時(shí)隨后進(jìn)行3D重建以保證幾何一致性。
  • 基于視頻的生成使用視頻生成器來創(chuàng)建具有空間運(yùn)動(dòng)的3D場(chǎng)景和隨時(shí)間演變的4D場(chǎng)景,捕捉空間和時(shí)間的動(dòng)態(tài)變化。

從程序化生成到AIGC:3D場(chǎng)景生成技術(shù)如何跨越"虛假→真實(shí)"鴻溝?-AI.x社區(qū)

從程序化生成到AIGC:3D場(chǎng)景生成技術(shù)如何跨越"虛假→真實(shí)"鴻溝?-AI.x社區(qū)

從程序化生成到AIGC:3D場(chǎng)景生成技術(shù)如何跨越"虛假→真實(shí)"鴻溝?-AI.x社區(qū)

從程序化生成到AIGC:3D場(chǎng)景生成技術(shù)如何跨越"虛假→真實(shí)"鴻溝?-AI.x社區(qū)

程序生成

程序生成方法通過遵循預(yù)定義的規(guī)則或約束自動(dòng)生成3D場(chǎng)景。它們廣泛用于計(jì)算機(jī)圖形學(xué)中創(chuàng)建多樣化的環(huán)境,包括地形、植被、河流、道路、房間、建筑物和整個(gè)城市。如下表1所示,程序生成方法提供了高效率和空間一致性,但通常需要精心調(diào)整以實(shí)現(xiàn)逼真性和用戶控制。這些方法的范式如圖3所示,可以進(jìn)一步分類為基于規(guī)則、基于優(yōu)化和基于LLM的生成。

從程序化生成到AIGC:3D場(chǎng)景生成技術(shù)如何跨越"虛假→真實(shí)"鴻溝?-AI.x社區(qū)

基于規(guī)則的生成

基于規(guī)則的程序生成涵蓋了一系列通過顯式規(guī)則和算法構(gòu)建3D場(chǎng)景的方法。這些方法直接生成場(chǎng)景幾何,然后進(jìn)行渲染以便可視化。常見技術(shù)包括基于分形、基于語法、驅(qū)動(dòng)仿真和基于示例的生成。

分形

是在各個(gè)尺度上表現(xiàn)出自相似性的數(shù)學(xué)結(jié)構(gòu)?;诜中蔚姆椒◤V泛應(yīng)用于地形建模和紋理合成,因?yàn)樗鼈兡軌蚋咝У厣梢曈X上復(fù)雜的圖案,同時(shí)需要的存儲(chǔ)量很小。諸如中點(diǎn)位移,如 [124], [125] 和分?jǐn)?shù)布朗運(yùn)動(dòng) [126] (fBM) 等技術(shù)生成類似自然景觀的多尺度細(xì)節(jié)。

基于語法的方法

由一組符號(hào)、一個(gè)初始公理和一組重寫規(guī)則組成。每個(gè)生成的符號(hào)編碼用于復(fù)雜形狀生成的幾何命令。CityEngine擴(kuò)展了L系統(tǒng)用于生成道路網(wǎng)絡(luò)和建筑幾何以創(chuàng)建城市。[6] 基于形狀語法 [128] 來建模高度詳細(xì)的3D建筑物。

基于仿真的程序生成

通過建模自然和人工過程來創(chuàng)建逼真的3D環(huán)境。一些方法仿真侵蝕效應(yīng)和水文以生成高保真度的地形。植被仿真在資源競(jìng)爭(zhēng)和氣候變化下仿真植物生長(zhǎng)。在城市環(huán)境中,基于生態(tài)系統(tǒng)的方法用植被填充城市,而其他方法則仿真城市增長(zhǎng)和資源分配以生成有機(jī)演變的聚落。


基于示例的程序方法被提出以提高可控性。這些技術(shù)采用用戶提供的小示例,通過擴(kuò)展其邊界或匹配特征來生成更大的場(chǎng)景。逆向程序生成試圖對(duì)生成過程提供高級(jí)控制。這些方法應(yīng)用優(yōu)化函數(shù)從程序算法中推斷參數(shù)或?qū)W習(xí)場(chǎng)景排列的全局分布。


上述技術(shù)通常結(jié)合使用,以利用其互補(bǔ)優(yōu)勢(shì)生成大規(guī)模、多樣化的場(chǎng)景。例如,Citygen集成了道路網(wǎng)絡(luò)和建筑生成以創(chuàng)建城市景觀,而Infinigen結(jié)合了材料、地形、植物和生物生成器以生成無限自然場(chǎng)景。

基于優(yōu)化的生成

基于優(yōu)化的生成將場(chǎng)景合成表述為一個(gè)優(yōu)化問題,最小化編碼預(yù)定義約束的目標(biāo)。這些約束通常源自物理規(guī)則、功能或設(shè)計(jì)原則,被嵌入到成本函數(shù)中,并通過隨機(jī)或基于采樣的方法進(jìn)行優(yōu)化?;蛘?,統(tǒng)計(jì)方法從數(shù)據(jù)中學(xué)習(xí)空間關(guān)系,并通過概率采樣指導(dǎo)布局過程。一些系統(tǒng)支持用戶定義的約束和用戶交互,以實(shí)現(xiàn)可控且語義上有意義的生成。


一些方法將物理和空間約束表述為成本函數(shù),并應(yīng)用隨機(jī)優(yōu)化方法進(jìn)行場(chǎng)景生成。物理層次的約束包括對(duì)象相互穿透、穩(wěn)定性和摩擦 。布局層次的約束,包括功能關(guān)系(例如,共現(xiàn)、可達(dá)性)、室內(nèi)設(shè)計(jì)指南(例如,對(duì)稱性、對(duì)齊、共圓性)和人類行為模式,也被考慮在內(nèi)。用戶可以指定場(chǎng)景類型、大小和布局等高級(jí)約束,從而實(shí)現(xiàn)更可控且語義上有意義的場(chǎng)景合成。利用現(xiàn)有的程序生成管道,Infinigen Indoors引入了一個(gè)約束規(guī)范API,允許用戶定義自定義約束并實(shí)現(xiàn)高度可控的場(chǎng)景生成。


其他方法采用數(shù)據(jù)驅(qū)動(dòng)模型,從標(biāo)注數(shù)據(jù)中學(xué)習(xí)對(duì)象排列模式,將場(chǎng)景生成轉(zhuǎn)化為概率采樣問題。貝葉斯網(wǎng)絡(luò)常用于捕捉對(duì)象之間的條件依賴關(guān)系,如[151], [152], [153],而基于圖的模型,如[154], [155], [156] 則建??臻g層次結(jié)構(gòu)或關(guān)系結(jié)構(gòu),以提高空間推理和對(duì)象放置的準(zhǔn)確性。

基于LLM的生成

大語言模型 (LLMs) 和視覺-語言模型(VLMs) 通過啟用文本驅(qū)動(dòng)的場(chǎng)景合成,允許用戶通過自然語言描述指定環(huán)境,提供了更大的靈活性和用戶對(duì)場(chǎng)景設(shè)計(jì)的控制,引入了程序生成的新范式。


一些方法使用LLMs生成場(chǎng)景布局,如對(duì)象參數(shù)和場(chǎng)景圖?;谶@些布局,可以通過對(duì)象檢索或形狀生成獲得3D幾何。具體來說,LayoutGPT使用生成提示和結(jié)構(gòu)模板引導(dǎo)LLMs生成對(duì)象參數(shù)以檢索資產(chǎn)。CityCraft使用LLMs指導(dǎo)土地利用規(guī)劃,并從數(shù)據(jù)庫中檢索建筑資產(chǎn)以構(gòu)建詳細(xì)的城市環(huán)境。[168]使用基于圖的對(duì)象表示更有效地建模對(duì)象間語義。為了支持更具風(fēng)格化和多樣化的場(chǎng)景生成,GraphDreamer和Cube通過LLMs生成場(chǎng)景圖,將節(jié)點(diǎn)視為對(duì)象,并通過3D對(duì)象生成模型實(shí)現(xiàn)組合場(chǎng)景生成。場(chǎng)景語言引入了一種基于語言的場(chǎng)景表示,由程序、詞匯和嵌入組成,可以由LLMs生成并使用傳統(tǒng)、神經(jīng)或混合圖形管道進(jìn)行渲染。


其他方法利用LLMs作為代理,通過調(diào)整基于規(guī)則系統(tǒng)的參數(shù)或修改程序生成軟件中的操作來控制程序生成。[173]使用LLMs微調(diào)基于規(guī)則的景觀生成中的參數(shù),通過學(xué)習(xí)的先驗(yàn)知識(shí)優(yōu)化程序工作流程。3D-GPT和SceneCraft生成Python腳本以控制現(xiàn)有程序框架,如Infinigen和Blender,允許直接操作程序資產(chǎn)。Holodeck通過與LLM進(jìn)行多輪對(duì)話生成3D環(huán)境,包括地板和墻壁紋理化、門窗生成、對(duì)象選擇和放置。CityX和SceneX使用多代理系統(tǒng)完成不同階段的生成,通過Blender渲染生成布局、地形、建筑和道路的Python代碼。WorldCraft進(jìn)一步結(jié)合了對(duì)象生成和動(dòng)畫模塊。

基于神經(jīng)網(wǎng)絡(luò)的3D生成

基于神經(jīng)網(wǎng)絡(luò)的3D生成方法使用在具有3D標(biāo)注的數(shù)據(jù)集上訓(xùn)練的生成模型來生成3D場(chǎng)景表示。最近在NeRF和3D高斯方面的進(jìn)展進(jìn)一步提升了保真度和真實(shí)感。如上表1所示,這些方法在視圖和語義一致性方面表現(xiàn)出色,但它們的可控性和效率仍然有限。如上圖4所示,這些方法根據(jù)控制生成3D場(chǎng)景布局的空間安排分為四類:場(chǎng)景參數(shù)、場(chǎng)景圖、語義布局和隱式布局。

場(chǎng)景參數(shù)

場(chǎng)景參數(shù)提供了一種緊湊的方式來表示對(duì)象排列,隱式地捕捉對(duì)象間的關(guān)系,而無需依賴顯式場(chǎng)景圖。這些參數(shù)通常包括對(duì)象的位置、大小、方向、類別和形狀潛在編碼。如上圖4a所示,這些方法首先生成場(chǎng)景參數(shù)作為中間表示,然后用于合成最終的3D場(chǎng)景。


DeepSynth、FastSynth、[178] 和 Sync2Gen采用基于CNN的架構(gòu),利用自上而下的基于圖像的場(chǎng)景表示,通過預(yù)測(cè)參數(shù)順序插入對(duì)象。后續(xù)工作探索了更先進(jìn)的模型,如transformer和擴(kuò)散模型。ATISS、SceneFormer、COFS和 [182] 使用transformer自回歸地生成對(duì)象參數(shù)。RoomDesigner通過解耦布局和形狀生成來完善此過程,確保室內(nèi)場(chǎng)景中的形狀兼容性。CASAGPT利用長(zhǎng)方體作為中間對(duì)象表示,以更好地避免對(duì)象碰撞。DeBaRA采用擴(kuò)散模型進(jìn)行對(duì)象參數(shù)生成,而 PhyScene進(jìn)一步整合物理約束以實(shí)現(xiàn)物理合理性和交互性。


為了提高文本驅(qū)動(dòng)場(chǎng)景生成的可控性,RelScene使用 BERT在隱空間中對(duì)齊空間關(guān)系與文本描述。DiffuScene利用隱空間擴(kuò)散模型從文本輸入生成對(duì)象參數(shù),然后進(jìn)行對(duì)象檢索。Ctrl-Room [190] 和 SceneFactor采用LDMs從文本提示生成粗略的對(duì)象布局,分別通過全景生成和幾何擴(kuò)散模型獲得細(xì)粒度外觀。Epstein等人 [192]、SceneWiz3D和 DreamScene采用多階段方法,首先生成初始對(duì)象布局,然后使用Score Distillation Sampling (SDS)細(xì)化對(duì)象幾何,最后進(jìn)行全局細(xì)化步驟以提高組合一致性。


人類運(yùn)動(dòng)和交互常常影響環(huán)境的組織,運(yùn)動(dòng)模式和物理接觸為對(duì)象和場(chǎng)景布局的安排提供信息。Pose2Room引入了一種端到端生成模型,從人類運(yùn)動(dòng)中預(yù)測(cè)房間內(nèi)家具的邊界框。SUMMON和 MIME通過生成與人類場(chǎng)景接觸對(duì)齊的網(wǎng)格對(duì)象,進(jìn)一步提高語義一致性和物理適應(yīng)性。[198] 提出了一種多條件擴(kuò)散模型,整合文本提示以增強(qiáng)可控性。為了確保物理上合理的布局,不發(fā)生接觸或碰撞,INFERACT在物理環(huán)境中使用強(qiáng)化學(xué)習(xí)同時(shí)仿真人類運(yùn)動(dòng)優(yōu)化場(chǎng)景布局生成。

場(chǎng)景圖

場(chǎng)景圖提供了3D場(chǎng)景的結(jié)構(gòu)化、符號(hào)化表示,節(jié)點(diǎn)代表對(duì)象,邊捕捉它們的空間關(guān)系。結(jié)合場(chǎng)景圖可以讓生成模型強(qiáng)制執(zhí)行空間約束并保持關(guān)系一致性,從而促進(jìn)結(jié)構(gòu)良好的3D環(huán)境的創(chuàng)建。遵循圖4b中說明的范式,場(chǎng)景圖,無論是由模型生成還是作為輸入提供,作為布局先驗(yàn)指導(dǎo)解碼過程,通過對(duì)象檢索或形狀生成創(chuàng)建3D場(chǎng)景表示。


早期的數(shù)據(jù)驅(qū)動(dòng)方法,如[200]、[201]、[202]、[203] 使用場(chǎng)景圖表示對(duì)象之間的空間關(guān)系,作為通過對(duì)象檢索和放置生成3D場(chǎng)景的藍(lán)圖。后續(xù)工作增強(qiáng)了圖表示并引入了先進(jìn)的生成模型。PlanIT采用深度圖生成模型合成場(chǎng)景圖,隨后使用基于圖像的網(wǎng)絡(luò)進(jìn)行對(duì)象實(shí)例化。GRAINS采用遞歸VAE學(xué)習(xí)場(chǎng)景結(jié)構(gòu)為層次圖,可解碼為對(duì)象邊界框。3D-SLN使用場(chǎng)景圖作為3D場(chǎng)景布局生成的結(jié)構(gòu)先驗(yàn),確??臻g一致性,并進(jìn)一步結(jié)合可微渲染合成逼真的圖像。Meta-Sim和 MetaSim2使用場(chǎng)景圖構(gòu)建場(chǎng)景生成,優(yōu)化視覺真實(shí)感參數(shù)并使用渲染引擎合成多樣化的3D場(chǎng)景。


以前的方法允許從場(chǎng)景圖生成場(chǎng)景,但依賴于對(duì)象檢索或直接合成,限制了幾何多樣性。為了解決這一問題,Graph-to-3D引入了一個(gè)基于圖的VAE,聯(lián)合優(yōu)化布局和形狀。SceneHGN將場(chǎng)景表示為從高級(jí)布局到細(xì)粒度對(duì)象幾何的層次圖,使用層次VAE進(jìn)行結(jié)構(gòu)生成。CommonScenes和 EchoScene提出場(chǎng)景圖擴(kuò)散模型,具有布局和形狀的雙分支設(shè)計(jì),捕捉全局場(chǎng)景-對(duì)象關(guān)系和局部對(duì)象間交互。MMGDreamer引入混合模態(tài)圖以精細(xì)控制對(duì)象幾何。


最近的方法通過整合人類輸入提高了可控性。SEK在條件擴(kuò)散模型中將場(chǎng)景知識(shí)編碼為場(chǎng)景圖,用于草圖驅(qū)動(dòng)場(chǎng)景生成。InstructScene將文本編碼器與基于圖的生成模型集成,用于文本驅(qū)動(dòng)場(chǎng)景合成。為了將基于場(chǎng)景圖的生成推廣到更廣泛的場(chǎng)景,[211]將場(chǎng)景圖映射到鳥瞰圖(BEV)嵌入圖,指導(dǎo)擴(kuò)散模型進(jìn)行大規(guī)模戶外場(chǎng)景合成。HiScene利用VLM引導(dǎo)的遮擋推理和基于視頻擴(kuò)散的非遮擋補(bǔ)全,從單個(gè)等距視圖生成可編輯的3D場(chǎng)景,具有組合對(duì)象身份。

語義布局

語義布局作為一種中間表示,編碼了3D場(chǎng)景的結(jié)構(gòu)和語義組織。它為3D場(chǎng)景生成提供了高級(jí)指導(dǎo),確保對(duì)象和場(chǎng)景元素的放置可控且一致。如上圖4c所示,語義布局,無論是用戶提供的還是生成的,作為生成模型的精確約束,指導(dǎo)3D場(chǎng)景生成,同時(shí)允許通過紋理提示進(jìn)行風(fēng)格控制。


二維語義布局由一個(gè)二維語義地圖組成,有時(shí)包括從俯視角度觀察的高度圖等附加地圖。CC3D生成一個(gè)基于二維語義地圖的3D特征體積,作為神經(jīng)渲染的NeRF。BerfScene結(jié)合位置編碼和低通濾波,使3D表示與鳥瞰圖(BEV)地圖等變,支持可控且可擴(kuò)展的3D場(chǎng)景生成。Frankenstein將場(chǎng)景組件編碼為一個(gè)緊湊的三平面,通過條件在二維語義布局上的擴(kuò)散過程生成。BlockFusion引入了一種潛在的三平面外推機(jī)制,用于無限場(chǎng)景擴(kuò)展。結(jié)合語義地圖的高度圖可以直接將二維布局轉(zhuǎn)換為3D體素世界,這對(duì)于建筑結(jié)構(gòu)和地形高程提供重要先驗(yàn)的城市和自然場(chǎng)景至關(guān)重要。InfiniCity利用InfinityGAN生成無限規(guī)模的二維布局,然后用于創(chuàng)建一個(gè)密閉的語義體素世界,通過神經(jīng)渲染合成紋理。對(duì)于自然場(chǎng)景生成,SceneDreamer使用神經(jīng)哈希網(wǎng)格捕捉各種景觀的可泛化特征,建模一個(gè)空間和場(chǎng)景變化的超空間。為解決城市環(huán)境中建筑的多樣性,CityDreamer和 GaussianCity將生成過程分解為不同的背景和建筑組件。CityDreamer4D進(jìn)一步整合動(dòng)態(tài)交通系統(tǒng)以生成一個(gè)廣闊的四維城市。


三維語義布局相比二維提供了增強(qiáng)的能力來表示更復(fù)雜的3D布局,提高了可控性,通常通過使用體素或3D邊界框?qū)崿F(xiàn)。GANcraft使用體素作為3D語義布局,優(yōu)化一個(gè)帶有偽真實(shí)和對(duì)抗訓(xùn)練的神經(jīng)場(chǎng)。UrbanGIRAFFE和 DisCoScene 將場(chǎng)景分解為物品、對(duì)象和天空,采用組合神經(jīng)場(chǎng)進(jìn)行場(chǎng)景生成。通過結(jié)合分?jǐn)?shù)蒸餾采樣(SDS) [195],3D語義布局提供了更好的文本引導(dǎo)場(chǎng)景生成控制,提高了生成場(chǎng)景與文本描述的對(duì)齊。Comp3D、CompoNeRF、Set-the-Scene和 Layout-your3D使用預(yù)定義的可定制布局作為對(duì)象代理生成3D場(chǎng)景與組合NeRF。SceneCraft和 Layout2Scene 通過蒸餾預(yù)訓(xùn)練的擴(kuò)散模型生成室內(nèi)場(chǎng)景。Urban Architect 結(jié)合幾何和語義約束與SDS,利用可擴(kuò)展的哈希網(wǎng)格確保城市場(chǎng)景生成中的更好視圖一致性。

隱式布局

隱式布局是編碼3D場(chǎng)景空間結(jié)構(gòu)的特征圖。如上圖4d所示,這些布局表現(xiàn)為不同維度的潛在特征。編碼器學(xué)習(xí)將3D場(chǎng)景布局信息嵌入潛在特征圖中,隨后由解碼器用于生成NeRF、3D高斯或體素網(wǎng)格形式的3D場(chǎng)景。


最近在NeRF和3D高斯等表示方面的進(jìn)展使神經(jīng)網(wǎng)絡(luò)能夠直接從潛在特征圖生成和渲染高保真RGB圖像。一些方法利用這些表示生成具有照片真實(shí)感的外觀一致的3D場(chǎng)景。NeRF-VAE使用VAE編碼跨多個(gè)場(chǎng)景的共享信息。GIRAFFE將場(chǎng)景表示為組合生成神經(jīng)場(chǎng),以將對(duì)象與背景解耦。GSN和 Persistent Nature采用基于GAN的架構(gòu)生成二維潛在網(wǎng)格作為隱式場(chǎng)景布局,沿相機(jī)射線采樣以指導(dǎo)NeRF渲染。GAUDI使用擴(kuò)散模型聯(lián)合學(xué)習(xí)場(chǎng)景特征和相機(jī)姿態(tài),將其解碼為三平面和姿態(tài)以進(jìn)行基于NeRF的渲染控制。NeuralField-LDM將NeRF場(chǎng)景分解為包含3D體素、2D BEV和1D全局表示的層次潛在結(jié)構(gòu)。然后在這個(gè)三隱空間上訓(xùn)練層次擴(kuò)散模型以進(jìn)行生成。Director3D使用一個(gè)高斯驅(qū)動(dòng)的多視圖隱空間擴(kuò)散模型生成沿生成軌跡的像素對(duì)齊和無界的3D高斯,隨后進(jìn)行SDS細(xì)化。Prometheus和 SplatFlow從多視圖圖像中學(xué)習(xí)壓縮隱空間,并將該隱空間解碼為像素對(duì)齊的3DGS表示。


另一分支的工作更專注于生成語義結(jié)構(gòu)和場(chǎng)景幾何,通常使用體素網(wǎng)格作為表示。這些方法不能立即渲染,但可以通過外部渲染管道進(jìn)行紋理化。[232] 引入離散和隱空間擴(kuò)散模型生成和完成由多個(gè)對(duì)象組成的3D場(chǎng)景,表示為語義體素網(wǎng)格。由于體素網(wǎng)格帶來的計(jì)算挑戰(zhàn),DiffInDScene、PDD、X3和 LT3SD使用層次擴(kuò)散管道高效生成大規(guī)模和細(xì)粒度3D場(chǎng)景。SemCity使用三平面表示3D語義場(chǎng)景,允許在擴(kuò)散過程中通過操控三平面空間進(jìn)行生成和編輯。NuiScene將局部場(chǎng)景塊編碼為向量集,并使用擴(kuò)散模型生成鄰近塊以實(shí)現(xiàn)無限的戶外場(chǎng)景。DynamicCity通過使用Padded Rollout展開Hexplane為2D特征圖并應(yīng)用擴(kuò)散進(jìn)行去噪,解決動(dòng)態(tài)場(chǎng)景生成,支持4D場(chǎng)景生成。

基于圖像的生成

有限的帶標(biāo)注3D數(shù)據(jù)集可用性限制了3D場(chǎng)景的生成?;趫D像的生成嘗試彌合2D和3D生成之間的差距。如上表1所示,它們提供了照片真實(shí)感和多樣性,具有高效的每幀處理,但在深度準(zhǔn)確性、長(zhǎng)距離語義一致性和視圖一致性方面存在困難。這些方法分為兩類:整體生成和迭代生成,如上圖5所示。整體生成在單步中生成完整的場(chǎng)景圖像,而迭代生成通過外推逐步擴(kuò)展場(chǎng)景,生成一系列圖像。

整體生成

如上圖5a所示,3D場(chǎng)景生成中的整體生成通常依賴于全景圖像,這些圖像提供完整的360° × 180°視野,確??臻g連續(xù)性和明確的幾何約束。這使它們?cè)跍p輕透視視圖中出現(xiàn)的場(chǎng)景不一致性方面特別有效。


給定一個(gè)RGB圖像,早期的方法,如[240], [241], [242], [243], [244], [245]使用GAN進(jìn)行圖像擴(kuò)展以填充全景中的遮擋區(qū)域。更近期的方法采用先進(jìn)的生成模型(例如,CoModGAN 和 VQGAN)以獲得更大的多樣性和內(nèi)容控制。ImmerseGAN利用 CoModGAN 進(jìn)行用戶可控的生成。OmniDreamer和 Dream360使用 VQGAN 生成多樣化和高分辨率的全景圖。利用隱空間擴(kuò)散模型(LDM)的進(jìn)展,PanoDiffusion通過將深度整合到雙模擴(kuò)散框架中來增強(qiáng)場(chǎng)景結(jié)構(gòu)意識(shí)。


文本到圖像模型(例如,CLIP, LDM)使文本驅(qū)動(dòng)的全景生成成為可能。Text2Light使用 CLIP 進(jìn)行基于文本的生成,并使用分層采樣器根據(jù)輸入文本提取并拼接全景片段。一些方法,如[252], [253]利用擴(kuò)散模型生成高分辨率的平面全景圖。然而,它們未能保證圖像邊界的連續(xù)性,這是創(chuàng)建無縫觀看體驗(yàn)的關(guān)鍵。為了解決這一問題,MVDiffusion, DiffCollage, 和 CubeDiff生成多視圖一致的圖像并將它們對(duì)齊成閉環(huán)全景以實(shí)現(xiàn)平滑過渡。StitchDiffusion, Diffusion360, PanoDiff, 和 PanFusion在邊界采用填充和裁剪策略以保持連續(xù)性。


最近的方法將單視圖全景生成擴(kuò)展到多視圖以進(jìn)行沉浸式場(chǎng)景探索,主要遵循兩種策略:一種是直接使用擴(kuò)散模型生成多視圖全景圖像[259],另一種是應(yīng)用3D重建(例如,表面重建,如[190], [260], [261], NeRF [108], 和3D高斯splatting,如[109], [262], [263], [264], [265])作為后處理。在此背景下,LayerPano3D [109] 將生成的全景分解為基于深度的層,填充未見內(nèi)容以幫助創(chuàng)建復(fù)雜的場(chǎng)景層次結(jié)構(gòu)。


另一個(gè)研究方向?qū)W⒂趶男l(wèi)星圖像生成幾何一致的街景全景圖。一些方法,如[266], [267], [268]將幾何先驗(yàn)整合到基于GAN的框架中以學(xué)習(xí)跨視圖映射。其他方法,如[269], [270], [271]從衛(wèi)星圖像中估計(jì)3D結(jié)構(gòu)并合成紋理以渲染街景全景圖。

迭代生成

如上圖5b所示,迭代生成從一個(gè)初始2D圖像開始,該圖像可以由用戶提供或從文本提示生成。為了生成大規(guī)模的3D場(chǎng)景,這些方法沿預(yù)定義的軌跡逐步外推場(chǎng)景。通過逐步擴(kuò)展和優(yōu)化內(nèi)容,它們不斷優(yōu)化3D場(chǎng)景表示,增強(qiáng)幾何和結(jié)構(gòu)一致性。


給定一個(gè)單一圖像,早期方法推斷3D場(chǎng)景表示并使用它們渲染新視圖。這些表示包括點(diǎn)云,如[110], [272], [273], [274], 多平面圖像[275], [276], 深度圖[277], 和網(wǎng)格[278]。盡管能夠快速渲染,這些表示由于其有限的空間范圍限制了攝像機(jī)運(yùn)動(dòng)。為了實(shí)現(xiàn)不受限制的攝像機(jī)運(yùn)動(dòng),Infinite Nature, InfiniteNature-Zero, Pathdreamer, 和 SGAM 遵循“渲染-優(yōu)化-重復(fù)”的方式,迭代地扭曲以前的視圖并擴(kuò)展缺失區(qū)域。DiffDreamer通過使用擴(kuò)散模型在多個(gè)過去和未來幀上進(jìn)行條件處理來改善多視圖一致性。GFVS和 LOTR不使用顯式3D表示,而是直接編碼圖像和攝像機(jī)姿態(tài),使用transformer生成新視圖。Tseng等人, Photoconsistent-NVS, 和 ODIN使用姿態(tài)引導(dǎo)的擴(kuò)散模型改善長(zhǎng)期視圖合成一致性。


CAT3D使用多視圖LDM從輸入圖像生成新視圖,然后進(jìn)行3D重建以進(jìn)行交互式渲染。類似地,Bolt3D通過多視圖擴(kuò)散生成場(chǎng)景外觀和幾何,但直接輸出3D高斯以避免耗時(shí)的優(yōu)化。

文本驅(qū)動(dòng)的場(chǎng)景生成通過利用預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型提高多樣性和可控性。這些方法無需廣泛的領(lǐng)域特定訓(xùn)練,通過迭代地移動(dòng)攝像機(jī)視圖,根據(jù)文本提示擴(kuò)展圖像。


PanoGen, AOG-Net, PanoFree, OPaMa, 和 Invisible Stitch迭代地在透視視圖中擴(kuò)展圖像并將它們無縫拼接成一個(gè)全景場(chǎng)景。其他方法利用深度估計(jì)器如[294], [295], [296]將RGB圖像合并成統(tǒng)一的3D場(chǎng)景。SceneScape, Text2Room, 和 iControl3D使用3D網(wǎng)格作為中間代理逐步融合擴(kuò)散生成的圖像成一致的3D場(chǎng)景表示。WonderJourney采用點(diǎn)云表示并利用VLM引導(dǎo)的再生成策略確保視覺保真。Text2NeRF和 3D-SceneDreamer采用基于NeRF的表示以減少幾何和外觀中的錯(cuò)誤積累,提高在不同場(chǎng)景中的適應(yīng)性。Scene123進(jìn)一步通過使用GAN框架增強(qiáng)照片真實(shí)感,其中判別器將視頻生成器的輸出與場(chǎng)景生成器的輸出進(jìn)行比較。通過引入3D高斯splatting, LucidDreamer, Text2Immersion, WonderWorld, RealmDreamer, BloomScene, 和 WonderTurbo采用3D高斯作為3D場(chǎng)景表示以獲得更高質(zhì)量和更快的渲染。利用強(qiáng)大的大型重建模型,如[306], [307], [308], [309], [310]的最新進(jìn)展,SynCity通過迭代執(zhí)行圖像擴(kuò)展、3D對(duì)象生成和拼接實(shí)現(xiàn)高質(zhì)量3D場(chǎng)景的無訓(xùn)練生成。


另一個(gè)研究方向同時(shí)進(jìn)行迭代視圖合成和圖像動(dòng)畫以從單一圖像構(gòu)建動(dòng)態(tài)3D場(chǎng)景。3D Cinemagraphy和 Make-It-4D使用分層深度圖像(LDIs)構(gòu)建特征點(diǎn)云并通過運(yùn)動(dòng)估計(jì)和3D場(chǎng)景流動(dòng)畫場(chǎng)景。3D-MOM首先通過從單一圖像生成多視圖圖像優(yōu)化3D高斯,然后通過估計(jì)跨視圖的一致運(yùn)動(dòng)優(yōu)化4D高斯。

視頻生成

最近的視頻擴(kuò)散模型取得了顯著進(jìn)展,能夠生成高質(zhì)量的視頻內(nèi)容?;谶@些進(jìn)展,視頻驅(qū)動(dòng)的3D場(chǎng)景生成方法可以生成圖像序列,從而合成沉浸式和動(dòng)態(tài)環(huán)境。如表1所示,它們通過序列生成提供了高度的真實(shí)感和多樣性,受益于幀之間的時(shí)間一致性。然而,它們?cè)诖_保一致的視圖對(duì)齊方面面臨挑戰(zhàn)。這些方法可以分為兩階段和單階段類別,其范式如圖6所示。

兩階段生成

如上圖6a所示,兩階段生成將生成過程分為兩個(gè)階段,每個(gè)階段分別針對(duì)多視圖空間一致性和多幀時(shí)間一致性。為了進(jìn)一步提高視圖一致性,這些生成的序列隨后用于優(yōu)化動(dòng)態(tài)3D場(chǎng)景表示(例如,4D高斯, 可變形高斯)。VividDream首先通過迭代圖像擴(kuò)展構(gòu)建靜態(tài)3D場(chǎng)景,然后渲染覆蓋整個(gè)場(chǎng)景的多視圖視頻,并應(yīng)用時(shí)間反轉(zhuǎn)來對(duì)其進(jìn)行動(dòng)畫處理,創(chuàng)建跨視點(diǎn)的動(dòng)態(tài)視頻。PaintScene4D首先使用視頻擴(kuò)散從文本描述生成視頻,然后通過在每個(gè)時(shí)間戳進(jìn)行迭代扭曲和圖像擴(kuò)展進(jìn)行細(xì)化,以保持多視圖一致性。類似地,4Real,DimensionX, 和 Free4D首先生成一致的參考視頻,然后使用幀條件視頻生成擴(kuò)展視角。

單階段生成

如上圖6b所示,單階段生成將生成過程整合為一個(gè)單一過程,隱式地捕捉時(shí)空一致性,以在統(tǒng)一模型中從任何視點(diǎn)和時(shí)間步生成單視圖或多視圖視頻。一些方法,如[318], [319], [320], [321], [322], [323], [324], [325] 采用視頻擴(kuò)散模型進(jìn)行迭代視圖外推,然后進(jìn)行3DGS優(yōu)化以構(gòu)建靜態(tài)場(chǎng)景。為了生成動(dòng)態(tài)場(chǎng)景,GenXD [119] 和 CAT4D采用不同的多視圖-時(shí)間策略來構(gòu)建能夠生成所有時(shí)間戳的多視圖視頻模型。StarGen和 Streetscapes使用過去的幀作為視頻生成的指導(dǎo),通過自回歸方法增強(qiáng)長(zhǎng)距離場(chǎng)景合成。通過利用全景圖像的自然多視圖3D先驗(yàn),4K4DGen從靜態(tài)全景中采樣透視圖像,對(duì)其進(jìn)行動(dòng)畫處理,并將其對(duì)齊成動(dòng)態(tài)全景。360DVD, Imagine360, Genex, 和 DynamicScaler將全景約束整合到視頻擴(kuò)散模型中以生成球形一致的全景視頻。


在視頻游戲和自動(dòng)駕駛的場(chǎng)景生成中,這些方法通過整合各種控制信號(hào)作為條件來增強(qiáng)控制和真實(shí)感。在開放世界游戲環(huán)境中,龐大的數(shù)據(jù)集包括用戶輸入和渲染視頻,使得模型如 DIAMOND, GameNGen, Oasis, GameGenX, 和 WORLDMEM能夠根據(jù)用戶交互預(yù)測(cè)未來幀,創(chuàng)建響應(yīng)式虛擬環(huán)境作為神經(jīng)游戲引擎。在自動(dòng)駕駛中,模型如 DriveDreamer, MagicDrive, DriveWM, 和 GAIA-1利用文本、邊界框、鳥瞰圖(BEV)地圖和駕駛員動(dòng)作等輸入來控制復(fù)雜駕駛場(chǎng)景的視頻生成。最近的工作進(jìn)一步增強(qiáng)視圖一致性,如[340], [341], [342], [343], [344], [345], [346], [347], [348], [349], [350],擴(kuò)展控制能力,如[118], [351], [352], [353], [354],通過占用實(shí)現(xiàn)3D級(jí)控制,如[355], [356], [357], [358], [359],支持多模態(tài)輸出,如[360], [361], [362],并提高生成速度如[363] 和序列長(zhǎng)度,如[364], [365], [366], [367]。

數(shù)據(jù)集和評(píng)估

數(shù)據(jù)集

我們?cè)谙卤?中總結(jié)了用于3D場(chǎng)景生成的常用數(shù)據(jù)集,并按場(chǎng)景類型將其分為三類:室內(nèi)、自然和城市。

從程序化生成到AIGC:3D場(chǎng)景生成技術(shù)如何跨越"虛假→真實(shí)"鴻溝?-AI.x社區(qū)

室內(nèi)數(shù)據(jù)集

現(xiàn)有的室內(nèi)數(shù)據(jù)集要么是通過RGB或RGB-D傳感器從真實(shí)世界場(chǎng)景中收集的,要么是通過專業(yè)設(shè)計(jì)的3D CAD家具模型制作的。真實(shí)世界數(shù)據(jù)集是通過深度、單反或全景相機(jī)等傳感器從物理場(chǎng)景中收集的。早期的數(shù)據(jù)集提供帶有語義標(biāo)簽的RGB-D或全景圖像(例如,NYUv2, 2D-3D-S),而最近的數(shù)據(jù)集如ScanNet和Matterport3D則提供密集網(wǎng)格和實(shí)例級(jí)標(biāo)注的3D重建。

  • SUN360包含67,583張高分辨率360°×180°全景圖像,采用等矩形格式,手動(dòng)分類為80種場(chǎng)景類型。
  • NYUv2提供1,449張密集標(biāo)注的RGB-D圖像,來自464個(gè)室內(nèi)場(chǎng)景,涵蓋每像素語義和實(shí)例級(jí)對(duì)象。
  • SUN-RGBD提供10,335張RGB-D圖像和重建的點(diǎn)云,具有豐富的標(biāo)注,包括房間類型、2D多邊形、3D邊界框、相機(jī)姿態(tài)和房間布局。
  • SceneNN提供來自100個(gè)室內(nèi)場(chǎng)景的502K RGB-D幀,具有重建網(wǎng)格、紋理模型、相機(jī)姿態(tài)以及面向?qū)ο蠛洼S對(duì)齊的邊界框。
  • 2D-3D-S包括來自六個(gè)室內(nèi)區(qū)域的超過70,000張全景圖像,帶有對(duì)齊的深度、表面法線、語義標(biāo)簽、點(diǎn)云、網(wǎng)格、全局XYZ地圖和完整相機(jī)元數(shù)據(jù)。
  • Laval Indoor提供2.2K高分辨率室內(nèi)全景(7768×3884),具有來自家庭、辦公室和工廠等各種環(huán)境的HDR照明。
  • Matterport3D包含來自90棟建筑的194,400個(gè)RGB-D視圖的10,800張全景圖像,具有密集的相機(jī)軌跡、對(duì)齊的深度圖和語義標(biāo)簽。
  • ScanNet提供來自707個(gè)不同空間的1,513次掃描中的2.5M RGB-D幀,具有相機(jī)姿態(tài)、表面重建、密集3D語義標(biāo)簽和對(duì)齊的CAD模型。
  • Replica提供18個(gè)場(chǎng)景中35個(gè)房間的高質(zhì)量3D重建,具有PBR紋理、HDR照明和語義標(biāo)注。
  • RealEstate10K包含來自10K YouTube視頻的1000萬幀,具有每幀相機(jī)參數(shù)的室內(nèi)和室外場(chǎng)景。
  • 3DSSG提供來自3RScan的478個(gè)室內(nèi)房間的場(chǎng)景圖,具有93個(gè)對(duì)象屬性、40種關(guān)系類型和534個(gè)語義類。
  • HM3D提供1,000個(gè)高分辨率3D重建,涵蓋住宅、商業(yè)和公共建筑的室內(nèi)空間。
  • **ScanNet++**包括使用激光掃描儀、單反和iPhone RGB-D收集的1,000多個(gè)場(chǎng)景,具有細(xì)粒度語義和長(zhǎng)尾類別。
  • DL3DV-10K包含來自65個(gè)室內(nèi)和半室外地點(diǎn)的10,510個(gè)視頻序列中的51.2M幀,具有反射和不同照明等多樣的視覺條件。


合成室內(nèi)數(shù)據(jù)集克服了真實(shí)世界的限制,如有限的多樣性、遮擋和昂貴的標(biāo)注。使用設(shè)計(jì)的布局和紋理化的3D資產(chǎn),數(shù)據(jù)集如SUNCG和3D-FRONT提供大規(guī)模、多樣化的場(chǎng)景。一些如[383], [384]利用高級(jí)渲染技術(shù)生成具有準(zhǔn)確2D標(biāo)簽的照片級(jí)真實(shí)圖像。

  • SceneSynth包括130個(gè)室內(nèi)場(chǎng)景(例如,書房、廚房、客廳),具有來自Google 3D Warehouse的1,723個(gè)獨(dú)特模型。
  • SUNCG提供45,622個(gè)手動(dòng)設(shè)計(jì)的場(chǎng)景,具有404K個(gè)房間和5.7M個(gè)對(duì)象實(shí)例,來自84個(gè)類別的2,644個(gè)網(wǎng)格。
  • Structured3D包括來自3,500個(gè)專業(yè)設(shè)計(jì)房屋的196.5K張圖像,具有詳細(xì)的3D標(biāo)注(例如,線條、平面)。
  • Hypersim提供77.4K張具有PBR材料和照明的照片級(jí)真實(shí)渲染,用于真實(shí)視圖合成。
  • 3D-FRONT提供6,813個(gè)專業(yè)設(shè)計(jì)的房屋和18,797個(gè)多樣化布置的房間,填充來自3D-FUTURE的高質(zhì)量紋理化3D對(duì)象。
  • SG-FRONT增強(qiáng)3D-FRONT的場(chǎng)景圖標(biāo)注。

自然數(shù)據(jù)集

自然場(chǎng)景的數(shù)據(jù)集仍然有限,主要是由于在開放的戶外環(huán)境中進(jìn)行大規(guī)模收集和標(biāo)注的困難。然而,已經(jīng)有一些顯著的努力推動(dòng)了該領(lǐng)域的研究。

  • Laval Outdoor提供205個(gè)高分辨率HDR全景圖,涵蓋多樣化的自然和城市場(chǎng)景。
  • LHQ提供來自Unsplash和Flickr的91,693張精選風(fēng)景圖像,旨在用于高質(zhì)量圖像生成任務(wù)。
  • ACID包含來自891個(gè)YouTube視頻的沿海地區(qū)的2.1M無人機(jī)收集幀,具有通過結(jié)構(gòu)從運(yùn)動(dòng)獲得的3D相機(jī)軌跡。

城市數(shù)據(jù)集

城市數(shù)據(jù)集是通過真實(shí)世界圖像或使用游戲引擎合成的,提供2D或3D圖像和標(biāo)注。真實(shí)世界數(shù)據(jù)集主要關(guān)注駕駛場(chǎng)景,由于過去十年自動(dòng)駕駛的顯著關(guān)注,代表數(shù)據(jù)集有KITTI, Waymo, 和 nuScenes。另一個(gè)主要來源是Google的街景和航拍視圖,如HoliCity和GoogleEarth。這些數(shù)據(jù)集提供豐富的標(biāo)注,如語義分割和實(shí)例分割。

  • KITTI數(shù)據(jù)集在卡爾斯魯厄收集,包含立體和光流對(duì)、39.2公里的視覺里程計(jì),以及使用Velodyne LiDAR、GPS/IMU和帶灰度和彩色相機(jī)的立體相機(jī)設(shè)備進(jìn)行的超過200K的3D對(duì)象標(biāo)注。
  • SemanticKITTI擴(kuò)展了KITTI,提供完整360°LiDAR掃描的密集逐點(diǎn)語義。
  • KITTI-360擴(kuò)展了KITTI,提供73.7公里的駕駛數(shù)據(jù)、超過150K的圖像、10億3D點(diǎn),以及使用兩個(gè)180°魚眼側(cè)攝像機(jī)、一個(gè)前立體攝像機(jī)和兩個(gè)LiDAR的設(shè)備進(jìn)行的密集2D/3D標(biāo)簽。
  • Cityscapes提供來自50個(gè)城市的街景視頻,擁有5K像素級(jí)和20K粗略標(biāo)注,用于強(qiáng)監(jiān)督和弱監(jiān)督。
  • Waymo提供來自1,150個(gè)20秒場(chǎng)景(總共6.4小時(shí))的1M幀,包含12M 3D和9.9M 2D框,使用5個(gè)LiDAR和5個(gè)高分辨率針孔攝像機(jī)在舊金山、山景城和鳳凰城采集。
  • nuScenes提供來自波士頓和新加坡的1,000個(gè)20秒場(chǎng)景的1.4M圖像和390K LiDAR掃描,使用6個(gè)攝像機(jī)、1個(gè)LiDAR、5個(gè)雷達(dá)、GPS和IMU,具有23個(gè)類別的3D框跟蹤。
  • HoliCity將6,300個(gè)高分辨率全景圖(13312×6656)與倫敦市中心的CAD模型對(duì)齊,用于圖像-CAD融合。
  • OmniCity提供來自紐約市25K地點(diǎn)的100K+像素標(biāo)注的街景、衛(wèi)星和全景圖像。
  • GoogleEarth提供來自400條Google Earth軌跡的24K紐約圖像,包含2D/3D語義和實(shí)例掩碼以及相機(jī)參數(shù)。
  • OSM數(shù)據(jù)集來源于Open Street Map,提供80多個(gè)全球城市的鳥瞰語義地圖、高度場(chǎng)和道路、建筑及土地使用的矢量數(shù)據(jù)。

真實(shí)世界的標(biāo)注成本高且視角有限。像CARLA和CityTopia這樣的合成數(shù)據(jù)集在游戲引擎中構(gòu)建,提供豐富的街景和無人機(jī)視圖以及豐富的2D/3D標(biāo)注。

  • CARLA是一個(gè)基于Unreal Engine的開源仿真器,提供多樣化的城市環(huán)境、傳感器仿真(攝像機(jī)、LiDAR、雷達(dá))以及可定制的駕駛場(chǎng)景,控制天氣、照明、交通和行人行為,支持RGB圖像的無限渲染及相應(yīng)的2D/3D標(biāo)注。
  • CarlaSC提供來自CARLA仿真器中43.2K幀語義場(chǎng)景,收集自8個(gè)地圖中的24個(gè)序列,在不同交通條件下使用虛擬LiDAR傳感器。
  • Virtual-KITTI-2使用Unity復(fù)制5個(gè)KITTI序列,提供在不同條件下具有密集標(biāo)注的深度、分割、光流和對(duì)象跟蹤的照片級(jí)真實(shí)視頻。
  • CityTopia提供來自Unreal Engine中11個(gè)程序生成城市的37.5K照片級(jí)真實(shí)幀,具有精細(xì)的2D/3D標(biāo)注,特點(diǎn)是多樣化的照明和航拍/街景視角。

評(píng)估

評(píng)估3D場(chǎng)景生成方法對(duì)于在不同領(lǐng)域比較不同方法至關(guān)重要。已經(jīng)提出了各種指標(biāo)來評(píng)估生成場(chǎng)景的關(guān)鍵方面,包括幾何準(zhǔn)確性、結(jié)構(gòu)一致性、視覺真實(shí)感、多樣性和物理合理性。本節(jié)總結(jié)并討論了3D場(chǎng)景生成中常用的評(píng)估指標(biāo),強(qiáng)調(diào)它們與不同生成范式和重點(diǎn)的相關(guān)性。

基于指標(biāo)的評(píng)估

保真度通過使用圖像和視頻生成指標(biāo)來評(píng)估生成場(chǎng)景的視覺質(zhì)量和真實(shí)感,特別是對(duì)于可渲染輸出如NeRFs、3D高斯或圖像序列。Frechet Inception Distance (FID)、Kernel Inception Distance (KID)和Inception Score (IS)被廣泛用于評(píng)估渲染圖像與真實(shí)樣本之間的分布相似性。FID和KID計(jì)算從預(yù)訓(xùn)練的Inception網(wǎng)絡(luò)提取的特征分布之間的統(tǒng)計(jì)距離,而IS基于分類置信度測(cè)量圖像質(zhì)量和多樣性。SwAVFID、FDD和FIDCLIP探索替代特征空間以更好地與人類評(píng)估相關(guān)。無參考圖像質(zhì)量指標(biāo)如Natural Image Quality Evaluator (NIQE)、Blind/Referenceless Image Spatial Quality Evaluator (BRISQUE)用于直接從圖像統(tǒng)計(jì)估計(jì)感知質(zhì)量。CLIP-IQA結(jié)合CLIP特征與學(xué)習(xí)的IQA模型以更好地在文本或語義條件下與人類感知對(duì)齊。為了在3D空間中特定評(píng)估照片真實(shí)感,F(xiàn)3D是FID的3D適應(yīng),基于具有3D CNN架構(gòu)的預(yù)訓(xùn)練自動(dòng)編碼器。除了感知評(píng)分,一些指標(biāo)評(píng)估生成樣本與真實(shí)樣本之間的分布對(duì)齊。Minimum Matching Distance (MMD)量化跨分布最近點(diǎn)之間的平均成對(duì)距離,Coverage (COV)測(cè)量生成樣本覆蓋目標(biāo)分布的程度,1-Nearest Neighbor Accuracy (1-NNA) 通過使用最近鄰檢索對(duì)樣本進(jìn)行分類來估計(jì)模式崩潰或過擬合。


空間一致性指標(biāo)評(píng)估生成場(chǎng)景的3D幾何和多視圖對(duì)齊。對(duì)于深度誤差,可以使用最先進(jìn)的單目深度估計(jì)模型獲得偽真實(shí)深度圖,而場(chǎng)景的深度圖可以使用可靠的運(yùn)動(dòng)結(jié)構(gòu)(SfM)管道如COLMAP獲得。對(duì)于相機(jī)姿態(tài)誤差,COLMAP也用于從渲染序列估計(jì)相機(jī)軌跡。這些預(yù)測(cè)值與真實(shí)值之間的距離使用距離函數(shù)計(jì)算,如L2距離、RMSE和尺度不變均方根誤差(SI-RMSE)。


時(shí)間一致性是評(píng)估動(dòng)態(tài)場(chǎng)景或基于視頻輸出的生成3D場(chǎng)景的關(guān)鍵指標(biāo)。流變形誤差(FE)通過計(jì)算兩個(gè)幀之間光流的變形誤差來測(cè)量視頻的時(shí)間穩(wěn)定性。Frechet Video Distance (FVD)基于FID的基本原理,引入了一種不同的特征表示,除了每幀的質(zhì)量外,還捕捉視頻的時(shí)間一致性。專注于生成視頻中的復(fù)雜運(yùn)動(dòng)模式,F(xiàn)rechet Video Motion Distance (FVMD) 設(shè)計(jì)基于關(guān)鍵點(diǎn)跟蹤的顯式運(yùn)動(dòng)特征,通過Frechet距離測(cè)量這些特征之間的相似性,以評(píng)估生成視頻的運(yùn)動(dòng)一致性。


可控性評(píng)估響應(yīng)用戶輸入的能力。CLIP Score利用預(yù)訓(xùn)練的CLIP模型測(cè)量生成圖像與條件文本之間的對(duì)齊,反映生成如何忠實(shí)地遵循用戶指定的提示。


多樣性意味著產(chǎn)生多樣化輸出的能力。類別分布KL散度(CKL)比較合成場(chǎng)景中的對(duì)象類別分布與訓(xùn)練集的分布,較低的散度表明更好的多樣性。場(chǎng)景分類準(zhǔn)確性(SCA)使用訓(xùn)練的分類器區(qū)分真實(shí)和生成場(chǎng)景,測(cè)量合成場(chǎng)景的分布與真實(shí)場(chǎng)景的匹配程度。


合理性衡量生成場(chǎng)景遵循物理和語義約束的程度。碰撞率衡量場(chǎng)景中所有生成對(duì)象中發(fā)生碰撞的對(duì)象比例。越界對(duì)象面積 (OBA) 評(píng)估場(chǎng)景中累積的越界對(duì)象面積。

基于基準(zhǔn)的評(píng)估

為了促進(jìn)對(duì)多樣化3D場(chǎng)景生成方法的公平、可重復(fù)和全面的評(píng)估,最近的研究越來越多地采用標(biāo)準(zhǔn)化的基準(zhǔn)套件,這些套件整合了多個(gè)指標(biāo)、任務(wù)配置和質(zhì)量維度。這一趨勢(shì)標(biāo)志著從僅依賴孤立的定量指標(biāo)轉(zhuǎn)向采用更整體的、任務(wù)對(duì)齊的評(píng)估,更好地反映現(xiàn)實(shí)世界應(yīng)用的復(fù)雜性。


Q-Align采用大型多模態(tài)模型 (LMMs) 來預(yù)測(cè)與人類判斷一致的視覺質(zhì)量分?jǐn)?shù)。它涵蓋三個(gè)核心維度:圖像質(zhì)量評(píng)估 (IQA)、圖像美學(xué)評(píng)估 (IAA) 和視頻質(zhì)量評(píng)估 (VQA)。在推理過程中,收集平均意見分?jǐn)?shù)并重新加權(quán)以獲得 LMM 預(yù)測(cè)分?jǐn)?shù)。


VideoScore通過在大規(guī)模人類反饋數(shù)據(jù)集上訓(xùn)練來實(shí)現(xiàn)視頻質(zhì)量評(píng)估。它提供了五個(gè)方面的評(píng)估:視覺質(zhì)量 (VQ)、時(shí)間一致性 (TC)、動(dòng)態(tài)程度 (DD)、文本到視頻對(duì)齊 (TVA) 和事實(shí)一致性 (FC)。


VBench和 VBench++ 是用于視頻生成的全面且多功能的基準(zhǔn)套件。它們包括視頻生成中的16個(gè)維度(例如,主體身份不一致、運(yùn)動(dòng)平滑度、時(shí)間閃爍和空間關(guān)系等)。VBench-2.0 [420] 進(jìn)一步解決與內(nèi)在忠實(shí)度相關(guān)的更復(fù)雜的挑戰(zhàn),包括常識(shí)推理、基于物理的真實(shí)感、人類運(yùn)動(dòng)和創(chuàng)意組合。


WorldScore統(tǒng)一了對(duì)3D、4D和視頻模型生成世界能力的評(píng)估。它將3D場(chǎng)景生成的評(píng)估形式化為由相機(jī)軌跡指導(dǎo)的下一個(gè)場(chǎng)景生成任務(wù)序列,聯(lián)合測(cè)量各種細(xì)粒度特征中的可控性、質(zhì)量和動(dòng)態(tài)性。

人工評(píng)估

用戶研究仍然是捕捉3D場(chǎng)景生成難以通過自動(dòng)化指標(biāo)量化的主觀質(zhì)量(如視覺吸引力、真實(shí)感和感知一致性)的重要組成部分。


參與者通常被要求根據(jù)多個(gè)方面對(duì)生成場(chǎng)景進(jìn)行排序或評(píng)分,包括照片真實(shí)感、美學(xué)、輸入對(duì)齊(例如文本或布局)、跨視圖的3D一致性以及物理或語義合理性。理想情況下,參與者應(yīng)包括領(lǐng)域?qū)<遥ɡ纾?D藝術(shù)家、設(shè)計(jì)師、研究人員)和普通用戶。專家可能提供更具批判性和結(jié)構(gòu)化的見解,而非專家則更好地反映普通用戶的印象。


盡管人工評(píng)估資源密集且本質(zhì)上主觀,但它們通過在現(xiàn)實(shí)世界背景中捕捉人類偏好來補(bǔ)充其他評(píng)估方法,提供了基本的定性見解。像Prolific 和 Amazon Mechanical Turk (AMT) 這樣的平臺(tái)促進(jìn)了多樣化參與者的招募,并使用戶研究的規(guī)?;咝?。

應(yīng)用和任務(wù)

3D場(chǎng)景生成的快速進(jìn)展使得在多個(gè)相關(guān)領(lǐng)域中實(shí)現(xiàn)了多樣化的應(yīng)用。本節(jié)重點(diǎn)介紹3D場(chǎng)景生成應(yīng)用的關(guān)鍵領(lǐng)域,包括3D場(chǎng)景編輯、人景交互、具身智能、機(jī)器人技術(shù)和自動(dòng)駕駛。

3D場(chǎng)景編輯

3D場(chǎng)景編輯涉及從單個(gè)對(duì)象修改到完整環(huán)境定制的場(chǎng)景外觀和結(jié)構(gòu)的改變。它廣泛包括紋理編輯,專注于生成風(fēng)格化或真實(shí)的表面外觀,以及布局編輯,涉及物理和語義合理的對(duì)象排列。


紋理化和風(fēng)格化旨在根據(jù)用戶規(guī)格創(chuàng)建美觀和風(fēng)格化的外觀。雖然最近的進(jìn)展在掃描網(wǎng)格或合成室內(nèi)數(shù)據(jù)集上取得了令人印象深刻的成果,但它們受限于重建的不完整幾何或廣泛的手動(dòng)建模。為了解決這些限制,最近的方法利用3D場(chǎng)景生成來合成完整且語義一致的場(chǎng)景,直接支持紋理生成任務(wù)。


方法如 Ctrl-Room、ControlRoom3D、RoomTex 和 DreamSpace采用整體生成技術(shù)來創(chuàng)建全景房間紋理,然后進(jìn)行詳細(xì)的細(xì)化。除了直接生成,3D場(chǎng)景生成還促進(jìn)了紋理化方法的評(píng)估。InstanceTex在現(xiàn)有數(shù)據(jù)集和由 EchoScene生成的新場(chǎng)景中生成紋理,提高了基準(zhǔn)評(píng)估的多樣性和魯棒性。


3D場(chǎng)景布局編輯專注于在場(chǎng)景中排列對(duì)象以產(chǎn)生語義上有意義和物理合理的配置。幾種方法,如 LEGO-Net、CabiNet和 DeBaRA,處理現(xiàn)有場(chǎng)景的重新排列。這些方法使用對(duì)象級(jí)屬性,如類別標(biāo)簽、位置和方向,以產(chǎn)生更有組織和規(guī)律的排列。一些方法支持更互動(dòng)和動(dòng)態(tài)的布局編輯。例如,SceneExpander和 SceneDirector通過直觀的用戶交互啟用實(shí)時(shí)編輯,如修改房間形狀或移動(dòng)對(duì)象,并自動(dòng)更新周圍對(duì)象以保持空間一致性。最近在組合生成 NeRF 的進(jìn)展進(jìn)一步推動(dòng)布局控制的邊界,使得隱式表示的編輯成為可能。


DisCoScene、Neural Assets和 Lift3D通過調(diào)整控制信號(hào)(如空間位置或潛在特征)實(shí)現(xiàn)對(duì)象級(jí)編輯,允許靈活和可控的場(chǎng)景操作。

人類-場(chǎng)景交互

人類-場(chǎng)景交互(Human-Scene Interaction,HSI)關(guān)注于建模人類如何與其環(huán)境互動(dòng)并對(duì)其產(chǎn)生影響。逼真的角色動(dòng)畫和行為建模需要合成虛擬角色與其環(huán)境之間可信的交互。HSI 的最新進(jìn)展在生成逼真且物理上合理的人類動(dòng)作方面取得了顯著成果 ,同時(shí)也能創(chuàng)建與特定動(dòng)作序列相匹配的場(chǎng)景。


為了在場(chǎng)景環(huán)境的條件下生成人體動(dòng)作,一些方法,如[437], [440], [441], [442] 直接從包含掃描室內(nèi)場(chǎng)景和捕捉到的人體動(dòng)作的數(shù)據(jù)集中學(xué)習(xí)。然而,這些數(shù)據(jù)集在可擴(kuò)展性方面通常有限,并且局限于靜態(tài)場(chǎng)景,無法建模動(dòng)態(tài)的人物-物體交互。另一些工作,如[438], [439], [446], [447], [448] 則使用帶有強(qiáng)化學(xué)習(xí)的仿真環(huán)境來生成物理上合理的動(dòng)作。然而,由于高昂的搭建成本,這些仿真通常依賴于簡(jiǎn)化的場(chǎng)景,從而在合成訓(xùn)練與現(xiàn)實(shí)世界應(yīng)用之間引入了“仿真到現(xiàn)實(shí)差距”(sim-to-real gap),因?yàn)楝F(xiàn)實(shí)環(huán)境更加復(fù)雜和多樣。


近期如 GenZI的工作初步解決了這一問題,通過將二維圖像中生成的人體提升到三維,實(shí)現(xiàn)了對(duì)新場(chǎng)景的零樣本泛化。盡管 GenZI 仍依賴于預(yù)設(shè)計(jì)的合成場(chǎng)景進(jìn)行評(píng)估,但它突顯了將場(chǎng)景生成與動(dòng)作生成結(jié)合起來,以更有效地?cái)U(kuò)展 HSI 數(shù)據(jù)的潛力。集成高質(zhì)量的三維場(chǎng)景生成對(duì)于推動(dòng)可擴(kuò)展且逼真的 HSI 研究至關(guān)重要,特別是在同時(shí)考慮人體可達(dá)性、動(dòng)作可行性和場(chǎng)景語義的情況下。

具身智能

在具身智能中,智能體與環(huán)境交互,以發(fā)展高級(jí)語義理解和目標(biāo)導(dǎo)向行為。三維場(chǎng)景生成通過提供視覺和功能上豐富的環(huán)境來支持這一點(diǎn),使得導(dǎo)航、探索和指令執(zhí)行等任務(wù)成為可能,重點(diǎn)在于認(rèn)知推理而非精確的物理控制。


仿真環(huán)境通?;谥亟ǖ默F(xiàn)實(shí)世界數(shù)據(jù)或手工設(shè)計(jì)的場(chǎng)景構(gòu)建,但這兩種方法都有局限性:現(xiàn)實(shí)世界數(shù)據(jù)集存在質(zhì)量和標(biāo)注問題,而手工創(chuàng)建則勞動(dòng)密集且難以擴(kuò)展。在這種背景下,三維場(chǎng)景生成為具身智能研究創(chuàng)建仿真環(huán)境提供了一種可擴(kuò)展、多樣化且物理合理的替代方案。


對(duì)于室內(nèi)環(huán)境,ProcTHOR使用程序生成來創(chuàng)建遵循現(xiàn)實(shí)布局和物理約束的場(chǎng)景。


Holodeck利用大語言模型(LLM)根據(jù)用戶提供的提示自動(dòng)生成匹配的三維環(huán)境。InfiniteWorld 進(jìn)一步通過不同紋理擴(kuò)展資產(chǎn),以生成更加多樣化和風(fēng)格化的場(chǎng)景。


PhyScene將物理與交互性約束集成到條件擴(kuò)散模型中,以合成物理上可信的交互環(huán)境。Architect采用基于圖像的迭代修復(fù)方法,用大型家具和小物體填充場(chǎng)景,豐富了場(chǎng)景的復(fù)雜性。超越室內(nèi)設(shè)置,程序化方法也實(shí)現(xiàn)了城市級(jí)別的仿真。MetaUrban、GRUtopia和 URBAN-SIM構(gòu)建了多樣化、大規(guī)模的城市環(huán)境供具身智能體使用。EmbodiedCity提供了一個(gè)基于真實(shí)城市的高質(zhì)量三維真實(shí)環(huán)境,支持多種智能體、連續(xù)決策制定以及系統(tǒng)化的具身智能基準(zhǔn)任務(wù)。

機(jī)器人技術(shù)

在機(jī)器人技術(shù)中,三維場(chǎng)景生成使得在物理真實(shí)的環(huán)境中學(xué)習(xí)低層次技能(如操控和控制)成為可能。這些場(chǎng)景通常嵌入在仿真器中,其中對(duì)動(dòng)力學(xué)和接觸的準(zhǔn)確建模對(duì)于訓(xùn)練機(jī)器人在現(xiàn)實(shí)中有效地感知、規(guī)劃和行動(dòng)至關(guān)重要。


仿真環(huán)境已成為開發(fā)機(jī)器人在復(fù)雜操控和運(yùn)動(dòng)等多種任務(wù)中能力的核心工具。然而,近期的機(jī)器人學(xué)習(xí)方法 仍需要大量人工來構(gòu)建這些環(huán)境及相應(yīng)的演示,限制了機(jī)器人學(xué)習(xí)在即便是仿真世界中的可擴(kuò)展性。RoboGen和 RoboVerse通過“提議-生成-學(xué)習(xí)”循環(huán)自動(dòng)化任務(wù)、場(chǎng)景和監(jiān)督的生成,在該循環(huán)中,智能體提出技能,生成具有合理物體布局的環(huán)境,并以最小的人類輸入進(jìn)行學(xué)習(xí)。Eurekaverse進(jìn)一步通過使用大語言模型逐步生成多樣化且日益具有挑戰(zhàn)性的地形,形成適應(yīng)性課程以進(jìn)行跑酷訓(xùn)練。


除了顯式構(gòu)建仿真環(huán)境外,三維場(chǎng)景生成還可作為世界模型,用于預(yù)測(cè)未來幀,以視覺方式表示預(yù)期動(dòng)作,使機(jī)器人能夠在虛擬環(huán)境中仿真并預(yù)測(cè)復(fù)雜操控任務(wù)。面向機(jī)器人的視頻生成模型旨在根據(jù)文本或圖像等輸入合成視頻,特別是幫助機(jī)器人通過預(yù)測(cè)未來動(dòng)作序列以物理上可行的方式可視化和規(guī)劃復(fù)雜操控任務(wù)。一些方法,如[477], [478], [479] 并不直接生成視頻幀,而是利用 NeRFs 和動(dòng)態(tài)三維高斯模型來捕捉現(xiàn)實(shí)環(huán)境的空間和語義復(fù)雜性,從而實(shí)現(xiàn)更準(zhǔn)確的動(dòng)作估計(jì)和規(guī)劃。

自動(dòng)駕駛

三維場(chǎng)景生成在自動(dòng)駕駛中日益重要,它提供了可控、可擴(kuò)展且多樣化的真實(shí)環(huán)境仿真。這些能力有助于克服現(xiàn)實(shí)數(shù)據(jù)集和環(huán)境的局限性,支持自動(dòng)駕駛系統(tǒng)的關(guān)鍵組件,如預(yù)測(cè)建模和數(shù)據(jù)生成。


一些3D場(chǎng)景生成方法作為自動(dòng)駕駛的世界模型,支持未來場(chǎng)景預(yù)測(cè)、風(fēng)險(xiǎn)預(yù)判以及更安全、更高效的動(dòng)作規(guī)劃。一些方法,如[39], [118], [337], [338], [339], [355], [364], [366] 專注于預(yù)測(cè)未來視頻幀,而另一些方法 [480], [481], [482], [483], [484] 則生成三維占據(jù)信息以顯式建模環(huán)境。借助高保真生成,DriveArena和 DrivingSphere引入了閉環(huán)仿真器,用于訓(xùn)練和評(píng)估自動(dòng)駕駛智能體,使其能在閉環(huán)方式中持續(xù)學(xué)習(xí)和演化。


自動(dòng)駕駛需要大規(guī)模、多樣化的數(shù)據(jù)集,但現(xiàn)實(shí)世界的數(shù)據(jù)集(如 nuScenes、KITTI和 Waymo)成本高昂,且很少捕捉到關(guān)鍵的極端情況??煽氐囊曨l生成方法,比如[341], [343], [344], [345], [353] 通過靈活控制天氣、光照和交通條件,合成多樣化的駕駛場(chǎng)景,特別是用于罕見和安全關(guān)鍵事件。

挑戰(zhàn)與未來方向

挑戰(zhàn)

盡管近期取得了諸多進(jìn)展,3D 場(chǎng)景生成仍有巨大改進(jìn)潛力。


生成能力。 現(xiàn)有的生成模型在同時(shí)滿足照片真實(shí)感、3D 一致性和可控性方面存在權(quán)衡。程序化和基于神經(jīng)網(wǎng)絡(luò)的 3D 方法在生成幾何一致、空間布局可控的場(chǎng)景方面表現(xiàn)出色,但在生成真實(shí)感紋理和光照方面常常表現(xiàn)不足。相比之下,基于圖像和視頻的生成模型在視覺真實(shí)感方面表現(xiàn)優(yōu)異,但難以保持 3D 一致性,導(dǎo)致如幾何失真、不現(xiàn)實(shí)的物體交互或不可信的物理動(dòng)態(tài)等偽影。因此,當(dāng)前模型仍難以合成復(fù)雜的、多物體的場(chǎng)景,這些場(chǎng)景既要在視覺上可信,又要在物理上合理。


3D 表示。 3D 場(chǎng)景表示的演進(jìn)經(jīng)歷了以幾何為中心的體素網(wǎng)格和點(diǎn)云格式,這些格式難以捕捉真實(shí)感外觀,再到 NeRFs,其提高了視覺質(zhì)量但效率低下且缺乏顯式幾何。近期如 3D 高斯模型的進(jìn)展在效率上有所提升,但仍缺乏幾何基礎(chǔ),限制了其在重光照或物理交互等任務(wù)中的適用性?;诰W(wǎng)格和貝塞爾三角形的方法在一定程度上通過引入顯式的表面表示緩解了這些限制,但主要局限于物體級(jí)別的生成。在場(chǎng)景層面,緊湊、物理上有意義且視覺上真實(shí)的表示仍然是一個(gè)未解決的難題,阻礙了可控和可泛化的 3D 場(chǎng)景生成的進(jìn)展。


數(shù)據(jù)與標(biāo)注。 3D 場(chǎng)景生成的進(jìn)展與數(shù)據(jù)集質(zhì)量密切相關(guān)。合成數(shù)據(jù)集提供了精確的標(biāo)注,但由于當(dāng)前游戲引擎的渲染限制,其內(nèi)容多樣性有限、照片真實(shí)感不足。相比之下,真實(shí)世界掃描提供了視覺上真實(shí)的圖像,但通常缺乏足夠的標(biāo)注。雖然基于圖像和視頻的生成方法減少了對(duì)標(biāo)注的需求,但它們?nèi)噪y以捕捉準(zhǔn)確的 3D 幾何,常常導(dǎo)致空間失真。此外,現(xiàn)有數(shù)據(jù)集很少包含豐富的元數(shù)據(jù),如物理可供性、材質(zhì)屬性或交互線索,這限制了其在機(jī)器人、具身智能和物理仿真等更廣泛應(yīng)用中的潛力。


評(píng)估。 3D 場(chǎng)景生成中一個(gè)持續(xù)的挑戰(zhàn)是缺乏統(tǒng)一的評(píng)估協(xié)議。方法通常依賴于不同的評(píng)估指標(biāo),導(dǎo)致難以進(jìn)行一致比較?;鶞?zhǔn)測(cè)試工作在一定程度上通過引入標(biāo)準(zhǔn)化且符合人類直覺的評(píng)估框架緩解了這一問題。然而,當(dāng)前的基準(zhǔn)測(cè)試主要基于文本或圖像進(jìn)行條件設(shè)定,較少支持布局、動(dòng)作或軌跡等其他輸入形式。此外,評(píng)估仍主要集中于圖像和視頻的保真度,未能充分評(píng)估底層的 3D 幾何和物理合理性。近期如 Eval3D的工作引入了一個(gè)開始涵蓋 3D 結(jié)構(gòu)、語義和幾何一致性的基準(zhǔn),但它仍局限于物體級(jí)別生成,缺乏場(chǎng)景級(jí)別的復(fù)雜性。

未來方向

鑒于已取得的重大進(jìn)展以及上述關(guān)鍵挑戰(zhàn),我們認(rèn)為未來的 3D 場(chǎng)景生成研究可以在以下方向上繼續(xù)推進(jìn)。


更高保真度。 高保真的3D場(chǎng)景生成要求在幾何、紋理、光照和多視角一致性方面具備協(xié)調(diào)性。當(dāng)前方法常常在幾何精度和視覺豐富性之間做出權(quán)衡,未來模型應(yīng)致力于彌合結(jié)構(gòu)與外觀之間的鴻溝。關(guān)鍵目標(biāo)包括改進(jìn)材質(zhì)和光照建模、跨視角保持一致的物體身份,以及捕捉諸如陰影和遮擋等細(xì)微線索。實(shí)現(xiàn)場(chǎng)景級(jí)別的保真度還意味著將局部細(xì)節(jié)與全局空間和語義一致性對(duì)齊,從而生成更真實(shí)、更有用的 3D 環(huán)境。


具備物理意識(shí)的生成。 盡管視覺方面取得了令人印象深刻的進(jìn)展,當(dāng)前方法往往忽視了生成場(chǎng)景的物理合理性。為了確保物體的放置和關(guān)節(jié)符合物理定律,未來的工作應(yīng)在生成過程中引入物理先驗(yàn)、約束或仿真。將基于物理的反饋機(jī)制(如可微分仿真器)整合進(jìn)來,是實(shí)現(xiàn)結(jié)構(gòu)、語義與物理行為聯(lián)合優(yōu)化的一個(gè)有前景的路徑。這些能力對(duì)于具身智能和機(jī)器人尤為重要,因?yàn)橹悄荏w依賴物理一致的環(huán)境進(jìn)行有效的規(guī)劃和控制。


交互式場(chǎng)景生成。 近期在4D場(chǎng)景生成方面的進(jìn)展使得可以構(gòu)建包含可移動(dòng)物體的動(dòng)態(tài)環(huán)境。然而,這些場(chǎng)景仍然在很大程度上是非交互式的,物體不會(huì)響應(yīng)用戶輸入或環(huán)境變化。因此,當(dāng)前的生成模型產(chǎn)生的是被動(dòng)而非響應(yīng)式的體驗(yàn)。一個(gè)關(guān)鍵的未來方向是交互式場(chǎng)景生成,其中場(chǎng)景包含能夠?qū)ξ锢斫换ァ⒂脩糁噶罨蛏舷挛淖兓鞒鲇幸饬x響應(yīng)的交互物體。實(shí)現(xiàn)這一目標(biāo)需要模型超越幾何和運(yùn)動(dòng),融入對(duì)物體可供性、因果關(guān)系和多智能體動(dòng)態(tài)的推理能力。


統(tǒng)一的感知-生成架構(gòu)。 一個(gè)有前景的前沿方向是將感知與生成統(tǒng)一在一個(gè)共享模型下。諸如分割、重建和場(chǎng)景合成等任務(wù)可以從共同的空間和語義先驗(yàn)中受益。

此外,生成任務(wù)本質(zhì)上要求理解輸入模態(tài)。一個(gè)統(tǒng)一的架構(gòu)可以利用雙向能力:通過感知基礎(chǔ)增強(qiáng)生成性能,并通過生成建模提升場(chǎng)景理解。這類模型可以作為具身智能體的通用主干,支持在視覺、語言和三維空間表示之間的聯(lián)合推理。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/F-HZOGGvTrgev0yhM1FMmg??

標(biāo)簽
已于2025-5-14 09:35:20修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦