MegaSynth:用70萬合成數(shù)據(jù)突破3D場景重建瓶頸,PSNR提升1.8dB!
1. 一眼概覽
MegaSynth 提出了一種基于非語義合成數(shù)據(jù)的大規(guī)模 3D 場景重建方法,生成 70 萬個合成場景數(shù)據(jù)集,訓(xùn)練大型重建模型(LRMs),相比使用真實數(shù)據(jù)訓(xùn)練的模型,PSNR 提升 1.2~1.8 dB,顯著增強 3D 場景重建的廣覆蓋能力。
2. 核心問題
當前 3D 場景重建方法受限于:
- 數(shù)據(jù)規(guī)模受限:現(xiàn)有真實數(shù)據(jù)集 DL3DV 僅 10K 場景,遠小于物體級數(shù)據(jù)集(如 Objaverse 80 萬個實例)。
- 數(shù)據(jù)分布不理想:現(xiàn)有數(shù)據(jù)集多為人工采集,難以確保場景多樣性,攝像機運動范圍受限,且可能包含噪聲和不精確標注。
- 計算成本高昂:現(xiàn)有優(yōu)化方法(如 3DGS)計算成本高,推理速度慢,難以應(yīng)用于大規(guī)模場景。
MegaSynth 通過合成數(shù)據(jù)突破數(shù)據(jù)瓶頸,使 3D 場景重建更高效、精準,并能泛化至真實數(shù)據(jù)。
3. 技術(shù)亮點
大規(guī)模非語義數(shù)據(jù)生成:提出 MegaSynth 數(shù)據(jù)集,通過程序化生成 70 萬個場景,無需建模語義信息(如物體屬性和布局),避免語義復(fù)雜性帶來的計算開銷。
合成數(shù)據(jù)+真實數(shù)據(jù)混合訓(xùn)練:通過 MegaSynth 預(yù)訓(xùn)練 + 真實數(shù)據(jù)微調(diào),提高模型泛化能力,實現(xiàn) 1.2~1.8 dB PSNR 提升。
新型 LRM 訓(xùn)練策略:基于 GS-LRM 和 Long-LRM 兩種模型,利用合成數(shù)據(jù)進行高效重建,使模型性能與僅用真實數(shù)據(jù)訓(xùn)練的模型相當。
4. 方法框架
MegaSynth 通過以下步驟完成 3D 場景重建:
1)合成數(shù)據(jù)生成:
? 場景布局:生成 3D 立方體空間,隨機分布幾何體(如立方體、球體、圓柱等)。
? 幾何和紋理生成:隨機組合幾何形狀并添加高度場擾動。
? 光照建模:使用環(huán)境光、太陽光和發(fā)光物體生成多樣化光照條件。
2)數(shù)據(jù)訓(xùn)練策略:
? 訓(xùn)練 GS-LRM 和 Long-LRM,分別基于 Transformer 和 Mamba 架構(gòu)。
? 混合訓(xùn)練:先用 MegaSynth 預(yù)訓(xùn)練,再用 DL3DV 真實數(shù)據(jù)微調(diào),以增強泛化能力。
3) 損失優(yōu)化:
? 渲染損失(Limg):基于 MSE 誤差和感知損失優(yōu)化 3D 紋理。
? 幾何損失(Lloc):基于合成數(shù)據(jù)提供的精準幾何信息,優(yōu)化 3D 高斯中心位置,提高幾何精度。
5. 實驗結(jié)果速覽
? 數(shù)據(jù)集:
a.訓(xùn)練:MegaSynth(70 萬場景)+ DL3DV(7K 場景)
b.測試:DL3DV、Hypersim(高真實感渲染)、MipNeRF360、Tanks & Temples(真實世界數(shù)據(jù))
? 關(guān)鍵實驗結(jié)論:
a.訓(xùn)練包含 MegaSynth 數(shù)據(jù)的模型在 所有測試數(shù)據(jù)集 上均優(yōu)于僅用真實數(shù)據(jù)訓(xùn)練的模型,特別是在 Hypersim 和 MipNeRF360 這樣的跨域數(shù)據(jù)集上提升更明顯。
b.LRMs 僅用 MegaSynth 訓(xùn)練,性能接近于僅用真實數(shù)據(jù)訓(xùn)練的模型,表明 3D 場景重建的本質(zhì)是低層幾何建模,對語義信息的依賴較小。
6. 實用價值與應(yīng)用
MegaSynth 及其訓(xùn)練方法在多個領(lǐng)域有潛在應(yīng)用:
? 自動駕駛:提升激光雷達與視覺融合的 3D 場景建模精度。
? 機器人導(dǎo)航:增強環(huán)境感知,提高路徑規(guī)劃可靠性。
? 增強現(xiàn)實(AR)與虛擬現(xiàn)實(VR):支持高質(zhì)量 3D 資產(chǎn)生成和交互式虛擬場景建模。
? 城市建模與測繪:基于大規(guī)模圖像數(shù)據(jù)進行高精度 3D 重建,提高城市規(guī)劃與測繪效率。
7. 開放問題
1)合成數(shù)據(jù)的泛化性:MegaSynth 在多種數(shù)據(jù)集上表現(xiàn)良好,但在 超大規(guī)模室外場景 或 極端環(huán)境光照 下,是否仍能維持高性能?
2)與其他生成式方法的結(jié)合:是否可以結(jié)合擴散模型或神經(jīng)輻射場(NeRF),進一步優(yōu)化數(shù)據(jù)生成質(zhì)量?
3) 數(shù)據(jù)合成策略優(yōu)化:當前 MegaSynth 采用 非語義建模,如果引入一定的高層語義控制(如物體語義標簽),是否能進一步提升泛化能力?