隨手一拍,高效重建大型3D開放場(chǎng)景,港科廣GraphGS突破傳統(tǒng)重建技術(shù)瓶頸|ICLR 2024
從手機(jī)隨手拍、汽車行車記錄儀到無人機(jī)航拍,如何從海量無序二維圖像快速生成高精度三維場(chǎng)景?
傳統(tǒng)方法依賴精確的相機(jī)位姿參數(shù),實(shí)際應(yīng)用成本高昂。港科廣團(tuán)隊(duì)提出全新框架GraphGS,突破技術(shù)瓶頸——無需精準(zhǔn)相機(jī)位姿,僅憑RGB圖像即可實(shí)現(xiàn)大規(guī)模開放場(chǎng)景的高效重建和高保真新視角合成,相關(guān)論文入選ICLR 2025,代碼即將開源。

技術(shù)痛點(diǎn)與突破
傳統(tǒng)方法瓶頸:
現(xiàn)有三維重建技術(shù)通常依賴精確的相機(jī)位姿參數(shù)和密集視角覆蓋,而實(shí)際應(yīng)用中,由于設(shè)備限制或環(huán)境復(fù)雜性,獲取高精度位姿和充足視角面臨巨大挑戰(zhàn)。
例如,COLMAP等傳統(tǒng)SfM工具處理千張級(jí)圖像需要數(shù)天時(shí)間,且容易因動(dòng)態(tài)物體或重復(fù)紋理導(dǎo)致匹配失敗。此外,稀疏視角下3D高斯點(diǎn)易過擬合到有限視角區(qū)域,導(dǎo)致幾何失真和細(xì)節(jié)丟失。
GraphGS核心突破:
GraphGS通過創(chuàng)新的空間先驗(yàn)感知與圖引導(dǎo)優(yōu)化范式,提出三階段解決方案:
- 首先利用數(shù)學(xué)策略從無序圖像中快速構(gòu)建相機(jī)拓?fù)鋱D
 - 其次通過多視角一致性約束強(qiáng)化幾何連貫性
 - 最后結(jié)合自適應(yīng)采樣策略動(dòng)態(tài)優(yōu)化高斯點(diǎn)分布。
 
該方法在保障精度的同時(shí),將千張圖像的重建時(shí)間從數(shù)十小時(shí)縮短至數(shù)小時(shí)。

方法詳解:
GraphGS的核心在于將復(fù)雜的場(chǎng)景重建問題轉(zhuǎn)化為圖結(jié)構(gòu)優(yōu)化問題。
框架首先通過同心圓近鄰配對(duì)和三維象限過濾策略,從海量圖像中智能篩選關(guān)鍵匹配對(duì),僅需平面相機(jī)位置即可構(gòu)建連通相機(jī)拓?fù)鋱D;隨后將相機(jī)間的空間關(guān)系建模為帶權(quán)無向圖,通過多視角光度一致性損失和基于節(jié)點(diǎn)重要性的自適應(yīng)采樣策略,引導(dǎo)3D高斯點(diǎn)向全局最優(yōu)分布演化。這一過程結(jié)合了傳統(tǒng)幾何約束與現(xiàn)代可微分渲染的優(yōu)勢(shì),在保證重建精度的同時(shí)顯著提升計(jì)算效率。
1. 高效匹配:
傳統(tǒng)方法(如COLMAP)需遍歷所有圖像對(duì)(復(fù)雜度O(n2)),GraphGS通過數(shù)學(xué)策略篩選關(guān)鍵幀:
- 同心圓近鄰配對(duì):按距離分層采樣,確定局部與全局關(guān)鍵幀,從萬級(jí)圖像對(duì)中篩選千級(jí)關(guān)鍵幀,解決COLMAP暴力匹配耗時(shí)難題。
- 象限過濾:6位編碼量化相機(jī)相對(duì)位姿,過濾無效匹配,消除長(zhǎng)街景“斷鏈”風(fēng)險(xiǎn)。
 

2. 相機(jī)圖優(yōu)化:
- 多視角一致性約束:構(gòu)建相機(jī)拓?fù)潢P(guān)系圖,通過多視角一致性損失函數(shù)強(qiáng)化相鄰視角幾何一致性。動(dòng)態(tài)平衡相鄰視角差異,解決模糊、鬼影問題。
 - 自適應(yīng)采樣:節(jié)點(diǎn)通過介數(shù)中心性動(dòng)態(tài)調(diào)整采樣頻率,解決稀疏視點(diǎn)導(dǎo)致的偽影問題同時(shí)加快3DGS訓(xùn)練速度。
 

實(shí)測(cè)效果:街景、廢墟、噪聲場(chǎng)景全覆蓋
在Waymo、KITTI等自動(dòng)駕駛數(shù)據(jù)集上,GraphGS在無真值位姿輸入的情況下達(dá)到29.43 PSNR和26.98 PSNR,街景重建準(zhǔn)確,樹枝紋理、車窗倒影清晰可見。面對(duì)Mill-19數(shù)據(jù)集同樣不使用真值位姿,該方法在碎石堆積、墻體斷裂等極端場(chǎng)景下仍能實(shí)現(xiàn)高質(zhì)量新視角合成,碎石、斷墻細(xì)節(jié)清晰重現(xiàn)。



應(yīng)用場(chǎng)景:低門檻三維數(shù)字化
任意隨拍視頻,無需真實(shí)位姿重建結(jié)果展示,左側(cè)為GT,右側(cè)為重建場(chǎng)景。可以看到GraphGS實(shí)現(xiàn)了開放場(chǎng)景重建技術(shù)的三重突破:首次在無精確位姿輸入條件下達(dá)成工業(yè)級(jí)重建精度,將千張圖像處理速度提升至小時(shí)級(jí),并支持消費(fèi)級(jí)硬件實(shí)現(xiàn)平方公里級(jí)場(chǎng)景重建。這項(xiàng)技術(shù)不僅降低了三維數(shù)字化的硬件門檻,更為虛擬現(xiàn)實(shí)、智慧城市等領(lǐng)域提供了新的基礎(chǔ)設(shè)施。
- 手機(jī)三維建模: 用戶環(huán)拍建筑、街景,自動(dòng)生成元宇宙素材。
 - 自動(dòng)駕駛訓(xùn)練:車載攝像頭數(shù)據(jù)直接生成高清地圖。
 - 城市數(shù)字化:無人機(jī)航拍公園,高效重建三維檔案。
 


論文標(biāo)題:Graph-Guided Scene Reconstruction from Images with 3D Gaussian Splatting
項(xiàng)目主頁:https://3dagentworld.github.io/graphgs/















 
 
 















 
 
 
 