偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

前饋3D高斯?jié)姙R新方法,浙大團隊提出“體素對齊”,直接在三維空間融合多視角2D信息

人工智能 新聞
VolSplat大膽拋棄像素對齊的固有范式,提出“體素對齊”(voxel-aligned)的前饋框架:在三維空間中融合視圖信息,從根本上破局,讓高質(zhì)量的多視角渲染變得更魯棒、更高效、更易工程化。

在三維重建不斷走向工程化的今天,前饋式3D Gaussian Splatting(Feed-Forward 3DGS)正火速走向產(chǎn)業(yè)化。

然而,現(xiàn)有的前饋3DGS方法主要采用“像素對齊”(pixel-aligned)策略——即將每個2D像素單獨映射到一個或多個3D高斯上。

這一做法看似直觀,但仍面臨兩道不可忽視的“天花板”:二維特征難以在三維中精確對齊、以及高斯基元數(shù)量被像素網(wǎng)格死死綁定,無法按場景復雜度智能分配。

VolSplat大膽拋棄像素對齊的固有范式,提出“體素對齊”(voxel-aligned)的前饋框架:在三維空間中融合視圖信息,從根本上破局,讓高質(zhì)量的多視角渲染變得更魯棒、更高效、更易工程化。

在公開數(shù)據(jù)集上的對比實驗顯示,VolSplat在RealEstate10K和ScanNet(室內(nèi))數(shù)據(jù)集上的視覺質(zhì)量與幾何一致性上均優(yōu)于多種pixel-aligned baseline。這些數(shù)值既說明了視覺質(zhì)量的提升,也反映了幾何一致性的增強。

VolSplat 的核心思路:把“對齊”從二維搬到三維

原有的像素對齊前饋3DGS ,正面臨兩項無法回避的痛點。

第一,多視圖對齊難題:基于2D特征的匹配難以可靠地解決多視角間的幾何一致性問題——當深度估計不穩(wěn)、遮擋或視角差異出現(xiàn)時,2D特征難以在三維空間里精確對齊,常導致浮空偽影與幾何畸變。

第二,高斯密度受限:Gaussian的生成往往被像素網(wǎng)格所束縛,無法根據(jù)場景復雜度進行自適應分配;往往導致復雜結構表達不足,而平坦或冗余區(qū)域卻消耗了大量表示容量。

綜合來看,這兩點直接阻礙了前饋3DGS在稠密視角、復雜結構與大場景下的擴展與穩(wěn)健表現(xiàn)。

為了突破這兩項挑戰(zhàn),VolSplat的核心思路直截了當卻極具穿透力:不再在二維像素層面孤立預測,而是將多視角的二維特征利用每視圖預測的深度圖反投影并聚合到統(tǒng)一的三維體素網(wǎng)格(voxel grid)中,在這個統(tǒng)一坐標系里進行聚合與多尺度特征融合與細化(refine)(采用稀疏 3D U-Net實現(xiàn)),最好僅在那些被占據(jù)的體素上回歸Gaussian參數(shù)。

這一范式的效果即時且深遠:在3D網(wǎng)格內(nèi),視圖間的不一致被天然消融;高斯密度不再被像素網(wǎng)格綁架,而是基于體素的“有無”和復雜度動態(tài)分配。這一范式帶來的直接好處可以概括為四點:

(1) 跨視圖一致性顯著增強:不再完全依賴易錯的2D特征匹配,信息在三維空間中融合,更穩(wěn)定。

(2)高斯密度按需分配:根據(jù)場景復雜度動態(tài)分配高斯數(shù)量,復雜結構處高密度、平坦區(qū)域低密度,實現(xiàn)更精細且節(jié)省資源的表示。

(3)幾何一致性更強:體素聚合與3D U-Net的多尺度細化有效減少“浮點”和偽影,細節(jié)與邊界更清晰。

(4)易與外部3D信號融合:深度圖、點云等3D信號可自然融入體素化流程,無需復雜投影操作。

為便于工程實現(xiàn)與擴展,VolSplat 將整體pipeline拆解為三個清晰模塊:2D特征與深度估計、像素→體素的lifting與聚合、以及體素級的特征refine與Gaussian回歸。每個模塊各司其職,彼此銜接,既利于分步調(diào)試,也方便在工程上作伸縮與優(yōu)化。

第一步——2D 特征提取與深度估計(Feature extraction & Depth prediction)

對每張輸入圖像,VolSplat使用共享的圖像編碼器(結合卷積與 Transformer 層)提取下采樣的二維特征,并基于plane-sweep構建per-view cost volume,用以融合鄰近視圖信息并回歸每視圖的稠密深度圖。該階段為后續(xù)的像素到三維點的反投影(lifting)提供必要的幾何先驗與特征描述。

第二步——像素反投影到體素并進行特征聚合(Lifting + Voxelization)

將每個像素依據(jù)其預測深度反投影到世界坐標,得到帶有圖像特征的三維點云,隨后把這些點按預設體素大小離散化(voxelization),對落入同一體素的點的特征做聚合得到初始voxel feature,這一步把來自不同視角的特征在3D空間里自然對齊,便于后續(xù)體素級處理。

第三步——稀疏3D U-Net細化與基于體素的Gaussian回歸(Sparse 3D refinement+Gaussian prediction)

將初始voxel features輸入稀疏3D U-Net解碼器,該網(wǎng)絡以殘差形式預測每個體素的修正項,從而實現(xiàn)多尺度的局部與全局幾何上下文融合,這種殘差更新有助于網(wǎng)絡只學習必要的幾何細化而非重建全部特征,既穩(wěn)健又高效。

隨后,僅在被占據(jù)的體素上回歸每個Gaussian的參數(shù)(位置偏移、協(xié)方差、不透明度與顏色系數(shù))。最終使用Gaussian Splatting渲染novel views,并以像素級與感知損失進行端到端訓練。

實驗亮點:效果、泛化全面領先

除上述效果外,尤其令人矚目的是VolSplat跨數(shù)據(jù)集的零樣本泛化能力,在未見過的ACID數(shù)據(jù)集上,VolSplat依然保持高性能(PSNR 32.65dB),展現(xiàn)出強勁的泛化能力。

定性結果更直觀,在邊緣、細節(jié)和復雜幾何處,VolSplat展現(xiàn)出更少的浮空偽影、紋理錯位與幾何畸變,Gaussians在3D空間上的分布也更貼近真實場景的幾何分布,而非被像素網(wǎng)格“均勻綁架”。這樣的效果在實際產(chǎn)品體驗(例如虛擬看房、室內(nèi)漫游)中直接轉(zhuǎn)化為更穩(wěn)健、更自然的視覺體驗。

VolSplat的提出并不是終點,而是提供了一種新的研究方向。它為前饋3D重建打開了全新的可能性。在機器人和自動駕駛中,提供更穩(wěn)定的三維感知輸入。在AR/VR中,實現(xiàn)更加流暢、真實的渲染體驗。在三維視覺研究中,為統(tǒng)一的體素框架下融合多模態(tài)數(shù)據(jù)提供新途徑。

未來,VolSplat可以作為前饋3D重建的一種新的探索方向,為相關的學術研究和工程應用提供參考。

論文鏈接:https://arxiv.org/abs/2509.19297

項目主頁:https://lhmd.top/volsplat

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-12-29 09:36:51

三維模型

2023-12-11 09:00:00

人工智能3D模型

2024-03-07 08:00:00

高斯?jié)姙R算法排序算法

2025-06-06 09:07:00

2023-08-21 12:00:03

2D研究

2025-06-18 08:54:48

2020-04-10 12:30:16

3D圖片代碼

2015-03-24 16:50:46

三維空間藍圖AS3000測繪院

2023-05-03 09:01:41

CanvasWebGL

2015-08-26 14:16:56

傾斜攝影三維空間泰瑞

2025-04-25 09:15:00

模型數(shù)據(jù)AI

2024-03-06 14:57:13

火山引擎

2024-12-10 09:40:00

AI3D模型

2011-09-22 10:07:52

奧圖碼投影儀

2022-05-27 13:52:15

3D模型

2025-01-10 14:00:00

3D模型生成

2011-05-03 11:07:46

2D3D麗訊

2020-08-26 10:37:21

阿里3D

2013-01-30 16:15:40

adobeHTML5css3

2024-06-24 08:15:00

點贊
收藏

51CTO技術棧公眾號