Diff2Scene:無(wú)須3D標(biāo)注,擴(kuò)散模型如何顛覆開(kāi)放詞匯3D語(yǔ)義分割?
一眼概覽
Diff2Scene 是一種利用文本-圖像擴(kuò)散模型進(jìn)行 開(kāi)放詞匯3D語(yǔ)義分割 的新方法,無(wú)需任何標(biāo)注的3D數(shù)據(jù),即可對(duì) 3D點(diǎn)云 進(jìn)行語(yǔ)義理解,并在 ScanNet200 數(shù)據(jù)集上提升 12% 的 SOTA 性能。
核心問(wèn)題
背景問(wèn)題:傳統(tǒng) 3D 語(yǔ)義分割依賴(lài)封閉集標(biāo)簽,無(wú)法處理新類(lèi)別,且標(biāo)注 3D 數(shù)據(jù)極其昂貴?,F(xiàn)有 CLIP-based 方法在處理 細(xì)粒度類(lèi)別和復(fù)雜文本查詢(xún) 時(shí)表現(xiàn)不佳。核心挑戰(zhàn):如何在 無(wú)3D標(biāo)注 的情況下,實(shí)現(xiàn) 開(kāi)放詞匯的 3D 語(yǔ)義分割和視覺(jué)錨定(visual grounding)?應(yīng)用價(jià)值:自動(dòng)駕駛、機(jī)器人導(dǎo)航、AR/VR 場(chǎng)景解析等場(chǎng)景需要無(wú)監(jiān)督、泛化性強(qiáng)的 3D 語(yǔ)義理解方法。
技術(shù)亮點(diǎn)
1. 擴(kuò)散模型特征提取:使用 Stable Diffusion 預(yù)訓(xùn)練的 文本-圖像生成模型 提取語(yǔ)義豐富的 2D 特征,比 CLIP 更擅長(zhǎng) 局部特征表示,有利于密集預(yù)測(cè)任務(wù)。
2. 多模態(tài)掩碼蒸餾(Mask Distillation):創(chuàng)新性地設(shè)計(jì)了 2D-3D 掩碼蒸餾機(jī)制,通過(guò) 2D 語(yǔ)義掩碼作為分類(lèi)器 預(yù)測(cè) 3D 語(yǔ)義,增強(qiáng)了 3D 語(yǔ)義理解能力。
3. 零樣本3D分割:完全 摒棄3D標(biāo)注數(shù)據(jù),僅使用 2D-3D 對(duì)應(yīng)關(guān)系進(jìn)行 無(wú)監(jiān)督知識(shí)蒸餾,實(shí)現(xiàn)了端到端的 開(kāi)放詞匯 3D 語(yǔ)義分割。
方法框架

Diff2Scene 采用 雙分支架構(gòu),結(jié)合 2D 語(yǔ)義理解 和 3D 幾何感知,主要步驟如下:
1. 2D 語(yǔ)義解析:
? 采用 Stable Diffusion U-Net 作為特征提取器,從 RGB 圖像生成 2D 語(yǔ)義掩碼(Salient-aware Masks)。
? 這些掩碼包含了豐富的 文本-視覺(jué)信息,并作為 分類(lèi)器 提供 3D 語(yǔ)義先驗(yàn)。
2. 3D 掩碼預(yù)測(cè):
? 采用 稀疏 3D 卷積 U-Net 處理 點(diǎn)云數(shù)據(jù),并結(jié)合 2D 掩碼提升 3D 預(yù)測(cè)能力。
? 生成 幾何感知掩碼(Geometric-aware Masks),提取 3D 空間信息。
3. 多模態(tài)掩碼蒸餾:
? 2D 語(yǔ)義掩碼 → 3D 語(yǔ)義掩碼 遷移,保證 2D 和 3D 語(yǔ)義的一致性。
? 采用 余弦相似度損失(Cosine Similarity Loss)約束 2D 和 3D 掩碼的分布一致性,實(shí)現(xiàn) 跨模態(tài)特征學(xué)習(xí)。
4. 開(kāi)放詞匯推理:
? 采用 融合推理策略,將 Stable Diffusion 的生成特征 和 CLIP 的判別特征 結(jié)合,實(shí)現(xiàn) 靈活的語(yǔ)義查詢(xún)。
實(shí)驗(yàn)結(jié)果速覽
圖片
Diff2Scene 在多個(gè) 3D 語(yǔ)義分割基準(zhǔn)測(cè)試上超越 SOTA:
? ScanNet200(零樣本設(shè)置):
a.整體 mIoU 提升 12%(從 34.2 → 46.2)
b.尾類(lèi) mIoU 提升 2.6%(從 11.9 → 12.9)
? Matterport3D:mIoU 提升 3.1%(從 42.6 → 45.5)
? Replica(通用化測(cè)試):mIoU 提升 2.6%(從 14.9 → 17.5)
? 視覺(jué)錨定任務(wù)(Nr3D):
? 在 “紅色短箱子”、“帶皺紋毛巾的架子” 等復(fù)雜文本查詢(xún)?nèi)蝿?wù)中,Diff2Scene 比 OpenScene 預(yù)測(cè)更加精準(zhǔn)。
實(shí)用價(jià)值與應(yīng)用
Diff2Scene 完全摒棄了 3D 數(shù)據(jù)標(biāo)注,在 真實(shí)世界開(kāi)放環(huán)境 具有極大應(yīng)用潛力:
? 自動(dòng)駕駛:適用于 長(zhǎng)尾類(lèi)別 識(shí)別(例如罕見(jiàn)的路障、動(dòng)物等)。
? 機(jī)器人感知:提供 無(wú)監(jiān)督的 3D 物體定位,提升 環(huán)境理解能力。
? 增強(qiáng)現(xiàn)實(shí)(AR):基于文本語(yǔ)義進(jìn)行 3D 場(chǎng)景查詢(xún)與交互,提升用戶(hù)體驗(yàn)。
? 建筑和室內(nèi)設(shè)計(jì):支持 自然語(yǔ)言搜索 3D 物品,簡(jiǎn)化 室內(nèi)規(guī)劃 任務(wù)。
開(kāi)放問(wèn)題
1. 在極端長(zhǎng)尾分布類(lèi)別(如 ScanNet200 的“窗臺(tái)”)上,Diff2Scene 仍然容易誤分類(lèi),如何進(jìn)一步提升其魯棒性?
2. 當(dāng)前方法依賴(lài) 2D 預(yù)訓(xùn)練模型,未來(lái)是否可以探索端到端的 3D 擴(kuò)散模型,直接生成 3D 語(yǔ)義表示?
3. 擴(kuò)散模型的生成特征對(duì) 3D 語(yǔ)義分割是否真的比 CLIP 判別特征更有效?是否可以進(jìn)一步融合兩者的優(yōu)勢(shì)?




























