開(kāi)源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計(jì)!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
0. 這篇文章干了啥?
提出了DepthFM:一個(gè)多功能且快速的最先進(jìn)的生成式單目深度估計(jì)模型。除了傳統(tǒng)的深度估計(jì)任務(wù)外,DepthFM還展示了在深度修復(fù)等下游任務(wù)中的最先進(jìn)能力。DepthFM效率高,可以在少數(shù)推理步驟內(nèi)合成深度圖。
下面一起來(lái)閱讀一下這項(xiàng)工作~
1. 論文信息
標(biāo)題:DepthFM: Fast Monocular Depth Estimation with Flow Matching
作者:Ming Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Bj?rn Ommer
機(jī)構(gòu):MCML
原文鏈接:https://arxiv.org/abs/2403.13788
代碼鏈接:https://github.com/CompVis/depth-fm
官方主頁(yè):https://depthfm.github.io/
2. 摘要
單目深度估計(jì)對(duì)于許多下游視覺(jué)任務(wù)和應(yīng)用至關(guān)重要。當(dāng)前針對(duì)此問(wèn)題的判別式方法受到模糊偽影的限制,而最先進(jìn)的生成方法由于其SDE性質(zhì)而導(dǎo)致采樣速度緩慢。我們不是從噪聲開(kāi)始,而是尋求從輸入圖像到深度圖的直接映射。我們觀察到這可以通過(guò)流匹配來(lái)有效地構(gòu)建,因?yàn)槠湓诮饪臻g中的直線軌跡提供了效率和高質(zhì)量。我們的研究表明,預(yù)先訓(xùn)練的圖像擴(kuò)散模型可以作為流匹配深度模型的充分先驗(yàn),從而只使用合成數(shù)據(jù)進(jìn)行高效訓(xùn)練,以推廣到真實(shí)圖像。我們發(fā)現(xiàn),輔助表面法線損失進(jìn)一步改善了深度估計(jì)。由于我們方法的生成性質(zhì),我們的模型可靠地預(yù)測(cè)其深度估計(jì)的置信度。在復(fù)雜自然場(chǎng)景的標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中,盡管僅在少量合成數(shù)據(jù)上進(jìn)行訓(xùn)練,我們的輕量級(jí)方法以有利的低計(jì)算成本表現(xiàn)出最先進(jìn)的性能。
3. 效果展示
DepthFM是一種具有強(qiáng)零樣本泛化能力的快速推理流匹配模型,可以利用強(qiáng)大的先驗(yàn)知識(shí),并且很容易地泛化到未知的真實(shí)圖像中,而只在合成數(shù)據(jù)上進(jìn)行訓(xùn)練。
與其他最先進(jìn)的模型相比,DepthFM僅用一個(gè)函數(shù)評(píng)估就獲得了明顯更清晰的圖像。Marigold的深度估計(jì)耗時(shí)是DepthFM的兩倍,但無(wú)法生成相同粒度的深度圖。
4. 主要貢獻(xiàn)
(1)提出了DepthFM,一種最先進(jìn)的、多功能的、快速的單目深度估計(jì)模型。除了傳統(tǒng)的深度估計(jì)任務(wù)外,DepthFM還展示了在深度修補(bǔ)和深度條件圖像合成等下游任務(wù)中的最新能力。
(2)展示了將強(qiáng)大的圖像先驗(yàn)從擴(kuò)散模型成功轉(zhuǎn)移到流匹配模型,幾乎不依賴于訓(xùn)練數(shù)據(jù),也不需要真實(shí)世界的圖像。
(3)表明,流匹配模型高效,并能在單個(gè)推理步驟內(nèi)合成深度圖。
(4)盡管僅在合成數(shù)據(jù)上進(jìn)行訓(xùn)練,但DepthFM在基準(zhǔn)數(shù)據(jù)集和自然圖像上表現(xiàn)出色。
(5)將表面法線損失作為輔助目標(biāo),以獲得更準(zhǔn)確的深度估計(jì)。
(6)除了深度估計(jì),還可可靠地預(yù)測(cè)其預(yù)測(cè)的置信度。
5. 具體原理是啥?
訓(xùn)練Pipeline。 訓(xùn)練受到流匹配和表面法向損失的限制:對(duì)于流匹配,使用數(shù)據(jù)依賴的流匹配來(lái)回歸地面真實(shí)深度與對(duì)應(yīng)圖像之間的向量場(chǎng)。此外,通過(guò)一個(gè)表面法向損失來(lái)實(shí)現(xiàn)幾何真實(shí)感。
數(shù)據(jù)相關(guān)的流匹配: DepthFM通過(guò)利用圖像到深度對(duì),回歸出圖像分布和深度分布之間的直線向量場(chǎng)。這種方法在不犧牲性能的情況下促進(jìn)了高效的幾步推理。
從擴(kuò)散先驗(yàn)微調(diào): 作者展示了成功將強(qiáng)大的圖像先驗(yàn)從基礎(chǔ)圖像合成擴(kuò)散模型(Stable Diffusion v2-1)轉(zhuǎn)移到流匹配模型,幾乎不依賴訓(xùn)練數(shù)據(jù),并且不需要真實(shí)世界的圖像。
輔助表面法線損失: 考慮到DepthFM只在合成數(shù)據(jù)上進(jìn)行訓(xùn)練,大多數(shù)合成數(shù)據(jù)集提供了地面真實(shí)表面法線,將表面法線損失作為輔助目標(biāo),以增強(qiáng)DepthFM深度估計(jì)的準(zhǔn)確性。
6. 實(shí)驗(yàn)結(jié)果
DepthFM通過(guò)僅在63k純合成樣本上進(jìn)行訓(xùn)練展現(xiàn)出了顯著的泛化能力,并且能夠在室內(nèi)外數(shù)據(jù)集上進(jìn)行零-shot深度估計(jì)。表1定性地展示了DepthFM與最先進(jìn)的對(duì)應(yīng)模型的性能對(duì)比。雖然其他模型通常依賴于大量數(shù)據(jù)集進(jìn)行訓(xùn)練,但DepthFM利用了基于擴(kuò)散的基礎(chǔ)模型中固有的豐富知識(shí)。這種方法不僅節(jié)省了計(jì)算資源,而且強(qiáng)調(diào)了模型的適應(yīng)性和訓(xùn)練效率。
對(duì)基于擴(kuò)散的Marigold深度估計(jì)、流匹配(FM)基準(zhǔn)和DepthFM模型進(jìn)行比較。每種方法僅使用一個(gè)集合成員進(jìn)行評(píng)估,并針對(duì)兩個(gè)常見(jiàn)基準(zhǔn)數(shù)據(jù)集進(jìn)行不同數(shù)量的函數(shù)評(píng)估(NFE)。與FM基準(zhǔn)相比,DepthFM集成了訓(xùn)練過(guò)程中的法線損失和數(shù)據(jù)相關(guān)的耦合。
對(duì)于Marigold和的DepthFM模型在不同數(shù)量的功能評(píng)估中的定性結(jié)果。值得注意的是,通過(guò)一步推斷,Marigold并沒(méi)有給出任何有意義的結(jié)果,而DepthFM的結(jié)果已經(jīng)顯示了真實(shí)的深度圖。
在Hypersim上進(jìn)行深度補(bǔ)全。左:給予部分深度。中:深度估計(jì)從給定的部分深度。右:真值深度。
7. 總結(jié)
DepthFM,一種用于單目深度估計(jì)的流匹配方法。通過(guò)學(xué)習(xí)輸入圖像和深度之間的直接映射,而不是將正態(tài)分布去噪為深度圖,該方法明顯比當(dāng)前基于擴(kuò)散的解決方案更高效,同時(shí)仍提供細(xì)粒度的深度圖,而不會(huì)出現(xiàn)判別式范式的常見(jiàn)偽影。DepthFM使用預(yù)先訓(xùn)練好的圖像擴(kuò)散模型作為先驗(yàn),有效地轉(zhuǎn)移到了深度流匹配模型中。因此,DepthFM只在合成數(shù)據(jù)上進(jìn)行了訓(xùn)練,但在推斷期間仍然能很好地推廣到自然圖像。此外,輔助表面法線損失已被證明能改善深度估計(jì)。DepthFM的輕量級(jí)方法具有競(jìng)爭(zhēng)力,速度快,并提供可靠的置信度估計(jì)。
對(duì)更多實(shí)驗(yàn)結(jié)果和文章細(xì)節(jié)感興趣的讀者,可以閱讀一下論文原文