偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)跳動(dòng)利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

新聞
字節(jié)跳動(dòng)視覺(jué)技術(shù)團(tuán)隊(duì)結(jié)合 NeRF 和 Multiplane Image(MPI),提出了一種新的三維空間表達(dá)方式 MINE。

  [[427817]]

字節(jié)跳動(dòng)視覺(jué)技術(shù)團(tuán)隊(duì)結(jié)合 NeRF 和 Multiplane Image(MPI),提出了一種新的三維空間表達(dá)方式 MINE。MINE 通過(guò)對(duì)單張圖片做三維重建,實(shí)現(xiàn)新視角合成和深度估算。通過(guò)引入隱式神經(jīng)場(chǎng)(NeRF),研究者將 Multiplane Images (MPI)擴(kuò)展成連續(xù)的深度平面。給定單個(gè)圖片作為輸入,MINE 能在相機(jī)視錐中的任意深度,預(yù)測(cè)出一個(gè)四通道的圖像,四通道包括 RGB 顏色和空間密度。這種任意深度的四通道預(yù)測(cè),實(shí)際上是對(duì)輸入圖片的視錐的三維重建,以及對(duì)被遮擋內(nèi)容的填充(inpainting)。我們可以利用被重建和填充的視錐方便地渲染出新視角下的 RGB 圖片和深度圖,并且渲染過(guò)程是可導(dǎo)的。

字節(jié)跳動(dòng)利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE
  • 論文地址:https://arxiv.org/pdf/2103.14910.pdf
  • 項(xiàng)目地址:https://github.com/vincentfung13/MINE

在 RealEstate10K,KITTI 和 Flowers Light Fields 數(shù)據(jù)集上的實(shí)驗(yàn)表明,MINE 在新視角合成的性能上大幅超越了當(dāng)前最前沿的方法。同時(shí),在 iBims-1 和 NYU-v2 的實(shí)驗(yàn)表明,團(tuán)隊(duì)在沒(méi)有使用真值深度做監(jiān)督訓(xùn)練的情況下,獲得了和前沿方法接近的深度估計(jì)性能。

該研究的訓(xùn)練代碼與 pretrain model 已經(jīng)開(kāi)源。

字節(jié)跳動(dòng)利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

相關(guān)工作

近年來(lái),在新視角合成這個(gè)領(lǐng)域里,最火爆的方法無(wú)疑是 ECCV 2020 的 NeRF [5]。與傳統(tǒng)的一些手工設(shè)計(jì)的顯式三維表達(dá)(Light Fields,LDI,MPI 等)不同,NeRF 把整個(gè)三維空間的幾何信息與 texture 信息全部用一個(gè) MLP 的權(quán)重來(lái)表達(dá),輸入任意一個(gè)空間坐標(biāo)以及觀察角度,MLP 會(huì)預(yù)測(cè)一個(gè) RGB 值和 volume density。目標(biāo)圖片的渲染通過(guò) ray tracing 和 volume rendering 的方式來(lái)完成。盡管 NeRF 的效果非常驚艷,但它的缺點(diǎn)也非常明顯:

  1. 一個(gè)模型只能表達(dá)一個(gè)場(chǎng)景,且優(yōu)化一個(gè)場(chǎng)景耗時(shí)久;
  2. per-pixel 渲染較為低效;
  3. 泛化能力較差,一個(gè)場(chǎng)景需要較多的照片才能訓(xùn)練好。
字節(jié)跳動(dòng)利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

另外一個(gè)與該研究較相關(guān)的是 MPI(Multiplane Image)[1, 2, 3]。MPI 包含了多個(gè)平面的 RGB-alpha 圖片,其中每個(gè)平面表達(dá)場(chǎng)景在某個(gè)深度中的內(nèi)容,它的主要缺點(diǎn)在于深度是固定及離散的,這個(gè)缺點(diǎn)限制了它對(duì)三維空間的表達(dá)能力。[1, 2, 3] 都能方便地泛化到不同的場(chǎng)景,然而 MPI 各個(gè)平面的深度是固定且離散的,這個(gè)缺點(diǎn)嚴(yán)重限制了它的效果。

字節(jié)跳動(dòng)利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

方法綜述

該團(tuán)隊(duì)采用一個(gè) encoder-decoder 的結(jié)構(gòu)來(lái)生成三維表達(dá):

  1. Encoder 是一個(gè)全卷積網(wǎng)絡(luò),輸入為單個(gè) RGB 圖片,輸出為 feature maps;
  2. Decoder 也是一個(gè)全卷積網(wǎng)絡(luò),輸入為 encoder 輸出的 feature map,以及任意深度值(repeat + concat),輸出該深度下的 RGB-sigma 圖片;
  3. 最終的三維表達(dá)由多個(gè)平面組成,也就是說(shuō)在一次完整的 forward 中,encoder 需要 inference 一次,而 decoder 需要 inference N 次獲得個(gè) N 平面。
字節(jié)跳動(dòng)利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

獲得三維表達(dá)后,不再需要任何的網(wǎng)絡(luò) inference,渲染任意 target 相機(jī) pose 下的視角只需要兩步:

  1. 利用 homography wrapping 建立像素點(diǎn)間的 correspondence??梢韵胂螅瑥?target 相機(jī)射出一條光線,這條光線與 target 圖片的一個(gè)像素點(diǎn)相交,然后,研究者延長(zhǎng)這條射線,讓它與 source 相機(jī)視錐的各個(gè)平面相交。相交點(diǎn)的 RGB-sigma 值可以通過(guò) bilinear sampling 獲得;
  2. 利用 volume rendering 將光線上的點(diǎn)渲染到目標(biāo)圖片像素點(diǎn)上,獲得該像素點(diǎn)的 RGB 值與深度。

Scale 校正

字節(jié)跳動(dòng)利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

MINE 可以利用 structure-from-motion 計(jì)算的相機(jī)參數(shù)與點(diǎn)云進(jìn)行場(chǎng)景的學(xué)習(xí),在這種情況下,深度是 ambiguous 的。由于在這個(gè)方法中,深度采樣的范圍是固定的。所以需要計(jì)算一個(gè) scale factor,使網(wǎng)絡(luò)預(yù)測(cè)的 scale 與 structure-from-motion 的 scale 進(jìn)行對(duì)齊。團(tuán)隊(duì)利用通過(guò) Structure from Motion 獲得的每個(gè)圖片的可見(jiàn) 3D 點(diǎn) P 以及網(wǎng)絡(luò)預(yù)測(cè)的深度圖 Z 計(jì)算 scale factor:

字節(jié)跳動(dòng)利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

獲得 scale factor 后,對(duì)相機(jī)的位移進(jìn)行 scale:

字節(jié)跳動(dòng)利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

需要注意的是,由于需要和 ground truth 比較,所以在訓(xùn)練和測(cè)試時(shí)需要做 scale calibration。而在部署時(shí)不需要做這一步。

端到端的訓(xùn)練

MINE 可以僅通過(guò) RGB 圖片學(xué)習(xí)到場(chǎng)景的三維幾何信息,訓(xùn)練 Loss 主要由兩部分組成:

1.Reconsturction loss——計(jì)算渲染出的 target 圖片與 ground truth 的差異:

字節(jié)跳動(dòng)利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

2.Edge-aware smoothness loss——確保在圖片顏色沒(méi)有突變的地方,深度也不會(huì)突變,這里主要參考了 monodepth2 [6] 種的實(shí)現(xiàn):

字節(jié)跳動(dòng)利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

3.Sparse disparity loss——在訓(xùn)練集各場(chǎng)景的 scale 不一樣時(shí),利用 structure-from-motion 獲得的稀疏點(diǎn)云輔助場(chǎng)景幾何信息的學(xué)習(xí):

字節(jié)跳動(dòng)利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

實(shí)驗(yàn)結(jié)果

新視角合成

字節(jié)跳動(dòng)利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

在 KITTI 數(shù)據(jù)集上,可以看出,此方法在生成質(zhì)量上大幅超越了當(dāng)前的 SOTA——把 SSIM 從 0.733 提高到了 0.822。同時(shí),可看出增加預(yù)測(cè)的平面數(shù),生成圖片的質(zhì)量也會(huì)提高,由于這并不會(huì)改變模型的參數(shù)量,所以可以看出,采樣平面的深度越稠密,就越利于場(chǎng)景表達(dá)的學(xué)習(xí)。在圖片可視化上,MINE 生成的圖片形變和 artefacts 明顯更少。

單目深度估計(jì)

利用在 RealEstate10K 上訓(xùn)練的模型,在 NYU 以及 iBims-1 數(shù)據(jù)集上測(cè)試了單目深度估計(jì)的結(jié)果。雖然只有 RGB 和 sparse 深度監(jiān)督,但 MINE 在單目深度估計(jì)任務(wù)上取得了非常接近全監(jiān)督的 3DKenBurns 的性能,并大幅超越了其他弱監(jiān)督的方法。其中,和 MPI 相比,此方法更不受圖片 texture 的影響,在 texture 豐富的區(qū)域依然能生成平滑的深度圖。

字節(jié)跳動(dòng)利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE
字節(jié)跳動(dòng)利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

MINE 與 MPI、NeRF 的比較

MINE 是 MPI 的一種連續(xù)深度的擴(kuò)展,相比于 MPI 和 NeRF,MINE 有幾個(gè)明顯的優(yōu)勢(shì):

  1. 與 NeRF 相比,MINE 能夠泛化到訓(xùn)練集沒(méi)有出現(xiàn)過(guò)的場(chǎng)景;
  2. 與 NeRF 的逐點(diǎn)渲染相比,MINE 的渲染非常高效;
  3. 與 MPI 相比,MINE 的深度是連續(xù)的,能稠密地表示相機(jī)的視錐;
  4. MPI 通過(guò) alpha 合成(alpha compositing)進(jìn)行渲染,但該方法與射線上點(diǎn)之間的距離無(wú)關(guān),而 MINE 利用 volume rendering 解決了這個(gè)限制。

然而,MINE 也有一些自身的局限性:

  1. 由于輸入是單張圖片,MINE 無(wú)法表達(dá)相機(jī)視錐以外的三維空間;
  2. 由于 MINE 的輸入里沒(méi)有觀察角度,所以其無(wú)法對(duì)一些復(fù)雜的 view-dependent 效果(如光盤(pán)上的彩虹等)進(jìn)行建模。

 

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2023-10-16 09:51:47

模型視覺(jué)

2023-10-27 14:54:33

智能駕駛云計(jì)算

2021-03-16 09:53:35

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-02-20 09:46:00

模型技術(shù)

2024-06-19 11:30:36

2023-12-13 10:14:00

機(jī)器視覺(jué)技術(shù)

2023-06-02 14:10:05

三維重建

2022-09-26 15:18:15

3D智能

2021-04-21 10:18:25

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-03-21 09:19:42

技術(shù)圖像

2023-12-29 09:36:51

三維模型

2024-09-04 09:38:02

2023-04-03 11:52:51

6D英偉達(dá)

2025-02-06 09:20:00

2021-09-30 09:54:29

科技人工智能優(yōu)化

2024-12-12 08:28:11

2025-03-24 09:41:22

2022-07-22 07:25:12

模型人工智能

2023-08-05 13:53:34

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)