偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

新視角圖像生成:討論基于NeRF的泛化方法

人工智能 新聞
?最近一段時(shí)間,神經(jīng)輻射場(chǎng)(NeRF)已經(jīng)成為表示場(chǎng)景和合成照片逼真圖像的有效范例,其最直接的應(yīng)用就是NVS。

新視角圖像生成(NVS)是計(jì)算機(jī)視覺(jué)的一個(gè)應(yīng)用領(lǐng)域,在1998年SuperBowl的比賽,CMU的RI曾展示過(guò)給定多攝像頭立體視覺(jué)(MVS)的NVS,當(dāng)時(shí)這個(gè)技術(shù)曾轉(zhuǎn)讓給美國(guó)一家體育電視臺(tái),但最終沒(méi)有商業(yè)化;英國(guó)BBC廣播公司為此做過(guò)研發(fā)投入,但是沒(méi)有真正產(chǎn)品化。

在基于圖像渲染(IBR)領(lǐng)域,NVS應(yīng)用有一個(gè)分支,即基于深度圖像的渲染(DBIR)。另外,在2010年曾很火的3D TV,也是需要從單目視頻中得到雙目立體,但是由于技術(shù)的不成熟,最終沒(méi)有流行起來(lái)。當(dāng)時(shí)基于機(jī)器學(xué)習(xí)的方法已經(jīng)開(kāi)始研究,比如Youtube曾經(jīng)用圖像搜索的方法來(lái)合成深度圖。

幾年前我曾介紹過(guò)深度學(xué)習(xí)在NVS的應(yīng)用:基于深度學(xué)習(xí)的新視角圖像生成方法

?最近一段時(shí)間,神經(jīng)輻射場(chǎng)(NeRF)已經(jīng)成為表示場(chǎng)景和合成照片逼真圖像的有效范例,其最直接的應(yīng)用就是NVS。傳統(tǒng)NeRF的一個(gè)主要限制是,通常無(wú)法在訓(xùn)練視點(diǎn)顯著不同的新視點(diǎn)生成高質(zhì)量的渲染。下面以此展開(kāi)討論NeRF的泛化方法,這里忽略基礎(chǔ)的NeRF原理介紹。有興趣的請(qǐng)參考綜述論文:

  • 神經(jīng)渲染的進(jìn)展綜述
  • 神經(jīng)體繪制:NeRF及其以外方法

    ?

    論文【2】提出了一種通用的深度神經(jīng)網(wǎng)絡(luò)MVSNeRF,實(shí)現(xiàn)跨場(chǎng)景泛化,推斷從僅三個(gè)附近的輸入視圖重建輻射場(chǎng)。該方法利用平面掃描成本體(廣泛用于多視圖立體視覺(jué))進(jìn)行幾何感知場(chǎng)景推理,并與基于物理的體渲染相結(jié)合,用于神經(jīng)輻射場(chǎng)重建。

該方法利用深度MVS的成功,在成本體上應(yīng)用3D卷積來(lái)訓(xùn)練用于3D重建任務(wù)的可泛化神經(jīng)網(wǎng)絡(luò)。與MVS方法不同的是,MVS方法僅對(duì)這樣的成本體進(jìn)行深度推斷,而該網(wǎng)絡(luò)對(duì)場(chǎng)景幾何和外觀進(jìn)行推理,并輸出神經(jīng)輻射場(chǎng),從而實(shí)現(xiàn)視圖合成。具體而言,利用3D CNN,重建(從成本體)神經(jīng)場(chǎng)景編碼體,由編碼局部場(chǎng)景幾何和外觀信息的體素神經(jīng)特征組成。然后,多層感知器(MLP)在編碼體內(nèi)用三線性插值的神經(jīng)特征對(duì)任意連續(xù)位置處的體密度和輻射度進(jìn)行解碼。本質(zhì)上,編碼體是輻射場(chǎng)的局部神經(jīng)表征;其一旦估計(jì),可直接用于(丟棄3D CNN)可微分光線行進(jìn)(ray-marching)進(jìn)行最終渲染。

與現(xiàn)有的MVS方法相比,MVSNeRF啟用可微分神經(jīng)渲染,在無(wú)3D監(jiān)督的情況下進(jìn)行訓(xùn)練,并優(yōu)化推斷時(shí)間,以進(jìn)一步提高質(zhì)量。與現(xiàn)有的神經(jīng)渲染方法相比,類(lèi)似MVS的體系結(jié)構(gòu)自然能夠進(jìn)行跨視圖的對(duì)應(yīng)推理,有助于對(duì)未見(jiàn)測(cè)試場(chǎng)景進(jìn)行泛化,引向更好的神經(jīng)場(chǎng)景重建和渲染。

如圖1是MVSNeRF的概覽:(a)基于攝像頭參數(shù),首先將2D圖像特征warp(單應(yīng)變換)到一個(gè)平面掃描(plane sweep)上,構(gòu)建成本體;這種基于方差的成本體編碼了不同輸入視圖之間的圖像外觀變化,解釋了由場(chǎng)景幾何和視圖相關(guān)明暗效果引起的外觀變化;(b)然后,用3D CNN重建逐體素神經(jīng)特征的一個(gè)神經(jīng)編碼體;3D CNN 是一個(gè)3D UNet,可以有效地推斷和傳播場(chǎng)景外觀信息,從而產(chǎn)生有意義的場(chǎng)景編碼體;注:該編碼體是無(wú)監(jiān)督預(yù)測(cè)的,并在端到端訓(xùn)練中用體渲染進(jìn)行推斷;另外,還將原圖像像素合并到下一個(gè)體回歸階段,這樣可恢復(fù)下采樣丟失的高頻;(c)用MLP,通過(guò)編碼體插值的特征,在任意位置回歸體密度和RGB輻射度,這些體屬性由可微分光線行進(jìn)做最終的渲染。

論文【3】提出立體視覺(jué)輻射場(chǎng)(SRF),一種端到端訓(xùn)練的神經(jīng)視圖合成方法,可泛化到新場(chǎng)景,并且在測(cè)試時(shí)只需要稀疏視圖。其核心思想是一種受經(jīng)典多視圖立體視覺(jué)(MVS)方法啟發(fā)的神經(jīng)架構(gòu),在立體圖像中找到相似的圖像區(qū)域來(lái)估計(jì)表面點(diǎn)。輸入編碼器網(wǎng)絡(luò)10個(gè)視圖,提取多尺度特征。多層感知器(MLP)替換經(jīng)典的圖像塊或特征匹配,輸出相似性分?jǐn)?shù)的集成。在SRF中,每個(gè)3D點(diǎn)給定輸入圖像中立體視覺(jué)對(duì)應(yīng)的一個(gè)編碼,預(yù)先預(yù)測(cè)其顏色和密度。通過(guò)成對(duì)相似性的集成,該編碼被隱式地學(xué)習(xí)——模擬經(jīng)典立體視覺(jué)。

已知攝像頭參數(shù),給定一組N個(gè)參考圖像, SRF預(yù)測(cè)3D點(diǎn)的顏色和密度。構(gòu)造SRF模型f,類(lèi)似于經(jīng)典的多視圖立體視覺(jué)方法:(1)為了編碼點(diǎn)的位置,將其投影到每個(gè)參考視圖中,并構(gòu)建局部特征描述符;(2) 如果在一個(gè)表面上并且照片一致,,特征描述符應(yīng)該互相匹配;用一個(gè)學(xué)習(xí)的函數(shù)模擬特征匹配,對(duì)所有參考視圖的特征進(jìn)行編碼;(3) 該編碼由一個(gè)學(xué)習(xí)的解碼器進(jìn)行解碼,成為NeRF表征。如圖2給出SRF的概覽:(a)提取圖像特征;(b)通過(guò)一個(gè)學(xué)習(xí)的相似度函數(shù)模擬尋找照片一致性的過(guò)程,得到一個(gè)立體特征矩陣(SFM);(c)聚集信息,獲取多視圖特征矩陣(MFM);(d)最大池化獲取對(duì)應(yīng)和顏色的緊湊編碼,解碼后得到顏色和體密度。

論文【4】提出DietNeRF,一個(gè)從幾個(gè)圖像估計(jì)的3D神經(jīng)場(chǎng)景表征。其引入一種輔助語(yǔ)義一致性損失,鼓勵(lì)新姿態(tài)進(jìn)行真實(shí)的渲染。

當(dāng)NeRF只有少數(shù)視圖可用時(shí),渲染問(wèn)題是未約束的;除非嚴(yán)格正則化,否則NeRF通常會(huì)出現(xiàn)退化解。如圖3所示:(A) 從均勻采樣的姿態(tài)中對(duì)一個(gè)目標(biāo)進(jìn)行了100次觀察時(shí),NeRF估計(jì)一個(gè)詳細(xì)而準(zhǔn)確的表征,允許純粹從多視圖一致性進(jìn)行高質(zhì)量視圖合成;(B) 在只有8個(gè)視圖的情況下,將目標(biāo)放置在訓(xùn)練攝像頭的近場(chǎng)中,相同的NeRF過(guò)擬合,導(dǎo)致在訓(xùn)練攝像頭附近的姿態(tài)出現(xiàn)目標(biāo)錯(cuò)位,并退化;(C) 當(dāng)正則化、簡(jiǎn)化、調(diào)整和手工重新初始化時(shí),NeRF可以收斂,但不再捕獲精細(xì)細(xì)節(jié);(D) 如果沒(méi)有關(guān)于類(lèi)似目標(biāo)的先驗(yàn)知識(shí),單場(chǎng)景視圖合成無(wú)法合理地完成未觀察區(qū)域。

如圖4是DietNeRF工作示意圖:基于“從任何角度看,一個(gè)物體都是那個(gè)物體”的原則,DietNeRF監(jiān)控任意姿態(tài)的輻射場(chǎng)(DietNeRF攝像頭);計(jì)算語(yǔ)義一致性損失,是在捕獲高級(jí)場(chǎng)景屬性的特征空間中,而不是在像素空間中;所以用CLIP這個(gè)視覺(jué)Transformer提取渲染的語(yǔ)義表征,然后最大化與真值視圖表征的相似性。

實(shí)際上,單視圖2D圖像編碼器學(xué)習(xí)的場(chǎng)景語(yǔ)義先驗(yàn)知識(shí),就可以約束一個(gè)3D表征。DietNeRF在自然語(yǔ)言監(jiān)督下,從網(wǎng)絡(luò)挖掘的數(shù)億單視圖2D照片集進(jìn)行訓(xùn)練:(1)給定來(lái)自相同姿態(tài)的給定輸入視圖,可正確地渲染,(2)不同隨機(jī)姿態(tài)下匹配高級(jí)語(yǔ)義屬性。語(yǔ)義損失函數(shù)能夠從任意姿態(tài)監(jiān)督DietNeRF模型。

論文【5】提出DS-NeRF,采用一種學(xué)習(xí)輻射場(chǎng)的損失,利用現(xiàn)成的深度圖監(jiān)督,如圖5所示。有這樣一個(gè)事實(shí),即當(dāng)前的NeRF流水線需要具有已知攝像頭姿態(tài)的圖像,這些姿態(tài)通常通過(guò)運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SFM)來(lái)估計(jì)。至關(guān)重要的是,SFM還產(chǎn)生了稀疏的3D點(diǎn),在訓(xùn)練期間用作“自由”深度監(jiān)督:增加一個(gè)損失,鼓勵(lì)一個(gè)光線的終止深度分布與一個(gè)給定的3D關(guān)鍵點(diǎn)相匹配,包括深度不確定性。


論文【6】提出pixelNeRF,一個(gè)基于一或多輸入圖像預(yù)測(cè)連續(xù)神經(jīng)場(chǎng)景表征的學(xué)習(xí)框架。其引入一種全卷積方式在圖像輸入上調(diào)節(jié)NeRF架構(gòu),使得網(wǎng)絡(luò)能夠跨多場(chǎng)景進(jìn)行訓(xùn)練來(lái)學(xué)習(xí)一個(gè)場(chǎng)景的先驗(yàn)知識(shí),從而能夠從稀疏的一組視圖(最少就一個(gè))以前饋方式進(jìn)行新視圖合成。利用NeRF的體渲染方法,pixelNeRF可以直接從圖像中訓(xùn)練,無(wú)需額外的3D監(jiān)督。

具體地講,pixelNeRF首先從輸入圖像計(jì)算全卷積圖像特征網(wǎng)格(feature grid),在輸入圖像上調(diào)節(jié)NeRF。然后,對(duì)于視圖坐標(biāo)系中感興趣的每個(gè)3D查詢空間點(diǎn)x和視圖方向d,通過(guò)投影和雙線性插值采樣相應(yīng)的圖像特征。查詢規(guī)范與圖像特征一起發(fā)送到輸出密度和顏色的NeRF網(wǎng)絡(luò),其中空間圖像特征作為一個(gè)殘差饋送到每個(gè)層。當(dāng)有多個(gè)圖像可用時(shí),首先將輸入編碼為每個(gè)攝像頭坐標(biāo)系的潛表征,在預(yù)測(cè)顏色和密度之前將其合并在中間層中。該模型訓(xùn)練基于一個(gè)真值圖像和一個(gè)體渲染視圖之間的重建損失。

pixelNeRF框架如圖6所示:對(duì)于沿視圖方向d、一個(gè)目標(biāo)攝像頭光線的一個(gè)3D查詢點(diǎn)x,通過(guò)投影和插值從特征體W提取對(duì)應(yīng)的圖像特征;然后將該特征與空間坐標(biāo)一起傳遞到NeRF網(wǎng)絡(luò)f中;輸出RGB和密度值被用于體渲染,并與目標(biāo)像素值進(jìn)行比較;坐標(biāo)x和d在輸入視圖的攝像頭坐標(biāo)系中。

可以看出,PixelNeRF和SRF用從輸入圖像提取的局部CNN特征,而MVSNeRF通過(guò)image warping獲得3D成本體,然后由3D CNN處理。這些方法需要許多不同場(chǎng)景的多視圖圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,獲取成本可能很高。此外,盡管預(yù)訓(xùn)練階段很長(zhǎng),但大多數(shù)方法都需要在測(cè)試時(shí)微調(diào)網(wǎng)絡(luò)權(quán)重,并且當(dāng)測(cè)試域發(fā)生變化時(shí),新視圖的質(zhì)量很容易下降。

當(dāng)然,DS-NeRF增加額外的深度監(jiān)督來(lái)提高重建精度。Diet-NeRF比較了CLIP在低分辨率下渲染的未見(jiàn)視點(diǎn)嵌入。這種語(yǔ)義一致性損失只能提供高級(jí)信息,不能改善稀疏輸入的場(chǎng)景幾何。

論文【7】提出的IBRNet,其核心包括MLP和光線transformer(經(jīng)典Transformer架構(gòu):位置編碼和自注意),用于估計(jì)連續(xù)5D位置(3D空間位置和2D觀看方向)的輻射度和體密度,并從多個(gè)源視圖實(shí)時(shí)渲染外觀信息。

在渲染時(shí),該方法可以追溯到經(jīng)典的基于圖像渲染IBR)工作。不同于神經(jīng)場(chǎng)景表征,其為渲染優(yōu)化每個(gè)場(chǎng)景函數(shù),IBRNet學(xué)習(xí)一種通用的視圖插值函數(shù),可泛化到新場(chǎng)景。還是經(jīng)典的體渲染來(lái)合成圖像,其完全可微分,并且用多視圖姿態(tài)圖像作為監(jiān)督來(lái)訓(xùn)練。

光線transformer沿整個(gè)光線考慮這些密度特征來(lái)計(jì)算每個(gè)樣本的標(biāo)量密度值,實(shí)現(xiàn)更大空間尺度上的可見(jiàn)性推理(visibility reasoning)。單獨(dú)地,一個(gè)顏色調(diào)和(color blending)模塊用2D特征和源視圖的視線向量導(dǎo)出每個(gè)樣本的視圖相關(guān)顏色。最后,體渲染為每條光線計(jì)算最終顏色值。

如圖7是IBRNet概覽:1) 為渲染目標(biāo)視圖(標(biāo)記“?”圖像),首先識(shí)別一組相鄰的源視圖(例如,標(biāo)記為A和B的視圖)并提取圖像特征;2) 然后,對(duì)目標(biāo)視圖中的每條光線,用IBRNet(黃色陰影區(qū)域)計(jì)算沿光線的一組樣本顏色和密度;具體而言,對(duì)每個(gè)樣本從相鄰源視圖中聚合相應(yīng)的信息(圖像顏色、特征和觀看方向),生成其顏色c和密度特征;然后,將ray transformer應(yīng)用于光線上所有樣本的密度特征,預(yù)測(cè)密度值。3) 最后,用體渲染沿光線累積顏色和密度。在重建圖像顏色上,可進(jìn)行端到端的L2損失訓(xùn)練。

如圖8是IBRNet用于連續(xù)5D位置的顏色+體密度預(yù)測(cè)工作:首先將所有源視圖中提取的2D圖像特征輸入到類(lèi)似PointNet的MLP中,聚合局部和全局信息,產(chǎn)生多視圖感知特征和池化權(quán)重,用權(quán)重來(lái)集中特征,進(jìn)行多視圖可見(jiàn)性推理,獲得密度特征;這里沒(méi)有直接從預(yù)測(cè)單個(gè)5D樣本的密度σ,而是用ray transformer模塊聚集沿光線的所有樣本信息;ray transformer模塊為光線上的所有樣本獲取密度特征,并預(yù)測(cè)其密度;ray transformer模塊能夠在更長(zhǎng)的范圍進(jìn)行幾何推理,并改進(jìn)密度預(yù)測(cè);對(duì)于顏色預(yù)測(cè),將多視圖感知特征,與查詢光線相對(duì)于源視圖的觀看方向,連接輸入一個(gè)小網(wǎng)絡(luò)預(yù)測(cè)一組調(diào)和權(quán)重,輸出顏色c是源視圖的圖像顏色加權(quán)平均。

這里補(bǔ)充一點(diǎn):與采用絕對(duì)觀看方向的NeRF不同,IBRNet考慮相對(duì)于源視圖的觀看方向,即d和 ?di 之間的差異, ?Δd=d?di 。 ?Δd 較小,通常意味著目標(biāo)視圖的顏色與源視圖i相應(yīng)顏色相似的可能性較大,反之亦然。

論文【8】提出的通用輻射場(chǎng)(GRF),僅從2D觀察中表征和渲染3D目標(biāo)和場(chǎng)景。該網(wǎng)絡(luò)將3D幾何建模為一個(gè)通用輻射場(chǎng),以一組2D圖像、攝像機(jī)外參姿態(tài)和內(nèi)參為輸入,為3D空間每個(gè)點(diǎn)構(gòu)建內(nèi)部表征,然后渲染從任意位置觀察的相應(yīng)外觀和幾何。其關(guān)鍵是學(xué)習(xí)2D圖像每個(gè)像素的局部特征,然后將這些特征投影到3D點(diǎn),從而生成通用和豐富的點(diǎn)表征。此外,集成一個(gè)注意機(jī)制來(lái)聚合多個(gè)2D視圖的像素特征,從而隱式地考慮視覺(jué)遮擋問(wèn)題。

如圖9是GRF的示意圖:GRF將每個(gè)3D點(diǎn)p投影到M個(gè)輸入圖像的每一個(gè),從每個(gè)視圖收集每個(gè)像素的特征,聚集并饋送到MLP,推斷出p的顏色和體密度。

GRF由四部分組成:1)每個(gè)2D像素的特征提取器,一個(gè)基于CNN的編碼器-解碼器;2) 2D特征轉(zhuǎn)換為3D空間的重投影;3) 獲取3D點(diǎn)通用特征的基于注意聚合器;4)神經(jīng)渲染器NeRF。

由于沒(méi)有與RGB圖像配對(duì)的深度值,因此無(wú)法確定像素特征屬于哪個(gè)特定的3D表面點(diǎn)。在重投影模塊中,將像素特征視為3D空間中光線沿線每個(gè)位置的表征。形式上,給定一個(gè)3D點(diǎn)、一個(gè)觀察2D視圖以及攝像機(jī)姿態(tài)和內(nèi)參,相應(yīng)的2D像素特征可以通過(guò)重投影操作進(jìn)行檢索。

在特征聚合器中,注意機(jī)制學(xué)習(xí)所有輸入特征的唯一權(quán)重,然后聚合在一起。通過(guò)一個(gè)MLP,3D點(diǎn)的顏色和體密度可以被推斷。

論文【9】提出RegNeRF,對(duì)未觀測(cè)視點(diǎn)渲染的圖像塊幾何和外觀進(jìn)行正則化,并在訓(xùn)練期間對(duì)光線采樣空間進(jìn)行退火。此外,用歸一化流模型正則化未觀測(cè)視點(diǎn)的顏色。

如圖10是RegNeRF模型的概覽:給定一組輸入圖像集合(藍(lán)色攝像頭),NeRF優(yōu)化重建損失;然而,對(duì)于稀疏輸入,這會(huì)導(dǎo)致退化解;這項(xiàng)工作對(duì)未觀察的視圖(紅色攝像頭)進(jìn)行采樣,并正則化從這些視圖渲染的圖像塊幾何和外觀;更具體地說(shuō),對(duì)于給定的輻射場(chǎng),通過(guò)場(chǎng)景投射光線,并從未觀察的視點(diǎn)渲染圖像塊;然后,通過(guò)訓(xùn)練的歸一化流模型,將預(yù)測(cè)的RGB圖像塊饋送,并最大化預(yù)測(cè)的對(duì)數(shù)似然,從而正則化外觀;對(duì)渲染的深度圖塊強(qiáng)制一個(gè)平滑度損失,可正則化幾何;該方法導(dǎo)致3D一致性表征,甚至對(duì)渲染真實(shí)新視圖的稀疏輸入來(lái)說(shuō),也是如此。

論文【10】研究了一種新視圖外推而不是少樣本圖像合成的方法,即(1)訓(xùn)練圖像可以很好地描述目標(biāo),(2)訓(xùn)練視點(diǎn)和測(cè)試視點(diǎn)的分布之間存在顯著差異,其稱為RapNeRF(RAy Priors NeRF)。

論文【10】的見(jiàn)解是,3D曲面任意可見(jiàn)投影的固有外觀應(yīng)該是一致的。因此,其提出一種隨機(jī)光線投射(random ray casting)策略,允許用已見(jiàn)的視圖訓(xùn)練未見(jiàn)的視圖。此外,根據(jù)沿著觀測(cè)光線的視線方向預(yù)先計(jì)算的光線圖集,可以進(jìn)一步提高外推視圖的渲染質(zhì)量。一個(gè)主要的限制是RapNeRF利用多視圖一致性去消除視圖強(qiáng)相關(guān)效應(yīng)。

隨機(jī)光線投射(random ray casting)策略直觀解釋如圖11所示:左圖中,有兩個(gè)觀察3-D點(diǎn)v的光線,r1位于訓(xùn)練空間,r2遠(yuǎn)離訓(xùn)練光線;考慮到NeRF的分布漂移和映射函數(shù) ?Fc:(r,f)→c ,其沿r2的一些樣本輻射將是不精確的;與像素顏色相比,沿r2的輻射累積操作更有可能提供v的反顏色估計(jì);中圖是一個(gè)簡(jiǎn)單的虛擬視圖重投影,其遵循NeRF公式計(jì)算所涉及的像素光線,從訓(xùn)練光線池中找到擊中同一3D點(diǎn)的虛擬光線所對(duì)應(yīng)的光線,實(shí)踐中很不方便;右圖中,對(duì)于特定的訓(xùn)練光線(從o投射并穿過(guò)v),隨機(jī)光線投射(RRC)策略在一個(gè)圓錐內(nèi)隨機(jī)生成一條未見(jiàn)過(guò)的虛擬光線(從o′投射并穿過(guò)v),然后基于訓(xùn)練光線在線指定一個(gè)偽標(biāo)簽;RRC支持用見(jiàn)過(guò)的光線訓(xùn)練未見(jiàn)過(guò)的光線。

RRC策略允許以在線方式為隨機(jī)生成的虛擬光線分配偽標(biāo)簽。具體地說(shuō),對(duì)于一個(gè)訓(xùn)練圖像I中的一個(gè)感興趣像素,給出其世界坐標(biāo)系中的觀察方向d、相機(jī)原點(diǎn)o和深度值 ?tz ,并且光線 ?r=o+td 。這里,使用預(yù)訓(xùn)練的NeRF對(duì)?tz預(yù)計(jì)算和存儲(chǔ)。

設(shè) ?v=o+tzd 表示r命中的最近3D曲面點(diǎn)。在訓(xùn)練階段,將v視為新原點(diǎn),并在圓錐內(nèi)從v隨機(jī)投射一條光線,其中心線為矢量 ?voˉ=?tzd 。這可以輕松實(shí)現(xiàn),只要將 ?voˉ 轉(zhuǎn)換到球形空間并引入一些隨機(jī)干擾?φ和?θ到φ和θ。這里,φ和θ分別是?voˉ的方位角和仰角。?φ和?θ從預(yù)定義間隔 [?η, η] 均勻采樣。由此得到 ?θ′=θ+Δθ 和?φ′=φ+Δφ。因此,可以從一個(gè)隨機(jī)原點(diǎn)o'投射一個(gè)也通過(guò)v的虛擬光線。這樣,可以將顏色強(qiáng)度 ?I(r) 真值視為 ?I~(r′) 的偽標(biāo)記。

基礎(chǔ)NeRF利用“方向嵌入”來(lái)編碼場(chǎng)景的照明效果。場(chǎng)景擬合過(guò)程使得訓(xùn)練的顏色預(yù)測(cè)MLP嚴(yán)重依賴于視線方向。對(duì)于新視圖內(nèi)插,這不是問(wèn)題。然而,由于訓(xùn)練和測(cè)試光線分布之間存在一些差異,這可能不適合于新視圖外推。一個(gè)天真的想法是直接移除方向嵌入(表示為“NeRF w/o dir”)。然而,這通常會(huì)產(chǎn)生偽影圖像,如意外的波紋和非平滑的顏色。這意味著光線的觀察方向也可能與表面平滑度有關(guān)。

論文【10】計(jì)算了一個(gè)光線圖集(ray atlas),并表明它可以進(jìn)一步提高外插視圖的渲染質(zhì)量,同時(shí)不涉及內(nèi)插視圖的問(wèn)題。光線圖集類(lèi)似于一個(gè)紋理圖集,但它存儲(chǔ)每個(gè)3D頂點(diǎn)的全局光線方向。

特別是,對(duì)于每個(gè)圖像(例如,圖像I),對(duì)所有空間位置抓取其光線的觀察方向,從而生成一個(gè)光線圖。從預(yù)訓(xùn)練的NeRF中提取一個(gè)粗糙的3D網(wǎng)格(R3DM),并將光線方向映射到3D頂點(diǎn)。以頂點(diǎn)V=(x,y,z)為例,其全局光線方向 ?dˉV 應(yīng)表示為

其中K是攝像頭內(nèi)參, ?Γw2c(Ii) 是圖像 ?Ii 的攝像頭-世界坐標(biāo)系轉(zhuǎn)換矩陣, ?Vuv(Ii) 是頂點(diǎn)V在圖像?Ii的2-D投影位置,L是在頂點(diǎn)V重建中訓(xùn)練圖像數(shù)。對(duì)于一個(gè)任意攝像頭姿態(tài)的每個(gè)像素,投影具有光線圖紋理的3D網(wǎng)格(R3DM)到2D可獲得一個(gè)全局光線先驗(yàn) ?dˉ 。

如圖12就是光線圖集的示意圖:即從訓(xùn)練光線中捕獲一個(gè)光線圖集并用之對(duì)椅子的粗糙3D網(wǎng)格(R3DM)附加紋理;?R(Ii)是訓(xùn)練圖像?Ii的光線圖。

在訓(xùn)練RapNeRF時(shí),用感興趣像素I(r)的?dˉ 來(lái)替換其在?Fc中的d,進(jìn)行顏色預(yù)測(cè)。這種替代機(jī)制發(fā)生的概率為0.5。在測(cè)試階段,樣本x的輻射度c近似為:

其中映射函數(shù)?Fσ(x):x→(σ,f)。

原始NeRF獨(dú)立地優(yōu)化每個(gè)場(chǎng)景表征,不需要探索場(chǎng)景之間的共享信息,而且耗時(shí)。為了解決這一問(wèn)題,研究人員提出了PixelNeRF和MVSNeRF 等模型,這些模型接收多個(gè)觀察者視圖作為條件輸入,學(xué)習(xí)通用的神經(jīng)輻射場(chǎng)。遵循分而治之(divide-and-conquer)的設(shè)計(jì)原則,其包括兩個(gè)獨(dú)立的組件:用于單個(gè)圖像的CNN特征提取器和作為NeRF網(wǎng)絡(luò)的MLP。對(duì)于單視圖立體視覺(jué),在這些模型中,CNN將圖像映射到特征網(wǎng)格,MLP將查詢5D坐標(biāo)及其對(duì)應(yīng)的CNN特征映射到單個(gè)體密度和依賴于視圖的RGB顏色。對(duì)于多視圖立體視覺(jué),由于CNN和MLP無(wú)法處理任意數(shù)量的輸入視圖,因此首先獨(dú)立處理每個(gè)視圖坐標(biāo)系中的坐標(biāo)和相應(yīng)特征,并獲得每個(gè)視圖的圖像條件中間表征。接下來(lái),用基于輔助池化的模型聚合這些NeRF網(wǎng)絡(luò)內(nèi)的視圖中間表征。在3D理解任務(wù)中,多視圖提供場(chǎng)景的附加信息。

論文【11】提出一個(gè)編碼器-解碼器Transformer框架TransNeRF,表征神經(jīng)輻射場(chǎng)場(chǎng)景。TransNeRF可以探索多視圖之間的深層關(guān)系,并通過(guò)單個(gè)基于Transformer的NeRF注意機(jī)制將多視圖信息聚合到基于坐標(biāo)的場(chǎng)景表征中。此外,TransNeRF考慮光線投射空間和周視空間的相應(yīng)信息來(lái)學(xué)習(xí)場(chǎng)景中形狀和外觀的局部幾何一致性。

如圖13所示,TransNeRF在一個(gè)目標(biāo)視線(target viewing ray)渲染所查詢的3D點(diǎn),TransNeRF包括:1)在周視空間中,密度-視圖解碼器(Density-ViewDecoder)和顏色-視圖解碼器(Color-ViewDecoder)將源視圖和查詢空間信息((x,y,z),d)融合到3D查詢點(diǎn)的潛密度和顏色表征中;2) 在光線投射空間中,用密度光線解碼器(Density-RayDecoder)和顏色光線解碼器(Color-RayDecoder),考慮沿目標(biāo)視圖光線的相鄰點(diǎn)來(lái)增強(qiáng)查詢密度和顏色表征。最后,從TransNeRF獲得在目標(biāo)視線上查詢3D點(diǎn)的體密度和方向顏色。


論文【12】提出一種稀疏輸入的可泛化NVS方法,稱為FWD,實(shí)時(shí)提供高質(zhì)量的圖像合成。通過(guò)顯式深度和可差分渲染,F(xiàn)WD實(shí)現(xiàn)130-1000倍的速度和更好的感知質(zhì)量。如果在訓(xùn)練或推理期間有傳感器深度的無(wú)縫集成,可提高圖像質(zhì)量同時(shí)保持實(shí)時(shí)速度。

其關(guān)鍵見(jiàn)解是,顯式表征每個(gè)輸入像素的深度允許用可微分點(diǎn)云渲染器對(duì)每個(gè)輸入視圖應(yīng)用forward warping。這避免了NeRF類(lèi)方法昂貴的體采樣,實(shí)現(xiàn)了實(shí)時(shí)速度,同時(shí)保持了高圖像質(zhì)量。

SynSin【1】為單圖像新視圖合成(NVS)使用可微分點(diǎn)云渲染器。論文【12】將SynSin擴(kuò)展到多輸入,并探索了融合多視圖信息的有效方法。

FWD估計(jì)每個(gè)輸入視圖的深度,構(gòu)建潛特征的點(diǎn)云,然后通過(guò)點(diǎn)云渲染器合成新視圖。為了緩解來(lái)自不同視點(diǎn)觀測(cè)之間的不一致問(wèn)題,將視點(diǎn)相關(guān)的特征MLP引入到點(diǎn)云中,對(duì)視點(diǎn)相關(guān)結(jié)果進(jìn)行建模。另外一種基于Transformer的融合模塊,有效地組合來(lái)自多輸入的特征。一個(gè)細(xì)化模塊,可以修復(fù)(inpaint)缺失區(qū)域并進(jìn)一步提高合成質(zhì)量。整個(gè)模型經(jīng)過(guò)端到端訓(xùn)練,最小化光度和感知損失、學(xué)習(xí)能優(yōu)化合成質(zhì)量的深度和特征。

如圖14為FWD的概覽:給定一組稀疏圖像,用特征網(wǎng)絡(luò)f(基于BigGAN架構(gòu))、視圖相關(guān)特征MLP ?ψ 和深度網(wǎng)絡(luò)d為每個(gè)圖像 ?Ii 構(gòu)建點(diǎn)云(包括視圖的幾何和語(yǔ)義信息)?Pi;除圖像外,d將MVS(基于PatchmatchNet)估計(jì)的深度或傳感器深度作為輸入,并回歸細(xì)化的深度;基于圖像特征?Fi和相對(duì)視圖變化 ?Δv (基于歸一化視角方向?vi和?vt,即從點(diǎn)到輸入視圖i和目標(biāo)視圖t的中心),通過(guò)f?ψ回歸逐像素特征?Fi′;采用可微分點(diǎn)云渲染器 ?π (splatting)將點(diǎn)云投影和渲染到目標(biāo)視圖,即 ?F~i ;渲染前不是直接聚合視圖點(diǎn)云,而是Transformer T融合來(lái)自任意數(shù)量輸入的渲染結(jié)果,并應(yīng)用細(xì)化模塊R解碼生成最終圖像結(jié)果,即以語(yǔ)義和幾何的方式修復(fù)輸入看不見(jiàn)的區(qū)域,糾正由不準(zhǔn)確深度引起的局部誤差,并基于特征圖所包含的語(yǔ)義提高感知質(zhì)量;模型訓(xùn)練使用光度損失和內(nèi)容損失。

現(xiàn)有用局部圖像特征重建3D目標(biāo)的方法,在查詢3D點(diǎn)上投影輸入圖像特征來(lái)預(yù)測(cè)顏色和密度,從而推斷3D形狀和外觀。這些圖像條件模型可以很好地渲染接近輸入視角的目標(biāo)視角圖。然而,當(dāng)目標(biāo)視角過(guò)多移動(dòng)時(shí),這種方法會(huì)導(dǎo)致輸入視圖的顯著遮擋,渲染質(zhì)量急劇下降,呈現(xiàn)模糊預(yù)測(cè)。

為了解決上面的問(wèn)題,論文【13】提出一種方法,利用全局和局部特征形成一個(gè)壓縮的3D表征。全局特征從視覺(jué)Transformer中學(xué)習(xí),而局部特征從2D卷積網(wǎng)絡(luò)中提取。為了合成一個(gè)新視圖,訓(xùn)練了一個(gè)MLP網(wǎng)絡(luò),根據(jù)學(xué)習(xí)的3D表征實(shí)現(xiàn)體渲染。這種表征能夠重建未見(jiàn)過(guò)的區(qū)域,無(wú)需如對(duì)稱或規(guī)范坐標(biāo)系的強(qiáng)制約束。

給定攝像頭s處的單個(gè)圖像Is,任務(wù)是在攝像頭t處合成新視圖It。如果一個(gè)3D點(diǎn)x在源圖像中可見(jiàn),可以直接用其顏色I(xiàn)s(π(x)),其中π代表在源視圖進(jìn)行投影,表示該點(diǎn)在一個(gè)新視圖可見(jiàn)。如果x被遮擋,就求助于在投影π(x)顏色以外的信息。如圖15所示,得到此類(lèi)信息有三種可能的解決方案:(a)一般NeRF 基于1D潛代碼的方法,在1D向量中編碼3D目標(biāo)信息,由于不同3D點(diǎn)共享同一個(gè)代碼,歸納偏差被限制;(b) 基于2D圖像的方法,從逐像素圖像特征重建任何3D點(diǎn),這樣的表征鼓勵(lì)可見(jiàn)區(qū)域更好的渲染質(zhì)量,計(jì)算也更有效,但是對(duì)未見(jiàn)區(qū)域渲染變得模糊;(c) 基于3D體素的方法將3-D目標(biāo)視為體素的一個(gè)集合,并應(yīng)用3-D卷積生成顏色RGB和密度向量σ,這樣渲染較快,也充分利用3D先驗(yàn)去渲染未見(jiàn)的幾何,但是由于體素大小和有限的感受野原因限制了渲染分辨率。

如圖6是全局-局部混合渲染方法【13】的總覽圖:首先將輸入圖像劃分為N=8×8個(gè)圖像塊P;每個(gè)圖像塊扁平化并線性投影到圖像標(biāo)記(token)P1;transformer編碼器將圖像標(biāo)記和可學(xué)習(xí)位置嵌入e作為輸入,提取全局信息作為一組潛特征f;然后,用卷積解碼器將潛特征解碼為多級(jí)特征圖 ?WG ;除了全局特征,用另一個(gè)2D CNN 模型獲取局部圖像特征;最后,用NeRF MLP模型對(duì)體渲染的特征進(jìn)行采樣。

論文【14】提出Point-NeRF,結(jié)合NeRF和MVS這兩種方法的優(yōu)點(diǎn),用神經(jīng)3D點(diǎn)云以及相關(guān)的神經(jīng)特征對(duì)輻射場(chǎng)建模。在基于光線行進(jìn)的渲染流水線中聚集場(chǎng)景表面附近的神經(jīng)點(diǎn)特征,可以有效地渲染Point-NeRF。此外,一個(gè)預(yù)訓(xùn)練的深度網(wǎng)絡(luò)直接推斷可初始化Point-NeRF,生成一個(gè)神經(jīng)點(diǎn)云;該點(diǎn)云可進(jìn)行微調(diào),超過(guò)NeRF的視覺(jué)質(zhì)量,訓(xùn)練時(shí)間快30倍。Point-NeRF與其他3D重建方法相結(jié)合,并采用生長(zhǎng)和修剪機(jī)制,即在高體密度區(qū)域生長(zhǎng)和在低體密度修剪,對(duì)重建點(diǎn)云數(shù)據(jù)進(jìn)行優(yōu)化。

Point-NeRF概覽如圖17所示:(a) 從多視圖圖像中,Point-NeRF用基于成本體的3D CNN 為每個(gè)視圖生成深度,并通過(guò)2D CNN 從輸入圖像中提取2D特征;聚集深度圖后,獲得基于點(diǎn)的輻射場(chǎng),其中每個(gè)點(diǎn)具有空間位置、置信度和未投影的圖像特征;(b) 為合成一個(gè)新視圖,進(jìn)行可微分光線行進(jìn),并只在神經(jīng)點(diǎn)云附近計(jì)算明暗;在每個(gè)明暗位置,Point-NeRF聚集來(lái)自其K個(gè)神經(jīng)點(diǎn)鄰居的特征,并計(jì)算輻射率和體密度,然后用體密度累積求和輻射度。整個(gè)過(guò)程端到端可訓(xùn)練,基于點(diǎn)的輻射場(chǎng)可以通過(guò)渲染損失進(jìn)行優(yōu)化。

GRAF(Generative Radiance Field)【18】是一種輻射場(chǎng)的生成模型,通過(guò)引入基于多尺度patch的鑒別器,實(shí)現(xiàn)高分辨率3D-覺(jué)察圖像的合成,同時(shí)模型的訓(xùn)練僅需要未知姿態(tài)攝像頭拍攝的2D圖像。

目標(biāo)是學(xué)習(xí)一個(gè)模型,通過(guò)對(duì)未經(jīng)處理的圖像進(jìn)行訓(xùn)練來(lái)合成新的場(chǎng)景。更具體地說(shuō),利用一個(gè)對(duì)抗性框架來(lái)訓(xùn)練一個(gè)輻射場(chǎng)的生成模型(GRAF)。

圖18顯示了GRAF模型的概述:生成器采用攝像機(jī)矩陣K、攝像機(jī)姿態(tài)ξ、2D采樣模式ν和形狀/外觀代碼作為輸入并預(yù)測(cè)一個(gè)圖像patch P′;鑒別器將合成的patch P′與從真實(shí)圖像I中提取的patch P進(jìn)行比較;在推理時(shí),為每個(gè)圖像像素預(yù)測(cè)一個(gè)顏色值;然而在訓(xùn)練時(shí)間這個(gè)操作太貴,因此預(yù)測(cè)一個(gè)大小為K×K像素的固定patch,其隨機(jī)縮放和旋轉(zhuǎn),為整個(gè)輻射場(chǎng)提供梯度。

決定要生成虛擬K×K patch 的中心和尺度s。隨機(jī)patch中心來(lái)自一個(gè)圖像域Ω的均勻分布,而patch尺度s來(lái)自一個(gè)均勻分布,其中,其中W和H表示目標(biāo)圖像的寬度和高度。形狀和外觀變量的采樣分別來(lái)自形狀和外觀分布和。在實(shí)驗(yàn)中,和都使用標(biāo)準(zhǔn)高斯分布。

輻射場(chǎng)由深度全連接的神經(jīng)網(wǎng)絡(luò)表示,其中參數(shù)θ映射3D位置x的位置編碼和觀察方向d到RGB顏色值c和體密度σ:

這里 ?gθ 取決于兩個(gè)附加潛代碼:一個(gè)是形狀代碼?zs決定目標(biāo)形狀,一個(gè)表觀代碼?za決定外觀。這里稱?gθ為條件輻射場(chǎng),其結(jié)構(gòu)如圖19所示:首先根據(jù)x的位置編碼和形狀代碼計(jì)算形狀編碼h;密度頭?σθ將此編碼轉(zhuǎn)換為體密度σ;為預(yù)測(cè)3D位置x處的顏色c,將hd的位置編碼以及表觀代碼?za連接起來(lái),并將結(jié)果向量傳遞給顏色頭?cθ;獨(dú)立于視點(diǎn)d和外觀代碼計(jì)算σ,鼓勵(lì)多視圖一致性,同時(shí)形狀與外觀進(jìn)行分離;這個(gè)鼓勵(lì)網(wǎng)絡(luò)用兩個(gè)潛代碼分別對(duì)形狀和外觀建模,并允許在推理過(guò)程中做分別處理。

鑒別器實(shí)現(xiàn)為一個(gè)卷積神經(jīng)網(wǎng)絡(luò),將預(yù)測(cè)的patch P′與從數(shù)據(jù)分布 ?pD 真實(shí)圖像I中提取的patch P進(jìn)行比較。為了從真實(shí)圖像I提取K×K patch,首先從用于提取上述生成器patch的同一分布?pv中提取v=(u,s);然后,通過(guò)雙線性插值在2D圖像坐標(biāo)P(u,s)處查詢I,采樣真實(shí)patch P。用 ?Γ(I,v) 表示這種雙線性采樣操作。

實(shí)驗(yàn)發(fā)現(xiàn)一個(gè)有共享權(quán)重的單鑒別器足以用于所有patch,即使這些patch在不同尺度隨機(jī)位置采樣。注: 尺度決定patch的感受野。因此,為了促進(jìn)訓(xùn)練,從更大的接受野patch開(kāi)始去捕捉全局上下文。然后,逐步采樣具有較小感受野的patch細(xì)化局部細(xì)節(jié)。

GIRAFFE【19】用于在原始非結(jié)構(gòu)化圖像進(jìn)行訓(xùn)練時(shí)以可控和真實(shí)感的方式生成場(chǎng)景。主要貢獻(xiàn)有兩個(gè)方面:1) 將組合3D場(chǎng)景表征直接納入生成模型,實(shí)現(xiàn)更可控的圖像合成。2) 將這種明確的3D表征與一個(gè)神經(jīng)渲染流水線相結(jié)合,實(shí)現(xiàn)更快的推理和更逼真的圖像。為此,場(chǎng)景表征為組合生成神經(jīng)特征場(chǎng),如圖20所示:對(duì)于一個(gè)隨機(jī)采樣的攝像頭,基于單獨(dú)特征場(chǎng)對(duì)場(chǎng)景的一個(gè)特征圖像進(jìn)行體渲染;2D神經(jīng)渲染網(wǎng)絡(luò)將特征圖像轉(zhuǎn)換為RGB圖像;訓(xùn)練時(shí)只采用原始圖像,在測(cè)試時(shí)能夠控制圖像形成過(guò)程,包括攝像頭姿勢(shì)、目標(biāo)姿勢(shì)以及目標(biāo)的形狀和外觀;此外,該模型擴(kuò)大到訓(xùn)練數(shù)據(jù)范圍之外,例如,可以合成包含比訓(xùn)練圖像中更多目標(biāo)的場(chǎng)景。

將場(chǎng)景體渲染為分辨率相對(duì)較低的特征圖像,可節(jié)省時(shí)間和計(jì)算。神經(jīng)渲染器處理這些特征圖像并輸出最終渲染。通過(guò)這種方式,該方法可以獲得高質(zhì)量的圖像并尺度化到真實(shí)場(chǎng)景。當(dāng)在原始非結(jié)構(gòu)化圖像集合上進(jìn)行訓(xùn)練時(shí),這個(gè)方法允許單目標(biāo)和多目標(biāo)場(chǎng)景的可控圖像合成。

場(chǎng)景組合時(shí),要考慮兩種情況:N固定和N變化(其中最后一個(gè)是背景)。在實(shí)踐中,像目標(biāo)那樣,背景用相同的表征法,不同的是橫跨整個(gè)場(chǎng)景把尺度和平移參數(shù)固定,并以場(chǎng)景空間原點(diǎn)為中心。

2D渲染算子的權(quán)重把特征圖像映射到最后合成圖像,可以參數(shù)化為一個(gè)帶泄漏ReLU激活的2D CNN,和3x 3卷積和最近鄰域上采樣結(jié)合可增加空域分辨率。最后一層應(yīng)用sigmoid操作,得到最后的圖像預(yù)測(cè)。其示意圖如圖21所示。

鑒別器也是一個(gè)帶泄漏ReLU激活的CNN。

責(zé)任編輯:張燕妮 來(lái)源: 知乎
相關(guān)推薦

2024-11-08 14:30:00

自動(dòng)駕駛AI

2023-01-31 12:30:26

模型代碼

2021-09-14 09:52:56

ToB小程序生態(tài)評(píng)估

2023-06-05 12:49:27

神經(jīng)網(wǎng)絡(luò)AI

2015-09-10 13:28:51

暢享網(wǎng)

2022-03-02 13:44:10

3D模型數(shù)據(jù)

2009-03-12 08:52:12

瀏覽器競(jìng)爭(zhēng)

2012-10-16 10:41:31

云計(jì)算應(yīng)用架構(gòu)

2024-09-10 09:36:26

2022-12-18 19:49:45

AI

2024-09-26 16:51:33

2023-10-16 09:51:47

模型視覺(jué)

2024-02-05 09:31:40

仿真駕駛模型

2024-09-18 09:50:00

大模型AI

2024-09-18 13:03:52

AI視頻生成

2023-01-07 14:48:09

3D信息

2023-05-16 08:00:00

開(kāi)源項(xiàng)目MONAI醫(yī)學(xué)圖像

2023-04-25 17:13:03

模型AI

2017-09-20 08:57:22

大數(shù)據(jù)犯罪防控法治建設(shè)

2024-09-30 09:35:55

圖像生成AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)