新視角圖像生成：討論基于NeRF的泛化方法

作者：黃浴 2022-12-09 10:00:23

?最近一段時(shí)間，神經(jīng)輻射場(chǎng)（NeRF）已經(jīng)成為表示場(chǎng)景和合成照片逼真圖像的有效范例，其最直接的應(yīng)用就是NVS。

新視角圖像生成（NVS）是計(jì)算機(jī)視覺(jué)的一個(gè)應(yīng)用領(lǐng)域，在1998年SuperBowl的比賽，CMU的RI曾展示過(guò)給定多攝像頭立體視覺(jué)（MVS）的NVS，當(dāng)時(shí)這個(gè)技術(shù)曾轉(zhuǎn)讓給美國(guó)一家體育電視臺(tái)，但最終沒(méi)有商業(yè)化；英國(guó)BBC廣播公司為此做過(guò)研發(fā)投入，但是沒(méi)有真正產(chǎn)品化。

在基于圖像渲染（IBR）領(lǐng)域，NVS應(yīng)用有一個(gè)分支，即基于深度圖像的渲染（DBIR）。另外，在2010年曾很火的3D TV，也是需要從單目視頻中得到雙目立體，但是由于技術(shù)的不成熟，最終沒(méi)有流行起來(lái)。當(dāng)時(shí)基于機(jī)器學(xué)習(xí)的方法已經(jīng)開(kāi)始研究，比如Youtube曾經(jīng)用圖像搜索的方法來(lái)合成深度圖。

幾年前我曾介紹過(guò)深度學(xué)習(xí)在NVS的應(yīng)用：基于深度學(xué)習(xí)的新視角圖像生成方法

?最近一段時(shí)間，神經(jīng)輻射場(chǎng)（NeRF）已經(jīng)成為表示場(chǎng)景和合成照片逼真圖像的有效范例，其最直接的應(yīng)用就是NVS。傳統(tǒng)NeRF的一個(gè)主要限制是，通常無(wú)法在訓(xùn)練視點(diǎn)顯著不同的新視點(diǎn)生成高質(zhì)量的渲染。下面以此展開(kāi)討論NeRF的泛化方法，這里忽略基礎(chǔ)的NeRF原理介紹。有興趣的請(qǐng)參考綜述論文：

神經(jīng)渲染的進(jìn)展綜述
神經(jīng)體繪制：NeRF及其以外方法
?
論文【2】提出了一種通用的深度神經(jīng)網(wǎng)絡(luò)MVSNeRF，實(shí)現(xiàn)跨場(chǎng)景泛化，推斷從僅三個(gè)附近的輸入視圖重建輻射場(chǎng)。該方法利用平面掃描成本體（廣泛用于多視圖立體視覺(jué)）進(jìn)行幾何感知場(chǎng)景推理，并與基于物理的體渲染相結(jié)合，用于神經(jīng)輻射場(chǎng)重建。

該方法利用深度MVS的成功，在成本體上應(yīng)用3D卷積來(lái)訓(xùn)練用于3D重建任務(wù)的可泛化神經(jīng)網(wǎng)絡(luò)。與MVS方法不同的是，MVS方法僅對(duì)這樣的成本體進(jìn)行深度推斷，而該網(wǎng)絡(luò)對(duì)場(chǎng)景幾何和外觀進(jìn)行推理，并輸出神經(jīng)輻射場(chǎng)，從而實(shí)現(xiàn)視圖合成。具體而言，利用3D CNN，重建（從成本體）神經(jīng)場(chǎng)景編碼體，由編碼局部場(chǎng)景幾何和外觀信息的體素神經(jīng)特征組成。然后，多層感知器（MLP）在編碼體內(nèi)用三線性插值的神經(jīng)特征對(duì)任意連續(xù)位置處的體密度和輻射度進(jìn)行解碼。本質(zhì)上，編碼體是輻射場(chǎng)的局部神經(jīng)表征；其一旦估計(jì)，可直接用于（丟棄3D CNN）可微分光線行進(jìn)（ray-marching）進(jìn)行最終渲染。

與現(xiàn)有的MVS方法相比，MVSNeRF啟用可微分神經(jīng)渲染，在無(wú)3D監(jiān)督的情況下進(jìn)行訓(xùn)練，并優(yōu)化推斷時(shí)間，以進(jìn)一步提高質(zhì)量。與現(xiàn)有的神經(jīng)渲染方法相比，類(lèi)似MVS的體系結(jié)構(gòu)自然能夠進(jìn)行跨視圖的對(duì)應(yīng)推理，有助于對(duì)未見(jiàn)測(cè)試場(chǎng)景進(jìn)行泛化，引向更好的神經(jīng)場(chǎng)景重建和渲染。

如圖1是MVSNeRF的概覽：（a）基于攝像頭參數(shù)，首先將2D圖像特征warp（單應(yīng)變換）到一個(gè)平面掃描（plane sweep）上，構(gòu)建成本體；這種基于方差的成本體編碼了不同輸入視圖之間的圖像外觀變化，解釋了由場(chǎng)景幾何和視圖相關(guān)明暗效果引起的外觀變化；（b）然后，用3D CNN重建逐體素神經(jīng)特征的一個(gè)神經(jīng)編碼體；3D CNN 是一個(gè)3D UNet，可以有效地推斷和傳播場(chǎng)景外觀信息，從而產(chǎn)生有意義的場(chǎng)景編碼體；注：該編碼體是無(wú)監(jiān)督預(yù)測(cè)的，并在端到端訓(xùn)練中用體渲染進(jìn)行推斷；另外，還將原圖像像素合并到下一個(gè)體回歸階段，這樣可恢復(fù)下采樣丟失的高頻；（c）用MLP，通過(guò)編碼體插值的特征，在任意位置回歸體密度和RGB輻射度，這些體屬性由可微分光線行進(jìn)做最終的渲染。

論文【3】提出立體視覺(jué)輻射場(chǎng)（SRF），一種端到端訓(xùn)練的神經(jīng)視圖合成方法，可泛化到新場(chǎng)景，并且在測(cè)試時(shí)只需要稀疏視圖。其核心思想是一種受經(jīng)典多視圖立體視覺(jué)（MVS）方法啟發(fā)的神經(jīng)架構(gòu)，在立體圖像中找到相似的圖像區(qū)域來(lái)估計(jì)表面點(diǎn)。輸入編碼器網(wǎng)絡(luò)10個(gè)視圖，提取多尺度特征。多層感知器（MLP）替換經(jīng)典的圖像塊或特征匹配，輸出相似性分?jǐn)?shù)的集成。在SRF中，每個(gè)3D點(diǎn)給定輸入圖像中立體視覺(jué)對(duì)應(yīng)的一個(gè)編碼，預(yù)先預(yù)測(cè)其顏色和密度。通過(guò)成對(duì)相似性的集成，該編碼被隱式地學(xué)習(xí)——模擬經(jīng)典立體視覺(jué)。

已知攝像頭參數(shù)，給定一組N個(gè)參考圖像， SRF預(yù)測(cè)3D點(diǎn)的顏色和密度。構(gòu)造SRF模型f，類(lèi)似于經(jīng)典的多視圖立體視覺(jué)方法：（1）為了編碼點(diǎn)的位置，將其投影到每個(gè)參考視圖中，并構(gòu)建局部特征描述符；（2）如果在一個(gè)表面上并且照片一致，，特征描述符應(yīng)該互相匹配；用一個(gè)學(xué)習(xí)的函數(shù)模擬特征匹配，對(duì)所有參考視圖的特征進(jìn)行編碼；（3）該編碼由一個(gè)學(xué)習(xí)的解碼器進(jìn)行解碼，成為NeRF表征。如圖2給出SRF的概覽：（a）提取圖像特征；（b）通過(guò)一個(gè)學(xué)習(xí)的相似度函數(shù)模擬尋找照片一致性的過(guò)程，得到一個(gè)立體特征矩陣（SFM）；（c）聚集信息，獲取多視圖特征矩陣（MFM）；（d）最大池化獲取對(duì)應(yīng)和顏色的緊湊編碼，解碼后得到顏色和體密度。

論文【4】提出DietNeRF，一個(gè)從幾個(gè)圖像估計(jì)的3D神經(jīng)場(chǎng)景表征。其引入一種輔助語(yǔ)義一致性損失，鼓勵(lì)新姿態(tài)進(jìn)行真實(shí)的渲染。

當(dāng)NeRF只有少數(shù)視圖可用時(shí)，渲染問(wèn)題是未約束的；除非嚴(yán)格正則化，否則NeRF通常會(huì)出現(xiàn)退化解。如圖3所示：（A）從均勻采樣的姿態(tài)中對(duì)一個(gè)目標(biāo)進(jìn)行了100次觀察時(shí)，NeRF估計(jì)一個(gè)詳細(xì)而準(zhǔn)確的表征，允許純粹從多視圖一致性進(jìn)行高質(zhì)量視圖合成；（B）在只有8個(gè)視圖的情況下，將目標(biāo)放置在訓(xùn)練攝像頭的近場(chǎng)中，相同的NeRF過(guò)擬合，導(dǎo)致在訓(xùn)練攝像頭附近的姿態(tài)出現(xiàn)目標(biāo)錯(cuò)位，并退化；（C）當(dāng)正則化、簡(jiǎn)化、調(diào)整和手工重新初始化時(shí)，NeRF可以收斂，但不再捕獲精細(xì)細(xì)節(jié)；（D）如果沒(méi)有關(guān)于類(lèi)似目標(biāo)的先驗(yàn)知識(shí)，單場(chǎng)景視圖合成無(wú)法合理地完成未觀察區(qū)域。

如圖4是DietNeRF工作示意圖：基于“從任何角度看，一個(gè)物體都是那個(gè)物體”的原則，DietNeRF監(jiān)控任意姿態(tài)的輻射場(chǎng)（DietNeRF攝像頭）；計(jì)算語(yǔ)義一致性損失，是在捕獲高級(jí)場(chǎng)景屬性的特征空間中，而不是在像素空間中；所以用CLIP這個(gè)視覺(jué)Transformer提取渲染的語(yǔ)義表征，然后最大化與真值視圖表征的相似性。

實(shí)際上，單視圖2D圖像編碼器學(xué)習(xí)的場(chǎng)景語(yǔ)義先驗(yàn)知識(shí)，就可以約束一個(gè)3D表征。DietNeRF在自然語(yǔ)言監(jiān)督下，從網(wǎng)絡(luò)挖掘的數(shù)億單視圖2D照片集進(jìn)行訓(xùn)練：（1）給定來(lái)自相同姿態(tài)的給定輸入視圖，可正確地渲染，（2）不同隨機(jī)姿態(tài)下匹配高級(jí)語(yǔ)義屬性。語(yǔ)義損失函數(shù)能夠從任意姿態(tài)監(jiān)督DietNeRF模型。

論文【5】提出DS-NeRF，采用一種學(xué)習(xí)輻射場(chǎng)的損失，利用現(xiàn)成的深度圖監(jiān)督，如圖5所示。有這樣一個(gè)事實(shí)，即當(dāng)前的NeRF流水線需要具有已知攝像頭姿態(tài)的圖像，這些姿態(tài)通常通過(guò)運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)（SFM）來(lái)估計(jì)。至關(guān)重要的是，SFM還產(chǎn)生了稀疏的3D點(diǎn)，在訓(xùn)練期間用作“自由”深度監(jiān)督：增加一個(gè)損失，鼓勵(lì)一個(gè)光線的終止深度分布與一個(gè)給定的3D關(guān)鍵點(diǎn)相匹配，包括深度不確定性。

論文【6】提出pixelNeRF，一個(gè)基于一或多輸入圖像預(yù)測(cè)連續(xù)神經(jīng)場(chǎng)景表征的學(xué)習(xí)框架。其引入一種全卷積方式在圖像輸入上調(diào)節(jié)NeRF架構(gòu)，使得網(wǎng)絡(luò)能夠跨多場(chǎng)景進(jìn)行訓(xùn)練來(lái)學(xué)習(xí)一個(gè)場(chǎng)景的先驗(yàn)知識(shí)，從而能夠從稀疏的一組視圖（最少就一個(gè)）以前饋方式進(jìn)行新視圖合成。利用NeRF的體渲染方法，pixelNeRF可以直接從圖像中訓(xùn)練，無(wú)需額外的3D監(jiān)督。

具體地講，pixelNeRF首先從輸入圖像計(jì)算全卷積圖像特征網(wǎng)格（feature grid），在輸入圖像上調(diào)節(jié)NeRF。然后，對(duì)于視圖坐標(biāo)系中感興趣的每個(gè)3D查詢空間點(diǎn)x和視圖方向d，通過(guò)投影和雙線性插值采樣相應(yīng)的圖像特征。查詢規(guī)范與圖像特征一起發(fā)送到輸出密度和顏色的NeRF網(wǎng)絡(luò)，其中空間圖像特征作為一個(gè)殘差饋送到每個(gè)層。當(dāng)有多個(gè)圖像可用時(shí)，首先將輸入編碼為每個(gè)攝像頭坐標(biāo)系的潛表征，在預(yù)測(cè)顏色和密度之前將其合并在中間層中。該模型訓(xùn)練基于一個(gè)真值圖像和一個(gè)體渲染視圖之間的重建損失。

pixelNeRF框架如圖6所示：對(duì)于沿視圖方向d、一個(gè)目標(biāo)攝像頭光線的一個(gè)3D查詢點(diǎn)x，通過(guò)投影和插值從特征體W提取對(duì)應(yīng)的圖像特征；然后將該特征與空間坐標(biāo)一起傳遞到NeRF網(wǎng)絡(luò)f中；輸出RGB和密度值被用于體渲染，并與目標(biāo)像素值進(jìn)行比較；坐標(biāo)x和d在輸入視圖的攝像頭坐標(biāo)系中。

可以看出，PixelNeRF和SRF用從輸入圖像提取的局部CNN特征，而MVSNeRF通過(guò)image warping獲得3D成本體，然后由3D CNN處理。這些方法需要許多不同場(chǎng)景的多視圖圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，獲取成本可能很高。此外，盡管預(yù)訓(xùn)練階段很長(zhǎng)，但大多數(shù)方法都需要在測(cè)試時(shí)微調(diào)網(wǎng)絡(luò)權(quán)重，并且當(dāng)測(cè)試域發(fā)生變化時(shí)，新視圖的質(zhì)量很容易下降。

當(dāng)然，DS-NeRF增加額外的深度監(jiān)督來(lái)提高重建精度。Diet-NeRF比較了CLIP在低分辨率下渲染的未見(jiàn)視點(diǎn)嵌入。這種語(yǔ)義一致性損失只能提供高級(jí)信息，不能改善稀疏輸入的場(chǎng)景幾何。

論文【7】提出的IBRNet，其核心包括MLP和光線transformer（經(jīng)典Transformer架構(gòu)：位置編碼和自注意），用于估計(jì)連續(xù)5D位置（3D空間位置和2D觀看方向）的輻射度和體密度，并從多個(gè)源視圖實(shí)時(shí)渲染外觀信息。

在渲染時(shí)，該方法可以追溯到經(jīng)典的基于圖像渲染（IBR）工作。不同于神經(jīng)場(chǎng)景表征，其為渲染優(yōu)化每個(gè)場(chǎng)景函數(shù)，IBRNet學(xué)習(xí)一種通用的視圖插值函數(shù)，可泛化到新場(chǎng)景。還是經(jīng)典的體渲染來(lái)合成圖像，其完全可微分，并且用多視圖姿態(tài)圖像作為監(jiān)督來(lái)訓(xùn)練。

光線transformer沿整個(gè)光線考慮這些密度特征來(lái)計(jì)算每個(gè)樣本的標(biāo)量密度值，實(shí)現(xiàn)更大空間尺度上的可見(jiàn)性推理（visibility reasoning）。單獨(dú)地，一個(gè)顏色調(diào)和（color blending）模塊用2D特征和源視圖的視線向量導(dǎo)出每個(gè)樣本的視圖相關(guān)顏色。最后，體渲染為每條光線計(jì)算最終顏色值。

如圖7是IBRNet概覽：1）為渲染目標(biāo)視圖（標(biāo)記“？”圖像），首先識(shí)別一組相鄰的源視圖（例如，標(biāo)記為A和B的視圖）并提取圖像特征；2）然后，對(duì)目標(biāo)視圖中的每條光線，用IBRNet（黃色陰影區(qū)域）計(jì)算沿光線的一組樣本顏色和密度；具體而言，對(duì)每個(gè)樣本從相鄰源視圖中聚合相應(yīng)的信息（圖像顏色、特征和觀看方向），生成其顏色c和密度特征；然后，將ray transformer應(yīng)用于光線上所有樣本的密度特征，預(yù)測(cè)密度值。3）最后，用體渲染沿光線累積顏色和密度。在重建圖像顏色上，可進(jìn)行端到端的L2損失訓(xùn)練。

如圖8是IBRNet用于連續(xù)5D位置的顏色+體密度預(yù)測(cè)工作：首先將所有源視圖中提取的2D圖像特征輸入到類(lèi)似PointNet的MLP中，聚合局部和全局信息，產(chǎn)生多視圖感知特征和池化權(quán)重，用權(quán)重來(lái)集中特征，進(jìn)行多視圖可見(jiàn)性推理，獲得密度特征；這里沒(méi)有直接從預(yù)測(cè)單個(gè)5D樣本的密度σ，而是用ray transformer模塊聚集沿光線的所有樣本信息；ray transformer模塊為光線上的所有樣本獲取密度特征，并預(yù)測(cè)其密度；ray transformer模塊能夠在更長(zhǎng)的范圍進(jìn)行幾何推理，并改進(jìn)密度預(yù)測(cè)；對(duì)于顏色預(yù)測(cè)，將多視圖感知特征，與查詢光線相對(duì)于源視圖的觀看方向，連接輸入一個(gè)小網(wǎng)絡(luò)預(yù)測(cè)一組調(diào)和權(quán)重，輸出顏色c是源視圖的圖像顏色加權(quán)平均。

這里補(bǔ)充一點(diǎn)：與采用絕對(duì)觀看方向的NeRF不同，IBRNet考慮相對(duì)于源視圖的觀看方向，即d和 ?di 之間的差異， ?Δd=d?di 。 ?Δd 較小，通常意味著目標(biāo)視圖的顏色與源視圖i相應(yīng)顏色相似的可能性較大，反之亦然。

論文【8】提出的通用輻射場(chǎng)（GRF），僅從2D觀察中表征和渲染3D目標(biāo)和場(chǎng)景。該網(wǎng)絡(luò)將3D幾何建模為一個(gè)通用輻射場(chǎng)，以一組2D圖像、攝像機(jī)外參姿態(tài)和內(nèi)參為輸入，為3D空間每個(gè)點(diǎn)構(gòu)建內(nèi)部表征，然后渲染從任意位置觀察的相應(yīng)外觀和幾何。其關(guān)鍵是學(xué)習(xí)2D圖像每個(gè)像素的局部特征，然后將這些特征投影到3D點(diǎn)，從而生成通用和豐富的點(diǎn)表征。此外，集成一個(gè)注意機(jī)制來(lái)聚合多個(gè)2D視圖的像素特征，從而隱式地考慮視覺(jué)遮擋問(wèn)題。

如圖9是GRF的示意圖：GRF將每個(gè)3D點(diǎn)p投影到M個(gè)輸入圖像的每一個(gè)，從每個(gè)視圖收集每個(gè)像素的特征，聚集并饋送到MLP，推斷出p的顏色和體密度。

GRF由四部分組成：1）每個(gè)2D像素的特征提取器，一個(gè)基于CNN的編碼器-解碼器；2） 2D特征轉(zhuǎn)換為3D空間的重投影；3）獲取3D點(diǎn)通用特征的基于注意聚合器；4）神經(jīng)渲染器NeRF。

由于沒(méi)有與RGB圖像配對(duì)的深度值，因此無(wú)法確定像素特征屬于哪個(gè)特定的3D表面點(diǎn)。在重投影模塊中，將像素特征視為3D空間中光線沿線每個(gè)位置的表征。形式上，給定一個(gè)3D點(diǎn)、一個(gè)觀察2D視圖以及攝像機(jī)姿態(tài)和內(nèi)參，相應(yīng)的2D像素特征可以通過(guò)重投影操作進(jìn)行檢索。

在特征聚合器中，注意機(jī)制學(xué)習(xí)所有輸入特征的唯一權(quán)重，然后聚合在一起。通過(guò)一個(gè)MLP，3D點(diǎn)的顏色和體密度可以被推斷。

論文【9】提出RegNeRF，對(duì)未觀測(cè)視點(diǎn)渲染的圖像塊幾何和外觀進(jìn)行正則化，并在訓(xùn)練期間對(duì)光線采樣空間進(jìn)行退火。此外，用歸一化流模型正則化未觀測(cè)視點(diǎn)的顏色。

如圖10是RegNeRF模型的概覽：給定一組輸入圖像集合（藍(lán)色攝像頭），NeRF優(yōu)化重建損失；然而，對(duì)于稀疏輸入，這會(huì)導(dǎo)致退化解；這項(xiàng)工作對(duì)未觀察的視圖（紅色攝像頭）進(jìn)行采樣，并正則化從這些視圖渲染的圖像塊幾何和外觀；更具體地說(shuō)，對(duì)于給定的輻射場(chǎng)，通過(guò)場(chǎng)景投射光線，并從未觀察的視點(diǎn)渲染圖像塊；然后，通過(guò)訓(xùn)練的歸一化流模型，將預(yù)測(cè)的RGB圖像塊饋送，并最大化預(yù)測(cè)的對(duì)數(shù)似然，從而正則化外觀；對(duì)渲染的深度圖塊強(qiáng)制一個(gè)平滑度損失，可正則化幾何；該方法導(dǎo)致3D一致性表征，甚至對(duì)渲染真實(shí)新視圖的稀疏輸入來(lái)說(shuō)，也是如此。

論文【10】研究了一種新視圖外推而不是少樣本圖像合成的方法，即（1）訓(xùn)練圖像可以很好地描述目標(biāo)，（2）訓(xùn)練視點(diǎn)和測(cè)試視點(diǎn)的分布之間存在顯著差異，其稱為RapNeRF（RAy Priors NeRF）。

論文【10】的見(jiàn)解是，3D曲面任意可見(jiàn)投影的固有外觀應(yīng)該是一致的。因此，其提出一種隨機(jī)光線投射（random ray casting）策略，允許用已見(jiàn)的視圖訓(xùn)練未見(jiàn)的視圖。此外，根據(jù)沿著觀測(cè)光線的視線方向預(yù)先計(jì)算的光線圖集，可以進(jìn)一步提高外推視圖的渲染質(zhì)量。一個(gè)主要的限制是RapNeRF利用多視圖一致性去消除視圖強(qiáng)相關(guān)效應(yīng)。

隨機(jī)光線投射（random ray casting）策略直觀解釋如圖11所示：左圖中，有兩個(gè)觀察3-D點(diǎn)v的光線，r1位于訓(xùn)練空間，r2遠(yuǎn)離訓(xùn)練光線；考慮到NeRF的分布漂移和映射函數(shù) ?Fc:(r,f)→c ，其沿r2的一些樣本輻射將是不精確的；與像素顏色相比，沿r2的輻射累積操作更有可能提供v的反顏色估計(jì)；中圖是一個(gè)簡(jiǎn)單的虛擬視圖重投影，其遵循NeRF公式計(jì)算所涉及的像素光線，從訓(xùn)練光線池中找到擊中同一3D點(diǎn)的虛擬光線所對(duì)應(yīng)的光線，實(shí)踐中很不方便；右圖中，對(duì)于特定的訓(xùn)練光線（從o投射并穿過(guò)v），隨機(jī)光線投射（RRC）策略在一個(gè)圓錐內(nèi)隨機(jī)生成一條未見(jiàn)過(guò)的虛擬光線（從o′投射并穿過(guò)v），然后基于訓(xùn)練光線在線指定一個(gè)偽標(biāo)簽；RRC支持用見(jiàn)過(guò)的光線訓(xùn)練未見(jiàn)過(guò)的光線。

RRC策略允許以在線方式為隨機(jī)生成的虛擬光線分配偽標(biāo)簽。具體地說(shuō)，對(duì)于一個(gè)訓(xùn)練圖像I中的一個(gè)感興趣像素，給出其世界坐標(biāo)系中的觀察方向d、相機(jī)原點(diǎn)o和深度值 ?tz ，并且光線 ?r=o+td 。這里，使用預(yù)訓(xùn)練的NeRF對(duì)?tz預(yù)計(jì)算和存儲(chǔ)。

設(shè) ?v=o+tzd 表示r命中的最近3D曲面點(diǎn)。在訓(xùn)練階段，將v視為新原點(diǎn)，并在圓錐內(nèi)從v隨機(jī)投射一條光線，其中心線為矢量 ?voˉ=?tzd 。這可以輕松實(shí)現(xiàn)，只要將 ?voˉ 轉(zhuǎn)換到球形空間并引入一些隨機(jī)干擾?φ和?θ到φ和θ。這里，φ和θ分別是?voˉ的方位角和仰角。?φ和?θ從預(yù)定義間隔 [?η, η] 均勻采樣。由此得到 ?θ′=θ+Δθ 和?φ′=φ+Δφ。因此，可以從一個(gè)隨機(jī)原點(diǎn)o'投射一個(gè)也通過(guò)v的虛擬光線。這樣，可以將顏色強(qiáng)度 ?I(r) 真值視為 ?I~(r′) 的偽標(biāo)記。

基礎(chǔ)NeRF利用“方向嵌入”來(lái)編碼場(chǎng)景的照明效果。場(chǎng)景擬合過(guò)程使得訓(xùn)練的顏色預(yù)測(cè)MLP嚴(yán)重依賴于視線方向。對(duì)于新視圖內(nèi)插，這不是問(wèn)題。然而，由于訓(xùn)練和測(cè)試光線分布之間存在一些差異，這可能不適合于新視圖外推。一個(gè)天真的想法是直接移除方向嵌入（表示為“NeRF w/o dir”）。然而，這通常會(huì)產(chǎn)生偽影圖像，如意外的波紋和非平滑的顏色。這意味著光線的觀察方向也可能與表面平滑度有關(guān)。

論文【10】計(jì)算了一個(gè)光線圖集（ray atlas），并表明它可以進(jìn)一步提高外插視圖的渲染質(zhì)量，同時(shí)不涉及內(nèi)插視圖的問(wèn)題。光線圖集類(lèi)似于一個(gè)紋理圖集，但它存儲(chǔ)每個(gè)3D頂點(diǎn)的全局光線方向。

特別是，對(duì)于每個(gè)圖像（例如，圖像I），對(duì)所有空間位置抓取其光線的觀察方向，從而生成一個(gè)光線圖。從預(yù)訓(xùn)練的NeRF中提取一個(gè)粗糙的3D網(wǎng)格（R3DM），并將光線方向映射到3D頂點(diǎn)。以頂點(diǎn)V=(x,y,z)為例，其全局光線方向 ?dˉV 應(yīng)表示為

其中K是攝像頭內(nèi)參， ?Γw2c(Ii) 是圖像 ?Ii 的攝像頭-世界坐標(biāo)系轉(zhuǎn)換矩陣， ?Vuv(Ii) 是頂點(diǎn)V在圖像?Ii的2-D投影位置，L是在頂點(diǎn)V重建中訓(xùn)練圖像數(shù)。對(duì)于一個(gè)任意攝像頭姿態(tài)的每個(gè)像素，投影具有光線圖紋理的3D網(wǎng)格（R3DM）到2D可獲得一個(gè)全局光線先驗(yàn) ?dˉ 。

如圖12就是光線圖集的示意圖：即從訓(xùn)練光線中捕獲一個(gè)光線圖集并用之對(duì)椅子的粗糙3D網(wǎng)格（R3DM）附加紋理；?R(Ii)是訓(xùn)練圖像?Ii的光線圖。

在訓(xùn)練RapNeRF時(shí)，用感興趣像素I(r)的?dˉ 來(lái)替換其在?Fc中的d，進(jìn)行顏色預(yù)測(cè)。這種替代機(jī)制發(fā)生的概率為0.5。在測(cè)試階段，樣本x的輻射度c近似為：

其中映射函數(shù)?Fσ(x):x→(σ,f)。

原始NeRF獨(dú)立地優(yōu)化每個(gè)場(chǎng)景表征，不需要探索場(chǎng)景之間的共享信息，而且耗時(shí)。為了解決這一問(wèn)題，研究人員提出了PixelNeRF和MVSNeRF 等模型，這些模型接收多個(gè)觀察者視圖作為條件輸入，學(xué)習(xí)通用的神經(jīng)輻射場(chǎng)。遵循分而治之（divide-and-conquer）的設(shè)計(jì)原則，其包括兩個(gè)獨(dú)立的組件：用于單個(gè)圖像的CNN特征提取器和作為NeRF網(wǎng)絡(luò)的MLP。對(duì)于單視圖立體視覺(jué)，在這些模型中，CNN將圖像映射到特征網(wǎng)格，MLP將查詢5D坐標(biāo)及其對(duì)應(yīng)的CNN特征映射到單個(gè)體密度和依賴于視圖的RGB顏色。對(duì)于多視圖立體視覺(jué)，由于CNN和MLP無(wú)法處理任意數(shù)量的輸入視圖，因此首先獨(dú)立處理每個(gè)視圖坐標(biāo)系中的坐標(biāo)和相應(yīng)特征，并獲得每個(gè)視圖的圖像條件中間表征。接下來(lái)，用基于輔助池化的模型聚合這些NeRF網(wǎng)絡(luò)內(nèi)的視圖中間表征。在3D理解任務(wù)中，多視圖提供場(chǎng)景的附加信息。

論文【11】提出一個(gè)編碼器-解碼器Transformer框架TransNeRF，表征神經(jīng)輻射場(chǎng)場(chǎng)景。TransNeRF可以探索多視圖之間的深層關(guān)系，并通過(guò)單個(gè)基于Transformer的NeRF注意機(jī)制將多視圖信息聚合到基于坐標(biāo)的場(chǎng)景表征中。此外，TransNeRF考慮光線投射空間和周視空間的相應(yīng)信息來(lái)學(xué)習(xí)場(chǎng)景中形狀和外觀的局部幾何一致性。

如圖13所示，TransNeRF在一個(gè)目標(biāo)視線（target viewing ray）渲染所查詢的3D點(diǎn)，TransNeRF包括：1）在周視空間中，密度-視圖解碼器（Density-ViewDecoder）和顏色-視圖解碼器（Color-ViewDecoder）將源視圖和查詢空間信息((x,y,z),d)融合到3D查詢點(diǎn)的潛密度和顏色表征中；2）在光線投射空間中，用密度光線解碼器（Density-RayDecoder）和顏色光線解碼器（Color-RayDecoder），考慮沿目標(biāo)視圖光線的相鄰點(diǎn)來(lái)增強(qiáng)查詢密度和顏色表征。最后，從TransNeRF獲得在目標(biāo)視線上查詢3D點(diǎn)的體密度和方向顏色。

論文【12】提出一種稀疏輸入的可泛化NVS方法，稱為FWD，實(shí)時(shí)提供高質(zhì)量的圖像合成。通過(guò)顯式深度和可差分渲染，F(xiàn)WD實(shí)現(xiàn)130-1000倍的速度和更好的感知質(zhì)量。如果在訓(xùn)練或推理期間有傳感器深度的無(wú)縫集成，可提高圖像質(zhì)量同時(shí)保持實(shí)時(shí)速度。

其關(guān)鍵見(jiàn)解是，顯式表征每個(gè)輸入像素的深度允許用可微分點(diǎn)云渲染器對(duì)每個(gè)輸入視圖應(yīng)用forward warping。這避免了NeRF類(lèi)方法昂貴的體采樣，實(shí)現(xiàn)了實(shí)時(shí)速度，同時(shí)保持了高圖像質(zhì)量。

SynSin【1】為單圖像新視圖合成（NVS）使用可微分點(diǎn)云渲染器。論文【12】將SynSin擴(kuò)展到多輸入，并探索了融合多視圖信息的有效方法。

FWD估計(jì)每個(gè)輸入視圖的深度，構(gòu)建潛特征的點(diǎn)云，然后通過(guò)點(diǎn)云渲染器合成新視圖。為了緩解來(lái)自不同視點(diǎn)觀測(cè)之間的不一致問(wèn)題，將視點(diǎn)相關(guān)的特征MLP引入到點(diǎn)云中，對(duì)視點(diǎn)相關(guān)結(jié)果進(jìn)行建模。另外一種基于Transformer的融合模塊，有效地組合來(lái)自多輸入的特征。一個(gè)細(xì)化模塊，可以修復(fù)（inpaint）缺失區(qū)域并進(jìn)一步提高合成質(zhì)量。整個(gè)模型經(jīng)過(guò)端到端訓(xùn)練，最小化光度和感知損失、學(xué)習(xí)能優(yōu)化合成質(zhì)量的深度和特征。

如圖14為FWD的概覽：給定一組稀疏圖像，用特征網(wǎng)絡(luò)f（基于BigGAN架構(gòu)）、視圖相關(guān)特征MLP ?ψ 和深度網(wǎng)絡(luò)d為每個(gè)圖像 ?Ii 構(gòu)建點(diǎn)云（包括視圖的幾何和語(yǔ)義信息）?Pi；除圖像外，d將MVS（基于PatchmatchNet）估計(jì)的深度或傳感器深度作為輸入，并回歸細(xì)化的深度；基于圖像特征?Fi和相對(duì)視圖變化 ?Δv （基于歸一化視角方向?vi和?vt，即從點(diǎn)到輸入視圖i和目標(biāo)視圖t的中心），通過(guò)f和?ψ回歸逐像素特征?Fi′；采用可微分點(diǎn)云渲染器 ?π （splatting）將點(diǎn)云投影和渲染到目標(biāo)視圖，即 ?F~i ；渲染前不是直接聚合視圖點(diǎn)云，而是Transformer T融合來(lái)自任意數(shù)量輸入的渲染結(jié)果，并應(yīng)用細(xì)化模塊R解碼生成最終圖像結(jié)果，即以語(yǔ)義和幾何的方式修復(fù)輸入看不見(jiàn)的區(qū)域，糾正由不準(zhǔn)確深度引起的局部誤差，并基于特征圖所包含的語(yǔ)義提高感知質(zhì)量；模型訓(xùn)練使用光度損失和內(nèi)容損失。

現(xiàn)有用局部圖像特征重建3D目標(biāo)的方法，在查詢3D點(diǎn)上投影輸入圖像特征來(lái)預(yù)測(cè)顏色和密度，從而推斷3D形狀和外觀。這些圖像條件模型可以很好地渲染接近輸入視角的目標(biāo)視角圖。然而，當(dāng)目標(biāo)視角過(guò)多移動(dòng)時(shí)，這種方法會(huì)導(dǎo)致輸入視圖的顯著遮擋，渲染質(zhì)量急劇下降，呈現(xiàn)模糊預(yù)測(cè)。

為了解決上面的問(wèn)題，論文【13】提出一種方法，利用全局和局部特征形成一個(gè)壓縮的3D表征。全局特征從視覺(jué)Transformer中學(xué)習(xí)，而局部特征從2D卷積網(wǎng)絡(luò)中提取。為了合成一個(gè)新視圖，訓(xùn)練了一個(gè)MLP網(wǎng)絡(luò)，根據(jù)學(xué)習(xí)的3D表征實(shí)現(xiàn)體渲染。這種表征能夠重建未見(jiàn)過(guò)的區(qū)域，無(wú)需如對(duì)稱或規(guī)范坐標(biāo)系的強(qiáng)制約束。

給定攝像頭s處的單個(gè)圖像Is，任務(wù)是在攝像頭t處合成新視圖It。如果一個(gè)3D點(diǎn)x在源圖像中可見(jiàn)，可以直接用其顏色I(xiàn)s(π(x))，其中π代表在源視圖進(jìn)行投影，表示該點(diǎn)在一個(gè)新視圖可見(jiàn)。如果x被遮擋，就求助于在投影π(x)顏色以外的信息。如圖15所示，得到此類(lèi)信息有三種可能的解決方案：（a）一般NeRF 基于1D潛代碼的方法，在1D向量中編碼3D目標(biāo)信息，由于不同3D點(diǎn)共享同一個(gè)代碼，歸納偏差被限制；（b）基于2D圖像的方法，從逐像素圖像特征重建任何3D點(diǎn)，這樣的表征鼓勵(lì)可見(jiàn)區(qū)域更好的渲染質(zhì)量，計(jì)算也更有效，但是對(duì)未見(jiàn)區(qū)域渲染變得模糊；（c）基于3D體素的方法將3-D目標(biāo)視為體素的一個(gè)集合，并應(yīng)用3-D卷積生成顏色RGB和密度向量σ，這樣渲染較快，也充分利用3D先驗(yàn)去渲染未見(jiàn)的幾何，但是由于體素大小和有限的感受野原因限制了渲染分辨率。

如圖6是全局-局部混合渲染方法【13】的總覽圖：首先將輸入圖像劃分為N=8×8個(gè)圖像塊P；每個(gè)圖像塊扁平化并線性投影到圖像標(biāo)記（token）P1；transformer編碼器將圖像標(biāo)記和可學(xué)習(xí)位置嵌入e作為輸入，提取全局信息作為一組潛特征f；然后，用卷積解碼器將潛特征解碼為多級(jí)特征圖 ?WG ；除了全局特征，用另一個(gè)2D CNN 模型獲取局部圖像特征；最后，用NeRF MLP模型對(duì)體渲染的特征進(jìn)行采樣。

論文【14】提出Point-NeRF，結(jié)合NeRF和MVS這兩種方法的優(yōu)點(diǎn)，用神經(jīng)3D點(diǎn)云以及相關(guān)的神經(jīng)特征對(duì)輻射場(chǎng)建模。在基于光線行進(jìn)的渲染流水線中聚集場(chǎng)景表面附近的神經(jīng)點(diǎn)特征，可以有效地渲染Point-NeRF。此外，一個(gè)預(yù)訓(xùn)練的深度網(wǎng)絡(luò)直接推斷可初始化Point-NeRF，生成一個(gè)神經(jīng)點(diǎn)云；該點(diǎn)云可進(jìn)行微調(diào)，超過(guò)NeRF的視覺(jué)質(zhì)量，訓(xùn)練時(shí)間快30倍。Point-NeRF與其他3D重建方法相結(jié)合，并采用生長(zhǎng)和修剪機(jī)制，即在高體密度區(qū)域生長(zhǎng)和在低體密度修剪，對(duì)重建點(diǎn)云數(shù)據(jù)進(jìn)行優(yōu)化。

Point-NeRF概覽如圖17所示：（a）從多視圖圖像中，Point-NeRF用基于成本體的3D CNN 為每個(gè)視圖生成深度，并通過(guò)2D CNN 從輸入圖像中提取2D特征；聚集深度圖后，獲得基于點(diǎn)的輻射場(chǎng)，其中每個(gè)點(diǎn)具有空間位置、置信度和未投影的圖像特征；（b）為合成一個(gè)新視圖，進(jìn)行可微分光線行進(jìn)，并只在神經(jīng)點(diǎn)云附近計(jì)算明暗；在每個(gè)明暗位置，Point-NeRF聚集來(lái)自其K個(gè)神經(jīng)點(diǎn)鄰居的特征，并計(jì)算輻射率和體密度，然后用體密度累積求和輻射度。整個(gè)過(guò)程端到端可訓(xùn)練，基于點(diǎn)的輻射場(chǎng)可以通過(guò)渲染損失進(jìn)行優(yōu)化。

GRAF（Generative Radiance Field）【18】是一種輻射場(chǎng)的生成模型，通過(guò)引入基于多尺度patch的鑒別器，實(shí)現(xiàn)高分辨率3D-覺(jué)察圖像的合成，同時(shí)模型的訓(xùn)練僅需要未知姿態(tài)攝像頭拍攝的2D圖像。

目標(biāo)是學(xué)習(xí)一個(gè)模型，通過(guò)對(duì)未經(jīng)處理的圖像進(jìn)行訓(xùn)練來(lái)合成新的場(chǎng)景。更具體地說(shuō)，利用一個(gè)對(duì)抗性框架來(lái)訓(xùn)練一個(gè)輻射場(chǎng)的生成模型（GRAF）。

圖18顯示了GRAF模型的概述：生成器采用攝像機(jī)矩陣K、攝像機(jī)姿態(tài)ξ、2D采樣模式ν和形狀/外觀代碼作為輸入并預(yù)測(cè)一個(gè)圖像patch P′；鑒別器將合成的patch P′與從真實(shí)圖像I中提取的patch P進(jìn)行比較；在推理時(shí)，為每個(gè)圖像像素預(yù)測(cè)一個(gè)顏色值；然而在訓(xùn)練時(shí)間這個(gè)操作太貴，因此預(yù)測(cè)一個(gè)大小為K×K像素的固定patch，其隨機(jī)縮放和旋轉(zhuǎn)，為整個(gè)輻射場(chǎng)提供梯度。

決定要生成虛擬K×K patch 的中心和尺度s。隨機(jī)patch中心來(lái)自一個(gè)圖像域Ω的均勻分布，而patch尺度s來(lái)自一個(gè)均勻分布，其中，其中W和H表示目標(biāo)圖像的寬度和高度。形狀和外觀變量的采樣分別來(lái)自形狀和外觀分布和。在實(shí)驗(yàn)中，和都使用標(biāo)準(zhǔn)高斯分布。

輻射場(chǎng)由深度全連接的神經(jīng)網(wǎng)絡(luò)表示，其中參數(shù)θ映射3D位置x的位置編碼和觀察方向d到RGB顏色值c和體密度σ：

這里 ?gθ 取決于兩個(gè)附加潛代碼：一個(gè)是形狀代碼?zs決定目標(biāo)形狀，一個(gè)表觀代碼?za決定外觀。這里稱?gθ為條件輻射場(chǎng)，其結(jié)構(gòu)如圖19所示：首先根據(jù)x的位置編碼和形狀代碼計(jì)算形狀編碼h；密度頭?σθ將此編碼轉(zhuǎn)換為體密度σ；為預(yù)測(cè)3D位置x處的顏色c，將h與d的位置編碼以及表觀代碼?za連接起來(lái)，并將結(jié)果向量傳遞給顏色頭?cθ；獨(dú)立于視點(diǎn)d和外觀代碼計(jì)算σ，鼓勵(lì)多視圖一致性，同時(shí)形狀與外觀進(jìn)行分離；這個(gè)鼓勵(lì)網(wǎng)絡(luò)用兩個(gè)潛代碼分別對(duì)形狀和外觀建模，并允許在推理過(guò)程中做分別處理。

鑒別器實(shí)現(xiàn)為一個(gè)卷積神經(jīng)網(wǎng)絡(luò)，將預(yù)測(cè)的patch P′與從數(shù)據(jù)分布 ?pD 真實(shí)圖像I中提取的patch P進(jìn)行比較。為了從真實(shí)圖像I提取K×K patch，首先從用于提取上述生成器patch的同一分布?pv中提取v=(u,s)；然后，通過(guò)雙線性插值在2D圖像坐標(biāo)P(u,s)處查詢I，采樣真實(shí)patch P。用 ?Γ(I,v) 表示這種雙線性采樣操作。

實(shí)驗(yàn)發(fā)現(xiàn)一個(gè)有共享權(quán)重的單鑒別器足以用于所有patch，即使這些patch在不同尺度隨機(jī)位置采樣。注: 尺度決定patch的感受野。因此，為了促進(jìn)訓(xùn)練，從更大的接受野patch開(kāi)始去捕捉全局上下文。然后，逐步采樣具有較小感受野的patch細(xì)化局部細(xì)節(jié)。

GIRAFFE【19】用于在原始非結(jié)構(gòu)化圖像進(jìn)行訓(xùn)練時(shí)以可控和真實(shí)感的方式生成場(chǎng)景。主要貢獻(xiàn)有兩個(gè)方面：1) 將組合3D場(chǎng)景表征直接納入生成模型，實(shí)現(xiàn)更可控的圖像合成。2) 將這種明確的3D表征與一個(gè)神經(jīng)渲染流水線相結(jié)合，實(shí)現(xiàn)更快的推理和更逼真的圖像。為此，場(chǎng)景表征為組合生成神經(jīng)特征場(chǎng)，如圖20所示：對(duì)于一個(gè)隨機(jī)采樣的攝像頭，基于單獨(dú)特征場(chǎng)對(duì)場(chǎng)景的一個(gè)特征圖像進(jìn)行體渲染；2D神經(jīng)渲染網(wǎng)絡(luò)將特征圖像轉(zhuǎn)換為RGB圖像；訓(xùn)練時(shí)只采用原始圖像，在測(cè)試時(shí)能夠控制圖像形成過(guò)程，包括攝像頭姿勢(shì)、目標(biāo)姿勢(shì)以及目標(biāo)的形狀和外觀；此外，該模型擴(kuò)大到訓(xùn)練數(shù)據(jù)范圍之外，例如，可以合成包含比訓(xùn)練圖像中更多目標(biāo)的場(chǎng)景。

將場(chǎng)景體渲染為分辨率相對(duì)較低的特征圖像，可節(jié)省時(shí)間和計(jì)算。神經(jīng)渲染器處理這些特征圖像并輸出最終渲染。通過(guò)這種方式，該方法可以獲得高質(zhì)量的圖像并尺度化到真實(shí)場(chǎng)景。當(dāng)在原始非結(jié)構(gòu)化圖像集合上進(jìn)行訓(xùn)練時(shí)，這個(gè)方法允許單目標(biāo)和多目標(biāo)場(chǎng)景的可控圖像合成。

場(chǎng)景組合時(shí)，要考慮兩種情況：N固定和N變化（其中最后一個(gè)是背景）。在實(shí)踐中，像目標(biāo)那樣，背景用相同的表征法，不同的是橫跨整個(gè)場(chǎng)景把尺度和平移參數(shù)固定，并以場(chǎng)景空間原點(diǎn)為中心。

2D渲染算子的權(quán)重把特征圖像映射到最后合成圖像，可以參數(shù)化為一個(gè)帶泄漏ReLU激活的2D CNN，和3x 3卷積和最近鄰域上采樣結(jié)合可增加空域分辨率。最后一層應(yīng)用sigmoid操作，得到最后的圖像預(yù)測(cè)。其示意圖如圖21所示。