偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成

發(fā)布于 2024-7-4 10:07
瀏覽
0收藏

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2310.11448
git鏈接:https://zju3dv.github.io/4k4d/


本文旨在實(shí)現(xiàn)動(dòng)態(tài)3D場(chǎng)景在4K分辨率下的高保真和實(shí)時(shí)視圖合成。最近,一些動(dòng)態(tài)視圖合成方法在渲染質(zhì)量方面表現(xiàn)出色。然而,在渲染高分辨率圖像時(shí),它們的速度仍然有限。為解決這個(gè)問題,本文提出了4K4D,一種支持硬件光柵化的4D點(diǎn)云表示,能夠?qū)崿F(xiàn)前所未有的渲染速度。本文的表示基于4D特征網(wǎng)格構(gòu)建,因此點(diǎn)云被自然地正則化并可以進(jìn)行穩(wěn)健優(yōu)化。此外,設(shè)計(jì)了一種新穎的混合外觀模型,顯著提升了渲染質(zhì)量,同時(shí)保持了效率。此外,開發(fā)了一種可微分的深度剝離算法,以有效地從RGB視頻中學(xué)習(xí)所提出的模型。實(shí)驗(yàn)表明,在使用RTX 4090 GPU的情況下,本文的表示在1080p分辨率下可以在DNA-Rendering數(shù)據(jù)集上以超過400 FPS的速度進(jìn)行渲染,在4K分辨率下可以在ENeRF-Outdoor數(shù)據(jù)集上以80 FPS的速度進(jìn)行渲染,比以往方法快30倍,并實(shí)現(xiàn)了最先進(jìn)的渲染質(zhì)量。

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

方法

給定捕捉動(dòng)態(tài)3D場(chǎng)景的多視角視頻,目標(biāo)是重建目標(biāo)場(chǎng)景并實(shí)時(shí)執(zhí)行新視角合成。為此,研究者們使用空間雕刻算法提取場(chǎng)景的粗點(diǎn)云,并建立基于點(diǎn)云的神經(jīng)場(chǎng)景表示,該表示可以從輸入視頻中穩(wěn)健地學(xué)習(xí),并支持硬件加速渲染。


下圖2展示了所提模型的概述。首先描述如何基于點(diǎn)云和神經(jīng)網(wǎng)絡(luò)表示動(dòng)態(tài)場(chǎng)景的幾何和外觀。然后,開發(fā)了一種可微分深度剝離算法,用于渲染表示,該算法由硬件光柵化器支持,從而顯著提高了渲染速度。最后,討論如何在輸入RGB視頻上優(yōu)化所提模型。

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

使用點(diǎn)云建模動(dòng)態(tài)場(chǎng)景

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)


討論。本文的外觀模型是實(shí)現(xiàn)動(dòng)態(tài)場(chǎng)景的低存儲(chǔ)、高保真和實(shí)時(shí)視圖合成的關(guān)鍵。有三種替代方法來表示動(dòng)態(tài)外觀,但它們的表現(xiàn)無法與本文的模型相提并論。


  • 在每個(gè)點(diǎn)上定義顯式 SH 系數(shù),如在 3D 高斯分裂 中。當(dāng) SH 系數(shù)的維度較高且動(dòng)態(tài)場(chǎng)景的點(diǎn)數(shù)量較大時(shí),該模型的大小可能太大,無法在消費(fèi)級(jí) GPU 上訓(xùn)練。
  • 基于 MLP 的 SH 模型。使用 MLP 來預(yù)測(cè)每個(gè)點(diǎn)的 SH 系數(shù)可以有效地減少模型大小。然而,本文的實(shí)驗(yàn)發(fā)現(xiàn)基于 MLP 的 SH 模型難以渲染高質(zhì)量圖像。
  • 連續(xù)視角依賴的圖像混合模型,如 ENeRF。使用圖像混合模型表示外觀比僅使用基于 MLP 的 SH 模型具有更好的渲染質(zhì)量。然而,ENeRF 中的網(wǎng)絡(luò)將視角方向作為輸入,因此無法輕松預(yù)計(jì)算,從而限制了推理期間的渲染速度。


CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

可微分深度剝離

研究者們提出的動(dòng)態(tài)場(chǎng)景表示可以使用深度剝離算法渲染成圖像。得益于點(diǎn)云表示,能夠利用硬件光柵化器顯著加速深度剝離過程。此外,使這一渲染過程可微分也很容易,從而能夠從輸入的 RGB 視頻中學(xué)習(xí)本文的模型。


CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

訓(xùn)練

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)


為了規(guī)范,本文提出的表示優(yōu)化過程,還額外應(yīng)用mask監(jiān)督到目標(biāo)場(chǎng)景的動(dòng)態(tài)區(qū)域。僅渲染動(dòng)態(tài)區(qū)域的點(diǎn)云以獲得它們的mask,其中像素值由以下公式得到:

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

mask損失定義如下:

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)


最終的損失函數(shù)定義如下:

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

其中, 和  是控制對(duì)應(yīng)損失權(quán)重的超參數(shù)。

推理

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

實(shí)現(xiàn)細(xì)節(jié)

優(yōu)化

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

點(diǎn)云初始化

利用現(xiàn)有的多視角重建方法來初始化點(diǎn)云。對(duì)于動(dòng)態(tài)區(qū)域,使用分割方法 在輸入圖像中獲取它們的mask,并利用空間雕刻算法提取它們的粗略幾何信息。對(duì)于靜態(tài)背景區(qū)域,利用前景mask沿所有幀計(jì)算背景像素的mask加權(quán)平均,生成不包含前景內(nèi)容的背景圖像。然后,在這些圖像上訓(xùn)練一個(gè) Instant-NGP模型,從中獲取初始點(diǎn)云。初始化后,動(dòng)態(tài)區(qū)域每幀通常包含約 250k 個(gè)點(diǎn),靜態(tài)背景區(qū)域通常包含約 300k 個(gè)點(diǎn)。

實(shí)驗(yàn)

數(shù)據(jù)集和評(píng)估指標(biāo)

在多個(gè)廣泛使用的多視角數(shù)據(jù)集上訓(xùn)練和評(píng)估本文的方法 4K4D,包括 DNA-Rendering、ENeRF-Outdoor、NHR和 Neural3DV。


  • DNA-Rendering: 這個(gè)數(shù)據(jù)集使用 4K 和 2K 相機(jī)記錄了動(dòng)態(tài)人類和物體的 10 秒視頻片段,幀率為 15 FPS,采集了 60 個(gè)視角。由于錄制了復(fù)雜的服裝和快速移動(dòng)的人物,這個(gè)數(shù)據(jù)集非常具有挑戰(zhàn)性。在 DNA-Rendering 的 4 個(gè)序列上進(jìn)行實(shí)驗(yàn),其中將 90% 的視角作為訓(xùn)練集,其余作為評(píng)估集。
  • ENeRF-Outdoor: 這個(gè)數(shù)據(jù)集在室外環(huán)境中使用 1080p 相機(jī)以 30FPS 記錄了多個(gè)動(dòng)態(tài)人物和物體。選擇了三個(gè)包含 6 個(gè)不同演員(每個(gè)序列選擇了 2 個(gè)演員)的 100 幀序列來評(píng)估本文的方法 4K4D。這個(gè)數(shù)據(jù)集對(duì)于動(dòng)態(tài)視角合成具有挑戰(zhàn)性,因?yàn)橥粋€(gè)片段中不僅有多個(gè)移動(dòng)的人物和物體,而且由于人物的陰影,背景也是動(dòng)態(tài)的。


遵循 Im4D 和 NeuralBody 的做法,在 DNA-Rendering 和 NHR 數(shù)據(jù)集上評(píng)估動(dòng)態(tài)區(qū)域的指標(biāo),可以通過預(yù)定義人物的 3D 邊界框并將其投影到圖像上來獲得。對(duì)于 ENeRF-Outdoor,聯(lián)合訓(xùn)練前景的動(dòng)態(tài)幾何和外觀以及背景的動(dòng)態(tài)外觀,以獲得整體圖像的渲染結(jié)果。所有圖像在評(píng)估時(shí)都會(huì)按比例調(diào)整大小,如果原始分辨率超過 2K,則縮放比例為 0.375。在實(shí)驗(yàn)中,DNA-Rendering 的渲染圖像大小為 1024×1224(和 1125×1536),ENeRF-Outdoor 的分辨率為 960×540。Neural3DV 視頻和 NHR 的分辨率分別為 1352×1224 和 512×612(和 384×512)。

對(duì)比實(shí)驗(yàn)

對(duì)比結(jié)果在 DNA-Rendering數(shù)據(jù)集上的定性和定量比較如下圖5和表1所示。

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

從表 1 可以明顯看出,本文的方法 4K4D 的渲染速度比當(dāng)前最先進(jìn)的實(shí)時(shí)動(dòng)態(tài)視角合成方法ENeRF快30倍,并且在渲染質(zhì)量上表現(xiàn)更優(yōu)秀。即使與并行工作相比,本文的方法 4K4D 仍然實(shí)現(xiàn)了 13 倍的加速,并且能夠產(chǎn)生一致性更高質(zhì)量的圖像。如圖 5 所示,KPlanes無法恢復(fù)高度詳細(xì)的 4D 動(dòng)態(tài)場(chǎng)景的外觀和幾何特征。其他基于圖像的方法 能夠產(chǎn)生高質(zhì)量的外觀效果。然而,它們往往在遮擋和邊緣處產(chǎn)生模糊的結(jié)果,導(dǎo)致視覺質(zhì)量的降低,最多能保持交互式幀率。相反,本文的方法 4K4D 可以以超過 200 FPS 的速度生成更高保真度的渲染結(jié)果。圖 3 和表 2 提供了在 ENeRF-Outdoor數(shù)據(jù)集上的定性和定量結(jié)果。即使在具有多個(gè)演員和動(dòng)態(tài)背景的挑戰(zhàn)性 ENeRF-Outdoor 數(shù)據(jù)集上,本文的方法 4K4D 仍然能夠取得顯著更好的結(jié)果,同時(shí)以超過 140 FPS 的速度進(jìn)行渲染。ENeRF在這個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上產(chǎn)生模糊的結(jié)果,而 IBRNet的渲染結(jié)果在圖像邊緣處含有黑色偽影,如圖 3 所示。K-Planse在重建動(dòng)態(tài)人物和變化背景區(qū)域上失敗。

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

消融研究

在 DNA-Rendering數(shù)據(jù)集的 150 幀序列 0013 01 上進(jìn)行了消融研究。定性和定量結(jié)果如下圖6和表4至表7所示。

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)


存儲(chǔ)分析對(duì)于 150 幀序列 0013 01 場(chǎng)景,本文的方法 4K4D 的存儲(chǔ)分析列在表 5 中。由于其顯式表示,點(diǎn)位置 p 占據(jù)了模型尺寸的大部分。本文方法的最終存儲(chǔ)成本每幀少于 2 MB,包括源視頻。DNA-Rendering的輸入圖像以 JPEG 格式提供。使用 FFmpeg 的 HEVC 編碼器將所有輸入圖像的幀編碼為視頻,編碼質(zhì)量因子設(shè)置為 25。編碼后,觀察到 LPIPS 沒有變化(0.040),SSIM 沒有損失(0.982),PSNR 只降低了 0.42%(31.990 對(duì)比 31.855),表明方法 4K4D 對(duì)于輸入圖像的視頻編碼具有魯棒性。對(duì)于以視頻形式編碼的輸入圖像,基于圖像的渲染的存儲(chǔ)開銷每幀僅為 0.419 MB,渲染質(zhì)量幾乎沒有變化。


作者預(yù)計(jì)算了點(diǎn)云上的物理屬性以實(shí)現(xiàn)實(shí)時(shí)渲染,每幀大約需要 2 秒。盡管預(yù)計(jì)算的緩存尺寸較大(0013 01 的一幀為 200 MB),但這些預(yù)計(jì)算的緩存僅駐留在主存儲(chǔ)器中,并沒有顯式存儲(chǔ)在磁盤上,這對(duì)現(xiàn)代個(gè)人電腦來說是可行的。這使得表示形式成為一種壓縮形式,磁盤文件大小較?。繋?2 MB),但所包含的信息非常豐富(每幀 200 MB)。

渲染速度分析

本文引入了多種優(yōu)化技術(shù)來加速方法 4K4D 的渲染速度,這些技術(shù)僅由研究者們提出的混合幾何和外觀表示方法實(shí)現(xiàn)。在上面表6中,分析了這些提議技術(shù)在 DNA-Rendering 數(shù)據(jù)集的 150 幀序列 0013 01 上的有效性和質(zhì)量影響。


計(jì)算的有效性

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)


可微深度剝離本文還與傳統(tǒng)的基于 CUDA 的可微分點(diǎn)云渲染技術(shù)(PyTorch3D 提供的)進(jìn)行比較,以驗(yàn)證提出的可微分深度剝離算法的有效性。本文提出的可微分深度剝離算法和 PyTorch3D的實(shí)現(xiàn)都使用了與 Eq. (4) 相同的體積渲染方程。如表 6 所示,本文的方法比基于 CUDA 的方法快了超過 7 倍。


其他加速技術(shù)

  • “w/o fp16” 變體使用原始的 32 位浮點(diǎn)數(shù)進(jìn)行計(jì)算。
  • “w/o K = 12” 變體在深度剝離算法中使用了 15 個(gè)渲染通道,與訓(xùn)練時(shí)相同。使用 16 位浮點(diǎn)數(shù)和 12 個(gè)渲染通道都可以實(shí)現(xiàn) 20FPS 的加速。

不同GPU和分辨率上的渲染速度本文還報(bào)告了在不同硬件(RTX 3060、3090 和 4090)以及不同分辨率(720p、1080p 和 4K(2160p))上的渲染速度(見表 7)。這里報(bào)告的渲染速度包含了交互式 GUI 的開銷(“w/ GUI”),因此略低于報(bào)告的速度。4K4D 即使在使用普通硬件渲染 4K(2160p)圖像時(shí)也能實(shí)現(xiàn)實(shí)時(shí)渲染,如表中所示。

結(jié)論與討論

本文提出了一種基于神經(jīng)點(diǎn)云的表示方法,稱為4K4D,用于實(shí)時(shí)渲染4K分辨率的動(dòng)態(tài)3D場(chǎng)景。在4D特征網(wǎng)格上構(gòu)建了4K4D,以自然地規(guī)范化點(diǎn),并開發(fā)了一種新穎的混合外觀模型,用于高質(zhì)量渲染。此外,本文開發(fā)了一種可微分深度剝離算法,利用硬件光柵化流水線有效優(yōu)化和高效渲染所提出的模型。在實(shí)驗(yàn)中,展示了4K4D不僅實(shí)現(xiàn)了最先進(jìn)的渲染質(zhì)量,而且在渲染速度上表現(xiàn)出了超過30倍的提升(在RTX 3090上,1080p分辨率超過200FPS)。


然而,本文的方法仍然存在一些局限性。4K4D無法生成跨幀的點(diǎn)對(duì)應(yīng)關(guān)系,這對(duì)于某些下游任務(wù)至關(guān)重要。此外,4K4D的存儲(chǔ)成本隨視頻幀數(shù)線性增加,因此在建模長(zhǎng)體積視頻時(shí)會(huì)面臨困難。如何建模點(diǎn)對(duì)應(yīng)關(guān)系和減少長(zhǎng)視頻的存儲(chǔ)成本,可能是未來研究中的兩個(gè)有趣問題。


本文轉(zhuǎn)自 AI生成未來 ,作者:Zhen Xu等


原文鏈接:??https://mp.weixin.qq.com/s/kIXF_o61seriih7En1-ZGQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦