偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成

發(fā)布于 2024-7-4 10:07

瀏覽

0收藏

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2310.11448
git鏈接：https://zju3dv.github.io/4k4d/

本文旨在實(shí)現(xiàn)動(dòng)態(tài)3D場(chǎng)景在4K分辨率下的高保真和實(shí)時(shí)視圖合成。最近，一些動(dòng)態(tài)視圖合成方法在渲染質(zhì)量方面表現(xiàn)出色。然而，在渲染高分辨率圖像時(shí)，它們的速度仍然有限。為解決這個(gè)問題，本文提出了4K4D，一種支持硬件光柵化的4D點(diǎn)云表示，能夠?qū)崿F(xiàn)前所未有的渲染速度。本文的表示基于4D特征網(wǎng)格構(gòu)建，因此點(diǎn)云被自然地正則化并可以進(jìn)行穩(wěn)健優(yōu)化。此外，設(shè)計(jì)了一種新穎的混合外觀模型，顯著提升了渲染質(zhì)量，同時(shí)保持了效率。此外，開發(fā)了一種可微分的深度剝離算法，以有效地從RGB視頻中學(xué)習(xí)所提出的模型。實(shí)驗(yàn)表明，在使用RTX 4090 GPU的情況下，本文的表示在1080p分辨率下可以在DNA-Rendering數(shù)據(jù)集上以超過400 FPS的速度進(jìn)行渲染，在4K分辨率下可以在ENeRF-Outdoor數(shù)據(jù)集上以80 FPS的速度進(jìn)行渲染，比以往方法快30倍，并實(shí)現(xiàn)了最先進(jìn)的渲染質(zhì)量。

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

方法

給定捕捉動(dòng)態(tài)3D場(chǎng)景的多視角視頻，目標(biāo)是重建目標(biāo)場(chǎng)景并實(shí)時(shí)執(zhí)行新視角合成。為此，研究者們使用空間雕刻算法提取場(chǎng)景的粗點(diǎn)云，并建立基于點(diǎn)云的神經(jīng)場(chǎng)景表示，該表示可以從輸入視頻中穩(wěn)健地學(xué)習(xí)，并支持硬件加速渲染。

下圖2展示了所提模型的概述。首先描述如何基于點(diǎn)云和神經(jīng)網(wǎng)絡(luò)表示動(dòng)態(tài)場(chǎng)景的幾何和外觀。然后，開發(fā)了一種可微分深度剝離算法，用于渲染表示，該算法由硬件光柵化器支持，從而顯著提高了渲染速度。最后，討論如何在輸入RGB視頻上優(yōu)化所提模型。

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

使用點(diǎn)云建模動(dòng)態(tài)場(chǎng)景

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

討論。本文的外觀模型是實(shí)現(xiàn)動(dòng)態(tài)場(chǎng)景的低存儲(chǔ)、高保真和實(shí)時(shí)視圖合成的關(guān)鍵。有三種替代方法來表示動(dòng)態(tài)外觀，但它們的表現(xiàn)無法與本文的模型相提并論。

在每個(gè)點(diǎn)上定義顯式 SH 系數(shù)，如在 3D 高斯分裂中。當(dāng) SH 系數(shù)的維度較高且動(dòng)態(tài)場(chǎng)景的點(diǎn)數(shù)量較大時(shí)，該模型的大小可能太大，無法在消費(fèi)級(jí) GPU 上訓(xùn)練。
基于 MLP 的 SH 模型。使用 MLP 來預(yù)測(cè)每個(gè)點(diǎn)的 SH 系數(shù)可以有效地減少模型大小。然而，本文的實(shí)驗(yàn)發(fā)現(xiàn)基于 MLP 的 SH 模型難以渲染高質(zhì)量圖像。
連續(xù)視角依賴的圖像混合模型，如 ENeRF。使用圖像混合模型表示外觀比僅使用基于 MLP 的 SH 模型具有更好的渲染質(zhì)量。然而，ENeRF 中的網(wǎng)絡(luò)將視角方向作為輸入，因此無法輕松預(yù)計(jì)算，從而限制了推理期間的渲染速度。

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

可微分深度剝離

研究者們提出的動(dòng)態(tài)場(chǎng)景表示可以使用深度剝離算法渲染成圖像。得益于點(diǎn)云表示，能夠利用硬件光柵化器顯著加速深度剝離過程。此外，使這一渲染過程可微分也很容易，從而能夠從輸入的 RGB 視頻中學(xué)習(xí)本文的模型。

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

訓(xùn)練

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

為了規(guī)范，本文提出的表示優(yōu)化過程，還額外應(yīng)用mask監(jiān)督到目標(biāo)場(chǎng)景的動(dòng)態(tài)區(qū)域。僅渲染動(dòng)態(tài)區(qū)域的點(diǎn)云以獲得它們的mask，其中像素值由以下公式得到：

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

mask損失定義如下：

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

最終的損失函數(shù)定義如下：

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

其中，和是控制對(duì)應(yīng)損失權(quán)重的超參數(shù)。

推理

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

實(shí)現(xiàn)細(xì)節(jié)

優(yōu)化

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

點(diǎn)云初始化

利用現(xiàn)有的多視角重建方法來初始化點(diǎn)云。對(duì)于動(dòng)態(tài)區(qū)域，使用分割方法在輸入圖像中獲取它們的mask，并利用空間雕刻算法提取它們的粗略幾何信息。對(duì)于靜態(tài)背景區(qū)域，利用前景mask沿所有幀計(jì)算背景像素的mask加權(quán)平均，生成不包含前景內(nèi)容的背景圖像。然后，在這些圖像上訓(xùn)練一個(gè) Instant-NGP模型，從中獲取初始點(diǎn)云。初始化后，動(dòng)態(tài)區(qū)域每幀通常包含約 250k 個(gè)點(diǎn)，靜態(tài)背景區(qū)域通常包含約 300k 個(gè)點(diǎn)。

實(shí)驗(yàn)

數(shù)據(jù)集和評(píng)估指標(biāo)

在多個(gè)廣泛使用的多視角數(shù)據(jù)集上訓(xùn)練和評(píng)估本文的方法 4K4D，包括 DNA-Rendering、ENeRF-Outdoor、NHR和 Neural3DV。

DNA-Rendering: 這個(gè)數(shù)據(jù)集使用 4K 和 2K 相機(jī)記錄了動(dòng)態(tài)人類和物體的 10 秒視頻片段，幀率為 15 FPS，采集了 60 個(gè)視角。由于錄制了復(fù)雜的服裝和快速移動(dòng)的人物，這個(gè)數(shù)據(jù)集非常具有挑戰(zhàn)性。在 DNA-Rendering 的 4 個(gè)序列上進(jìn)行實(shí)驗(yàn)，其中將 90% 的視角作為訓(xùn)練集，其余作為評(píng)估集。
ENeRF-Outdoor: 這個(gè)數(shù)據(jù)集在室外環(huán)境中使用 1080p 相機(jī)以 30FPS 記錄了多個(gè)動(dòng)態(tài)人物和物體。選擇了三個(gè)包含 6 個(gè)不同演員（每個(gè)序列選擇了 2 個(gè)演員）的 100 幀序列來評(píng)估本文的方法 4K4D。這個(gè)數(shù)據(jù)集對(duì)于動(dòng)態(tài)視角合成具有挑戰(zhàn)性，因?yàn)橥粋€(gè)片段中不僅有多個(gè)移動(dòng)的人物和物體，而且由于人物的陰影，背景也是動(dòng)態(tài)的。

遵循 Im4D 和 NeuralBody 的做法，在 DNA-Rendering 和 NHR 數(shù)據(jù)集上評(píng)估動(dòng)態(tài)區(qū)域的指標(biāo)，可以通過預(yù)定義人物的 3D 邊界框并將其投影到圖像上來獲得。對(duì)于 ENeRF-Outdoor，聯(lián)合訓(xùn)練前景的動(dòng)態(tài)幾何和外觀以及背景的動(dòng)態(tài)外觀，以獲得整體圖像的渲染結(jié)果。所有圖像在評(píng)估時(shí)都會(huì)按比例調(diào)整大小，如果原始分辨率超過 2K，則縮放比例為 0.375。在實(shí)驗(yàn)中，DNA-Rendering 的渲染圖像大小為 1024×1224（和 1125×1536），ENeRF-Outdoor 的分辨率為 960×540。Neural3DV 視頻和 NHR 的分辨率分別為 1352×1224 和 512×612（和 384×512）。

對(duì)比實(shí)驗(yàn)

對(duì)比結(jié)果在 DNA-Rendering數(shù)據(jù)集上的定性和定量比較如下圖5和表1所示。

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

從表 1 可以明顯看出，本文的方法 4K4D 的渲染速度比當(dāng)前最先進(jìn)的實(shí)時(shí)動(dòng)態(tài)視角合成方法ENeRF快30倍，并且在渲染質(zhì)量上表現(xiàn)更優(yōu)秀。即使與并行工作相比，本文的方法 4K4D 仍然實(shí)現(xiàn)了 13 倍的加速，并且能夠產(chǎn)生一致性更高質(zhì)量的圖像。如圖 5 所示，KPlanes無法恢復(fù)高度詳細(xì)的 4D 動(dòng)態(tài)場(chǎng)景的外觀和幾何特征。其他基于圖像的方法能夠產(chǎn)生高質(zhì)量的外觀效果。然而，它們往往在遮擋和邊緣處產(chǎn)生模糊的結(jié)果，導(dǎo)致視覺質(zhì)量的降低，最多能保持交互式幀率。相反，本文的方法 4K4D 可以以超過 200 FPS 的速度生成更高保真度的渲染結(jié)果。圖 3 和表 2 提供了在 ENeRF-Outdoor數(shù)據(jù)集上的定性和定量結(jié)果。即使在具有多個(gè)演員和動(dòng)態(tài)背景的挑戰(zhàn)性 ENeRF-Outdoor 數(shù)據(jù)集上，本文的方法 4K4D 仍然能夠取得顯著更好的結(jié)果，同時(shí)以超過 140 FPS 的速度進(jìn)行渲染。ENeRF在這個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上產(chǎn)生模糊的結(jié)果，而 IBRNet的渲染結(jié)果在圖像邊緣處含有黑色偽影，如圖 3 所示。K-Planse在重建動(dòng)態(tài)人物和變化背景區(qū)域上失敗。

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

消融研究

在 DNA-Rendering數(shù)據(jù)集的 150 幀序列 0013 01 上進(jìn)行了消融研究。定性和定量結(jié)果如下圖6和表4至表7所示。

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

存儲(chǔ)分析對(duì)于 150 幀序列 0013 01 場(chǎng)景，本文的方法 4K4D 的存儲(chǔ)分析列在表 5 中。由于其顯式表示，點(diǎn)位置 p 占據(jù)了模型尺寸的大部分。本文方法的最終存儲(chǔ)成本每幀少于 2 MB，包括源視頻。DNA-Rendering的輸入圖像以 JPEG 格式提供。使用 FFmpeg 的 HEVC 編碼器將所有輸入圖像的幀編碼為視頻，編碼質(zhì)量因子設(shè)置為 25。編碼后，觀察到 LPIPS 沒有變化（0.040），SSIM 沒有損失（0.982），PSNR 只降低了 0.42%（31.990 對(duì)比 31.855），表明方法 4K4D 對(duì)于輸入圖像的視頻編碼具有魯棒性。對(duì)于以視頻形式編碼的輸入圖像，基于圖像的渲染的存儲(chǔ)開銷每幀僅為 0.419 MB，渲染質(zhì)量幾乎沒有變化。

作者預(yù)計(jì)算了點(diǎn)云上的物理屬性以實(shí)現(xiàn)實(shí)時(shí)渲染，每幀大約需要 2 秒。盡管預(yù)計(jì)算的緩存尺寸較大（0013 01 的一幀為 200 MB），但這些預(yù)計(jì)算的緩存僅駐留在主存儲(chǔ)器中，并沒有顯式存儲(chǔ)在磁盤上，這對(duì)現(xiàn)代個(gè)人電腦來說是可行的。這使得表示形式成為一種壓縮形式，磁盤文件大小較?。繋?2 MB），但所包含的信息非常豐富（每幀 200 MB）。

渲染速度分析

本文引入了多種優(yōu)化技術(shù)來加速方法 4K4D 的渲染速度，這些技術(shù)僅由研究者們提出的混合幾何和外觀表示方法實(shí)現(xiàn)。在上面表6中，分析了這些提議技術(shù)在 DNA-Rendering 數(shù)據(jù)集的 150 幀序列 0013 01 上的有效性和質(zhì)量影響。

計(jì)算的有效性

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成-AI.x社區(qū)

可微深度剝離本文還與傳統(tǒng)的基于 CUDA 的可微分點(diǎn)云渲染技術(shù)（PyTorch3D 提供的）進(jìn)行比較，以驗(yàn)證提出的可微分深度剝離算法的有效性。本文提出的可微分深度剝離算法和 PyTorch3D的實(shí)現(xiàn)都使用了與 Eq. (4) 相同的體積渲染方程。如表 6 所示，本文的方法比基于 CUDA 的方法快了超過 7 倍。

其他加速技術(shù)

“w/o fp16” 變體使用原始的 32 位浮點(diǎn)數(shù)進(jìn)行計(jì)算。
“w/o K = 12” 變體在深度剝離算法中使用了 15 個(gè)渲染通道，與訓(xùn)練時(shí)相同。使用 16 位浮點(diǎn)數(shù)和 12 個(gè)渲染通道都可以實(shí)現(xiàn) 20FPS 的加速。

不同GPU和分辨率上的渲染速度本文還報(bào)告了在不同硬件（RTX 3060、3090 和 4090）以及不同分辨率（720p、1080p 和 4K（2160p））上的渲染速度（見表 7）。這里報(bào)告的渲染速度包含了交互式 GUI 的開銷（“w/ GUI”），因此略低于報(bào)告的速度。4K4D 即使在使用普通硬件渲染 4K（2160p）圖像時(shí)也能實(shí)現(xiàn)實(shí)時(shí)渲染，如表中所示。

結(jié)論與討論

本文提出了一種基于神經(jīng)點(diǎn)云的表示方法，稱為4K4D，用于實(shí)時(shí)渲染4K分辨率的動(dòng)態(tài)3D場(chǎng)景。在4D特征網(wǎng)格上構(gòu)建了4K4D，以自然地規(guī)范化點(diǎn)，并開發(fā)了一種新穎的混合外觀模型，用于高質(zhì)量渲染。此外，本文開發(fā)了一種可微分深度剝離算法，利用硬件光柵化流水線有效優(yōu)化和高效渲染所提出的模型。在實(shí)驗(yàn)中，展示了4K4D不僅實(shí)現(xiàn)了最先進(jìn)的渲染質(zhì)量，而且在渲染速度上表現(xiàn)出了超過30倍的提升（在RTX 3090上，1080p分辨率超過200FPS）。

然而，本文的方法仍然存在一些局限性。4K4D無法生成跨幀的點(diǎn)對(duì)應(yīng)關(guān)系，這對(duì)于某些下游任務(wù)至關(guān)重要。此外，4K4D的存儲(chǔ)成本隨視頻幀數(shù)線性增加，因此在建模長(zhǎng)體積視頻時(shí)會(huì)面臨困難。如何建模點(diǎn)對(duì)應(yīng)關(guān)系和減少長(zhǎng)視頻的存儲(chǔ)成本，可能是未來研究中的兩個(gè)有趣問題。

本文轉(zhuǎn)自 AI生成未來，作者：Zhen Xu等

原文鏈接:??https://mp.weixin.qq.com/s/kIXF_o61seriih7En1-ZGQ??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

LiDAR仿真新思路 | LidarDM：助力4D世界生成，仿真殺器~

qbhua ? 3642瀏覽 ? 0回復(fù)
SealTool：Agent微調(diào)與評(píng)測(cè)的開源項(xiàng)目（14k樣本，4k工具），比ToolBench等更全面！

PaperAgent ? 6474瀏覽 ? 0回復(fù)
CVPR`24 | 4D編輯哪家強(qiáng)？浙大首次提出通用指導(dǎo)4D編輯框架：Instruct 4D-to-4D

angel ? 4715瀏覽 ? 0回復(fù)
靠Scaling Laws煉出4D版視頻生成模型，多倫多大學(xué)北交大等攜手開源81K高質(zhì)量數(shù)據(jù)集

Crystalcxt ? 3350瀏覽 ? 0回復(fù)
ACM MM24 | Hi3D: 3D生成領(lǐng)域再突破！新視角生成和高分辨率生成雙SOTA(復(fù)旦&智象等)

angel ? 3927瀏覽 ? 0回復(fù)
生成任意3D和4D場(chǎng)景！GenXD：通用3D-4D聯(lián)合生成框架 | 新加坡國(guó)立&微軟

angel ? 3978瀏覽 ? 0回復(fù)
斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù)，精準(zhǔn)描繪3D/4D世界!

angel ? 3922瀏覽 ? 0回復(fù)
實(shí)現(xiàn)任意3D/4D場(chǎng)景生成！港科大&清華&生數(shù)發(fā)布DimensionX

angel ? 6774瀏覽 ? 0回復(fù)
首次實(shí)現(xiàn)8K圖像生成！FreeScale讓擴(kuò)散模型解鎖更高分辨率！

angel ? 3745瀏覽 ? 0回復(fù)
Hugging Face 發(fā)布 Picotron：解決 LLM 訓(xùn)練 4D 并行化的微型框架

Halo咯咯 ? 3513瀏覽 ? 0回復(fù)
從低清到4K的魔法：FlashVideo突破高分辨率視頻生成計(jì)算瓶頸(港大&港中文&字節(jié))

angel ? 3690瀏覽 ? 0回復(fù)
高分辨率3D人生成超簡(jiǎn)單!Pippo:Meta最新工作首次完成1K分辨率一致多視角人物圖像生成

angel ? 4463瀏覽 ? 0回復(fù)
首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)

angel ? 4988瀏覽 ? 0回復(fù)
一份4D生成領(lǐng)域超全景圖譜?。▽?duì)象建模、場(chǎng)景生成、數(shù)字人、4D編輯和自動(dòng)駕駛）

angel ? 2866瀏覽 ? 0回復(fù)
首篇綜述打通2D→視頻→3D→4D生成全鏈路！

zhangyannni ? 2860瀏覽 ? 0回復(fù)
ICCV 2025｜單視頻生成動(dòng)態(tài)4D場(chǎng)景！中科大&微軟突破4D生成瓶頸，動(dòng)畫效果炸裂來襲！

zhangyannni ? 3934瀏覽 ? 0回復(fù)
4D生成爆款來了！南洋理工&上海AI Lab發(fā)布4DNeX: 單圖生成4D動(dòng)態(tài)世界，效率碾壓

zhangyannni ? 2926瀏覽 ? 0回復(fù)
InfGen讓圖像生成進(jìn)入“任意分辨率”時(shí)代：4K圖像7秒生成，速度狂飆10倍！

zhangyannni ? 1921瀏覽 ? 0回復(fù)
性能追平 Sonnet 4，速度快 2 倍，成本效益炸裂

Halo咯咯 ? 1788瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴(kuò)散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預(yù)測(cè)未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

別再怪AI“聽不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對(duì)話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

上一篇：海報(bào)生成如此簡(jiǎn)單！OPPO聯(lián)合港中文發(fā)布基于LLM的端到端方案GlyphDraw2

下一篇：大語言模型的前世今生：萬字長(zhǎng)文完整梳理所有里程碑式大語言模型（LLMs）

社區(qū)精華內(nèi)容

目錄

^{<blockquote id="p4cjn"></blockquote>}