偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

視頻擴(kuò)散模型新突破!清華騰訊聯(lián)合實(shí)現(xiàn)高保真3D生成,告別多視圖依賴

人工智能 新聞
清華大學(xué)聯(lián)合騰訊提出Scene Splatter——從一張圖像出發(fā),基于自定義的相機(jī)軌跡探索三維場景。

三維場景是構(gòu)建世界模型、具身智能等前沿科技的關(guān)鍵環(huán)節(jié)之一。

盡管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等生成模型已在三維生成領(lǐng)域取得顯著進(jìn)展,但其往往聚焦在物體級(jí)別內(nèi)容生成,難以實(shí)現(xiàn)復(fù)雜三維場景的構(gòu)建。

清華大學(xué)聯(lián)合騰訊提出Scene Splatter——從一張圖像出發(fā),基于自定義的相機(jī)軌跡探索三維場景。

基于視頻擴(kuò)散模型,創(chuàng)新性地從動(dòng)量的視角出發(fā),引導(dǎo)視頻擴(kuò)散模型生成滿足三維一致性的視頻片段,大幅提升三維場景生成效果。

圖片

視頻生成模型的困境

基于單張圖片恢復(fù)三維場景是一個(gè)病態(tài)(ill-posed)問題。

傳統(tǒng)三維重建方法依賴多視角圖像的匹配與計(jì)算,而在單張圖片的條件下,缺少幾何約束,使得重建的場景存在結(jié)構(gòu)扭曲、缺失和飄浮等問題。

為了解決這一問題,引入視頻擴(kuò)散模型強(qiáng)大的生成先驗(yàn)為場景補(bǔ)充多視角的信息,再利用成熟的多視角重建技術(shù)恢復(fù)三維場景,成為一條前景可觀的道路。

然而,受到視頻生成模型能力的制約,其生成內(nèi)容難以保持充分的三維一致性。

圖片

Flash3D為重建方法,未引入生成信息,存在失真和遮擋的問題。

而CogVideo和ViewCrafter雖然具備生成能力,但會(huì)改變場景的顏色風(fēng)格和內(nèi)容。

動(dòng)量引導(dǎo)的視頻生成

由于現(xiàn)有方法普遍存在視頻長度受限和場景一致性差的問題,后續(xù)重建的過程中容易出現(xiàn)偽影與失真。

Scene Splatter受到動(dòng)量算法的啟發(fā),構(gòu)建了級(jí)聯(lián)式的動(dòng)量引導(dǎo)視頻生成

第一級(jí)是從原始特征中構(gòu)建噪聲樣本,作為動(dòng)量添加到去噪得到的特征中,通過自適應(yīng)的參數(shù)來控制動(dòng)量強(qiáng)度,以增強(qiáng)視頻細(xì)節(jié)并保持場景的一致性。

然而,再感知范圍覆蓋已知與未知區(qū)域的潛在特征中,這種基于潛空間的動(dòng)量會(huì)限制擴(kuò)散模型再未知區(qū)域的生成能力。

因此,第二級(jí)進(jìn)一步引入上述一致性強(qiáng)的視頻作為像素級(jí)動(dòng)量,將其與不含動(dòng)量直接生成的視頻融合,以更好地恢復(fù)未知區(qū)域信息。

通過這種級(jí)聯(lián)式動(dòng)量機(jī)制,Scene Splatter能夠引導(dǎo)視頻擴(kuò)散模型生成具有高保真度和一致性的多視角新視頻。

圖片△Scene Splatter流程圖。

Scene Splatter首先利用高斯預(yù)測模型進(jìn)行場景初始化,隨后根據(jù)自定義的相機(jī)軌跡進(jìn)行渲染,并使用動(dòng)量引導(dǎo)的視頻模型生成高質(zhì)量視頻,基于視頻的多視角信息進(jìn)行重建。

得到多視角新視頻后,對(duì)全局高斯表示進(jìn)行微調(diào),利用增強(qiáng)的視頻幀來優(yōu)化高斯表示,并在新視角進(jìn)行渲染,以支持后續(xù)的動(dòng)量更新。

通過逐步迭代,Scene Splatter可以實(shí)現(xiàn)對(duì)三維場景的逐步恢復(fù),突破視頻生成模型再長度上的限制。

性能展示

圖片△Scene Splatter在補(bǔ)全場景的同時(shí)保持三維一致性。

通過在不同圖像風(fēng)格和相機(jī)軌跡上的實(shí)驗(yàn),可以發(fā)現(xiàn)。Flash3D從單輸入中無法獲得明確的幾何線索,導(dǎo)致第1行第2列中的桌子和椅子出現(xiàn)變形。此外,它也無法恢復(fù)未見區(qū)域,這在第4行第2列的縮放設(shè)置中很明顯。

ViewCrafte和CogVideoX可以增強(qiáng)輸入幀,但存在場景不一致的問題,這導(dǎo)致進(jìn)一步重建時(shí)出現(xiàn)沖突。例如,第1行中CogVideoX生成的椅子與輸入圖像不同,第3行中ViewCrafter改變了場景的顏色風(fēng)格。

而Scene Splatter可以在保持場景一致性的同時(shí)提供高質(zhì)量的觀察結(jié)果。從卡通到真實(shí)圖像,從室內(nèi)到室外場景的各種輸入風(fēng)格,均可以很好地平衡模型的生成能力與一致性。

圖片

△Scene Splatter支持任意相機(jī)軌跡的場景探索。

此外,模型能夠很好地泛化到不同的相機(jī)軌跡中,支持任意視角軌跡的三維探索。

圖片△Scene Splatter消融研究的可視化結(jié)果。

通過消融實(shí)驗(yàn),可以看出,在沒有任何生成先驗(yàn)知識(shí)的情況下,Scene Splatter會(huì)退化為Flash3D,其中第5列的渲染結(jié)果在幾何形狀上存在扭曲,因?yàn)樵趩文吭O(shè)置下深度估計(jì)并非完全監(jiān)督。這個(gè)問題導(dǎo)致PSNR降低了3.67dB,SSIM降低了0.126。

第3列顯示,缺乏潛在層動(dòng)量會(huì)導(dǎo)致現(xiàn)有組件發(fā)生變化,表明潛在層動(dòng)量能夠保持場景一致性。

移除Scene Splatter的像素級(jí)動(dòng)量,發(fā)現(xiàn)缺乏像素級(jí)動(dòng)量限制了擴(kuò)散模型的生成能力,導(dǎo)致PSNR降低了3.5dB,SSIM降低了0.111。

論文:https://arxiv.org/abs/2504.02764

代碼:https://github.com/shengjun-zhang/Scene-Splatter

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-01-07 08:40:00

視頻生成AI

2024-12-23 15:46:59

2024-09-10 11:21:30

2023-12-29 13:18:23

模型NeRFTICD

2023-10-10 12:31:26

AI數(shù)據(jù)

2023-09-21 12:33:31

3DAI

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2025-04-09 13:11:27

2025-01-08 14:45:22

2023-09-27 10:13:09

3D模型

2025-02-24 10:40:00

3D模型生成

2024-01-29 06:50:00

3D模型

2023-11-27 13:43:00

AI模型

2025-04-01 09:40:00

2024-07-16 12:02:11

2024-03-20 00:00:00

StabilityAI開源人工智能

2025-01-03 10:00:00

3D自動(dòng)駕駛生成

2023-06-20 16:26:21

2024-09-27 17:58:26

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)