偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

視頻擴散模型新突破!清華騰訊聯(lián)合實現(xiàn)高保真3D生成,告別多視圖依賴

人工智能 新聞
清華大學聯(lián)合騰訊提出Scene Splatter——從一張圖像出發(fā),基于自定義的相機軌跡探索三維場景。

三維場景是構建世界模型、具身智能等前沿科技的關鍵環(huán)節(jié)之一。

盡管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等生成模型已在三維生成領域取得顯著進展,但其往往聚焦在物體級別內(nèi)容生成,難以實現(xiàn)復雜三維場景的構建。

清華大學聯(lián)合騰訊提出Scene Splatter——從一張圖像出發(fā),基于自定義的相機軌跡探索三維場景。

基于視頻擴散模型,創(chuàng)新性地從動量的視角出發(fā),引導視頻擴散模型生成滿足三維一致性的視頻片段,大幅提升三維場景生成效果。

圖片

視頻生成模型的困境

基于單張圖片恢復三維場景是一個病態(tài)(ill-posed)問題。

傳統(tǒng)三維重建方法依賴多視角圖像的匹配與計算,而在單張圖片的條件下,缺少幾何約束,使得重建的場景存在結構扭曲、缺失和飄浮等問題。

為了解決這一問題,引入視頻擴散模型強大的生成先驗為場景補充多視角的信息,再利用成熟的多視角重建技術恢復三維場景,成為一條前景可觀的道路。

然而,受到視頻生成模型能力的制約,其生成內(nèi)容難以保持充分的三維一致性。

圖片

Flash3D為重建方法,未引入生成信息,存在失真和遮擋的問題。

而CogVideo和ViewCrafter雖然具備生成能力,但會改變場景的顏色風格和內(nèi)容。

動量引導的視頻生成

由于現(xiàn)有方法普遍存在視頻長度受限和場景一致性差的問題,后續(xù)重建的過程中容易出現(xiàn)偽影與失真。

Scene Splatter受到動量算法的啟發(fā),構建了級聯(lián)式的動量引導視頻生成

第一級是從原始特征中構建噪聲樣本,作為動量添加到去噪得到的特征中,通過自適應的參數(shù)來控制動量強度,以增強視頻細節(jié)并保持場景的一致性。

然而,再感知范圍覆蓋已知與未知區(qū)域的潛在特征中,這種基于潛空間的動量會限制擴散模型再未知區(qū)域的生成能力。

因此,第二級進一步引入上述一致性強的視頻作為像素級動量,將其與不含動量直接生成的視頻融合,以更好地恢復未知區(qū)域信息。

通過這種級聯(lián)式動量機制,Scene Splatter能夠引導視頻擴散模型生成具有高保真度和一致性的多視角新視頻。

圖片△Scene Splatter流程圖。

Scene Splatter首先利用高斯預測模型進行場景初始化,隨后根據(jù)自定義的相機軌跡進行渲染,并使用動量引導的視頻模型生成高質(zhì)量視頻,基于視頻的多視角信息進行重建。

得到多視角新視頻后,對全局高斯表示進行微調(diào),利用增強的視頻幀來優(yōu)化高斯表示,并在新視角進行渲染,以支持后續(xù)的動量更新。

通過逐步迭代,Scene Splatter可以實現(xiàn)對三維場景的逐步恢復,突破視頻生成模型再長度上的限制。

性能展示

圖片△Scene Splatter在補全場景的同時保持三維一致性。

通過在不同圖像風格和相機軌跡上的實驗,可以發(fā)現(xiàn)。Flash3D從單輸入中無法獲得明確的幾何線索,導致第1行第2列中的桌子和椅子出現(xiàn)變形。此外,它也無法恢復未見區(qū)域,這在第4行第2列的縮放設置中很明顯。

ViewCrafte和CogVideoX可以增強輸入幀,但存在場景不一致的問題,這導致進一步重建時出現(xiàn)沖突。例如,第1行中CogVideoX生成的椅子與輸入圖像不同,第3行中ViewCrafter改變了場景的顏色風格。

而Scene Splatter可以在保持場景一致性的同時提供高質(zhì)量的觀察結果。從卡通到真實圖像,從室內(nèi)到室外場景的各種輸入風格,均可以很好地平衡模型的生成能力與一致性。

圖片

△Scene Splatter支持任意相機軌跡的場景探索。

此外,模型能夠很好地泛化到不同的相機軌跡中,支持任意視角軌跡的三維探索。

圖片△Scene Splatter消融研究的可視化結果。

通過消融實驗,可以看出,在沒有任何生成先驗知識的情況下,Scene Splatter會退化為Flash3D,其中第5列的渲染結果在幾何形狀上存在扭曲,因為在單目設置下深度估計并非完全監(jiān)督。這個問題導致PSNR降低了3.67dB,SSIM降低了0.126。

第3列顯示,缺乏潛在層動量會導致現(xiàn)有組件發(fā)生變化,表明潛在層動量能夠保持場景一致性。

移除Scene Splatter的像素級動量,發(fā)現(xiàn)缺乏像素級動量限制了擴散模型的生成能力,導致PSNR降低了3.5dB,SSIM降低了0.111。

論文:https://arxiv.org/abs/2504.02764

代碼:https://github.com/shengjun-zhang/Scene-Splatter

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-01-07 08:40:00

視頻生成AI

2024-12-23 15:46:59

2024-09-10 11:21:30

2023-12-29 13:18:23

模型NeRFTICD

2023-10-10 12:31:26

AI數(shù)據(jù)

2023-09-21 12:33:31

3DAI

2025-04-09 13:11:27

2021-08-13 15:07:02

模型人工智能深度學習

2025-01-08 14:45:22

2023-09-27 10:13:09

3D模型

2025-04-01 09:40:00

2025-02-24 10:40:00

3D模型生成

2024-09-27 17:58:26

2023-11-27 13:43:00

AI模型

2024-01-29 06:50:00

3D模型

2024-03-20 00:00:00

StabilityAI開源人工智能

2024-07-16 12:02:11

2023-06-20 16:26:21

2025-01-03 10:00:00

3D自動駕駛生成
點贊
收藏

51CTO技術棧公眾號