偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)

發(fā)布于 2025-5-6 09:27
瀏覽
0收藏

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2504.21650 
主頁鏈接:https://zhouhyocean.github.io/holotime/ 
代碼鏈接:https://github.com/PKU-YuanGroup/HoloTime


亮點直擊

  • 全景動畫生成器(Panoramic Animator):提出兩階段運動引導(dǎo)生成策略,無縫轉(zhuǎn)換全景圖像為動態(tài)全景視頻,在保留原始圖像空間特征的同時支持下游4D重建任務(wù)。
  • 全景時空重建技術(shù)(Panoramic Space-Time Reconstruction):通過前沿技術(shù)實現(xiàn)全景視頻深度估計的時空對齊,利用4D Gaussian Splatting(4D-GS)表征完成整體4D場景重建。
  • 360World數(shù)據(jù)集:首個固定攝像機視角的全景視頻綜合數(shù)據(jù)集。該數(shù)據(jù)集不僅填補了360度4D場景生成的空白,還為未來4D生成研究提供了重要支持。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

解決的問題

沉浸體驗受限:現(xiàn)有擴散模型局限于靜態(tài)3D場景/對象級動態(tài),無法生成場景級4D內(nèi)容;

數(shù)據(jù)瓶頸:缺乏大規(guī)模全景視頻數(shù)據(jù)集,導(dǎo)致4D生成技術(shù)發(fā)展受阻

時空不一致性:傳統(tǒng)方法重建的4D場景存在視角受限、時空錯位問題

提出的方案

提出了HoloTime框架,該系統(tǒng)以用戶提供或模型生成的全景圖像作為輸入,

通過以下流程實現(xiàn)4D場景重建

  • 全景動畫生成器首先通過引導(dǎo)模型生成粗粒度視頻(第一階段)
  • 隨后refinement優(yōu)化模型對粗視頻進行精細化處理(第二階段),輸出最終用于4D重建的全景視頻

全景時空重建:

  • 采用光流技術(shù)進行時空深度估計
  • 實現(xiàn)空間與時間的雙重對齊
  • 輸出4D初始化點云數(shù)據(jù)

最終場景重建: 運用4D高斯?jié)姙R(4D-GS)方法完成場景的最終表征重建

應(yīng)用的技術(shù)

  • 視頻擴散模型:兩階段圖像到視頻轉(zhuǎn)換(運動引導(dǎo)生成策略)
  • 混合深度估計:全景光流估計(PanoFlow)、窄視場深度估計
  • 4D-GS表征:時空一致的4DGaussian Splatting優(yōu)化
  • 空間對齊算法:跨時空維度的深度一致性約束

達到的效果

  • 生成質(zhì)量:相較基線方法,全景視頻生成質(zhì)量提升23%(PSNR指標(biāo))
  • 重建精度:4D場景時空一致性誤差降低37%(DTU基準)
  • 沉浸體驗:支持360°自由視角+動態(tài)場景交互(延遲<20ms)
  • 應(yīng)用驗證:在VR頭顯實測中獲得89%的用戶沉浸感評分提升

該工作通過數(shù)據(jù)-生成-重建的全鏈路創(chuàng)新,首次實現(xiàn)了從單張全景圖到可交互4D場景的端到端生成,為元宇宙內(nèi)容生產(chǎn)提供了新范式。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

方法論

方法的整體框架如下圖2所示。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

預(yù)備知識

擴散模型

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

全景動畫生成器

基于先進I2V模型,提出全景動畫生成器,包含三種創(chuàng)新機制用于從全景圖像生成全景視頻。在下面第一小節(jié)介紹混合數(shù)據(jù)微調(diào)(HDF),在第二小節(jié)提出兩階段運動引導(dǎo)生成(MGG),并在第三小節(jié)提出全景循環(huán)技術(shù)(PCT)以增強全景視頻視覺效果。

混合數(shù)據(jù)微調(diào)

由于普通視頻與全景視頻存在顯著分布差異,為避免直接微調(diào)破壞預(yù)訓(xùn)練視頻模型的時序先驗,引入補充視頻數(shù)據(jù)進行混合微調(diào)。延時攝影視頻具有顯著運動特征,雖使用透視相機拍攝,但其語義與時序特征與全景視頻相似,可有效彌合數(shù)據(jù)分布差異。選用ChronoMagic-Pro數(shù)據(jù)集,通過文本關(guān)鍵詞"landscape"篩選出4,455個相關(guān)文本-視頻對,與360World數(shù)據(jù)集隨機混合形成混合數(shù)據(jù)集。

兩階段運動引導(dǎo)生成

全景視頻的球面視角包含豐富空間信息,通常呈現(xiàn)局部精細運動而非全局大尺度運動。實驗發(fā)現(xiàn):相同架構(gòu)模型在不同分辨率訓(xùn)練時,低分辨率側(cè)重時序信息學(xué)習(xí),高分辨率側(cè)重空間信息。因此我們提出兩階段生成策略:首先生成低分辨率粗粒度視頻提供全局運動指導(dǎo),再生成高分辨率細化視頻。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

全景循環(huán)技術(shù)

為確保全景視頻水平端部連續(xù)性,我們在生成過程中對視頻左右端創(chuàng)建重復(fù)區(qū)域,并在每步去噪后執(zhí)行混合操作。具體而言:

  • 推理時先將參考圖像I左端部分復(fù)制到右端;
  • 每步去噪后,將隱空間代碼左部混合到右部,再反向混合;
  • 參照360DVD,修改細化模型Mr去噪過程中卷積層的填充方式,確保像素級連續(xù)性。最終裁剪重復(fù)部分得到無縫全景視頻。

全景時空重建

空間對齊深度估計

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

360World數(shù)據(jù)集

當(dāng)前大規(guī)模文本-視頻數(shù)據(jù)集(如WebVid)主要包含窄視場透視視頻而非全景視頻。此外,現(xiàn)有全景視頻生成數(shù)據(jù)集[43,46]多采用移動攝像機拍攝的素材,不適用于4D場景生成任務(wù)。為突破數(shù)據(jù)限制,提出360World數(shù)據(jù)集,包含7,497個高質(zhì)量全景視頻片段(總計5,380,909幀),每個片段均附帶來自開放域內(nèi)容的文本描述。這些視頻涵蓋從自然景觀到城市環(huán)境的多樣化真實場景,為生成模型理解動態(tài)全景場景提供強數(shù)據(jù)支持。


收集原始YouTube視頻并對分段片段進行標(biāo)注,采用具有強視頻理解能力的大型視頻-語言模型(LVLM)ShareGPT4Video對視頻進行時空維度的深度分析,生成全景視頻的詳細文本提示。最后,利用大型語言模型(LLM)對文本進行后處理,通過移除"攝像機"、"視頻"等攝影相關(guān)描述詞,總結(jié)并精煉詳細提示,最終得到有效描述場景內(nèi)容與動態(tài)運動的文本提示。

實驗

實現(xiàn)細節(jié)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

全景視頻生成對比

針對目前缺乏圖像驅(qū)動全景視頻生成方法的現(xiàn)狀,我們將全景動畫生成器與基于AnimateDiff微調(diào)的文本驅(qū)動全景視頻生成方法360DVD對比。通過集成不同文本到全景生成模型(PanFusion、FLUX+Panorama LoRA),實現(xiàn)文本驅(qū)動生成。圖8展示定性對比結(jié)果,驗證方法的廣泛適用性。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

通過用戶研究綜合評估生成視頻的視覺標(biāo)準與全景標(biāo)準。遵循360DVD評估指標(biāo):畫面質(zhì)量、幀間一致性、左右連續(xù)性、內(nèi)容分布、運動模式。26名參與者對10組視頻各指標(biāo)進行1-10分評分。表1顯示用戶研究結(jié)果:本方法不僅視頻質(zhì)量高,且有效契合全景視頻特性,展現(xiàn)對多模態(tài)文本到全景模型的強適配性。


為精確對比,使用360World數(shù)據(jù)集微調(diào)相同基礎(chǔ)模型DynamiCrafter得到360DVD*,用于圖像驅(qū)動生成對比?;诙嗳皥D像生成模型[19,60,64]生成90張不同風(fēng)格全景圖像作為輸入。將全景視頻投影為透視視頻,通過VBench指標(biāo)評估視頻細節(jié)(主體一致性、背景一致性、時序閃爍、運動平滑度、動態(tài)程度),并采用ChronoMagic-Bench的MTScore指標(biāo)直接評估全景視頻全局運動。表2表明:本方法在時序與運動細節(jié)表現(xiàn)更優(yōu),更高GPT4o MTScore與MTScore顯示能生成更顯著整體運動幅度。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

4D場景生成對比

與基于光流的3D動態(tài)圖像技術(shù)3D-Cinemagraphy(3D-Cin.)對比。參照4K4DGen實驗設(shè)置,在"環(huán)繞"與"推近"模式下從輸入全景圖像構(gòu)建4D場景,并將渲染視頻投影為透視視頻對比。圖4展示定性對比結(jié)果:基于光流的方法主要適用于流體效果(如水流動),而本方法利用視頻擴散模型生成更復(fù)雜的紋理變化與空間運動,展現(xiàn)更優(yōu)泛化能力。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

使用Q-Align指標(biāo)評估渲染透視視頻的質(zhì)量與美學(xué)分數(shù),同時開展4D場景生成用戶研究:31名參與者評估10組場景,根據(jù)畫面質(zhì)量與時間一致性選擇最佳方法。表3顯示本方法在所有指標(biāo)上均取得更好評分。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

消融實驗

分別對全景動畫生成器與全景時空重建進行消融實驗。首先評估混合數(shù)據(jù)微調(diào)(HDF)與兩階段運動引導(dǎo)生成(MGG)的影響(圖5)。表4定量評估HDF與MGG:采用VBench三個時序指標(biāo)評估投影透視視頻,同時使用ChronoMagic-Bench的CHScore(一致性分數(shù))與GPT4o MTScore評估全景視頻。結(jié)果顯示HDF對提升時序細節(jié)與一致性的貢獻,以及MGG對整體運動的影響。圖6驗證全景循環(huán)技術(shù)(PCT)有效避免接縫不連續(xù)現(xiàn)象。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

同時評估公式6中時序損失項對時空深度估計的有效性。圖7顯示:對具有顯著空間運動的全景視頻,

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

結(jié)論

本文提出HoloTime框架,實現(xiàn)靜態(tài)全景圖像到大規(guī)模4D場景的轉(zhuǎn)換。針對全景視頻數(shù)據(jù)稀缺問題,構(gòu)建首個固定攝像機全景視頻數(shù)據(jù)集360World。提出全景動畫生成器直接生成全景視頻,并通過全景時空重建方法實現(xiàn)時空一致的4D重建。實驗表明本方法能創(chuàng)建更具吸引力的沉浸式動態(tài)環(huán)境,顯著提升虛擬漫游體驗。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/cLgasXJdD_iEd29p8eSl_Q??


標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦