偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全

發(fā)布于 2025-10-11 09:23
瀏覽
0收藏

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2510.08555 項目鏈接:https://onevfall.github.io/project_page/videocanvas/ Git鏈接:https://onevfall.github.io/project_page/videocanvas/

亮點直擊

  • 引入并形式化了任意時空視頻補全任務,這是一個統(tǒng)一的框架,涵蓋了廣泛的可控視頻生成場景。
  • VideoCanvas,第一個將In-Context Conditioning范式應用于任意時空補全任務的框架。進一步引入混合條件策略:Spatial Zero-PaddingTemporal RoPE Interpolation。該方法無需重新訓練 VAE,即可高效微調(diào) DiT 模型,從而實現(xiàn)精細的時空控制。
  • 設計并發(fā)布了VideoCanvasBench,這是第一個專門用于任意時空補全的基準測試,并證明VideoCanvas在多種設置下實現(xiàn)了最先進的性能,優(yōu)于現(xiàn)有的條件范式。

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

任意時間戳Patches到視頻

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

任意時間戳圖像到視頻

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

視頻轉(zhuǎn)換

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

視頻修復和外擴

總結(jié)速覽

解決的問題

  • 現(xiàn)有可控視頻生成方法(如首幀驅(qū)動、片段延伸、視頻補全等)過于任務特定、缺乏統(tǒng)一框架,難以靈活應對任意時空控制需求。
  • 隱空間視頻擴散模型中的因果型VAE存在時間模糊性,多個像素幀被壓縮成一個隱空間變量,導致難以實現(xiàn)精確的幀級條件控制。
  • 空間層面上,不同形狀與位置的局部patch難以統(tǒng)一處理,模型對零填充(zero-padding)輸入不具魯棒性。

提出的方案

  • VideoCanvas—— 一個統(tǒng)一的“任意時空視頻補全(Arbitrary Spatio-Temporal Video Completion)”框架。
  • 將視頻生成視為在“時空畫布(video canvas)”上作畫:用戶可在任意時間與空間位置放置圖像或patch,模型自動補全生成完整視頻。
  • 設計一種混合式條件編碼策略(Hybrid Conditioning Strategy),將空間與時間控制解耦:
  • 空間控制:通過零填充(zero-padding)在VAE隱空間中定位任意形狀patch;
  • 時間控制:通過Temporal RoPE Interpolation(時間位置插值)為條件幀分配連續(xù)的分數(shù)時間索引,從而解決VAE的時間歧義問題。

應用的技術

  • 基于In-Context Conditioning (ICC)框架擴展,實現(xiàn)無新增參數(shù)的精細時空控制。
  • 使用Temporal RoPE Interpolation技術實現(xiàn)連續(xù)時間嵌入,使幀級控制在凍結(jié)的VAE與DiT骨干上即可完成。
  • 通過零填充方式對任意空間區(qū)域進行統(tǒng)一表示,無需修改模型結(jié)構(gòu)或重新訓練VAE。
  • 構(gòu)建VideoCanvasBench基準,用于評估任意時空視頻補全任務下的幀間一致性與跨場景創(chuàng)造力。

達到的效果

  • 首次實現(xiàn)在凍結(jié)的隱空間擴散模型上進行像素幀級(pixel-frame-aware)時空控制。
  • 統(tǒng)一了圖像到視頻、補全、擴展與插值等多種視頻生成任務。
  • VideoCanvasBench基準上顯著超越現(xiàn)有控制范式,在視頻一致性與生成靈活性上均達到最新的SOTA性能。
  • 證明了無需結(jié)構(gòu)修改或重新訓練,即可實現(xiàn)高效、精細且統(tǒng)一的可控視頻生成

方法

任務定義與問題設定

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

VideoCanvas 流程

為解決任意時空補全的挑戰(zhàn),提出 VideoCanvas,這是一個基于 In-Context Conditioning (ICC) 范式的統(tǒng)一框架。我們首次將 ICC 應用于該任務,并引入一種新的混合條件策略,將空間與時間對齊解耦,從而在凍結(jié)的 VAE 和零新增參數(shù)的微調(diào) DiT 上實現(xiàn)精細、像素幀級別的控制。整個流程如下圖 3 所示。

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

該目標訓練 DiT 將條件 token 視為固定上下文,同時為目標視頻生成連貫的補全內(nèi)容。

VideoCanvasBench

現(xiàn)有的基準測試集中于諸如 I2V 或外延繪制(outpainting)等固定任務,無法評估我們方法核心的靈活時空控制能力。因此,我們引入 VideoCanvasBench,這是第一個系統(tǒng)性設計用于任意時空視頻補全的基準測試。


該基準測試評估兩種互補的能力:單一場景內(nèi)的高保真補全(同源,homologous)以及跨不同來源的創(chuàng)造性合成(非同源,non-homologous)。它由三類任務組成:


(1) AnyP2V,在固定錨點時間戳(開始、中間、結(jié)束)使用部分patch。我們構(gòu)建了所有七種可能的組合——單幀(S、M、E)、雙幀(S+M、S+E、M+E)以及三幀(S+M+E)——用于在不同時間稀疏度下評估插值的保真度。 (2) AnyI2V,在相同時間戳處使用完整幀條件,旨在測試完整幀內(nèi)容的補全過程。 (3) AnyV2V,涵蓋視頻級別的補全場景,如修補(inpainting)、擴展(outpainting)以及非同源片段間的過渡。 

VideoCanvasBench 包含超過 2000 個測試案例。

實驗

本文的實驗旨在回答兩個核心問題: (1) 本文提出的 Temporal RoPE Interpolation 是否能解決因果 VAE 的時間模糊性,從而在超越原生 VAE 步長的情況下實現(xiàn)精確的像素幀對齊? (2) 即使在隱空間變量槽所帶來的粗粒度條件下,In-Context Conditioning (ICC) 范式是否在本質(zhì)上優(yōu)于先前的機制,如隱空間變量替換(Latent Replacement)和通道拼接(Channel Concatenation)? 


本文通過不同像素幀對齊策略的消融實驗回答第一個問題,并通過在我們的基準測試上進行范式級比較回答第二個問題。

設置

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

基線方法。由于我們的任務是新的,現(xiàn)有工作尚無直接解決方案。為公平比較,我們在相同骨干網(wǎng)絡上比較三種具有代表性的條件范式(如圖 2b 所示): (1) Latent Replacement,用于 LTX-Video 和 HunyuanVideo; (2) Channel Concatenation,廣泛用于 CogVideoX 和 Wan; (3) 我們的 **In-Context Conditioning (ICC)**。 所有范式均在相同設置下訓練,并受限于由 VAE 步長定義的同一組可控幀,從而確保嚴格且可控的比較。更多細節(jié)見附錄 B。

評估指標

自動化指標。保真度通過 PSNR 和 FVD進行衡量,感知質(zhì)量通過四個指標評估:美學質(zhì)量、成像質(zhì)量、時間一致性以及動態(tài)程度。


用戶研究。為了補充自動化指標,我們對 30 個隨機采樣的案例進行了包含 25 名參與者的用戶研究。在每個案例中,參與者在三選一的強制選擇設置中觀看三種方法的并列輸出,并從三個維度進行評分:視覺質(zhì)量(質(zhì)量和動態(tài)性)、語義質(zhì)量(與文本和圖像的忠實度)以及整體偏好(總體選擇)。結(jié)果以相對于競爭方法的勝率(%)形式報告。

消融研究:像素-幀對齊策略

如下圖 2(a) 所示,因果視頻 VAE 將多個像素幀映射到一個隱空間變量中,這在以特定幀為條件時會造成歧義。一種直觀的解決方法是保留目標幀并在 VAE 編碼前將其余幀填充為零,我們將其稱為像素空間填充(Pixel-space Padding)。雖然這種方法在時間上是精確的,但它迫使凍結(jié)的 VAE 處理高度分布外的輸入,常常破壞顏色和紋理。

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

為了剖析這一問題,比較了四種對齊策略:

(i) 隱空間條件(Latent-space Conditioning):使用 VAE(視頻模式)對整個視頻進行編碼以獲得隱空間變量序列;在指定的時間戳,將相應的隱空間變量切片注入作為條件輸入。(ii) 像素空間填充(Pixel-space Padding):構(gòu)建一個像素空間視頻,其中非目標幀被置零;使用 VAE(視頻模式)對整個填充視頻進行編碼。(iii) 無 RoPE 插值(w/o RoPE Interpolation):獨立地使用 VAE(圖像模式)對每個條件幀進行編碼;將每個條件 token 分配到由 VAE 壓縮窗口確定的離散時間槽(無插值)。(iv) 本文完整方法:帶有時間 RoPE 插值(Temporal RoPE Interpolation)。


定性證據(jù)。雖然像素空間填充理論上可以“指向”正確的幀,但它會引入明顯的偽影,因為 VAE 從未在填零輸入上訓練過。下圖 5展示了這一點:填充結(jié)果出現(xiàn)明顯的顏色偏移和紋理模糊,而基于 RoPE 的對齊能夠以高保真度保留條件幀。

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

定量分析。進一步在目標索引 (2, 3, 4) 處評估單幀 I2V。如下圖 4 和表 1 所示,隱空間條件的 PSNR 曲線幾乎平坦,表明運動坍縮。無 RoPE 插值恢復了動態(tài)性,但由于槽位未對齊,PSNR 峰值發(fā)生偏移。像素空間填充在正確索引處達到峰值,但整體保真度較低。相比之下,我們的 RoPE 插值方法精確對齊目標幀并實現(xiàn)了最佳保真度。綜合來看,這些結(jié)果表明兩點:首先,基于填充的解決方案盡管時間精確,但由于 VAE 信號損壞而降低質(zhì)量;其次,隱空間條件和僅使用整數(shù)對齊無法解決幀級歧義。相反,本文的 ICC 結(jié)合時間 RoPE 插值在細粒度控制和高保真生成方面均表現(xiàn)出獨特優(yōu)勢。

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

主要結(jié)果:范式比較

在確立基于填充的方案因質(zhì)量退化而不可行之后,接下來在相同設置下比較三種具有代表性的條件范式——隱空間變量替換(Latent Replacement)、通道拼接(Channel Concatenation)以及我們的上下文內(nèi)條件(In-Context Conditioning, ICC),其中每個隱空間變量對應一個像素幀。這確保了性能差異僅來自條件機制本身(而非零填充)。


定量比較。下表 2 展示了 VideoCanvasBench 在三個任務類別(AnyP2V、AnyI2V 和 AnyV2V)上的結(jié)果。數(shù)據(jù)揭示了在所有任務類別中的一致趨勢。隱空間變量替換在靜態(tài)相似性指標(如 PSNR)中獲得了表面上較高的得分,但以犧牲運動生成為代價。其極低的動態(tài)程度(Dynamic Degree)表明其生成的視頻幾乎是靜止的,這也反映在其較差的 FVD 上,確認了與真實視頻的顯著分布差距。通道拼接生成了更多動態(tài),但在參考保真度(PSNR、FVD)和關鍵感知指標上始終落后于我們的方法。相比之下,我們的 ICC 實現(xiàn)了最佳平衡,在保持競爭性保真度的同時獲得了最高的動態(tài)程度。更重要的是,用戶研究驗證了 ICC 的優(yōu)越性,在所有三個任務層面上,ICC 都被人類評估者壓倒性地偏好。

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

定性比較。下圖 6 展示了具有代表性的案例。在雙幀 I2V 任務(圖 6a)中,隱空間變量替換在條件幀周圍坍縮為靜態(tài)重復,而通道拼接在鹿的身體上引入了不自然的扭曲。相比之下,ICC 在保持身份一致的同時生成了平滑且合理的運動。在更具挑戰(zhàn)性的雙幀 P2V 設置中(圖 6b),基線方法的弱點更加明顯。隱空間變量替換產(chǎn)生了突兀且不自然的過渡,而通道拼接則遭受嚴重的身份漂移,使袋鼠在視頻中途莫名其妙地變成了狗。只有 ICC 在整個序列中同時保持了運動、身份和結(jié)構(gòu)一致性,避免了凍結(jié)和語義損壞。

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

定量與定性證據(jù)均得出了相同的結(jié)論。消融研究表明,時間 RoPE 插值在不犧牲保真度的情況下,獨特地實現(xiàn)了細粒度的像素-幀對齊;而范式比較顯示,即使在粗粒度的隱空間變量級別上,ICC 也始終優(yōu)于隱空間變量替換和通道拼接。綜上所述,這些發(fā)現(xiàn)確立了 ICC 作為任意時空視頻生成中最穩(wěn)健且最有效的條件機制。

應用與新興能力

除了在受控比較中超越現(xiàn)有范式外,VideoCanvas 框架的真正優(yōu)勢在于其所解鎖的多樣化與創(chuàng)造性應用。通過將視頻合成視為統(tǒng)一的補全問題,我們的模型展現(xiàn)出多個強大的新興能力,如在預覽圖(下圖 1)。

不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

靈活的時間控制(AnyI2V)。時間 RoPE 插值所啟用的首個關鍵能力是對任意時間戳的細粒度控制。如 AnyI2V 示例所示,我們的模型突破了首幀或首尾幀設置的限制。它可以從時間線上任意位置放置的任意數(shù)量的全幀條件中生成連貫的視頻敘事,成功處理了先前方法無法定義的復雜插值與外推場景。


任意時空控制(AnyP2V)?;谶@種時間靈活性,本文的框架實現(xiàn)了真正的時空控制。AnyP2V 任務展示了這一核心能力,模型可以從一組稀疏、彼此獨立的patch中生成完整視頻,每個patch位于任意空間位置和任意時間戳。如我們的結(jié)果所示,模型能夠在保持條件物體身份的同時,成功合成合理的運動與上下文,即使所提供的patch非常小。這展示了模型對“是什么”、“在哪里”、“何時”的聯(lián)合推理能力。


創(chuàng)意視頻過渡。利用其處理非同源條件的能力,我們的模型在創(chuàng)造性合成方面表現(xiàn)出色。如視頻過渡任務所示,它能夠在兩個完全不同的場景之間生成平滑且邏輯的演變(例如,將無人機變形為蝴蝶)。這展示了模型理解并插值高層語義的復雜能力,這一能力受到最新生成模型的啟發(fā)。


長時視頻擴展。本文的框架通過迭代式補全實現(xiàn)長時視頻合成。短片段可以通過自回歸方式生成下一個片段并以前一段的結(jié)尾為條件,延長至一分鐘長度。該過程可通過交互式文本提示引導以演變敘事,甚至可以通過生成從視頻結(jié)尾回到開頭的過渡來創(chuàng)建完美的無縫循環(huán)。


統(tǒng)一的視頻繪制與相機控制。此外,我們的時空畫布表述自然地涵蓋了多種其他任務。通過提供帶掩碼的視頻作為條件,模型能夠執(zhí)行修補(inpainting)和擴展(outpainting);通過在畫布上逐步平移或縮放條件幀,它可以模擬諸如變焦和平移等動態(tài)相機效果,展示了其在創(chuàng)意后期制作中的潛力。

結(jié)論

本文引入并形式化了任意時空視頻補全任務。為解決因果 VAE 中的時間歧義核心挑戰(zhàn),我們提出了基于上下文內(nèi)條件(In-Context Conditioning)的 VideoCanvas 框架。還提出了一種結(jié)合空間零填充(Spatial Zero-Padding)與時間 RoPE 插值(Temporal RoPE Interpolation)的混合條件策略,從而通過高效的 DiT 微調(diào),在凍結(jié)的 VAE 上實現(xiàn)細粒度的像素幀級控制。除了在我們新基準 VideoCanvasBench 上獲得強大的定量與定性結(jié)果外,我們的方法還展示了在多種應用中的卓越靈活性,例如任意時空patch到視頻、任意時間戳圖像到視頻、長時擴展、繪制與相機控制。我們相信該工作為下一代可控視頻合成建立了穩(wěn)健且可泛化的基礎。


討論。目前大多數(shù)領先的視頻基礎模型使用未在零填充時間數(shù)據(jù)上預訓練的因果 VAE,因此無法通過簡單的零填充實現(xiàn)任意時空控制。此類輸入會引起分布偏移,需要對 VAE 與 DiT 主干進行高成本的重新訓練。我們的模型中心框架通過無需修改凍結(jié)的 VAE 來實現(xiàn)細粒度控制,從而繞過了這一問題。而未來的基礎模型可能在預訓練階段引入類似能力,通過零填充數(shù)據(jù)實現(xiàn)時間敏感控制,使數(shù)據(jù)中心范式成為進一步進展的互補路徑。

此外,盡管我們的獨立幀編碼在稀疏條件下非常有效,但在密集輸入時存在計算權衡。未來的研究可以探索結(jié)合我們細粒度對齊與更高效 token 剪枝策略的混合機制,以優(yōu)化密集條件序列的處理??傮w而言,我們相信該工作提供了穩(wěn)健且可泛化的基礎,并將激發(fā)進一步關于靈活且統(tǒng)一視頻合成的研究。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/mcvi2itZq26BMX-D7eW3Hw??

已于2025-10-11 09:24:38修改
收藏
回復
舉報
回復
相關推薦