偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!

發(fā)布于 2025-9-22 09:21
瀏覽
0收藏

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2509.07472 
主頁:https://gaowenshuo.github.io/AnyPortal/ 
Git鏈接:https://github.com/gaowenshuo/AnyPortalCode 

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

圖 1.ANYPORTAL,這是一個(gè)用于高一致性視頻背景替換和前景重新照明的免訓(xùn)練框架。給定輸入的前景視頻和背景的文本或圖像提示,本方法在和諧的光照下生成具有目標(biāo)背景的視頻,同時(shí)保持前景視頻細(xì)節(jié)和內(nèi)在屬性

亮點(diǎn)直擊

  • AnyPortal,一個(gè)高效且無需訓(xùn)練的視頻背景替換框架。
  • 設(shè)計(jì)了一個(gè)模塊化流程,該流程集成了最新的預(yù)訓(xùn)練圖像和視頻擴(kuò)散模型,以結(jié)合其優(yōu)勢(shì)生成逼真且連貫的視頻。
  • 提出了一種新穎的精煉投影算法(Refinement Projection Algorithm),該算法能夠在緊湊的隱空間中實(shí)現(xiàn)像素級(jí)的細(xì)節(jié)操控,從而確保精確的前景保留。

總結(jié)速覽

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

解決的問題

  • 核心挑戰(zhàn):現(xiàn)有視頻生成技術(shù)難以實(shí)現(xiàn)精細(xì)化的細(xì)節(jié)控制,無法精確對(duì)齊用戶意圖,特別是在視頻背景替換任務(wù)中。
  • 具體問題
  • 前景一致性:替換背景時(shí),難以保持前景主體(如人物、物體)的像素級(jí)細(xì)節(jié)和外觀一致性,容易出現(xiàn)非預(yù)期的改變。
  • 時(shí)序照明一致性:難以在視頻序列中保持照明效果的時(shí)序連貫性。
  • 資源限制:專業(yè)綠幕流程成本高昂;基于數(shù)據(jù)驅(qū)動(dòng)的視頻方法缺乏高質(zhì)量的配對(duì)視頻數(shù)據(jù)集,且模型訓(xùn)練需要巨大的計(jì)算資源。

提出的方案

  • 方案名稱:AnyPortal —— 一個(gè)零樣本(zero-shot)無需訓(xùn)練(training-free)的視頻背景替換框架。
  • 核心思路:協(xié)同利用預(yù)訓(xùn)練的圖像擴(kuò)散模型視頻擴(kuò)散模型的各自先驗(yàn)知識(shí),無需額外訓(xùn)練。
  • 關(guān)鍵創(chuàng)新:提出了Refinement Projection Algorithm (RPA, 精煉投影算法),該算法能在隱空間中進(jìn)行像素級(jí)的細(xì)節(jié)操控,確保前景細(xì)節(jié)的高度一致性。

應(yīng)用的技術(shù)

  • 預(yù)訓(xùn)練模型利用
  • 圖像擴(kuò)散模型 (IC-Light):用于實(shí)現(xiàn)高質(zhì)量的背景生成和照明 harmonization(協(xié)調(diào)),使前景與背景的光照融為一體。
  • 視頻擴(kuò)散模型:用于提供強(qiáng)大的時(shí)序先驗(yàn),保證生成視頻的時(shí)序連貫性和動(dòng)態(tài)真實(shí)性。
  • Refinement Projection Algorithm (RPA)
  • 一種專門為視頻模型設(shè)計(jì)的算法,通過在隱空間中計(jì)算一個(gè)投影方向,來同時(shí)保證輸入前景細(xì)節(jié)的高一致性生成背景的高質(zhì)量。
  • 克服了直接將圖像控制方法(如DDIM反轉(zhuǎn))應(yīng)用于視頻模型時(shí)存在的計(jì)算成本高、隱空間壓縮導(dǎo)致操控質(zhì)量下降等問題。
  • 模塊化流程
  1. 首先生成一個(gè)由IC-Light進(jìn)行了照明協(xié)調(diào)的粗粒度視頻。
  2. 然后利用預(yù)訓(xùn)練的視頻擴(kuò)散模型增強(qiáng)其時(shí)序一致性。
  3. 在整個(gè)過程中,RPA算法確保對(duì)前景的像素級(jí)精確控制。

達(dá)到的效果

  • 高質(zhì)量輸出:能夠生成具有自然光照和高度時(shí)序一致性的高質(zhì)量視頻,實(shí)現(xiàn)“虛擬傳送”效果。
  • 精確控制:實(shí)現(xiàn)了對(duì)前景細(xì)節(jié)的像素級(jí)保護(hù),避免了不必要的外觀改變。
  • 高效實(shí)用
  • 無需訓(xùn)練:完全基于預(yù)訓(xùn)練模型,避免了收集配對(duì)數(shù)據(jù)和訓(xùn)練模型的開銷。
  • 計(jì)算高效:可在單塊24GB消費(fèi)級(jí)GPU上高效運(yùn)行,降低了使用門檻。
  • 靈活通用:支持通過文本描述背景圖片來指定目標(biāo)環(huán)境。其模塊化設(shè)計(jì)易于集成最新的圖像/視頻生成模型,具有良好的可擴(kuò)展性。

方法

零樣本視頻背景替換

如下圖2所示,本文的框架分為三個(gè)階段:(1) 背景生成;(2) 光照協(xié)調(diào);(3) 一致性增強(qiáng)。輸入是一個(gè)前景視頻  和一個(gè)描述背景的提示詞 。

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

背景生成

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

光照協(xié)調(diào)

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)。使用 CogVideoX 作為視頻擴(kuò)散模型 εθ,并使用 IC-Light作為圖像背景替換模型 δp 和 δI。我們?cè)O(shè)定 T = 20,并將強(qiáng)光照效果和弱光照效果的 (T?, T?) 分別設(shè)為 (0.7T, 0.7T) 和 (0.4T, 0.4T),以滿足不同場(chǎng)景的需求。所有實(shí)驗(yàn)均在單個(gè) NVIDIA 4090 GPU 上進(jìn)行,并為 CogVideoX 啟用了 CPU 卸載。測(cè)試視頻統(tǒng)一調(diào)整為 480×720 分辨率,并裁剪為 49 幀以符合 CogVideoX 的規(guī)格要求。每個(gè)視頻的推理時(shí)間約為 12 分鐘(若關(guān)閉 CPU 卸載且 GPU 內(nèi)存更大,還可進(jìn)一步加速)。

基線方法。由于目前極少有其他工作完全針對(duì)我們所研究的零樣本視頻背景替換任務(wù),我們選擇了以下最相關(guān)的基線方法進(jìn)行比較:

  • IC-Light:一種先進(jìn)的圖像背景替換模型。逐幀應(yīng)用該模型。
  • TokenFlow:一種先進(jìn)的零樣本文本引導(dǎo)視頻編輯模型。
  • Diffusion-As-Shader (DAS):一種多功能視頻生成控制模型。使用其運(yùn)動(dòng)遷移功能,該功能通過將輸入視頻的運(yùn)動(dòng)遷移到所提供的第一幀圖像來生成新視頻。此處,我們使用 IC-Light 生成第一幀。請(qǐng)注意,以上所有基線方法均為基于擴(kuò)散的零樣本編輯方法,以確保公平比較。

評(píng)估。構(gòu)建了一個(gè)包含 30 個(gè)樣本和提示詞的測(cè)試集用于評(píng)估,并采用以下指標(biāo):

  1. Fram-Acc:基于 CLIP 的余弦相似度在與目標(biāo)提示詞相比高于源提示詞的視頻幀中所占的比例,用于衡量背景是否成功被編輯。
  2. Tem-Con:基于 CLIP 的連續(xù)幀間余弦相似度,用于衡量時(shí)間一致性。
  3. ID-Psrv:生成視頻前景細(xì)節(jié)的保持程度,通過生成視頻與輸入視頻中人臉(如適用)的身份損失來衡量。
  4. Mtn-Psrv:生成視頻運(yùn)動(dòng)的保持程度,通過生成視頻與輸入視頻之間的點(diǎn)運(yùn)動(dòng)跟蹤相似度來衡量。使用 SpatialTracker進(jìn)行點(diǎn)跟蹤。

對(duì)于用戶研究,邀請(qǐng)了 24 位參與者。參與者被要求基于以下四個(gè)標(biāo)準(zhǔn)從四種方法中選出最佳結(jié)果:

  1. User-Pmt:結(jié)果與提示詞的匹配程度。
  2. User-Tem:結(jié)果的時(shí)間一致性。
  3. User-Psrv:前景細(xì)節(jié)和運(yùn)動(dòng)保持的完整程度。
  4. User-Lgt:前景重新打光的質(zhì)量。

與先進(jìn)方法的比較

下圖6對(duì)所提方法與其他基線方法進(jìn)行了可視化比較。IC-Light本質(zhì)上是一種圖像擴(kuò)散模型,因此天生存在時(shí)間不一致性問題。此外,它傾向于對(duì)主體進(jìn)行過度重新打光,甚至改變固有屬性(如衣服和頭巾的顏色)。TokenFlow表現(xiàn)出有限的編輯能力和不足的前景細(xì)節(jié)控制能力,而 DAS則無法保持對(duì)前景運(yùn)動(dòng)動(dòng)態(tài)和固有外觀屬性的控制。相比之下,本文的方法在實(shí)現(xiàn)高質(zhì)量背景替換和前景重新打光的同時(shí),確保了時(shí)間一致性和前景細(xì)節(jié)一致性。

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

下表1給出了定量評(píng)估結(jié)果。IC-Light 實(shí)現(xiàn)了最佳的 Fram-Acc,這是因?yàn)樗鼘iT針對(duì)背景替換任務(wù)進(jìn)行了訓(xùn)練,無需考慮時(shí)間一致性。本文的方法取得了第二佳的 Fram-Acc,并在所有其他指標(biāo)和用戶偏好上均獲得最佳結(jié)果,在單幀重新打光質(zhì)量和整體視頻流暢性之間取得了良好平衡。

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

消融研究

為驗(yàn)證不同模塊對(duì)整體性能的貢獻(xiàn),我們系統(tǒng)地禁用了框架中的特定模塊。結(jié)果報(bào)告于上圖4、5,下圖7、8及下表2。

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

更多結(jié)果

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

與Light-A-Video的比較。在下圖10中進(jìn)一步提供了與同期工作Light-A-Video的視覺對(duì)比。兩種方法均基于CogVideoX,生成質(zhì)量相當(dāng)。然而,Light-A-Video的CogVideoX實(shí)現(xiàn)僅能對(duì)現(xiàn)有背景進(jìn)行重新打光,而本文的方法能生成新的背景內(nèi)容。

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

局限性

盡管ANYPORTAL表現(xiàn)出良好的效果,但仍存在若干局限性(圖11為一個(gè)典型示例):

ICCV 2025 | 北大王選所推出AnyPortal:像素級(jí)操控視頻背景,前景細(xì)節(jié)100%保留!-AI.x社區(qū)

(1)低質(zhì)量輸入(如低分辨率/模糊視頻)會(huì)減少高頻細(xì)節(jié)的遷移,導(dǎo)致結(jié)果模糊(例如圖11中頭發(fā)部分);(2)前景-背景邊界不清晰會(huì)導(dǎo)致修復(fù)結(jié)果不匹配,并在主體周圍產(chǎn)生擴(kuò)大化的模糊區(qū)域;(3)快速運(yùn)動(dòng)會(huì)對(duì)擴(kuò)散模型帶來挑戰(zhàn),在左臂等部位引發(fā)偽影。

結(jié)論與展望

AnyPortal,一個(gè)用于視頻背景替換與前景光照調(diào)整的零樣本框架。該方法無需任務(wù)特定訓(xùn)練,即可實(shí)現(xiàn)高度時(shí)間一致性與細(xì)節(jié)保真度。具體而言,通過整合運(yùn)動(dòng)感知視頻擴(kuò)散模型以生成背景,擴(kuò)展圖像Relighting模型并引入跨幀注意力機(jī)制,同時(shí)提出細(xì)化投影算法(Refinement Projectation Algorithm)在隱空間中保持前景細(xì)節(jié)。實(shí)驗(yàn)表明,本方法在光照融合與時(shí)間一致性方面均優(yōu)于現(xiàn)有方法。


未來的一個(gè)可能方向是探索將大型視頻擴(kuò)散模型中的時(shí)序先驗(yàn)知識(shí)拓展至更多視頻編輯任務(wù)中,例如顏色調(diào)整、風(fēng)格化、人臉屬性編輯與視頻修復(fù)等。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/CYMSGKS9GGiLXTctUOrVrw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄