偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

SOTA級(jí)視頻編輯新方法:無(wú)需訓(xùn)練一句話(huà)編輯視頻,背景保持100%

人工智能 新聞
西湖大學(xué)AGILab提出了一種全新的無(wú)需反演和訓(xùn)練的視頻編輯新方法:FlowDirector。

傳統(tǒng)的視頻編輯工作流,正在被AI徹底重塑。

AI的視頻編輯方法總是存在一些問(wèn)題:例如視頻運(yùn)動(dòng)不連貫、編輯后的視頻產(chǎn)生意外變化等……經(jīng)過(guò)分析,這些問(wèn)題的產(chǎn)生最終大都指向同一原因——反演-編輯范式。

因此,西湖大學(xué)AGILab提出了一種全新的無(wú)需反演和訓(xùn)練的視頻編輯新方法:FlowDirector。

圖片

相較于其他視頻編輯方法,F(xiàn)lowDirector有以下方面值得關(guān)注:

  • 開(kāi)銷(xiāo)低:FlowDirector無(wú)反演過(guò)程,不需要存儲(chǔ)任何額外的控制信息(如Attention Map),單卡4090就可實(shí)現(xiàn)高質(zhì)量視頻編輯。
  • 支持廣泛:除可進(jìn)行傳統(tǒng)的對(duì)象替換外,F(xiàn)lowDirector可以任意的添加、刪除視頻中的內(nèi)容,以及進(jìn)行一系列的紋理替換。
  • 背景100%保持:通過(guò)對(duì)非編輯區(qū)域的“動(dòng)力”進(jìn)行凍結(jié),使得編輯后的視頻在無(wú)關(guān)區(qū)域與原視頻完全保持一致。

編輯結(jié)果展示:

圖片

圖片

方法:針對(duì)視頻編輯中的「反演痛點(diǎn)」

現(xiàn)在的通用視頻編輯方法大多基于反演-去噪(inversion-denosiong)范式:

  • 反演:把原視頻使用特定的方法(例如DDIM Inversion)拉回對(duì)應(yīng)噪聲空間得到潛在特征;
  • 去噪:對(duì)噪聲空間中的潛在特征重新進(jìn)行采樣,并在采樣中注入一些特定的控制條件來(lái)達(dá)到編輯效果。

這種范式帶來(lái)了許多問(wèn)題:反演過(guò)程中的錯(cuò)誤會(huì)不斷的累計(jì),使得得到的潛在特征并非是完美的,因此給去噪過(guò)程提供錯(cuò)誤的起點(diǎn),導(dǎo)致出現(xiàn)例如編輯視頻動(dòng)作不連貫等結(jié)構(gòu)性損失,編輯結(jié)果受到嚴(yán)重干擾。

并且在去噪過(guò)程中的條件注入帶來(lái)了額外的存儲(chǔ)開(kāi)銷(xiāo),限制了編輯產(chǎn)生的結(jié)果。

圖片

FlowDirector則摒棄了傳統(tǒng)的反演-去噪范式,通過(guò)構(gòu)造從源視頻到編輯結(jié)果的直接編輯路徑,實(shí)現(xiàn)高質(zhì)量、準(zhǔn)確和高可控的視頻編輯效果。具體實(shí)現(xiàn)如下:

直接流演化與空間矯正:精準(zhǔn)、高質(zhì)

FlowDirector直接特征空間構(gòu)建“源視頻→目標(biāo)視頻”的演化路徑,但這種直接演化范式并非完美無(wú)瑕,直接編輯路徑產(chǎn)生的編輯流作用于全視頻特征,會(huì)導(dǎo)致無(wú)關(guān)區(qū)域發(fā)生意外變化,嚴(yán)重影響編輯視頻的保真度。

如圖所示,在對(duì)目標(biāo)編輯對(duì)象進(jìn)行編輯時(shí),編輯影響在了無(wú)關(guān)區(qū)域(道路)。

圖片

為此,研究團(tuán)隊(duì)提出了空間感知流矯正(Spatially Attentive Flow Correction,SAFC):SAFC通過(guò)定位并限制編輯視頻中關(guān)鍵對(duì)象所在的空間區(qū)域,來(lái)防止編輯流干擾無(wú)關(guān)區(qū)域。

如圖所示,編輯左右被精確的限制在了車(chē)的周?chē)?,干擾泄漏現(xiàn)象消失。

圖片

具體措施為基于注意力熱圖生成二值掩碼,僅在語(yǔ)義相關(guān)的區(qū)域(如要替換或修改的物體、人物)施加流演化,背景與非目標(biāo)部分完全“凍結(jié)”,保證編輯后視頻的結(jié)構(gòu)與紋理不受影響。

差分平均引導(dǎo):一種編輯流的自動(dòng)引導(dǎo)優(yōu)化方式

這種直接演化范式帶來(lái)的第二個(gè)問(wèn)題是,由于跳過(guò)了反演過(guò)程,原始視頻的控制信號(hào)會(huì)在編輯的整個(gè)流程均顯著存在,往往會(huì)對(duì)最終效果施加過(guò)強(qiáng)的“控制效果”,導(dǎo)致修改后的視頻中依然殘留明顯的原始物體輪廓或細(xì)節(jié)偽影。

為此,作者團(tuán)隊(duì)提出了差分平均引導(dǎo)(Differential Averaging Guidance,DAG),同時(shí)進(jìn)行“高質(zhì)量采樣”和“快速基線(xiàn)采樣”,通過(guò)比對(duì)兩者之間的差異來(lái)提煉出真正需要的編輯優(yōu)化方向。具體來(lái)說(shuō):

1.進(jìn)行差分采樣得到高質(zhì)速度和基線(xiàn)速度在每一次擴(kuò)散迭代中,首先對(duì)掩碼校正后的差分速度場(chǎng)做多次高質(zhì)量采樣,并將結(jié)果取平均得到一個(gè)精確且細(xì)節(jié)充足的速度估計(jì)圖片;與此同時(shí),用更少的采樣次數(shù)生成一組基線(xiàn)速度圖片。

2.產(chǎn)生引導(dǎo)編輯效果增強(qiáng)的指導(dǎo)信號(hào)將每個(gè)基線(xiàn)速度與高質(zhì)量速度相減,得到圖片,這些差分信號(hào)準(zhǔn)確指示了“從始視頻到目標(biāo)風(fēng)格”所需的增量變化方向,能夠有效抑制原始幀中殘留的強(qiáng)控制成分(即偽影)。

3.進(jìn)行差分平均自動(dòng)引導(dǎo)將所有差分信號(hào)圖片求平均圖片,然后按一定權(quán)重與高質(zhì)量速度圖片進(jìn)行線(xiàn)性融合:
圖片
這個(gè)融合結(jié)果既保留了高質(zhì)量采樣帶來(lái)的細(xì)節(jié)與語(yǔ)義對(duì)齊,又利用差分引導(dǎo)信號(hào)實(shí)現(xiàn)自動(dòng)引導(dǎo),進(jìn)一步降低了原始視頻殘影的干擾。

這樣一來(lái),系統(tǒng)不僅能保留足夠的語(yǔ)義細(xì)節(jié)、確保目標(biāo)區(qū)域與文本提示高度匹配,還能有效抑制原始視頻多余信息的干擾。

最終,DAG讓FlowDirector在保證高保真度的同時(shí),不至于陷入冗長(zhǎng)采樣帶來(lái)的算力瓶頸,實(shí)現(xiàn)了“畫(huà)質(zhì)優(yōu)先、效率優(yōu)先”的雙重升級(jí)。

圖片

實(shí)驗(yàn)結(jié)果:多指標(biāo)SOTA,支持添加、刪除和修改多任務(wù)

FlowDirector團(tuán)隊(duì)首先進(jìn)行了全面的定性實(shí)驗(yàn),包含一系列定性任務(wù),例如添加物體,刪除物體,形態(tài)差異劇烈的對(duì)象替換,對(duì)象屬性更改(如人的衣著),紋理替換以及這些任務(wù)的組合。

圖片

結(jié)果得到,在廣泛的任務(wù)上,F(xiàn)lowDirector均能夠精準(zhǔn)捕捉并反映提示中指定的關(guān)鍵風(fēng)格屬性(例如顏色、材質(zhì)等),優(yōu)先確保文本語(yǔ)義與視覺(jué)效果的高度對(duì)齊。

同時(shí),在保證目標(biāo)區(qū)域發(fā)生預(yù)期變化的前提下,F(xiàn)lowDirector也能確保輸出視頻的整體布局穩(wěn)定、無(wú)關(guān)區(qū)域一直與結(jié)構(gòu)完整。

圖片

在定量結(jié)果中,F(xiàn)lowDirector在各種指標(biāo)上均取得SOTA(在WarpSSIM上并非最高,因?yàn)镕lowDirector能夠?qū)崿F(xiàn)更大程度的語(yǔ)義變換,導(dǎo)致像素級(jí)的光流扭曲數(shù)值略低),顯著超過(guò)了已有的視頻編輯方法。

對(duì)比多種SOTA的視頻編輯方法(如FateZero、TokenFlow、VideoDirector等),F(xiàn)lowDirector在對(duì)象形變幅度、文本一致性、視覺(jué)細(xì)節(jié)與運(yùn)動(dòng)流暢度方面均表現(xiàn)突出,綜合主觀與客觀評(píng)測(cè)指標(biāo)均居領(lǐng)先水平。

總體而言,F(xiàn)lowDirector展示了視頻編輯的新思路:無(wú)需反演的直接流編輯,并引入了空間矯正和自動(dòng)引導(dǎo),顯著提升了編輯視頻的質(zhì)量,實(shí)現(xiàn)了快、準(zhǔn)、省的三重躍升。

論文鏈接:https://arxiv.org/abs/2506.05046

項(xiàng)目地址:https://flowdirector-edit.github.io

Github:https://github.com/Westlake-AGI-Lab/FlowDirector

Huggingface:https://huggingface.co/spaces/Westlake-AGI-Lab/FlowDirector

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-01-06 17:12:44

視頻AI

2022-09-30 15:35:43

AI視頻

2024-04-01 13:03:00

AI模型

2015-08-03 10:21:04

設(shè)計(jì)模式表達(dá)

2020-11-27 09:57:11

Python代碼PyPy

2023-09-05 23:34:52

Kubernetes云原生

2023-03-20 10:01:57

人工智能模型

2021-11-29 09:45:32

模型人工智能深度學(xué)習(xí)

2024-11-11 11:34:26

2010-03-29 11:55:12

無(wú)線(xiàn)上網(wǎng)報(bào)錯(cuò)

2023-05-08 15:44:23

3D數(shù)字人

2023-08-25 17:10:14

LLM人工智能

2014-05-07 10:47:51

移動(dòng)金融互聯(lián)網(wǎng)金融GMIC

2020-12-16 10:43:44

PythonPyPy代碼

2018-01-15 10:45:43

社交網(wǎng)絡(luò)互聯(lián)網(wǎng)巨頭百度

2019-08-15 11:42:56

程序員電腦軟件

2024-03-04 12:32:39

AI數(shù)據(jù)

2023-09-06 15:23:30

Docker容器K8S

2014-12-16 08:58:17

甲骨文Oracle數(shù)據(jù)庫(kù)選件
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)