SOTA級(jí)視頻編輯新方法:無(wú)需訓(xùn)練一句話(huà)編輯視頻,背景保持100%
傳統(tǒng)的視頻編輯工作流,正在被AI徹底重塑。
AI的視頻編輯方法總是存在一些問(wèn)題:例如視頻運(yùn)動(dòng)不連貫、編輯后的視頻產(chǎn)生意外變化等……經(jīng)過(guò)分析,這些問(wèn)題的產(chǎn)生最終大都指向同一原因——反演-編輯范式。
因此,西湖大學(xué)AGILab提出了一種全新的無(wú)需反演和訓(xùn)練的視頻編輯新方法:FlowDirector。
相較于其他視頻編輯方法,F(xiàn)lowDirector有以下方面值得關(guān)注:
- 開(kāi)銷(xiāo)低:FlowDirector無(wú)反演過(guò)程,不需要存儲(chǔ)任何額外的控制信息(如Attention Map),單卡4090就可實(shí)現(xiàn)高質(zhì)量視頻編輯。
- 支持廣泛:除可進(jìn)行傳統(tǒng)的對(duì)象替換外,F(xiàn)lowDirector可以任意的添加、刪除視頻中的內(nèi)容,以及進(jìn)行一系列的紋理替換。
- 背景100%保持:通過(guò)對(duì)非編輯區(qū)域的“動(dòng)力”進(jìn)行凍結(jié),使得編輯后的視頻在無(wú)關(guān)區(qū)域與原視頻完全保持一致。
編輯結(jié)果展示:
方法:針對(duì)視頻編輯中的「反演痛點(diǎn)」
現(xiàn)在的通用視頻編輯方法大多基于反演-去噪(inversion-denosiong)范式:
- 反演:把原視頻使用特定的方法(例如DDIM Inversion)拉回對(duì)應(yīng)噪聲空間得到潛在特征;
- 去噪:對(duì)噪聲空間中的潛在特征重新進(jìn)行采樣,并在采樣中注入一些特定的控制條件來(lái)達(dá)到編輯效果。
這種范式帶來(lái)了許多問(wèn)題:反演過(guò)程中的錯(cuò)誤會(huì)不斷的累計(jì),使得得到的潛在特征并非是完美的,因此給去噪過(guò)程提供錯(cuò)誤的起點(diǎn),導(dǎo)致出現(xiàn)例如編輯視頻動(dòng)作不連貫等結(jié)構(gòu)性損失,編輯結(jié)果受到嚴(yán)重干擾。
并且在去噪過(guò)程中的條件注入帶來(lái)了額外的存儲(chǔ)開(kāi)銷(xiāo),限制了編輯產(chǎn)生的結(jié)果。
FlowDirector則摒棄了傳統(tǒng)的反演-去噪范式,通過(guò)構(gòu)造從源視頻到編輯結(jié)果的直接編輯路徑,實(shí)現(xiàn)高質(zhì)量、準(zhǔn)確和高可控的視頻編輯效果。具體實(shí)現(xiàn)如下:
直接流演化與空間矯正:精準(zhǔn)、高質(zhì)
FlowDirector直接特征空間構(gòu)建“源視頻→目標(biāo)視頻”的演化路徑,但這種直接演化范式并非完美無(wú)瑕,直接編輯路徑產(chǎn)生的編輯流作用于全視頻特征,會(huì)導(dǎo)致無(wú)關(guān)區(qū)域發(fā)生意外變化,嚴(yán)重影響編輯視頻的保真度。
如圖所示,在對(duì)目標(biāo)編輯對(duì)象進(jìn)行編輯時(shí),編輯影響在了無(wú)關(guān)區(qū)域(道路)。
為此,研究團(tuán)隊(duì)提出了空間感知流矯正(Spatially Attentive Flow Correction,SAFC):SAFC通過(guò)定位并限制編輯視頻中關(guān)鍵對(duì)象所在的空間區(qū)域,來(lái)防止編輯流干擾無(wú)關(guān)區(qū)域。
如圖所示,編輯左右被精確的限制在了車(chē)的周?chē)?,干擾泄漏現(xiàn)象消失。
具體措施為基于注意力熱圖生成二值掩碼,僅在語(yǔ)義相關(guān)的區(qū)域(如要替換或修改的物體、人物)施加流演化,背景與非目標(biāo)部分完全“凍結(jié)”,保證編輯后視頻的結(jié)構(gòu)與紋理不受影響。
差分平均引導(dǎo):一種編輯流的自動(dòng)引導(dǎo)優(yōu)化方式
這種直接演化范式帶來(lái)的第二個(gè)問(wèn)題是,由于跳過(guò)了反演過(guò)程,原始視頻的控制信號(hào)會(huì)在編輯的整個(gè)流程均顯著存在,往往會(huì)對(duì)最終效果施加過(guò)強(qiáng)的“控制效果”,導(dǎo)致修改后的視頻中依然殘留明顯的原始物體輪廓或細(xì)節(jié)偽影。
為此,作者團(tuán)隊(duì)提出了差分平均引導(dǎo)(Differential Averaging Guidance,DAG),同時(shí)進(jìn)行“高質(zhì)量采樣”和“快速基線(xiàn)采樣”,通過(guò)比對(duì)兩者之間的差異來(lái)提煉出真正需要的編輯優(yōu)化方向。具體來(lái)說(shuō):
1.進(jìn)行差分采樣得到高質(zhì)速度和基線(xiàn)速度在每一次擴(kuò)散迭代中,首先對(duì)掩碼校正后的差分速度場(chǎng)做多次高質(zhì)量采樣,并將結(jié)果取平均得到一個(gè)精確且細(xì)節(jié)充足的速度估計(jì);與此同時(shí),用更少的采樣次數(shù)生成一組基線(xiàn)速度
。
2.產(chǎn)生引導(dǎo)編輯效果增強(qiáng)的指導(dǎo)信號(hào)將每個(gè)基線(xiàn)速度與高質(zhì)量速度相減,得到,這些差分信號(hào)準(zhǔn)確指示了“從始視頻到目標(biāo)風(fēng)格”所需的增量變化方向,能夠有效抑制原始幀中殘留的強(qiáng)控制成分(即偽影)。
3.進(jìn)行差分平均自動(dòng)引導(dǎo)將所有差分信號(hào)求平均
,然后按一定權(quán)重與高質(zhì)量速度
進(jìn)行線(xiàn)性融合:
這個(gè)融合結(jié)果既保留了高質(zhì)量采樣帶來(lái)的細(xì)節(jié)與語(yǔ)義對(duì)齊,又利用差分引導(dǎo)信號(hào)實(shí)現(xiàn)自動(dòng)引導(dǎo),進(jìn)一步降低了原始視頻殘影的干擾。
這樣一來(lái),系統(tǒng)不僅能保留足夠的語(yǔ)義細(xì)節(jié)、確保目標(biāo)區(qū)域與文本提示高度匹配,還能有效抑制原始視頻多余信息的干擾。
最終,DAG讓FlowDirector在保證高保真度的同時(shí),不至于陷入冗長(zhǎng)采樣帶來(lái)的算力瓶頸,實(shí)現(xiàn)了“畫(huà)質(zhì)優(yōu)先、效率優(yōu)先”的雙重升級(jí)。
實(shí)驗(yàn)結(jié)果:多指標(biāo)SOTA,支持添加、刪除和修改多任務(wù)
FlowDirector團(tuán)隊(duì)首先進(jìn)行了全面的定性實(shí)驗(yàn),包含一系列定性任務(wù),例如添加物體,刪除物體,形態(tài)差異劇烈的對(duì)象替換,對(duì)象屬性更改(如人的衣著),紋理替換以及這些任務(wù)的組合。
結(jié)果得到,在廣泛的任務(wù)上,F(xiàn)lowDirector均能夠精準(zhǔn)捕捉并反映提示中指定的關(guān)鍵風(fēng)格屬性(例如顏色、材質(zhì)等),優(yōu)先確保文本語(yǔ)義與視覺(jué)效果的高度對(duì)齊。
同時(shí),在保證目標(biāo)區(qū)域發(fā)生預(yù)期變化的前提下,F(xiàn)lowDirector也能確保輸出視頻的整體布局穩(wěn)定、無(wú)關(guān)區(qū)域一直與結(jié)構(gòu)完整。
在定量結(jié)果中,F(xiàn)lowDirector在各種指標(biāo)上均取得SOTA(在WarpSSIM上并非最高,因?yàn)镕lowDirector能夠?qū)崿F(xiàn)更大程度的語(yǔ)義變換,導(dǎo)致像素級(jí)的光流扭曲數(shù)值略低),顯著超過(guò)了已有的視頻編輯方法。
對(duì)比多種SOTA的視頻編輯方法(如FateZero、TokenFlow、VideoDirector等),F(xiàn)lowDirector在對(duì)象形變幅度、文本一致性、視覺(jué)細(xì)節(jié)與運(yùn)動(dòng)流暢度方面均表現(xiàn)突出,綜合主觀與客觀評(píng)測(cè)指標(biāo)均居領(lǐng)先水平。
總體而言,F(xiàn)lowDirector展示了視頻編輯的新思路:無(wú)需反演的直接流編輯,并引入了空間矯正和自動(dòng)引導(dǎo),顯著提升了編輯視頻的質(zhì)量,實(shí)現(xiàn)了快、準(zhǔn)、省的三重躍升。
論文鏈接:https://arxiv.org/abs/2506.05046
項(xiàng)目地址:https://flowdirector-edit.github.io
Github:https://github.com/Westlake-AGI-Lab/FlowDirector
Huggingface:https://huggingface.co/spaces/Westlake-AGI-Lab/FlowDirector