SOTA級(jí)視頻編輯新方法：無(wú)需訓(xùn)練一句話(huà)編輯視頻，背景保持100%

2025-06-11 09:10:00

西湖大學(xué)AGILab提出了一種全新的無(wú)需反演和訓(xùn)練的視頻編輯新方法：FlowDirector。

傳統(tǒng)的視頻編輯工作流，正在被AI徹底重塑。

AI的視頻編輯方法總是存在一些問(wèn)題：例如視頻運(yùn)動(dòng)不連貫、編輯后的視頻產(chǎn)生意外變化等……經(jīng)過(guò)分析，這些問(wèn)題的產(chǎn)生最終大都指向同一原因——反演-編輯范式。

因此，西湖大學(xué)AGILab提出了一種全新的無(wú)需反演和訓(xùn)練的視頻編輯新方法：FlowDirector。

相較于其他視頻編輯方法，F(xiàn)lowDirector有以下方面值得關(guān)注：

開(kāi)銷(xiāo)低：FlowDirector無(wú)反演過(guò)程，不需要存儲(chǔ)任何額外的控制信息(如Attention Map)，單卡4090就可實(shí)現(xiàn)高質(zhì)量視頻編輯。
支持廣泛：除可進(jìn)行傳統(tǒng)的對(duì)象替換外，F(xiàn)lowDirector可以任意的添加、刪除視頻中的內(nèi)容，以及進(jìn)行一系列的紋理替換。
背景100%保持：通過(guò)對(duì)非編輯區(qū)域的“動(dòng)力”進(jìn)行凍結(jié)，使得編輯后的視頻在無(wú)關(guān)區(qū)域與原視頻完全保持一致。

編輯結(jié)果展示：

方法：針對(duì)視頻編輯中的「反演痛點(diǎn)」

現(xiàn)在的通用視頻編輯方法大多基于反演-去噪（inversion-denosiong）范式:

反演：把原視頻使用特定的方法(例如DDIM Inversion)拉回對(duì)應(yīng)噪聲空間得到潛在特征；
去噪：對(duì)噪聲空間中的潛在特征重新進(jìn)行采樣，并在采樣中注入一些特定的控制條件來(lái)達(dá)到編輯效果。

這種范式帶來(lái)了許多問(wèn)題：反演過(guò)程中的錯(cuò)誤會(huì)不斷的累計(jì)，使得得到的潛在特征并非是完美的，因此給去噪過(guò)程提供錯(cuò)誤的起點(diǎn)，導(dǎo)致出現(xiàn)例如編輯視頻動(dòng)作不連貫等結(jié)構(gòu)性損失，編輯結(jié)果受到嚴(yán)重干擾。

并且在去噪過(guò)程中的條件注入帶來(lái)了額外的存儲(chǔ)開(kāi)銷(xiāo)，限制了編輯產(chǎn)生的結(jié)果。

FlowDirector則摒棄了傳統(tǒng)的反演-去噪范式，通過(guò)構(gòu)造從源視頻到編輯結(jié)果的直接編輯路徑，實(shí)現(xiàn)高質(zhì)量、準(zhǔn)確和高可控的視頻編輯效果。具體實(shí)現(xiàn)如下：

直接流演化與空間矯正：精準(zhǔn)、高質(zhì)

FlowDirector直接特征空間構(gòu)建“源視頻→目標(biāo)視頻”的演化路徑，但這種直接演化范式并非完美無(wú)瑕，直接編輯路徑產(chǎn)生的編輯流作用于全視頻特征，會(huì)導(dǎo)致無(wú)關(guān)區(qū)域發(fā)生意外變化，嚴(yán)重影響編輯視頻的保真度。

如圖所示，在對(duì)目標(biāo)編輯對(duì)象進(jìn)行編輯時(shí)，編輯影響在了無(wú)關(guān)區(qū)域(道路)。

為此，研究團(tuán)隊(duì)提出了空間感知流矯正(Spatially Attentive Flow Correction，SAFC)：SAFC通過(guò)定位并限制編輯視頻中關(guān)鍵對(duì)象所在的空間區(qū)域，來(lái)防止編輯流干擾無(wú)關(guān)區(qū)域。

如圖所示，編輯左右被精確的限制在了車(chē)的周?chē)?，干擾泄漏現(xiàn)象消失。

具體措施為基于注意力熱圖生成二值掩碼，僅在語(yǔ)義相關(guān)的區(qū)域（如要替換或修改的物體、人物）施加流演化，背景與非目標(biāo)部分完全“凍結(jié)”，保證編輯后視頻的結(jié)構(gòu)與紋理不受影響。

差分平均引導(dǎo)：一種編輯流的自動(dòng)引導(dǎo)優(yōu)化方式

這種直接演化范式帶來(lái)的第二個(gè)問(wèn)題是，由于跳過(guò)了反演過(guò)程，原始視頻的控制信號(hào)會(huì)在編輯的整個(gè)流程均顯著存在，往往會(huì)對(duì)最終效果施加過(guò)強(qiáng)的“控制效果”，導(dǎo)致修改后的視頻中依然殘留明顯的原始物體輪廓或細(xì)節(jié)偽影。

為此，作者團(tuán)隊(duì)提出了差分平均引導(dǎo)(Differential Averaging Guidance，DAG)，同時(shí)進(jìn)行“高質(zhì)量采樣”和“快速基線(xiàn)采樣”，通過(guò)比對(duì)兩者之間的差異來(lái)提煉出真正需要的編輯優(yōu)化方向。具體來(lái)說(shuō)：

1.進(jìn)行差分采樣得到高質(zhì)速度和基線(xiàn)速度在每一次擴(kuò)散迭代中，首先對(duì)掩碼校正后的差分速度場(chǎng)做多次高質(zhì)量采樣，并將結(jié)果取平均得到一個(gè)精確且細(xì)節(jié)充足的速度估計(jì)；與此同時(shí)，用更少的采樣次數(shù)生成一組基線(xiàn)速度。

2.產(chǎn)生引導(dǎo)編輯效果增強(qiáng)的指導(dǎo)信號(hào)將每個(gè)基線(xiàn)速度與高質(zhì)量速度相減，得到，這些差分信號(hào)準(zhǔn)確指示了“從始視頻到目標(biāo)風(fēng)格”所需的增量變化方向，能夠有效抑制原始幀中殘留的強(qiáng)控制成分（即偽影）。

3.進(jìn)行差分平均自動(dòng)引導(dǎo)將所有差分信號(hào)求平均，然后按一定權(quán)重與高質(zhì)量速度進(jìn)行線(xiàn)性融合：

這個(gè)融合結(jié)果既保留了高質(zhì)量采樣帶來(lái)的細(xì)節(jié)與語(yǔ)義對(duì)齊，又利用差分引導(dǎo)信號(hào)實(shí)現(xiàn)自動(dòng)引導(dǎo)，進(jìn)一步降低了原始視頻殘影的干擾。

這樣一來(lái)，系統(tǒng)不僅能保留足夠的語(yǔ)義細(xì)節(jié)、確保目標(biāo)區(qū)域與文本提示高度匹配，還能有效抑制原始視頻多余信息的干擾。

最終，DAG讓FlowDirector在保證高保真度的同時(shí)，不至于陷入冗長(zhǎng)采樣帶來(lái)的算力瓶頸，實(shí)現(xiàn)了“畫(huà)質(zhì)優(yōu)先、效率優(yōu)先”的雙重升級(jí)。

實(shí)驗(yàn)結(jié)果：多指標(biāo)SOTA，支持添加、刪除和修改多任務(wù)

FlowDirector團(tuán)隊(duì)首先進(jìn)行了全面的定性實(shí)驗(yàn)，包含一系列定性任務(wù)，例如添加物體，刪除物體，形態(tài)差異劇烈的對(duì)象替換，對(duì)象屬性更改(如人的衣著)，紋理替換以及這些任務(wù)的組合。

結(jié)果得到，在廣泛的任務(wù)上，F(xiàn)lowDirector均能夠精準(zhǔn)捕捉并反映提示中指定的關(guān)鍵風(fēng)格屬性（例如顏色、材質(zhì)等），優(yōu)先確保文本語(yǔ)義與視覺(jué)效果的高度對(duì)齊。

同時(shí)，在保證目標(biāo)區(qū)域發(fā)生預(yù)期變化的前提下，F(xiàn)lowDirector也能確保輸出視頻的整體布局穩(wěn)定、無(wú)關(guān)區(qū)域一直與結(jié)構(gòu)完整。

在定量結(jié)果中，F(xiàn)lowDirector在各種指標(biāo)上均取得SOTA（在WarpSSIM上并非最高，因?yàn)镕lowDirector能夠?qū)崿F(xiàn)更大程度的語(yǔ)義變換，導(dǎo)致像素級(jí)的光流扭曲數(shù)值略低），顯著超過(guò)了已有的視頻編輯方法。

對(duì)比多種SOTA的視頻編輯方法（如FateZero、TokenFlow、VideoDirector等），F(xiàn)lowDirector在對(duì)象形變幅度、文本一致性、視覺(jué)細(xì)節(jié)與運(yùn)動(dòng)流暢度方面均表現(xiàn)突出，綜合主觀與客觀評(píng)測(cè)指標(biāo)均居領(lǐng)先水平。

總體而言，F(xiàn)lowDirector展示了視頻編輯的新思路：無(wú)需反演的直接流編輯，并引入了空間矯正和自動(dòng)引導(dǎo)，顯著提升了編輯視頻的質(zhì)量，實(shí)現(xiàn)了快、準(zhǔn)、省的三重躍升。

論文鏈接：https://arxiv.org/abs/2506.05046

項(xiàng)目地址：https://flowdirector-edit.github.io

Github：https://github.com/Westlake-AGI-Lab/FlowDirector

Huggingface：https://huggingface.co/spaces/Westlake-AGI-Lab/FlowDirector

責(zé)任編輯：張燕妮來(lái)源：量子位