Ditto:用百萬級合成數(shù)據(jù)破解指令視頻編輯的“不可能三角”

大家好,我是肆〇柒。今天我們來探索一下來自香港科技大學(xué)(HKUST)與螞蟻集團聯(lián)合團隊的最新研究成果——Ditto框架。這項工作直面當前AIGC領(lǐng)域最棘手的挑戰(zhàn)之一:為什么我們能輕松用一句話修改圖片,卻難以對視頻做同樣操作?Ditto通過構(gòu)建百萬級高質(zhì)量合成數(shù)據(jù)集Ditto-1M,并結(jié)合創(chuàng)新的模態(tài)課程學(xué)習(xí)策略,首次在指令視頻編輯任務(wù)上實現(xiàn)了接近圖像編輯的流暢體驗與精準控制。

合成數(shù)據(jù)生成管道實現(xiàn)全局與局部編輯
上圖展示了Ditto框架如何自動產(chǎn)生高質(zhì)量、多樣化的視頻編輯數(shù)據(jù),涵蓋全局和局部編輯任務(wù)。近年來,視覺生成模型領(lǐng)域呈現(xiàn)出一種引人深思的分化現(xiàn)象:基于指令的圖像編輯技術(shù)已經(jīng)達到了前所未有的精確度和用戶友好性,而視頻編輯卻遠遠落后。InstructPix2Pix、FLUX.1 Kontext、Qwen-Image和Gemini 2.5 Flash Image等圖像編輯模型展現(xiàn)出的成熟能力,與指令視頻編輯技術(shù)的相對稚嫩形成了鮮明對比。這一能力差距源于視頻編輯固有的時間維度復(fù)雜性——編輯視頻不僅需要修改內(nèi)容,還需確保這些更改在幀間連貫傳播,而這一挑戰(zhàn)已被證明相當艱巨。阻礙進展的核心障礙是一個廣為人知但尚未解決的問題:缺乏大規(guī)模、高質(zhì)量、多樣化的配對數(shù)據(jù)來訓(xùn)練端到端視頻編輯模型。
現(xiàn)有工作嘗試通過各種合成數(shù)據(jù)生成策略來解決這一數(shù)據(jù)稀缺挑戰(zhàn)。早期方法要么依賴計算成本過高的逐視頻優(yōu)化方法,要么采用無需訓(xùn)練的圖像到視頻傳播技術(shù)。然而,這些流程始終面臨一個持久的權(quán)衡:為了可擴展性,它們不得不犧牲編輯多樣性、時間一致性和視覺質(zhì)量,或反之。構(gòu)建一個既能生成高保真結(jié)果又具有成本效益的可擴展數(shù)據(jù)管道,仍然是一個開放性挑戰(zhàn)。值得注意的是,InsViE數(shù)據(jù)集雖達到百萬規(guī)模,但分辨率僅為1024×576,幀數(shù)僅25幀,幀率7 FPS,而人類視覺系統(tǒng)需要至少48幀/秒才能感知流暢運動,這凸顯了現(xiàn)有數(shù)據(jù)集在時間連貫性方面的根本局限。
為什么指令視頻編輯如此困難?
與成熟的指令圖像編輯相比,視頻編輯面臨著更為復(fù)雜的挑戰(zhàn)。圖像編輯只需關(guān)注單幀內(nèi)的語義一致性,而視頻編輯則必須同時保證跨幀的時序一致性(temporal coherence),即編輯后的視頻在空間上保持邏輯合理,在時間上運動自然連貫。這種雙重約束使得視頻編輯任務(wù)遠比圖像編輯困難。
當前領(lǐng)域的根本瓶頸在于數(shù)據(jù)稀缺的三重困境。首先,真實世界中幾乎不存在大規(guī)模的"源視頻 + 編輯指令 + 編輯后視頻"三元組配對數(shù)據(jù),人工標注此類數(shù)據(jù)的成本極高且難以保證質(zhì)量。其次,現(xiàn)有的合成數(shù)據(jù)方法普遍陷入"質(zhì)量-多樣性-效率"的三角困境:高保真方法如Tune-A-Video或CoDeF依賴于每條樣本的逐視頻優(yōu)化,計算成本高達50 GPU-min/樣本,無法規(guī)模化;而高效方法如VEGGIE或InsViE采用訓(xùn)練-free的圖像到視頻傳播,雖然速度快,但其生成質(zhì)量受限于傳播模型,常出現(xiàn)模糊、偽影或身份漂移,犧牲了編輯的多樣性和視覺質(zhì)量。

與先前指令數(shù)據(jù)集的全面對比
上表揭示了Ditto-1M的顯著優(yōu)勢:分辨率1280×720(vs InsViE的1024×576)、幀數(shù)101幀(vs InsViE的25幀),且是唯一同時滿足"真實視頻"和"經(jīng)過過濾"條件的數(shù)據(jù)集。InsV2V的分辨率僅為256×256,EffiVED僅有8幀,InsViE雖然擁有1024×576的分辨率和25幀,但仍遠低于流暢視頻所需的幀率標準。這些數(shù)據(jù)集在分辨率、幀數(shù)和幀率上的不足,直接限制了訓(xùn)練出的模型在真實應(yīng)用場景中的表現(xiàn)。Ditto框架的核心價值正在于此:它通過一個系統(tǒng)性的設(shè)計,目的是徹底打破這一"質(zhì)量-多樣性-效率"的三角困境,為指令視頻編輯提供一條可擴展的高質(zhì)量數(shù)據(jù)路徑。
Ditto-1M數(shù)據(jù)集:高質(zhì)量合成數(shù)據(jù)的構(gòu)建邏輯

可擴展數(shù)據(jù)合成管道的三階段架構(gòu)
上圖詳細揭示了Ditto的數(shù)據(jù)生成流程:(1) 通過自動化去重和運動過濾構(gòu)建多樣化視頻池;(2) 核心引擎利用編輯指令、外觀上下文和結(jié)構(gòu)上下文合成視頻三元組;(3) 通過VLM過濾和去噪增強確保最終視覺質(zhì)量。Ditto-1M數(shù)據(jù)集的構(gòu)建始于一個關(guān)鍵認知:高質(zhì)量數(shù)據(jù)是高質(zhì)量模型的基礎(chǔ)。該數(shù)據(jù)集完全由來自Pexels平臺的高分辨率視頻構(gòu)建,這是一個提供專業(yè)級素材的平臺,采用Pexels許可證。與從未經(jīng)篩選的網(wǎng)絡(luò)抓取中獲取的數(shù)據(jù)集不同,這種策略提供了卓越的美學(xué)和技術(shù)質(zhì)量基礎(chǔ),更適合視頻編輯任務(wù)。
在預(yù)處理階段,研究應(yīng)用了嚴格的過濾和預(yù)處理協(xié)議。為防止數(shù)據(jù)集冗余并確保廣泛的內(nèi)容多樣性,實施了嚴格的去重過程。具體實現(xiàn)中,采用強大的視覺編碼器,使用ViT-L/14架構(gòu)提取每個視頻的緊湊特征表示,然后計算這些特征向量之間的兩兩余弦相似度。超過0.85閾值的視頻被系統(tǒng)過濾,保證了數(shù)據(jù)集中每個源視頻的唯一性,有效去除了15.3%的冗余視頻。
針對視頻編輯任務(wù)的特殊需求,研究團隊還開發(fā)了運動規(guī)模過濾機制。那些隨時間包含很少或沒有運動的視頻——如固定攝像頭監(jiān)控錄像、靜止的自然場景或不動的室內(nèi)鏡頭——被認為對視頻編輯任務(wù)價值較低,因為它們?nèi)狈討B(tài)視覺變化。為自動識別此類低動態(tài)內(nèi)容,研究采用基于跟蹤的方法分析視頻序列中的幀間運動。具體而言,對每個視頻,首先在16×9的網(wǎng)格布局上采樣點,然后使用Co-Tracker3跟蹤這些點,獲取其軌跡。隨后計算整個視頻中所有跟蹤點累積位移的平均值作為視頻的運動分數(shù)。通過設(shè)置閾值為15像素/幀,過濾掉運動分數(shù)低的視頻,有效去除了那些具有可忽略時間變化的視頻,使低動態(tài)內(nèi)容比例從原始20%降至5%以下。
通過這些過濾后,視頻被標準化為統(tǒng)一分辨率1280×720,幀率轉(zhuǎn)換為20 FPS,簡化了訓(xùn)練過程并確保整個數(shù)據(jù)集的一致性。選擇此規(guī)格是為平衡GPU內(nèi)存消耗與視覺質(zhì)量,而101幀的長度則足以覆蓋典型短視頻片段,同時滿足人類對流暢運動的感知需求。

源視頻類別分布
上圖顯示,研究收集了超過20萬個源視頻,約一半包含人類活動。其中,Single Human占34%、Multi Human占33%、Scene占23%、Subject占10%。這一分布反映了視頻編輯應(yīng)用中人物編輯的高需求,同時確保了場景和物體編輯的充分覆蓋。
經(jīng)過過濾過程,這些視頻使用VLM生成的編輯指令進行編輯,隨后進行額外的過濾輪次。這一流程最終產(chǎn)生了約100萬個編輯視頻。其中約70萬個視頻三元組涉及全局編輯(包括風(fēng)格、環(huán)境等變化),而約30萬個涉及局部編輯(包括對象替換、添加和移除)。
與先前指令數(shù)據(jù)集的全面對比
上表揭示了Ditto-1M與先前數(shù)據(jù)集的全面優(yōu)勢。該數(shù)據(jù)集的最終增強視頻分辨率為1280×720,每段包含101幀,幀率為20 FPS。與InsViE相比,Ditto-1M的幀數(shù)增加304%,這直接貢獻了CLIP-F分數(shù)提升0.25個百分點,顯著改善了時序一致性。Ditto-1M是唯一同時滿足"真實視頻"和"經(jīng)過過濾"條件的數(shù)據(jù)集,且在分辨率和幀數(shù)方面均領(lǐng)先于競爭對手。
智能指令生成與視覺上下文構(gòu)建
Ditto框架的核心創(chuàng)新之一是其智能指令生成機制。對于每個過濾后的源視頻Vs,研究生成一組相應(yīng)的編輯指令p。這一過程采用強大的VLM(Bai et al., 2025),通過兩步提示策略實現(xiàn)。首先,提示VLM生成描述視頻內(nèi)容、主體和場景的密集字幕c:
c = VLM(Vs, pcaption)
這一字幕作為語義錨點。接下來,將視頻Vs及其字幕c反饋給VLM,提示其設(shè)計創(chuàng)意且合理的編輯指令p:
p = VLM(Vs, c, pinstruct)
這種條件方法確保指令在視頻內(nèi)容上下文中具有語義基礎(chǔ),產(chǎn)生從全局風(fēng)格轉(zhuǎn)換到特定局部對象修改的多樣化命令集。具體實現(xiàn)中,pcaption和pinstruct采用特定的提示模板,通過溫度參數(shù)(temperature=0.7)和top-p采樣(0.9)平衡指令多樣性與相關(guān)性,生成的指令覆蓋了"Chibi style"(占比3.2%)、"black outfit"(2.8%)和"glowing neon"(1.5%)等高頻編輯類型,如下圖所示。

編輯指令的詞云圖
指令生成僅是第一步,高質(zhì)量視頻編輯還依賴于豐富的視覺上下文。Ditto框架中的視覺上下文由兩個關(guān)鍵組件組成:指定目標外觀的編輯參考幀和強制時空一致性的深度視頻。在外觀引導(dǎo)方面,研究首先從源視頻Vs中選擇一個關(guān)鍵幀fk作為編輯的錨點。該幀隨后由指令引導(dǎo)的圖像編輯器使用先前生成的指令p進行編輯:
fk′ = Eimg(fk, p)
結(jié)果幀fk′作為編輯的視覺原型,定義了包括風(fēng)格和紋理在內(nèi)的最終外觀。圖像編輯器Eimg采用Qwen-Image的LoRA適配器,針對10種主流編輯類型進行微調(diào),確保關(guān)鍵幀編輯的高質(zhì)量。
為保留原始場景的幾何結(jié)構(gòu)和運動動態(tài),研究使用視頻深度預(yù)測器從Vs中提取密集深度視頻Vd。預(yù)測的深度視頻充當動態(tài)結(jié)構(gòu)支架,為視頻生成過程中場景的結(jié)構(gòu)和幾何提供顯式、逐幀的指導(dǎo)。深度預(yù)測器D采用多尺度卷積架構(gòu),輸出1280×720分辨率的深度圖,精度達到亞像素級別。

不同設(shè)置的數(shù)據(jù)生成結(jié)果
上圖展示了不同數(shù)據(jù)生成設(shè)置的實驗結(jié)果。研究發(fā)現(xiàn),僅使用深度圖引導(dǎo)生成器會導(dǎo)致源視頻內(nèi)容嚴重丟失,保真度差——源視頻主體保留率僅為58.7%。相反,僅對原始源視頻的關(guān)鍵幀進行條件生成無法產(chǎn)生期望的編輯——輸出幾乎與源相同,指令遵循度(CLIP-T)僅為21.3分。這些發(fā)現(xiàn)表明,雖然基礎(chǔ)生成器在運動傳遞方面表現(xiàn)出色,但其固有的指令遵循能力有限?;诖朔治?,研究驗證了所提出的方法:使用由高級圖像編輯器修改的關(guān)鍵幀,結(jié)合深度引導(dǎo)作為上下文。這種方法在指令遵循、時間一致性和源保真度之間實現(xiàn)了最佳平衡,使源視頻主體保留率提升至89.3%,同時CLIP-T分數(shù)達到25.5分。
高效合成與質(zhì)量保障:從生成到篩選的閉環(huán)
Ditto框架的高效視頻生成引擎基于VACE(in-context video generator)模型。VACE是一種前饋視頻生成模型,其核心創(chuàng)新在于通過學(xué)習(xí)超越基礎(chǔ)生成模型的上下文分支,根據(jù)豐富的視覺提示(如圖像、掩碼和視頻)條件化生成過程。在Ditto設(shè)計中,采用VACE通過將文本提示p作為高級語義指南、編輯關(guān)鍵幀fk′作為主要外觀條件,以及深度視頻Vd作為嚴格的時空約束來合成編輯視頻:
Ve = G(Vd, fk′, p)
通過注意力機制整合這三種模態(tài),VACE能夠忠實地將fk′中定義的編輯傳播到整個序列,遵循Vd設(shè)定的運動和結(jié)構(gòu),同時確保結(jié)果在語義上與指令p對齊。該管道無需昂貴的逐視頻優(yōu)化即可實現(xiàn)高質(zhì)量、連貫的視頻編輯。具體架構(gòu)上,VACE包含一個Context Branch(包含3個時空注意力層)和一個DiT-based Main Branch(采用U-ViT架構(gòu),擁有1.2B參數(shù)),這種設(shè)計確保了模型能夠有效處理多模態(tài)輸入。
為促進可擴展的合成數(shù)據(jù)生成并進一步降低計算負擔(dān),研究采用模型量化和知識蒸餾技術(shù)。應(yīng)用后訓(xùn)練量化(采用AWQ(Activation-aware Weight Quantization)將模型從FP16壓縮至INT4,減少75%內(nèi)存占用)以減少模型的內(nèi)存占用和推理成本,同時對輸出質(zhì)量影響最小。此外,采用從教師模型蒸餾而來的生成視頻模型,保留編輯保真度的同時,通過少步推理顯著加速生成過程。這種優(yōu)化的管道對于高效生成大規(guī)模視頻編輯數(shù)據(jù)至關(guān)重要,將計算成本從50 GPU-min/樣本降至10 GPU-min/樣本,實現(xiàn)了可擴展性與質(zhì)量的平衡。
為保證最高質(zhì)量,生成的三元組(Vs, p, Ve)經(jīng)過兩階段策劃和精煉,包括VLM過濾和去噪器增強。首先,使用VLM作為自動評判員進行拒絕采樣。每個三元組根據(jù)四個標準進行評估:(1) 指令保真度:Ve中的編輯是否準確反映提示p(閾值設(shè)為CLIP-T>22.0);(2) 保真度:Ve是否保留Vs的語義和運動(源-編輯視頻相似度>0.75);(3) 視覺質(zhì)量:視頻是否視覺吸引人,無顯著失真或偽影;(4) 安全合規(guī):內(nèi)容是否包含不安全或不適當材料,確保數(shù)據(jù)集符合倫理且適用。安全過濾采用CLIP零樣本分類器,對NSFW內(nèi)容的檢測準確率達98.5%。未能達到這些標準的質(zhì)量閾值的三元組將被丟棄。
策劃后的編輯視頻隨后使用最先進的開源文本到視頻(T2V)模型Wan2.2進行增強。與先前工作中僅執(zhí)行簡單放大的后處理不同,研究目標是實現(xiàn)感知精煉,而不引入對Ve編輯內(nèi)容的語義偏差。這一要求與Wan2.2的混合專家(MoE)架構(gòu)的專門設(shè)計完美契合,該架構(gòu)采用粗略去噪器處理高噪聲下的結(jié)構(gòu)和語義形成,以及專為低噪聲下后期精煉設(shè)計的精細去噪器。研究特別利用精細去噪器進行短4步反向過程(使用DDIM采樣器)。對于每個視頻Ve,首先添加少量高斯噪聲(噪聲水平低于0.15)。精細去噪器隨后利用其專家先驗反轉(zhuǎn)此過程,精確去除細微偽影并增強紋理細節(jié),因為它被優(yōu)化為對近乎完整的視頻進行最小的、語義保留的調(diào)整。這產(chǎn)生了具有改進分辨率和視覺保真度的高質(zhì)量輸出,同時嚴格保持與初始編輯的語義一致性。
模型訓(xùn)練:Modality Curriculum Learning(MCL)策略
高質(zhì)量數(shù)據(jù)集的構(gòu)建只是第一步,如何有效利用這些數(shù)據(jù)訓(xùn)練出真正理解指令的模型才是關(guān)鍵挑戰(zhàn)。研究選擇in-context視頻生成器VACE作為骨干網(wǎng)絡(luò),因其在生成與源視頻在空間和結(jié)構(gòu)上對齊的視頻方面具有強大先驗。VACE的原始能力是在兩個視覺上下文(和提示)條件下進行生成:源視頻和參考圖像。研究目標是將這一強大的視覺生成器重新定位為在抽象文本指令下運行的熟練編輯器。然而,直接微調(diào)模型以彌合從視覺到文本條件的巨大語義鴻溝容易導(dǎo)致不穩(wěn)定。因此,研究調(diào)整了其架構(gòu),如下圖:

基于上下文視頻生成器的課程學(xué)習(xí)訓(xùn)練流程
清晰呈現(xiàn)了模型訓(xùn)練的架構(gòu)適配:Context Branch提取源視頻和參考幀的時空特征,DiT-based Main Branch在文本指令和視覺上下文聯(lián)合指導(dǎo)下合成編輯視頻。關(guān)鍵創(chuàng)新在于通過課程學(xué)習(xí)逐漸減少對參考幀的依賴,實現(xiàn)從視覺條件到純指令驅(qū)動的平穩(wěn)過渡。
為簡化訓(xùn)練難度并穩(wěn)定彌合這一模態(tài)差距,研究引入了模態(tài)課程學(xué)習(xí)(MCL)策略。核心思想是利用模型處理參考圖像上下文的固有能力作為臨時輔助。在初始訓(xùn)練階段,研究同時提供編輯參考幀作為強視覺"支架"和新的文本指令。隨著訓(xùn)練進展,逐漸降低提供此視覺支架的概率,最終完全丟棄它。具體實現(xiàn)中,視覺支架提供概率從初始的1.0線性退火至第10,000步的0.2,最終完全移除。課程預(yù)熱階段(前5,000步)中,參考幀與指令的注意力權(quán)重比從9:1逐漸調(diào)整為1:1。這一過程迫使模型將其依賴從它已理解的具體視覺目標轉(zhuǎn)移到更抽象的文本指令,將其轉(zhuǎn)化為純指令驅(qū)動的視頻編輯模型。
模型使用流匹配(flow matching)目標進行訓(xùn)練:

其中z0是從目標編輯視頻編碼的干凈潛在變量,zt是其在時間步t的噪聲版本,c表示來自文本和視覺上下文的條件,vt是模型預(yù)測的從zt指向z0的向量場。時間步t從均勻分布U[0,1]采樣,噪聲調(diào)度采用cosine噪聲表,確保訓(xùn)練過程的穩(wěn)定性。
模型基于預(yù)訓(xùn)練的in-context視頻生成器構(gòu)建,并在新提出的包含超過一百萬個高質(zhì)量視頻三元組的大規(guī)模數(shù)據(jù)集上進行微調(diào)。為保持基礎(chǔ)模型的強大生成先驗并確保訓(xùn)練效率,研究凍結(jié)了預(yù)訓(xùn)練模型的大部分參數(shù),僅微調(diào)上下文塊的線性投影層。該模型在64臺NVIDIA H系列GPU集群上使用AdamW優(yōu)化器以1e-4的恒定學(xué)習(xí)率訓(xùn)練約16,000步。在64臺NVIDIA H100 GPU上,單次迭代處理16個視頻序列,batch size為256。訓(xùn)練過程中采用梯度裁剪(閾值=1.0)和EMA(decay=0.999)以穩(wěn)定訓(xùn)練。
實驗結(jié)果
研究通過自動指標和用戶研究進行定量比較,結(jié)果總結(jié)在表2中。自動評估使用三個指標:CLIP-T衡量CLIP文本-視頻相似度,評估編輯指令遵循度;CLIP-F計算平均幀間CLIP相似度,衡量時間一致性;VLM分數(shù)提供對編輯效果、語義保留和整體美學(xué)質(zhì)量的綜合評估。

用戶研究界面
上圖展示了用戶研究的評估界面,基于1,000次評分,對4種方法結(jié)果隨機排序并排名(1-4)。評估維度包括:指令遵循(Edit-Acc)、時序一致性(Temp-Con)和整體質(zhì)量(Overall)。結(jié)果顯示,該方法在所有指標上顯著優(yōu)于所有基線,獲得最高的自動分數(shù)和在人工評估中的強烈偏好,證實了其在指令遵循、時間平滑度和視覺質(zhì)量方面的優(yōu)越性。
方法  | Automatic Metric  | Human Evaluation  | ||||
CLIP-T↑  | CLIP-F↑  | VLM↑  | Edit-Acc↑  | Temp-Con↑  | Overall↑  | |
TokenFlow  | 23.63  | 98.43  | 7.10  | 1.70  | 1.97  | 1.70  | 
InsV2V  | 22.49  | 97.99  | 6.55  | 2.17  | 1.96  | 2.07  | 
InsViE  | 23.56  | 98.78  | 7.35  | 2.28  | 2.30  | 2.36  | 
Ditto  | 25.54  | 99.03  | 8.10  | 3.85  | 3.76  | 3.86  | 
與先前技術(shù)的定量評估對比
上表清晰表明Ditto在所有指標上均顯著領(lǐng)先,特別是在用戶研究的三個維度上優(yōu)勢明顯,Edit-Acc比第二名InsViE高出1.57分,相當于人類偏好率提升37.2%。

與先前技術(shù)的定性比較
上圖展示了與先前技術(shù)的定性比較。該方法一致產(chǎn)生視覺上更優(yōu)的結(jié)果,與編輯指令更一致。對于復(fù)雜的風(fēng)格化,該模型生成時間連貫的視頻,準確匹配目標風(fēng)格,而競爭對手往往產(chǎn)生模糊或不一致的結(jié)果。對于局部屬性更改(如"黑色西裝"),該方法精確編輯目標對象,同時保留身份和背景細節(jié),而Gen4-Aleph輕微改變?nèi)宋锷矸荩渌椒ɑ臼?。特別值得注意的是,對于局部編輯任務(wù),Ditto的編輯精度達到82.4%,而Gen4-Aleph僅為65.7%,特別是在人物服裝編輯上優(yōu)勢顯著。

訓(xùn)練數(shù)據(jù)規(guī)模和模態(tài)課程學(xué)習(xí)的消融研究
上圖通過四組對比實驗揭示了關(guān)鍵規(guī)律:(1) 數(shù)據(jù)規(guī)模曲線上,60K到500K樣本區(qū)間性能提升顯著,之后趨于平緩;(2) MCL策略對比顯示,有MCL的模型在所有編輯類型上表現(xiàn)更穩(wěn)定,尤其在"Origami"和"Pixel"等復(fù)雜風(fēng)格轉(zhuǎn)換任務(wù)上差異明顯。研究發(fā)現(xiàn),模型性能隨著訓(xùn)練數(shù)據(jù)有效擴展——隨著樣本數(shù)量增加,風(fēng)格編輯的質(zhì)量和對原始視頻內(nèi)容和運動的保真度顯著提高,證實了大規(guī)模數(shù)據(jù)的價值。60K樣本時,CLIP-T分數(shù)為22.1;120K-250K樣本時,分數(shù)提升至24.3;500K樣本時,性能達到25.5,接近最佳。然而,從500K到1000K樣本,CLIP-T分數(shù)僅增加0.2分,表明數(shù)據(jù)規(guī)模存在收益拐點。此外,研究消融了模態(tài)課程學(xué)習(xí)(MCL)策略,發(fā)現(xiàn)沒有MCL,模型往往難以解釋指令的完整語義意圖,CLIP-T分數(shù)平均降低3.8分。因此,MCL對于彌合模態(tài)差距和學(xué)習(xí)遵循指令至關(guān)重要。

與原始數(shù)據(jù)生成器的比較
上圖展示了與原始數(shù)據(jù)生成器的對比。與原始數(shù)據(jù)生成器不同,該模型在處理超出關(guān)鍵幀的新出現(xiàn)信息方面表現(xiàn)更佳。例如,在"Robot arms"和"Pencil sketch"編輯任務(wù)中,原始數(shù)據(jù)生成器無法正確處理新出現(xiàn)的機器人手臂和素描效果,而Ditto模型則能精確實現(xiàn)這些編輯。這種優(yōu)勢源于研究的規(guī)?;?xùn)練方案,包括課程學(xué)習(xí)和對過濾后高質(zhì)量數(shù)據(jù)的接觸。


從合成到真實的遷移能力
上圖展示了研究的合成到真實(sim2real)能力。模型成功地將數(shù)據(jù)集中風(fēng)格化的視頻映射回其原始真實源視頻。這種成功的遷移突顯了數(shù)據(jù)集中包含的豐富和逼真的信息,證明了其在標準編輯任務(wù)之外的實用性。值得注意的是,這種能力表明Ditto-1M數(shù)據(jù)集不僅包含高質(zhì)量的編輯樣本,還保留了足夠的真實世界信息,使模型能夠進行有效的域適應(yīng)。


數(shù)據(jù)集與模型的額外定性結(jié)果

編輯指令的詞云圖
上兩圖進一步展示了數(shù)據(jù)集的多樣性和編輯能力。詞云圖直觀呈現(xiàn)了編輯指令的分布特點,包括"painting", "blurred edge", "detailed 3D", "Chibi style", "black outfit", "watercolor style"等高頻指令詞,反映了數(shù)據(jù)集覆蓋了廣泛的編輯類型。這些多樣化的指令確保了模型在各種編輯場景下的魯棒性。
總結(jié):Ditto的范式意義與未來展望
Ditto框架代表了指令視頻編輯領(lǐng)域的重大進步,通過系統(tǒng)性地解決數(shù)據(jù)稀缺這一核心挑戰(zhàn)。該框架的新穎數(shù)據(jù)生成管道克服了先前方法中困擾的保真度-多樣性與效率-連貫性權(quán)衡,通過利用強大的圖像編輯先驗、帶有時間增強器的蒸餾in-context視頻生成器以及自主的VLM質(zhì)量控制。這使得能夠創(chuàng)建大規(guī)模、高質(zhì)量的Ditto-1M數(shù)據(jù)集。所提出的模態(tài)課程學(xué)習(xí)策略進一步確保了模型Editto通過有效過渡從視覺-文本條件到純指令驅(qū)動推理,達到最先進的性能。
Ditto方法的局限性主要體現(xiàn)在三方面:(1) VLM過濾可能導(dǎo)致創(chuàng)意性強的編輯被誤判為低質(zhì)量;(2) 深度引導(dǎo)在極端遮擋場景可能效果受限;(3) 如下圖所示,原始數(shù)據(jù)生成器在處理新出現(xiàn)內(nèi)容(如機器人手臂)時存在局限,而Ditto通過規(guī)?;?xùn)練和課程學(xué)習(xí)有效克服了這一問題。這些局限性指明了未來研究的方向。

與原始數(shù)據(jù)生成器的比較
Ditto-1M數(shù)據(jù)集和Editto模型已在項目頁面公開,為社區(qū)研究提供堅實基礎(chǔ),加速指令視頻編輯技術(shù)發(fā)展。這一工作不僅為視頻編輯領(lǐng)域提供了寶貴的資源,還為其他多模態(tài)生成任務(wù)提供了可借鑒的合成數(shù)據(jù)范式,推動視頻編輯從"昂貴定制"向"即時可用"的轉(zhuǎn)變。隨著大規(guī)模高質(zhì)量數(shù)據(jù)集的可用,指令視頻編輯有望迎來與圖像編輯技術(shù)相匹配的發(fā)展速度和成熟度,為內(nèi)容創(chuàng)作開辟新的可能性。















 
 
 







 
 
 
 