偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大一統(tǒng)視頻編輯框架:浙大&微軟推出UniEdit,無(wú)須訓(xùn)練、支持多種編輯場(chǎng)景

人工智能 新聞
本文中,來(lái)自浙江大學(xué)、微軟亞洲研究院、和北京大學(xué)的研究者提出了一個(gè)基于文本描述的視頻編輯統(tǒng)一框架 UniEdit,不僅涵蓋了風(fēng)格遷移、背景替換、剛性 / 非剛性物體替換等傳統(tǒng)外觀編輯場(chǎng)景,更可以有效地編輯視頻中對(duì)象的動(dòng)作,例如將以上視頻中浣熊彈吉他的動(dòng)作變成「吃蘋(píng)果」或是「招手」。

隨著 Sora 的爆火,人們看到了 AI 視頻生成的巨大潛力,對(duì)這一領(lǐng)域的關(guān)注度也越來(lái)越高。

除了視頻生成,在現(xiàn)實(shí)生活中,如何對(duì)視頻進(jìn)行編輯同樣是一個(gè)重要的問(wèn)題,且應(yīng)用場(chǎng)景更為廣泛。以往的視頻編輯方法往往局限于「外觀」層面的編輯,例如對(duì)視頻進(jìn)行「風(fēng)格遷移」或者替換視頻中的物體,但關(guān)于更改視頻中對(duì)象的「動(dòng)作」的嘗試還很少。 

圖片

UniEdit 視頻編輯結(jié)果(動(dòng)作編輯、風(fēng)格遷移、背景替換、剛性 / 非剛性物體替換)

本文中,來(lái)自浙江大學(xué)、微軟亞洲研究院、和北京大學(xué)的研究者提出了一個(gè)基于文本描述的視頻編輯統(tǒng)一框架 UniEdit,不僅涵蓋了風(fēng)格遷移、背景替換、剛性 / 非剛性物體替換等傳統(tǒng)外觀編輯場(chǎng)景,更可以有效地編輯視頻中對(duì)象的動(dòng)作,例如將以上視頻中浣熊彈吉他的動(dòng)作變成「吃蘋(píng)果」或是「招手」。

此外,除了靈活的自然語(yǔ)言接口和統(tǒng)一的編輯框架,這一模型的另一大優(yōu)勢(shì)是無(wú)需訓(xùn)練,大大提升了部署的便捷性和用戶(hù)使用的方便度。

圖片


  • 論文標(biāo)題:UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing
  • 項(xiàng)目主頁(yè):https://jianhongbai.github.io/UniEdit
  • 代碼:https://github.com/JianhongBai/UniEdit
  • 論文:https://arxiv.org/abs/2402.13185

1.UniEdit 在多種視頻編輯場(chǎng)景中的表現(xiàn)

a) 對(duì)象動(dòng)作編輯

圖片

編輯指令:一只正在趴著的柯基

b) 風(fēng)格化

圖片

編輯指令:上海,碼頭,油畫(huà)風(fēng)格

c) 背景替換

圖片

編輯指令:鋼鐵俠在公園,冬季

d) 對(duì)象剛性編輯

圖片

編輯指令:一位男士穿著紅色西裝

e) 對(duì)象非剛性編輯

圖片

編輯指令:馬里奧正在享用晚餐

可以觀察到,UniEdit 在不同編輯場(chǎng)景中 1)保持了較好的時(shí)序一致性,2)較好的保留了原視頻的結(jié)構(gòu)及紋理細(xì)節(jié),3)生成符合文本描述的編輯視頻,展現(xiàn)出了強(qiáng)大的視頻編輯能力。

2.UniEdit 獨(dú)特之處與技術(shù)創(chuàng)新點(diǎn)

研究者表示,UniEdit 相較于其他視頻編輯方法,其獨(dú)特之處體現(xiàn)在:

  • 多功能:支持視頻「動(dòng)作」編輯以及多種視頻「外觀」編輯場(chǎng)景。
  • 無(wú)需訓(xùn)練:UniEdit 直接利用與訓(xùn)練的文本到視頻生成模型,無(wú)需額外訓(xùn)練或微調(diào)。
  • 靈活性:可兼容不同文本到視頻生成模型,可以使用更加強(qiáng)大的視頻生成模型提升 UniEdit 編輯質(zhì)量。

UniEdit 技術(shù)上的核心創(chuàng)新點(diǎn)為:

  • 研究者發(fā)現(xiàn),視頻生成模型的時(shí)間自注意層編碼了視頻的「幀間依賴(lài)性」?;谶@個(gè)洞察,研究者引入了一個(gè)輔助的動(dòng)作參考分支,用于生成文本引導(dǎo)的動(dòng)作特征,然后通過(guò)時(shí)間自注意層(SA-T)將這些特征注入到主編輯路徑中,從而實(shí)現(xiàn)將文本引導(dǎo)的動(dòng)作注入到源視頻中。
  • 受到圖像編輯技術(shù)的啟發(fā),研究者發(fā)現(xiàn)視頻生成模型的空間自注意層(SA-S)編碼了視頻幀內(nèi)空間依賴(lài)性。因此,研究者引入了一個(gè)輔助視頻重建分支,并將從視頻重建分支的空間自我注意層獲得的特征注入到主編輯路徑中,以保留源視頻的非編輯內(nèi)容。
  • 為了在編輯外觀時(shí)保持空間結(jié)構(gòu),研究者將主編輯路徑中的空間注意力圖替換為視頻重建分支中的空間注意力圖。

3.UniEdit 算法框架解讀

方法概述。如上圖所示,UniEdit 主編輯路徑遵循反演 - 生成流程:使用 DDIM 反演后的潛變量作為初始噪聲圖片,然后以目標(biāo)提示圖片為文本條件,使用預(yù)訓(xùn)練的 UNet 進(jìn)行去噪處理。進(jìn)行動(dòng)作編輯時(shí),為了實(shí)現(xiàn)源內(nèi)容保留和動(dòng)作控制,研究者提出加入一個(gè)輔助視頻重建分支和一個(gè)輔助動(dòng)作參考分支,以提供所需的源視頻內(nèi)容和動(dòng)作特征,這些特征被注入到主編輯路徑中,以實(shí)現(xiàn)內(nèi)容保留和動(dòng)作編輯。

對(duì)象動(dòng)作編輯 — 內(nèi)容保留。編輯任務(wù)的關(guān)鍵挑戰(zhàn)之一是繼承源視頻中的原始內(nèi)容(例如紋理和背景)。如圖像編輯中所驗(yàn)證的,重建過(guò)程中去噪模型的注意力特征包含了源視頻的內(nèi)容信息。因此,UniEdit 將視頻重建分支中的注意力特征注入到主編輯路徑的空間自注意(SA-S)層中,以保留原視頻內(nèi)容。

在去噪步驟 t,主編輯路徑中第圖片個(gè) SA-S 模塊的注意力機(jī)制操作如下:

其中圖片是主編輯路徑中的特征,圖片是重建分支中對(duì)應(yīng) SA-S 層的值(value),圖片圖片為超參數(shù)。通過(guò)替換空間自注意力層的 value 特征,主編輯路徑合成的視頻保留了源視頻的未編輯特征(例如背景)。與之前的視頻編輯工作使用的跨幀注意力機(jī)制不同,研究者采用逐幀替換的操作,以更好地處理包含大幅度動(dòng)作的源視頻。

對(duì)象動(dòng)作編輯 — 動(dòng)作注入。為了在不犧牲內(nèi)容一致性的情況下獲得所需的動(dòng)作,研究者提出用參考動(dòng)作指導(dǎo)主編輯路徑。具體來(lái)說(shuō),在去噪過(guò)程中涉及一個(gè)輔助動(dòng)作參考分支。與重建分支不同,動(dòng)作參考分支以包含所需動(dòng)作描述的目標(biāo)提示圖片為條件。為了將動(dòng)作轉(zhuǎn)移到主編輯路徑,研究者的核心洞察是時(shí)間層模擬了合成視頻剪輯的幀間依賴(lài)性(如下圖所示)。受上述觀察的啟發(fā),研究者設(shè)計(jì)了在主編輯路徑的時(shí)間自注意層上注入注意力圖:

圖片

其中圖片圖片指的是動(dòng)作參考分支的查詢(xún)(query)和鍵值(key),并在實(shí)踐中將圖片圖片設(shè)置為零。研究者觀察到,時(shí)間注意力圖的注入可以有效地幫助主編輯路徑生成與目標(biāo)提示一致的動(dòng)作。為了更好地將動(dòng)作與源視頻中的內(nèi)容融合,研究者還在早期去噪步驟中對(duì)主編輯路徑和動(dòng)作參考分支實(shí)施空間結(jié)構(gòu)控制。

圖片

外觀編輯 — 空間結(jié)構(gòu)控制??偟膩?lái)說(shuō),外觀編輯和動(dòng)作編輯之間有兩個(gè)主要區(qū)別。首先,外觀編輯不需要改變視頻的幀間關(guān)系。因此,研究者從動(dòng)作編輯流程中移除了動(dòng)作參考分支和相應(yīng)的動(dòng)作注入機(jī)制。其次,外觀編輯的主要挑戰(zhàn)是保持源視頻的結(jié)構(gòu)一致性。為了解決這個(gè)問(wèn)題,研究者在主編輯路徑和重建分支之間引入了空間結(jié)構(gòu)控制。

先前的視頻外觀編輯方法主要利用輔助網(wǎng)絡(luò)(例如 ControlNet)實(shí)現(xiàn)空間結(jié)構(gòu)控制。當(dāng)輔助控制模型失敗時(shí),可能會(huì)導(dǎo)致在保持原始視頻結(jié)構(gòu)方面的性能下降。作為替代,研究者建議從重建分支中提取源視頻的空間結(jié)構(gòu)信息。直觀地說(shuō),空間自注意層中的注意力圖編碼了合成視頻的結(jié)構(gòu),如下圖所示。因此,研究者用重建分支中的查詢(xún)和鍵替換主編輯路徑中 SA-S 模塊的查詢(xún)和鍵:

圖片

其中圖片圖片指重建分支的查詢(xún)和鍵,圖片圖片用于控制編輯的程度。值得一提的是,空間結(jié)構(gòu)控制的效果與內(nèi)容保留機(jī)制不同。以風(fēng)格化為例,上式中的結(jié)構(gòu)控制機(jī)制只確保了每幀空間構(gòu)圖的一致性,同時(shí)使模型能夠基于文本提示生成所需的紋理和風(fēng)格。另一方面,內(nèi)容呈現(xiàn)技術(shù)繼承了源視頻的紋理和風(fēng)格。因此,研究者使用結(jié)構(gòu)控制而不是內(nèi)容保留來(lái)進(jìn)行外觀編輯。

圖片

允許圖像輸入。為了使 UniEdit 更加靈活,研究者進(jìn)一步提出一種方法,允許將圖像作為輸入并合成高質(zhì)量的視頻。與圖像動(dòng)畫(huà)技術(shù)不同,UniEdit 允許用戶(hù)用文本提示指導(dǎo)動(dòng)畫(huà)過(guò)程。

具體來(lái)說(shuō),研究者提出首先通過(guò)以下方式實(shí)現(xiàn)文本到圖像(I2V)的生成:1)通過(guò)模擬相機(jī)運(yùn)動(dòng)轉(zhuǎn)換輸入圖像,形成偽視頻片段;或者 2)利用現(xiàn)有的圖像動(dòng)畫(huà)方法(例如SVD、AnimateDiff)合成一個(gè)具有隨機(jī)動(dòng)作的視頻(這可能與文本提示不一致)。然后,研究者使用以上介紹的 UniEdit 算法對(duì)原始視頻進(jìn)行文本引導(dǎo)編輯,以獲得最終輸出視頻。

3.UniEdit 實(shí)驗(yàn)結(jié)果

UniEdit 不局限于特定的視頻擴(kuò)散模型。研究者將 UniEdit 建立在視頻生成模型 LaVie 之上,以驗(yàn)證所提出方法的有效性。對(duì)于每個(gè)輸入視頻,研究者遵循 LaVie 的預(yù)處理步驟將分辨率調(diào)整為 320×512。然后,將預(yù)處理后的視頻輸入 UniEdit 進(jìn)行視頻編輯。每個(gè)視頻在 NVIDIA A100 GPU 上編輯僅需 1-2 分鐘。

圖片

基線(xiàn)方法。為了評(píng)估 UniEdit 的性能,研究者將 UniEdit 的編輯結(jié)果與最先進(jìn)的動(dòng)作和外觀編輯方法進(jìn)行比較。對(duì)于動(dòng)作編輯,由于缺乏開(kāi)源的無(wú)需訓(xùn)練的方法,研究者將最先進(jìn)的非剛性圖像編輯技術(shù) MasaCtrl 適配到 T2V 模型,以及 one-shot 視頻編輯方法 Tune-A-Video (TAV) 作為強(qiáng)基線(xiàn)。對(duì)于外觀編輯,研究者使用最新的性能強(qiáng)大的方法,包括 FateZero、TokenFlow 和 Rerender-A-Video (Rerender) 作為基線(xiàn)。結(jié)果如下圖所示:

定性結(jié)果。研究者在圖中給出了 UniEdit 的編輯示例(更多示例見(jiàn)項(xiàng)目主頁(yè)及論文原文)。觀察到 UniEdit 可以:1)在不同場(chǎng)景中編輯,包括動(dòng)作變化、物體替換、風(fēng)格轉(zhuǎn)換、背景修改等;2)與目標(biāo)提示一致;3)展示出極佳的時(shí)序一致性。

此外,研究者在圖 5 中與最先進(jìn)的方法進(jìn)行了比較。對(duì)于外觀編輯,即將源視頻轉(zhuǎn)換為油畫(huà)風(fēng)格,UniEdit 在內(nèi)容保留方面優(yōu)于基線(xiàn)。例如草原仍保持其原始外觀,沒(méi)有任何額外的石頭或小路。對(duì)于動(dòng)作編輯,大多數(shù)基線(xiàn)方法未能輸出與目標(biāo)提示對(duì)齊的視頻,或者未能保留源內(nèi)容。

定量結(jié)果。研究者從兩個(gè)方面定量驗(yàn)證了 UniEdit 的有效性:時(shí)間一致性和與目標(biāo)提示的一致性。遵循之前的工作,研究者使用 CLIP 模型計(jì)算幀間一致性和文本對(duì)齊的分?jǐn)?shù)。研究者還通過(guò)邀請(qǐng) 10 位參與者對(duì) UniEdit 和基線(xiàn)方法編輯的視頻進(jìn)行五級(jí)評(píng)分(1-5)進(jìn)行了用戶(hù)研究。如下表所示,UniEdit 的表現(xiàn)大幅超過(guò)基線(xiàn)方法。

更多細(xì)節(jié)內(nèi)容請(qǐng)參閱原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-01-17 10:30:00

2015-05-06 13:52:52

微軟外媒

2025-06-09 09:50:00

Veact庫(kù)React

2012-02-28 09:54:01

Windows 8微軟賬戶(hù)

2017-12-15 17:14:10

云端

2024-04-23 13:38:00

AI數(shù)據(jù)

2025-02-03 12:16:01

視頻生成AI

2015-07-30 12:27:30

重郵華為

2020-12-13 13:40:22

健康碼移動(dòng)應(yīng)用

2025-04-16 02:55:00

2014-07-29 13:25:43

WWDC 2014 S

2023-03-13 13:40:20

機(jī)器學(xué)習(xí)AI

2023-07-17 08:03:03

Shell腳本SQL

2023-10-20 09:43:56

模型訓(xùn)練

2022-05-16 11:06:54

SOTA谷歌預(yù)訓(xùn)練

2023-07-22 13:17:33

人工智能框架

2024-03-20 09:29:41

2024-12-10 09:49:53

2025-04-28 14:10:22

2025-03-13 10:18:42

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)