偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

后期狂喜!一張照片絲滑替換視頻主角,動(dòng)作幅度再大也OK|Meta&新加坡國(guó)立大學(xué)

人工智能 新聞
不管是風(fēng)格轉(zhuǎn)換還是主題/背景轉(zhuǎn)換,這種視頻編輯任務(wù)的主要挑戰(zhàn)都是如何從源視頻中提取運(yùn)動(dòng)軌跡傳輸?shù)叫乱曨l、覆蓋到新元素上,同時(shí)確保時(shí)間一致性。

后期狂喜了家人們~

現(xiàn)在,只需一張圖片就能替換視頻主角,效果還是如此的絲滑!

且看這個(gè)叫做“VideoSwap”的新視頻編輯模型——

小貓一鍵變小狗,基操~

圖片

如果原物體本身扭動(dòng)幅度大一些?也完全沒(méi)問(wèn)題:

圖片

細(xì)看倆者之間的運(yùn)動(dòng)軌跡,給你保持得是一毛一樣:

圖片

再如果,替換前后的物體形狀差別較大呢?

例如車身較高的SUV換更長(zhǎng)的超跑,大郵輪換小白船。

吶,也是一整個(gè)完美替換,基本看不出任何破綻:

圖片

圖片

對(duì)比谷歌今年2月發(fā)的同類視頻替換模型Dreamix:

圖片

不得不說(shuō),現(xiàn)在這技術(shù)進(jìn)步真是肉眼可見啊~

那么,它是如何做到的呢?

方法也很有意思。

只需幾個(gè)語(yǔ)義點(diǎn),拽一拽就OK

不管是風(fēng)格轉(zhuǎn)換還是主題/背景轉(zhuǎn)換,這種視頻編輯任務(wù)的主要挑戰(zhàn)都是如何從源視頻中提取運(yùn)動(dòng)軌跡傳輸?shù)叫乱曨l、覆蓋到新元素上,同時(shí)確保時(shí)間一致性。

此前的模型(原理包括編碼源運(yùn)動(dòng)、使用注意力圖、光流等)大多數(shù)顧此失彼,要么在時(shí)間一致性上做的不好,要么會(huì)嚴(yán)格限制形狀變化。

在此,VideoSwap提出使用少量語(yǔ)義點(diǎn)來(lái)描述物體的運(yùn)動(dòng)軌跡。

如下圖所示,飛機(jī)的運(yùn)動(dòng)軌跡就可以通過(guò)機(jī)翼、機(jī)頭和機(jī)尾的4個(gè)點(diǎn)來(lái)表示。

圖片

而在替換成直升機(jī)時(shí),我們可以刪除兩個(gè)點(diǎn),在只保留機(jī)頭和機(jī)尾來(lái)對(duì)齊運(yùn)動(dòng)軌跡的同時(shí),免除形狀約束,讓體型不一樣的直升機(jī)得以替換。

除了刪除語(yǔ)義點(diǎn),它還能拖拽。

像開頭展示的這個(gè)SUV變超跑,由于車身變長(zhǎng)了,我們不對(duì)語(yǔ)義點(diǎn)進(jìn)行處理,超跑就變形了:

圖片

對(duì)此,我們只要將SUV車頭和車尾的幾個(gè)點(diǎn)稍加挪動(dòng)就OK:

圖片

下面這個(gè)天鵝的替換視頻也是經(jīng)過(guò)了語(yǔ)義點(diǎn)拖拽:

圖片

那么具體來(lái)說(shuō),VideoSwap是如何操作的呢?

從它的pipeline來(lái)看,簡(jiǎn)單來(lái)說(shuō),VideoSwap也是基于擴(kuò)散模型(潛擴(kuò)散)。

圖片

它首先用VAE編碼器對(duì)源視頻進(jìn)行編碼,獲得潛空間表示;然后用DDIM反演將它變換回有噪聲的表示。

接著用文本提示中的源主題(例如貓)替換目標(biāo)主題(狗),并使用DDIM scheduler進(jìn)行去噪。

在這個(gè)去噪過(guò)程中,就可以引入語(yǔ)義點(diǎn)對(duì)應(yīng)關(guān)系來(lái)引導(dǎo)目標(biāo)主題遵循原來(lái)的運(yùn)動(dòng)軌跡進(jìn)行生成了。

最后,為了保留背景,作者在此還采用了一個(gè)潛混合的概念。

此外,他們還通過(guò)將視頻運(yùn)動(dòng)層集成圖像擴(kuò)散模型中,來(lái)確保結(jié)果的時(shí)間一致性。

這里的關(guān)鍵點(diǎn)之一就是VideoSwap中的語(yǔ)義點(diǎn)提取和注冊(cè)(register)pipeline。(“注冊(cè)”是指把語(yǔ)義點(diǎn)安插到源視頻)

圖片

首先它需要我們?cè)陉P(guān)鍵幀中標(biāo)出關(guān)鍵語(yǔ)義點(diǎn),然后再?gòu)囊曨l中提取所標(biāo)語(yǔ)義點(diǎn)對(duì)應(yīng)軌跡的embedding。

接下來(lái)在語(yǔ)義點(diǎn)匹配中,embedding由多個(gè)2層可學(xué)習(xí)MLP投射,并根據(jù)其坐標(biāo)位置放置到空特征中,然后逐元素添加到擴(kuò)散模型中作為運(yùn)動(dòng)引導(dǎo)。

至于用戶拖動(dòng)語(yǔ)義點(diǎn)后還可以讓視頻保持很好的一致性,這里用到的技術(shù)則是基于分層神經(jīng)圖譜(LNA)的點(diǎn)位移傳播。

通過(guò)被訓(xùn)練過(guò)的LNA,用戶拖動(dòng)產(chǎn)生的位移就能通過(guò)它的規(guī)范空間一致地傳播到每一幀之中。

圖片

最后,作者表示:基于以上這些方法,VideoSwap通過(guò)大量測(cè)試,最終取得了SOTA成績(jī),成為目前最好的視頻變換模型。

這是它和一些主流方法的效果對(duì)比:

目標(biāo)是把飛機(jī)變直升機(jī)。

可以看到,除了VideoSwap,絕大多數(shù)方法都只在機(jī)頭部分往直升機(jī)的方向靠攏,不細(xì)看都發(fā)現(xiàn)不了,并且有的還伴隨著明顯的閃爍和偽影。

圖片

作者介紹

VideoSwap由新加坡國(guó)立大學(xué)和Meta合作完成。

圖片

一作Yuchao Gu為新加坡國(guó)立大學(xué)博士生,此前碩士畢業(yè)于南開大學(xué),他的研究方向正是AIGC,尤其為視頻生成為主。

他同時(shí)也是Meta GenAI方向的實(shí)習(xí)生。

通訊作者為新加坡國(guó)立大學(xué)助理教授Mike Z. Shou,他此前是Facebook AI的研究員。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-12-06 12:54:00

AI智能

2024-04-12 15:10:12

框架模型

2019-11-21 08:57:31

GPS信息定位

2023-06-07 14:16:11

AIGPT-4

2019-06-23 17:30:07

AI 數(shù)據(jù)人工智能

2023-12-05 13:49:00

AI模型

2023-12-22 09:29:07

模型3D

2023-12-13 13:06:30

2023-07-12 10:04:20

模型訓(xùn)練

2023-12-03 08:40:18

微軟模型

2025-03-19 10:26:10

2025-02-19 14:10:00

AI3D生成

2024-12-30 10:20:00

模型數(shù)據(jù)訓(xùn)練

2022-07-06 14:43:21

決策樹算法

2023-02-20 09:58:35

模型3D

2025-03-24 13:32:43

2024-07-12 12:50:46

2013-07-04 10:50:33

騰訊移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)

2025-06-16 09:40:48

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)