偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

南科大黑科技:一鍵消除視頻人物,特效師的救星來(lái)了!

人工智能 新聞
視頻分割模型其實(shí)不是新技術(shù)了,但傳統(tǒng)的分割模型并沒(méi)有減輕人類(lèi)的工作。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

來(lái)自南方科技大學(xué)的這款視頻分割模型,可以追蹤視頻中的任意事物。

不僅會(huì)“看”,還會(huì)“剪”,從視頻中去掉個(gè)人,對(duì)它來(lái)說(shuō)也是輕輕松松的事。

而操作上,你唯一需要做的就是點(diǎn)幾下鼠標(biāo)。

圖片

這位特效藝術(shù)家看到消息后仿佛找到了救星,直言這一產(chǎn)品將改變CGI行業(yè)的游戲規(guī)則。

圖片

這款模型叫做TAM(Track Anything Model),是不是和Meta的圖像分割模型SAM名字很像?

的確,TAM就是將SAM擴(kuò)展到了視頻領(lǐng)域,點(diǎn)亮了動(dòng)態(tài)物體追蹤的技能樹(shù)。

圖片

視頻分割模型其實(shí)不是新技術(shù)了,但傳統(tǒng)的分割模型并沒(méi)有減輕人類(lèi)的工作。

這些模型使用的訓(xùn)練數(shù)據(jù)全部需要人工標(biāo)注,甚至在使用時(shí)還需要先用特定物體的遮罩參數(shù)進(jìn)行初始化。

SAM的出現(xiàn)為解決這一問(wèn)題提供了前提——至少初始化數(shù)據(jù)不再需要人工獲取。

當(dāng)然,TAM也并不是逐幀使用SAM再疊加,還需要構(gòu)建對(duì)應(yīng)的時(shí)空關(guān)系。

團(tuán)隊(duì)將SAM與名為XMem的記憶模塊進(jìn)行了集成。

只需要在第一幀中用SAM生成初始參數(shù),XMem便可以指導(dǎo)接下來(lái)的追蹤過(guò)程。

追蹤的目標(biāo)還可以是很多個(gè),比如下面的清明上河圖:

圖片

甚至場(chǎng)景發(fā)生改變,也不影響TAM的表現(xiàn):

我們體驗(yàn)了一番發(fā)現(xiàn),TAM采用了交互式用戶界面,操作上十分簡(jiǎn)單友好。

圖片

硬實(shí)力方面,TAM的追蹤效果的確也不錯(cuò):

圖片

但是,消除功能在一些細(xì)節(jié)上的精確度還有待提高。

圖片

從SAM到TAM

前文已經(jīng)提到,TAM是在SAM的基礎(chǔ)之上結(jié)合記憶能力建立時(shí)空關(guān)聯(lián)實(shí)現(xiàn)的。

具體而言,第一步是借助SAM的靜態(tài)圖像分割能力對(duì)模型進(jìn)行初始化。

只需一次點(diǎn)擊,SAM就能生成目標(biāo)物體的初始化遮罩參數(shù),代替了傳統(tǒng)分割模型中的復(fù)雜初始化過(guò)程。

有了初始參數(shù),團(tuán)隊(duì)就可以將它交給XMem,進(jìn)行半人工干預(yù)訓(xùn)練,大大減少了人類(lèi)工作量。

圖片

在這一過(guò)程中,會(huì)有一些人工預(yù)測(cè)結(jié)果被用于和XMem的輸出進(jìn)行比較。

實(shí)際過(guò)程中,隨著時(shí)間的增長(zhǎng),得到準(zhǔn)確的分割結(jié)果對(duì)XMem變得越來(lái)越困難。

當(dāng)結(jié)果與預(yù)期差距過(guò)大時(shí),將進(jìn)入再分割環(huán)節(jié),這一步還是由SAM完成。

經(jīng)過(guò)SAM的再優(yōu)化,大部分輸出結(jié)果已比較準(zhǔn)確,但還有一部分需要人工再調(diào)整。

TAM的訓(xùn)練過(guò)程大致就是這樣,而開(kāi)頭提到的物體消除的技能是TAM與E2FGVI結(jié)合形成的。

E2FGVI本身也是一個(gè)視頻元素消除工具,在TAM精準(zhǔn)分割的加持下,其工作更加有的放矢。

為了測(cè)試TAM,團(tuán)隊(duì)使用了DAVIS-16和DAVIS-17數(shù)據(jù)集對(duì)其進(jìn)行了評(píng)估。

圖片

直觀感受還是很不錯(cuò)的,從數(shù)據(jù)上看也的確如此。

TAM雖然無(wú)需手工設(shè)置遮罩參數(shù),但其J(區(qū)域相似度)和F(邊界準(zhǔn)確度)兩項(xiàng)指標(biāo)已十分接近手工模型。

甚至在DAVIS-2017數(shù)據(jù)集上的表現(xiàn)還略勝于其中的STM。

其他初始化方式中,SiamMask的表現(xiàn)根本無(wú)法和TAM相提并論;

另一種名為MiVOS方法雖然表現(xiàn)好于TAM,但畢竟已經(jīng)進(jìn)化了8輪……

圖片

團(tuán)隊(duì)簡(jiǎn)介

TAM來(lái)自南方科技大學(xué)視覺(jué)智能與感知(VIP)實(shí)驗(yàn)室。

該實(shí)驗(yàn)室研究方向包括文本-圖像-聲音多模型學(xué)習(xí)、多模型感知、強(qiáng)化學(xué)習(xí)和視覺(jué)缺陷檢測(cè)等。

目前團(tuán)隊(duì)已發(fā)表論文30余篇,獲得專(zhuān)利5項(xiàng)。

團(tuán)隊(duì)領(lǐng)導(dǎo)人是南方科技大學(xué)鄭鋒副教授,博士畢業(yè)于英國(guó)謝菲爾德大學(xué),先后供職于中科院深研院、騰訊優(yōu)圖等機(jī)構(gòu),于2018年進(jìn)入南科大,2021年晉升為副教授。

論文地址:
https://arxiv.org/abs/2304.11968
GitHub頁(yè)面:
https://github.com/gaomingqi/Track-Anything
參考鏈接:
https://twitter.com/bilawalsidhu/status/1650710123399233536?s=20

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-06-11 09:12:00

視頻生成AI

2021-01-04 05:36:23

AI人工智能深度學(xué)習(xí)

2021-01-02 09:06:34

Waifu2xAIWaifu2x-Ext

2019-11-06 16:33:29

Ignite微軟技術(shù)

2020-04-08 14:21:15

Google 黑科技達(dá)芬奇

2023-08-28 00:22:42

AI工具

2024-07-15 12:27:08

2015-02-09 15:25:52

換膚

2021-03-09 17:27:40

AI 數(shù)據(jù)人工智能

2017-10-13 13:43:23

miui小米MIUI

2020-03-04 09:35:55

開(kāi)源技術(shù) 軟件

2020-06-24 07:50:56

抖音特效移動(dòng)應(yīng)用

2020-06-30 20:26:10

微信功能移動(dòng)應(yīng)用

2025-02-20 13:00:00

2023-08-30 17:23:58

谷歌LlamaClaude

2017-05-27 14:33:00

戴爾服務(wù)器

2025-04-01 00:00:22

數(shù)據(jù)場(chǎng)景競(jìng)品

2013-01-17 10:44:16

飛視美視頻網(wǎng)絡(luò)統(tǒng)一通信

2020-02-10 07:45:46

QQ騰訊QQ群
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)