分割一切還不夠,還要視頻跟蹤一切,《清明上河圖》也能輕松拿下
本月初,Meta 發(fā)布「分割一切」AI 模型(Segment Anything Model,簡(jiǎn)稱 SAM),可以為任何圖像或視頻中的任何物體生成 mask,甚至包括沒(méi)有見(jiàn)過(guò)的物體和圖像。有人將這一研究比喻為計(jì)算機(jī)視覺(jué)領(lǐng)域的 GPT-3 時(shí)刻之一。
Meta 表示,「SAM 已經(jīng)學(xué)會(huì)了關(guān)于物體的一般概念,可以為任何圖像或視頻中的任何物體生成 mask,甚至包括在訓(xùn)練過(guò)程中沒(méi)有遇到過(guò)的物體和圖像類型。SAM 足夠通用,可以涵蓋廣泛的用例,并且可以在新的圖像『領(lǐng)域』即開(kāi)即用,無(wú)需額外的訓(xùn)練?!?/span>
該模型一經(jīng)發(fā)布,迅速引起計(jì)算機(jī)視覺(jué)領(lǐng)域的轟動(dòng),更是有人發(fā)出「CV 不存在了」這樣的感慨。
然而目前 SAM 的應(yīng)用主要集中在圖像領(lǐng)域,在視頻領(lǐng)域的應(yīng)用仍然未被深入探索,尤其是對(duì)視頻目標(biāo)的跟蹤 / 分割,仍是巨大挑戰(zhàn)。同時(shí),現(xiàn)有的跟蹤模型的局限性也很明顯,如,場(chǎng)景切換在現(xiàn)實(shí)視頻中很常見(jiàn),而現(xiàn)有的跟蹤模型只能在單一場(chǎng)景下實(shí)現(xiàn)目標(biāo)的精準(zhǔn)定位;現(xiàn)有的模型要求準(zhǔn)確的模版初始化,需要人為提供目標(biāo)邊界框或精準(zhǔn)掩碼,因而可用性被極大限制。
近日,南方科技大學(xué)鄭鋒團(tuán)隊(duì)提出了「跟蹤一切」(Track Anything Model ,TAM)的交互工具,其在視頻中實(shí)現(xiàn)高性能的交互式跟蹤和分割。Track Anything 是基于 SAM 的二次創(chuàng)作模型,適用于視頻領(lǐng)域任意目標(biāo)的跟蹤任務(wù),可以通過(guò)簡(jiǎn)單的鼠標(biāo)點(diǎn)擊實(shí)現(xiàn)對(duì)任意視頻任意目標(biāo)的像素級(jí)跟蹤,實(shí)現(xiàn)了目標(biāo)跟蹤的交互性、靈活性、可用性。
- 論文地址:https://arxiv.org/pdf/2304.11968.pdf
- 項(xiàng)目地址:https://github.com/gaomingqi/Track-Anything
- Demo 地址:https://huggingface.co/spaces/watchtowerss/Track-Anything
Track Anything:交互式跟蹤任意視頻任意目標(biāo)
Track Anything 效果到底如何呢?我們先從幾個(gè)示例來(lái)說(shuō)明。首先是多目標(biāo)跟蹤與分割?!肚迕魃虾訄D》大家早已耳聞,畫中人物眾多、形態(tài)各異,其間還穿插各種動(dòng)作等等。想要跟蹤里面的目標(biāo)難度還是比較大的。下面視頻顯示 Track Anything 很好的跟蹤了物體。
接下來(lái)考察 Track Anything 在快速運(yùn)動(dòng)場(chǎng)景下的跟蹤能力。眾所周知,打籃球需要?jiǎng)幼髅艚荨⒔〔饺顼w…… 用 AI 技術(shù)跟蹤一位籃球運(yùn)動(dòng)員并不容易,加之運(yùn)動(dòng)員動(dòng)作幅度大、相互之間出現(xiàn)遮擋等,都加大了跟蹤難度,出現(xiàn)錯(cuò)誤跟蹤、漏跟蹤情況。但從下面展示的效果來(lái)看,即便是在瞬息萬(wàn)變的籃球比賽,Track Anything 跟蹤效果都做的非常好。
接下來(lái),我們?cè)诳匆粋€(gè)示例。從下面視頻中可以看到,一位身姿矯健的男生靈活的跨越眾多障礙,即便人的運(yùn)動(dòng)速度再快、動(dòng)作再?gòu)?fù)雜等,Track Anything 都能很好的處理。
由于 Track Anything 跟蹤效果非常好,受到廣大網(wǎng)友的好評(píng)。就像下面這位網(wǎng)友所說(shuō)的:「這項(xiàng)研究給人一種強(qiáng)烈的終結(jié)者的感覺(jué)。SAM 在分割圖像方面很在行,但在視頻方面卻不出色,而TMA僅通過(guò)少量人工輸入,就能很好的實(shí)現(xiàn)對(duì)視頻中物體的跟蹤與分割?!?/span>
技術(shù)介紹
鄭鋒團(tuán)隊(duì)通過(guò)以使用者為中介的 SAM 與 VOS 模型的交互式組合,提出了 Track Anything 工具,它擁有強(qiáng)大的視頻目標(biāo)跟蹤能力,并提供用戶友好的操作界面,只需要簡(jiǎn)單的點(diǎn)擊操作,就可以任意地跟蹤用戶感興趣的一個(gè)或多個(gè)目標(biāo)區(qū)域,還可以根據(jù)用戶需求靈活調(diào)整目標(biāo)對(duì)象,并自帶用戶糾錯(cuò)和視頻編輯功能。其技術(shù)流程如下:
1 基于 SAM,用戶通過(guò)正負(fù)樣本點(diǎn)的選取,確定目標(biāo)對(duì)象在視頻中某一幀的空間區(qū)域。
2 使用用戶確定的區(qū)域作為模板初始化跟蹤模型。跟蹤過(guò)程中,通過(guò)建立每個(gè)視頻幀與模板區(qū)域之間的密集關(guān)聯(lián),實(shí)現(xiàn)將用戶選取信息向整個(gè)視頻的傳遞過(guò)程,從而實(shí)現(xiàn)目標(biāo)跟蹤。
3 跟蹤過(guò)程中,用戶可以隨時(shí)暫停,同樣通過(guò)正負(fù)樣本選取的方式,實(shí)現(xiàn)對(duì)其他目標(biāo)的追蹤,或修正當(dāng)前目標(biāo)追蹤的結(jié)果。
4 基于跟蹤結(jié)果,用戶可以使用目標(biāo)擦除或視頻修復(fù)功能,實(shí)現(xiàn)在視頻中對(duì)特定區(qū)域的編輯。
總之,通過(guò) Track Anything,使用者可以輕松地完成視頻中單個(gè)或多個(gè)目標(biāo)的精確標(biāo)注,視頻特定區(qū)域提取及編輯,以及長(zhǎng)時(shí) / 轉(zhuǎn)場(chǎng)視頻中的目標(biāo)跟蹤。
相關(guān)功能陸續(xù)上線中,歡迎大家試用!
鄭鋒團(tuán)隊(duì)不僅在視頻領(lǐng)域研發(fā)了Track-Anything,還在圖像和語(yǔ)言領(lǐng)域還推出了Caption-Anything系統(tǒng)。它是一個(gè)多功能的圖像處理工具,結(jié)合了Segment Anything、Visual Captioning和ChatGPT在圖像和語(yǔ)言領(lǐng)域的能力。項(xiàng)目地址:https://github.com/ttengwang/Caption-Anything/。