偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

基于跨模態(tài)元遷移,美圖&大連理工的參考視頻目標分割方法只需單階段

人工智能 新聞
本文中,來自美圖影像研究院(MT Lab)與大連理工大學盧湖川團隊的研究者們共同探究了如何僅使用文本描述作為參考的視頻目標分割任務(wù),突破性地提出了首個單階段方法 ——YOFO,能夠有效地進行端到端訓練并達到 SOTA 效果。該論文已被 AAAI 2022 接收。

引言

參考視頻目標分割(Referring VOS, RVOS)是一個新興起的任務(wù),它旨在根據(jù)參考文本,從一段視頻序列中分割出文本所指述的對象。與半監(jiān)督視頻目標分割相比,RVOS 只依賴抽象的語言描述而不是像素級的參考掩膜,為人機交互提供了一種更方便的選擇,因此受到了廣泛關(guān)注。

圖片

論文鏈接:https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf

該研究的主要目的是為解決現(xiàn)有 RVOS 任務(wù)中所面臨的兩大挑戰(zhàn):

  • 如何將文本信息、圖片信息進行跨模態(tài)融合,從而既保持兩種模態(tài)間的尺度一致性,又能充分地將文本所提供的有用特征參考充分融入到圖片特征中;
  • 如何拋棄現(xiàn)有方法的二階段策略(即先在圖片級別逐幀得到粗略的結(jié)果,再利用該結(jié)果作為參考,經(jīng)過增強時序信息的結(jié)構(gòu)細化得到最終預測),將整個 RVOS 任務(wù)統(tǒng)一進單階段的框架中。

對此,該研究提出了一種跨模態(tài)元遷移的端到端 RVOS 框架 ——YOFO,其主要的貢獻和創(chuàng)新點為:

  • 只需單階段推理,即可實現(xiàn)利用參考文本信息直接得到視頻目標的分割結(jié)果,在兩個主流的數(shù)據(jù)集 ——Ref-DAVIS2017 和 Ref-Youtube-VOS 上獲得的效果超越了目前所有二階段方法;
  • 提出了一個元遷移(Meta-Transfer)模塊來增強時序信息,從而實現(xiàn)了更聚焦于目標的特征學習;
  • 提出了一個多尺度跨模態(tài)特征挖掘(Multi-Scale Cross-Modal Feature Mining)模塊,能夠充分融合語言、圖片中的有用特征。

實現(xiàn)策略

YOFO 框架主要流程如下:輸入圖片和文本先分別經(jīng)過圖片編碼器和語言編碼器提取特征,隨后在多尺度跨模態(tài)特征挖掘模塊進行融合。融合后的雙模態(tài)特征在包含了記憶庫的元遷移模塊中進行簡化,排除掉語言特征中的冗余信息,同時能保存時序信息來增強時間相關(guān)性,最后通過一個解碼器得到分割結(jié)果。

圖片

圖 1:YOFO 框架主要流程。

多尺度跨模態(tài)特征挖掘模塊:該模塊通過逐級融合不同尺度的兩個模態(tài)特征,能夠保持圖像特征所傳達的尺度信息與語言特征間的一致性,更重要的是保證了語言信息不會在融合過程中被多尺度圖像信息所淡化淹沒。

圖片

圖 2:多尺度跨模態(tài)特征挖掘模塊。

元遷移模塊:采用了一種 learning-to-learn 策略,過程可以簡單地描述為以下的映射函數(shù)。其中遷移函數(shù)圖片是一個卷積,則圖片是它的卷積核參數(shù):

圖片

優(yōu)化的過程可以表達為以下目標函數(shù):

圖片

其中,M 代表能夠儲存歷史信息的記憶庫,W 代表不同位置的權(quán)重,能夠?qū)μ卣髦胁煌奈恢觅x予不同的關(guān)注度,Y 代表儲存在記憶庫中的每個視頻幀的雙模態(tài)特征。該優(yōu)化過程盡可能地使元遷移函數(shù)具有重構(gòu)雙模態(tài)特征的能力,同時也使得整個框架能夠進行端到端的訓練。

訓練和測試:訓練時所使用的損失函數(shù)是 lovasz loss,訓練集為兩個視頻數(shù)據(jù)集 Ref-DAVIS2017、Ref-Youtube-VOS,并通過靜態(tài)數(shù)據(jù)集 Ref-COCO 進行隨機仿射變換模擬視頻數(shù)據(jù)作為輔助訓練。元遷移的過程在訓練和預測時都要進行,整個網(wǎng)絡(luò)在 1080ti 上的運行速度達到了 10FPS。

實驗結(jié)果

研究采用的方法在兩個主流 RVOS 數(shù)據(jù)集(Ref-DAVIS2017 和 Ref-Youtube-VOS)上均取得了優(yōu)異的效果,量化指標及部分可視化效果圖如下: 

圖片

圖 3:在兩個主流數(shù)據(jù)集上的量化指標。

圖片

圖 4:在 VOS 數(shù)據(jù)集上的可視化效果。

圖片

圖 5:YOFO 的其他可視化效果展示。

研究還通過一系列的消融實驗以說明特征挖掘模塊(FM)以及元遷移模塊(MT)的有效性。

圖片

圖 6:特征挖掘模塊(FM)以及元遷移模塊(MT)的有效性。

此外,研究分別對使用了 MT 模塊和不使用 MT 模塊的解碼器輸出特征進行了可視化,可以明顯地看出 MT 模塊能夠正確地捕捉到語言所描述的內(nèi)容且對干擾噪聲進行過濾。

圖片

圖 7:使用 MT 模塊前后的解碼器輸出特征對比。關(guān)于研究團隊

本論文由美圖影像研究院(MT Lab)和大連理工大學盧湖川團隊的研究者們共同提出。美圖影像研究院(MT Lab)是美圖公司致力于計算機視覺、機器學習、增強現(xiàn)實、云計算等領(lǐng)域的算法研究、工程開發(fā)和產(chǎn)品化落地的團隊,為美圖現(xiàn)有和未來的產(chǎn)品提供核心算法支持,并通過前沿技術(shù)推動美圖產(chǎn)品發(fā)展,被稱為「美圖技術(shù)中樞」,曾先后多次參與 CVPR、ICCV、ECCV 等計算機視覺國際頂級會議,并斬獲冠亞軍十余項。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-01-10 14:00:00

2022-04-24 10:36:25

機器學習人工智能技術(shù)

2017-11-08 16:58:01

銳捷漏洞解析高校網(wǎng)絡(luò)

2017-12-20 11:59:45

智慧校園

2018-03-21 15:15:06

華為

2025-04-18 09:25:00

2012-03-23 10:36:22

Aruba 校園無線網(wǎng)大連理工

2017-04-07 15:47:25

獐子島大連理工水下機器人

2025-02-12 13:42:25

2011-04-28 09:40:29

微軟創(chuàng)新杯

2016-12-26 17:03:39

軟件開發(fā)云華為企業(yè)云華為

2025-07-04 08:47:00

大模型AI信息

2010-06-19 14:58:23

2012-11-06 09:59:17

2013-07-25 16:57:45

BPM炎黃盈動

2023-10-09 09:42:18

自動駕駛模型

2017-06-20 18:05:35

華為

2021-06-25 09:47:06

KDD Cup Graphormer
點贊
收藏

51CTO技術(shù)棧公眾號