偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT-4結(jié)合SAM2:免訓練多模態(tài)分割的全新解決方案!| 已開源

人工智能 新聞
中科院信工所、北航、合工大、美團等單位聯(lián)合提出了一種名為AL-Ref-SAM 2的方法。

免訓練多模態(tài)分割領域有了新突破

中科院信工所、北航、合工大、美團等單位聯(lián)合提出了一種名為AL-Ref-SAM 2的方法。

這種方法利用GPT-4和SAM-2來統(tǒng)一多模態(tài)分割,讓系統(tǒng)在免訓練的情況下,也能擁有不亞于全監(jiān)督微調(diào)的性能!

圖片

≥ 全監(jiān)督方法

多模態(tài)分割主要有兩種方法:一種是依據(jù)文字描述找到視頻中特定對象的分割方法(RVOS),另一種是通過聲音識別視頻中發(fā)聲對象的方法(AVS)。

免訓練的多模態(tài)視頻指代分割雖然在數(shù)據(jù)和訓練成本上有較大優(yōu)勢,卻由于缺乏在特定任務數(shù)據(jù)上針對性的模型參數(shù)調(diào)整,導致性能與全監(jiān)督方法有較大差距。

而研究團隊要解決的就是這個問題。

實驗中,他們對多個RVOS基準數(shù)據(jù)集進行了廣泛驗證,包括Ref-YouTube-VOS、Ref-DAVIS17和MeViS,同時在AVSBench的多個子集上也進行了測試。

最后的實驗結(jié)果顯示,AL-Ref-SAL 2在這些數(shù)據(jù)集上的表現(xiàn)不僅優(yōu)于其他無需訓練和弱監(jiān)督的方法,并且甚至在一定情況下,系統(tǒng)的性能可以與全監(jiān)督方法相媲美。

特別是在Ref-YouTube-VOS和Ref-DAVIS17這兩個數(shù)據(jù)集上,AL-Ref-SAM 2的表現(xiàn)甚至超過了大多數(shù)全監(jiān)督方法。

圖片

△ 免訓練設置下三階段分割基線方法(a)與本文方法(b)的比較

具體咋實現(xiàn)的?

研究團隊把AL-Ref-SAM 2的算法分成了三個階段

第一階段:獲取形式統(tǒng)一的指代信息,對于RVOS任務,指代信息是輸入的文本描述本身,而對于AVS任務,研究人員們利用LBRU模塊將音頻轉(zhuǎn)化為對發(fā)聲對象的語言形式描述。

第二階段:根據(jù)語言指代和視頻內(nèi)容,利用GPT-4進行兩階段時空推理,從視頻中逐步選出關(guān)鍵幀和關(guān)鍵框。

第三階段:以關(guān)鍵幀為分割起點,關(guān)鍵框為初始提示,利用SAM 2獲得目標對象在整段視頻中的分割掩碼序列。

圖片

△ AL-Ref-SAM 2的整體流程

具體實驗細節(jié),請看下文展開~

語言綁定的音頻指代轉(zhuǎn)換(LBRU)

LBRU將音頻信號轉(zhuǎn)換為與語言描述統(tǒng)一的格式(例如“[CLS] that is making sound”,其中[CLS]代表了具體的發(fā)聲對象類別),以減少音頻信息中的語義模糊性和冗余性。

為了獲取發(fā)聲對象的準確類別,LBRU利用了一個預訓練音頻分類器,如BEATs,對音頻進行分類,并保留置信度前k高的類別文本。

由于這些類別中可能包含了重復類別或背景聲類別,LBRU進一步引入了視頻作為視覺上下文,利用GPT-4根據(jù)視頻內(nèi)容對音頻類別進行過濾、合并,并將保留的音頻類別轉(zhuǎn)化為發(fā)出該聲音的對象類別。

圖片

△ 語言綁定的音頻指代轉(zhuǎn)換模塊

GPT輔助的關(guān)鍵幀/框選擇(GPT-PS)

GPT-PS利用GPT-4分別進行時序推理選出關(guān)鍵幀,以及空間推理選出關(guān)鍵框。

在時序推理階段,為了使GPT可以處理視頻格式的內(nèi)容,研究團隊首先對視頻幀進行采樣,將采樣后的若干幀拼接為一張圖并在圖上標出幀號。

為了顯式引導GPT在理解視頻內(nèi)容的基礎上選擇關(guān)鍵幀,他們還針對性地設計了關(guān)鍵幀思維鏈提示模板,要求GPT首先描述整段視頻的場景,再根據(jù)語言指代選出關(guān)鍵幀。

之后,研究人員將語言指代信息和關(guān)鍵幀輸入GroundingDINO模型中,獲得多個可能的候選框。

在空間推理階段,首先將候選框畫在關(guān)鍵幀上,并且依舊將其與其他采樣幀順序拼接作為視覺信號輸入GPT。

類似地,他們也設計了關(guān)鍵框思維鏈提示模板,要求GPT描述每個候選框中對象的特征和不同對象之間的關(guān)系,并對指代信息進行語法分析確定真正的指代主體,最后再根據(jù)語言指代選出包含目標對象的候選框作為關(guān)鍵框。

圖片

以下是研究團隊得出的相關(guān)數(shù)據(jù):

圖片
圖片

論文鏈接:https://arxiv.org/pdf/2408.15876
代碼鏈接:https://github.com/appletea233/AL-Ref-SAM2

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-06-02 13:39:00

GPT-3開源GPU

2024-01-01 22:28:52

2017-09-07 13:10:34

華為

2011-07-08 11:02:23

思科視頻傳輸

2021-03-15 10:41:09

5g醫(yī)療技術(shù)

2025-02-12 13:31:33

2023-05-16 13:07:57

GPT4ALL語言模型

2023-03-10 13:30:01

微軟人工智能

2023-03-28 08:23:38

2024-08-08 13:04:28

2015-07-20 17:34:47

解決方案

2009-09-14 17:42:28

戴爾解決方案中小企業(yè)

2009-12-03 10:29:22

賽門鐵克丟失防護解決方案

2023-09-19 13:48:31

AI數(shù)據(jù)

2023-03-10 13:03:09

人工智能模型

2015-10-22 13:03:29

Dynatrace

2023-06-19 08:19:50

2025-03-12 09:05:02

2023-05-22 08:30:35

GPT-4智能編程助手

2024-05-20 08:20:00

OpenAI模型
點贊
收藏

51CTO技術(shù)棧公眾號