偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

讓AI更懂物理世界!人大北郵上海AI Lab等提出多模態(tài)分割新方法

人工智能
未來,可以考慮更優(yōu)質(zhì)的多模態(tài)融合技術(shù)、模型應(yīng)用的實時性以及數(shù)據(jù)集的擴展與多樣化, 以將多模態(tài)指代分割應(yīng)用到視頻分析、醫(yī)療圖像處理、自動駕駛和機器人導(dǎo)航等挑戰(zhàn)中。

讓AI像人類一樣借助多模態(tài)線索定位感興趣的物體,有新招了!

來自人大高瓴GeWu-Lab、北郵、上海AI Lab等機構(gòu)的研究人員提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,視聽場景下的指代分割),讓AI能看、會聽,更懂真實物理世界。

相關(guān)論文已入選頂會ECCV2024。

圖片圖片

舉個例子,在下面這張圖中,機器如何準(zhǔn)確定位真正在演奏樂器的人?

圖片圖片

搞單打獨斗肯定不行,但這正是已有研究正在做的。(各自從視覺、文本和音頻線索的角度出發(fā))

  • 視頻對象分割(VOS,Video Object Segmentation):通常以第一幀中的對象掩碼作為參考,指導(dǎo)后續(xù)幀中特定對象的分割。(嚴(yán)重依賴于第一幀的精確標(biāo)注)
  • 視頻對象參考分割(Ref-VOS,Referring Video Object Segmentation):基于自然語言描述分割視頻中的物體,取代了VOS中的掩碼標(biāo)注。(雖然更易于訪問,但能力有限)
  • 視聽分割(AVS,Audio-Visual Segmentation):以音頻為指導(dǎo)來分割視頻中發(fā)聲的物體。(無法應(yīng)對不發(fā)聲的物體)

而新方法Ref-AVS,整合了多個模態(tài)(文本,音頻和視覺)之間的關(guān)系來適應(yīng)更真實的動態(tài)視聽場景。

這下,同時在唱歌和彈吉他的人也能被輕松找到了。

且同一段素材還能拿來反復(fù)用,找出正在發(fā)聲的吉他也不在話下。

與此同時,研究人員構(gòu)建了一個名為Ref-AVS Bench的數(shù)據(jù)集,并設(shè)計了一個端到端框架來高效處理多模態(tài)線索。

具體如下。

構(gòu)建了數(shù)據(jù)集Ref-AVS Bench

概括而言,數(shù)據(jù)集Ref-AVS Bench共有40020個視頻幀,包含6888個物體和20261個指代表達式(Reference Expression)。

每個數(shù)據(jù)都包含與視頻幀對應(yīng)的音頻,并提供逐幀的像素級標(biāo)注。

為了確保所指代對象(Object)的多樣性,團隊選擇了包含背景的52個類別, 其中48個類別的可發(fā)聲物體,以及3個類別的靜態(tài)、不可發(fā)聲物體。

在視頻收集過程中,所有視頻均來自油管并截取10秒。

在整個手動收集過程中,團隊刻意避免以下情況的視頻:

a) 包含大量相同語義實例的視頻;
b) 有大量編輯和相機視角切換的視頻;
c) 包含合成創(chuàng)作的非現(xiàn)實視頻。

同時,為了提高與真實世界分布的一致性,團隊挑選了有助于數(shù)據(jù)集內(nèi)場景多樣化的視頻。

比如涉及多個對象(如樂器、人、車輛等)之間交互的視頻。

圖片

另外,表達式(Expression)的多樣性是Ref-AVS數(shù)據(jù)集構(gòu)建的核心要素之一。

除去本身固有的文本語義信息,表達式還由聽覺、視覺和時間三個維度的信息組成。

聽覺維度包含音量、節(jié)奏等特征,而視覺維度則包含物體的外觀和空間等屬性。

團隊還利用時間線索來生成具有時序提示的引用,例如“先發(fā)出聲音的(物體)”或“后出現(xiàn)的(物體)”。

通過整合聽覺、視覺和時間信息,研究設(shè)計出豐富的表達式,不僅可以準(zhǔn)確反映多模態(tài)場景,還可以滿足用戶對精確引用的特定需求。

圖片

而且,表達式的準(zhǔn)確性也是一個核心關(guān)注點。

研究遵循三個規(guī)則來生成高質(zhì)量的表達式:

1)唯一性:一個表達式所指代的對象必須是唯一的,不能同時指代多個對象。
2)必要性:可以使用復(fù)雜的表達式來指代對象,但句子中的每個形容詞都應(yīng)該縮小目標(biāo)對象的范圍,避免對所要指代的對象進行不必要和冗余的描述。
3)清晰度:某些表達模板涉及主觀因素,例如“聲音更大的__”。只有在情況足夠清晰時才應(yīng)使用此類表達,以避免產(chǎn)生歧義。

團隊將每段10秒的視頻分成十個相等的1秒片段,利用Grounding SAM來分割和標(biāo)記關(guān)鍵幀,隨后要求標(biāo)注員手動檢查和更正這些關(guān)鍵幀。

此過程使團隊能夠在關(guān)鍵幀內(nèi)為多個目標(biāo)對象生成掩碼和標(biāo)簽。

一旦確定了關(guān)鍵幀的掩碼,研究就會應(yīng)用跟蹤算法來跟蹤目標(biāo)對象,并在10s的跨度內(nèi)獲得目標(biāo)對象的最終掩碼標(biāo)簽(Ground Truth Mask)。

到了數(shù)據(jù)分割與統(tǒng)計,測試集中的視頻及其對應(yīng)的注釋會經(jīng)過訓(xùn)練過的標(biāo)注人員的細(xì)致審查和校正。

為了全面評估模型在Ref-AVS任務(wù)中的表現(xiàn),測試集進一步被劃分為三個不同的子集。

圖片

具體而言,三個測試子集包括:

  • 已見子集 (Seen):包括那些在訓(xùn)練集中出現(xiàn)過的物體類別,建立該子集的目的是評估模型的基本性能。
  • 未見子集 (Unseen):專門用于評估模型在未見音視頻場景中的泛化能力。
  • 空指代子集 (Null):測試模型對空引用的魯棒性,即表達式與視頻中的任何對象都不相關(guān)。

具體咋實現(xiàn)的?

完成了數(shù)據(jù)集準(zhǔn)備后,團隊利用多模態(tài)線索來增強表達式指代能力(Expression Enhancing with Multimodal Cues, EEMC),以實現(xiàn)更好的視聽指代分割。

圖片

具體而言,在時序雙模態(tài)融合(Temporal Bi-Modal Transformer)模塊中,團隊將包含時序信息的視聽模態(tài)信息(FV, FA)分別與文本信息FT進行融合。

注意, 為了讓模型更好的感知時序信息,研究提出了一種直觀的Cached memory機制(CV,CA )。

Cached memory需要存儲從開始到當(dāng)前時刻的時序平均模態(tài)特征,以捕捉時序變化中多模態(tài)信息的變化幅度。多模態(tài)特征(QV, QA)計算方式如下:圖片

其中,??表示時序中的特定時間步, ??則是一個可調(diào)節(jié)的超參數(shù)用于控制時序過程中模型對特征時序變化的敏感度。

當(dāng)此刻的音頻或視覺特征與過去特征的均值相比變化不大時, 輸出的特征保持幾乎不變。

然而,當(dāng)變化較為明顯時,cached memory可以放大當(dāng)前特征的差異,從而產(chǎn)生具有顯著特征的輸出。

此后,拼接的多模態(tài)特征被送入Multimodal Integration Transformer模塊中進行多模態(tài)融合, 產(chǎn)生包含多模態(tài)信息的指代表達式的最終特征(QM)作為掩碼解碼器的輸入。

掩碼解碼器是一個Transformer架構(gòu)的分割基礎(chǔ)模型如MaskFormer,Mask2Former或者SAM。

團隊選擇Mask2Former作為分割基礎(chǔ)模型,將其預(yù)訓(xùn)練的mask queries作為??,將多模態(tài)指代表達式特征作為 ?? 和 ?? 。

經(jīng)過一個cross-attention transformer(CATF)將多模態(tài)指代表達式特征遷移到mask queries中,從而實現(xiàn)讓分割基礎(chǔ)模型根據(jù)多模態(tài)特征進行分割。

實驗結(jié)果

在定量實驗中,團隊將研究提出的基線方法與其它方法進行對比,且為了公平補充了其他方法缺失的模態(tài)信息。

在Seen子集上的測試結(jié)果顯示,新方法Ref-AVS超越了其它方法的性能。

同時在Unseen子集和Null子集上,Ref-AVS展示了可泛化性,并且可以準(zhǔn)確地跟隨指代表達。

圖片

在定性實驗中, 團隊在Ref-AVS Bench測試集上對分割掩碼進行可視化,并與AVSegFormer和ReferFormer進行比較。

圖片

結(jié)果顯示,ReferFormer在Ref-VOS任務(wù)中的表現(xiàn)以及AVSegFormer在AVS任務(wù)中的表現(xiàn)都未能準(zhǔn)確分割出表達中描述的對象。

具體來說,AVSegFormer在理解表達時遇到困難,往往直接生成聲音源。

例如,在左下角的樣本中,AVSegFormer錯誤地將吸塵器分割為目標(biāo),而不是男孩。

另一方面,Ref-VOS可能無法充分理解音頻-視覺場景,因此誤將幼童識別為鋼琴演奏者,如右上角的樣本所示。

相比之下,Ref-AVS方法展現(xiàn)了更出色的能力,能夠同時處理多模態(tài)表達和場景,從而準(zhǔn)確地理解用戶指令并分割出目標(biāo)對象。

未來,可以考慮更優(yōu)質(zhì)的多模態(tài)融合技術(shù)、模型應(yīng)用的實時性以及數(shù)據(jù)集的擴展與多樣化, 以將多模態(tài)指代分割應(yīng)用到視頻分析、醫(yī)療圖像處理、自動駕駛和機器人導(dǎo)航等挑戰(zhàn)中。

更多詳情歡迎查閱原論文。

論文地址:https://arxiv.org/abs/2407.10957項目主頁:https://gewu-lab.github.io/Ref-AVS/

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-04-10 09:38:37

2025-02-25 10:04:10

2025-10-17 09:56:05

2022-12-08 13:00:10

AI性別偏見

2024-10-23 19:47:54

2020-05-14 14:21:50

谷歌AI數(shù)據(jù)

2025-03-13 09:47:29

2025-07-27 18:08:51

AI科學(xué)模型

2025-05-09 08:19:00

2025-01-23 10:08:00

虛擬數(shù)字AI

2025-03-17 08:20:00

神經(jīng)網(wǎng)絡(luò)AI模型

2023-06-05 10:09:03

研究人工智能

2022-12-12 11:31:39

數(shù)據(jù)學(xué)習(xí)

2025-10-28 15:42:32

AlphaGo強化學(xué)習(xí)算法

2022-07-25 15:34:01

量化仿真數(shù)據(jù)誤差內(nèi)存占用

2024-10-25 14:30:00

模型AI

2025-09-16 10:28:57

2022-05-12 13:39:48

AI研究模型

2022-09-30 15:15:41

模型框架

2023-04-27 13:06:46

AI手機模型
點贊
收藏

51CTO技術(shù)棧公眾號