偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

CVPR 2025 | 多模態(tài)統(tǒng)一學(xué)習(xí)新范式來了,數(shù)據(jù)、模型、代碼全部開源

人工智能 新聞
本文分別從數(shù)據(jù)和模型的角度出發(fā),提出了統(tǒng)一視聽場景理解的顯示互助范式來實(shí)現(xiàn)任務(wù)間的顯示互助,大量的實(shí)驗(yàn)結(jié)果以及可視化分析均證明了該范式的有效性。

本文第一作者杜恒輝為中國人民大學(xué)二年級碩士生,主要研究方向?yàn)槎嗄B(tài)大模型視聽場景理解與推理,長視頻理解等,師從胡迪副教授。作者來自于中國人民大學(xué),清華大學(xué)和北京騰訊 PCG AI 技術(shù)中心。

我們?nèi)祟惿钤谝粋€充滿視覺和音頻信息的世界中,近年來已經(jīng)有很多工作利用這兩個模態(tài)的信息來增強(qiáng)模型對視聽場景的理解能力,衍生出了多種不同類型的任務(wù),它們分別要求模型具備不同層面的能力。

過去大量的工作主要聚焦于完成單一任務(wù),相比之下,我們?nèi)祟悓χ車鷱?fù)雜的的世界具有一個通用的感知理解能力。因此,如何設(shè)計一個像人類一樣對視聽場景具有通用理解能力的模型是未來通往 AGI 道路上一個極其重要的問題。當(dāng)前主流的學(xué)習(xí)范式是通過構(gòu)建大規(guī)模的多任務(wù)指令微調(diào)數(shù)據(jù)集并在此基礎(chǔ)上直接做指令微調(diào)。然而,這種學(xué)習(xí)范式對于多任務(wù)學(xué)習(xí)而言是最優(yōu)的嗎?

最近中國人民大學(xué)高瓴人工智能學(xué)院 GeWu-Lab 實(shí)驗(yàn)室,清華大學(xué)和北京騰訊 PCG AI 技術(shù)中心合作發(fā)表的 CVPR 2025 論文指出,當(dāng)前這種主流的學(xué)習(xí)范式忽視了多模態(tài)數(shù)據(jù)的異質(zhì)性和任務(wù)間的復(fù)雜關(guān)系,簡單地將所有任務(wù)聯(lián)合訓(xùn)練可能會造成任務(wù)間的相互干擾。

為了有效實(shí)現(xiàn)任務(wù)間的顯示互助,作者團(tuán)隊提出了多模態(tài)大模型學(xué)習(xí)的新范式,分別從數(shù)據(jù)和模型兩個角度實(shí)現(xiàn)了多模態(tài)場景理解任務(wù)的高效一統(tǒng),并在多個場景理解任務(wù)上超過了垂類專家模型,數(shù)據(jù)集、模型和代碼全部開源。目前工作還在進(jìn)一步拓展中,歡迎感興趣的領(lǐng)域?qū)<壹尤?,共同?gòu)建一個統(tǒng)一的理解、生成與推理的框架。如有興趣,請郵件聯(lián)系 dihu@ruc.edu.cn。

圖片

  • 論文標(biāo)題:Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
  • 論文鏈接:https://arxiv.org/abs/2503.13068
  • 項(xiàng)目主頁:https://github.com/GeWu-Lab/Crab

統(tǒng)一的多模態(tài)場景理解能力展示

時序定位

輸入一段音視頻,讓模型找到發(fā)生的音視頻事件并定位出時序片段。

空間定位

輸入一段音頻和一張圖像,讓模型定位出圖片中發(fā)聲的物體為止。

時空推理

輸入一段樂器演奏的音視頻場景,讓模型回答相關(guān)問題,涉及到時序和空間信息的理解以及推理。

像素級理解

輸入一段音頻和一張圖片,讓模型分割出圖片中發(fā)聲的物體,具體包含 S4, MS3, AVSS 和 Ref-AVS 等多種分割任務(wù)。

圖片


圖片



圖片


圖片

視覺和聽覺信息是我們?nèi)祟惤佑|最多的兩類信息,近年來已經(jīng)有很多工作開始探究基于這兩個模態(tài)的視聽場景理解任務(wù),主要可以分為時序定位、空間定位、像素級理解和時空推理等四種不同類型的任務(wù),它們分別要求模型具備不同層面的能力。過去大量的工作聚焦于完成單一任務(wù),相比之下,我們?nèi)祟悓χ車鷱?fù)雜的世界具有一個通用的感知理解能力。因此,讓模型也像人類一樣具有統(tǒng)一的視聽場景理解能力是具有重要意義的。

隨著多模態(tài)大語言模型的發(fā)展,構(gòu)建大規(guī)模的指令微調(diào)數(shù)據(jù)集并將各種不同的任務(wù)直接進(jìn)行聯(lián)合訓(xùn)練已經(jīng)成為當(dāng)前主流的學(xué)習(xí)范式。然而,這種學(xué)習(xí)范式忽視了多模態(tài)數(shù)據(jù)的異質(zhì)性和任務(wù)間的復(fù)雜關(guān)系,簡單地將所有任務(wù)聯(lián)合訓(xùn)練可能會造成任務(wù)間的相互干擾,這種現(xiàn)象在之前的工作中已經(jīng)被證實(shí),并且這個問題對于任務(wù)間差異較大的視聽場景理解任務(wù)來說則更為重要。為了有效解決上述問題,本文分別從數(shù)據(jù)和模型的角度針對性地提出了一個統(tǒng)一的顯示互助學(xué)習(xí)范式來有效實(shí)現(xiàn)任務(wù)間的顯示互助。為了明確任務(wù)間的互助關(guān)系,首先構(gòu)建了一個具有顯示推理過程的數(shù)據(jù)集 AV-UIE,它包含具體的時序和空間信息,可以有效建立任務(wù)間的互助關(guān)系。然后為了進(jìn)一步在學(xué)習(xí)過程中促進(jìn)任務(wù)間的相互協(xié)助,本文提出了一種具有多個 Head 的類 MoE LoRA 結(jié)構(gòu),每個 Head 負(fù)責(zé)學(xué)習(xí)多模態(tài)數(shù)據(jù)交互的不同層面,通過這種結(jié)構(gòu)將模型的不同能力解耦,讓任務(wù)間的互助關(guān)系顯示地展現(xiàn)出來,共享的能力在不同任務(wù)間建立起相互協(xié)助的橋梁。

AV-UIE: 具有顯示推理過程的視聽場景指令微調(diào)數(shù)據(jù)集

從數(shù)據(jù)的角度來看,現(xiàn)有視聽場景理解數(shù)據(jù)集的標(biāo)簽是簡單的單詞或者短語,這樣簡單的標(biāo)簽在訓(xùn)練過程中并不能顯著地幫助到其它任務(wù),或者說只能以一種隱式的方式增強(qiáng)模型的訓(xùn)練效果,我們并不能確保一定是對其它任務(wù)有幫助的。為了進(jìn)一步地促進(jìn)任務(wù)間的顯示互助并將互助關(guān)系顯示地體現(xiàn)出來,本文提出了具有顯示推理過程的視聽場景指令微調(diào)數(shù)據(jù)集 AV-UIE,通過細(xì)化現(xiàn)有數(shù)據(jù)集的標(biāo)簽,額外增加了顯示的推理過程,其中包含具體的時空信息,這些信息明確了任務(wù)間的互助關(guān)系。

圖片

圖 1. 具有顯示推理過程的 AV-UIE 數(shù)集構(gòu)造流程和統(tǒng)計分析

圖 1 展示了具體的構(gòu)建過程以及對數(shù)據(jù)集的統(tǒng)計分析,通過 in-context learning 的方式利用現(xiàn)有的強(qiáng)大的多模態(tài)大模型進(jìn)行標(biāo)注,從不同任務(wù)中的數(shù)據(jù)中獲取音視頻場景,為了保證結(jié)果的準(zhǔn)確性和推理過程的合理性,原有數(shù)據(jù)的標(biāo)簽也作為輸入,讓 Gemini 1.5 Pro 針對該場景輸出帶有時序和空間等信息的顯示推理過程。為了保證數(shù)據(jù)的質(zhì)量,最終再由人工進(jìn)行檢查糾正。在訓(xùn)練過程中這些細(xì)化后的標(biāo)簽?zāi)軌蚬膭钅P蜏?zhǔn)確理解視聽場景內(nèi)容并輸出相應(yīng)的時空信息,以此來增強(qiáng)模型特定的能力,從而幫助到其它依賴這些特定能力的任務(wù)。圖 2 展示了 AVQA 和 AVVP 這兩種任務(wù)實(shí)現(xiàn)顯示互助的數(shù)據(jù)樣例,不同的顏色表示不同類型的時空信息,這兩個任務(wù)都能夠受益于增強(qiáng)后的空間定位和時序定位能力。

圖片

圖 2. AVQA 和 AVVP 任務(wù)通過顯示推理過程實(shí)現(xiàn)相互幫助的示例

AV-UIE 數(shù)據(jù)集包含九種任務(wù)的數(shù)據(jù),總共 200K 訓(xùn)練樣本。其中,時序定位任務(wù)包含 AVE 和 AVVP,數(shù)據(jù)占比 6.8%,空間定位任務(wù)包含 ARIG,數(shù)據(jù)占比 25.8%,像素級理解任務(wù)包含 S4,MS3,AVSS 和 Ref-AVS,數(shù)據(jù)占比 41.6%,時空理解任務(wù)包含 AVQA,數(shù)據(jù)占比 25.8%。相比于其它的指令微調(diào)數(shù)據(jù)集,盡管每一個任務(wù)的訓(xùn)練樣本數(shù)比較小,但是在顯示推理過程的幫助下,任務(wù)間的顯示互助仍然可以增強(qiáng)模型在單個任務(wù)上的性能。 

Crab: 實(shí)現(xiàn)任務(wù)間顯示互助的統(tǒng)一學(xué)習(xí)框架

從數(shù)據(jù)的角度保證了模型可以輸出帶有時序信息的顯示推理過程,這是從結(jié)果上對模型進(jìn)行約束,顯示地增強(qiáng)不同類型的能力,但是如何保證模型在學(xué)習(xí)過程中可以有效地學(xué)到這些不同的能力呢?為此,本文提出了一個視聽場景理解的統(tǒng)一學(xué)習(xí)框架,圖 3 展示了模型的整體架構(gòu),主要包括三個統(tǒng)一的多模態(tài)接口,分別用來處理 audio, visual 和 segmentation mask 數(shù)據(jù),一個具有 interaction-aware LoRA 結(jié)構(gòu)的大模型,用于在學(xué)習(xí)過程中有效學(xué)習(xí)數(shù)據(jù)交互的不同層面從而實(shí)現(xiàn)任務(wù)間的顯示互助。

圖片

圖 3. 模型總體架構(gòu)

傳統(tǒng)的 LoRA 結(jié)構(gòu)由一組對稱的 A 矩陣和 B 矩陣組成,用于在下游任務(wù)上高效微調(diào)模型,具有多組對稱的 AB 矩陣的 LoRA MoE 結(jié)構(gòu)通常被用來多任務(wù)微調(diào),每一組 LoRA 負(fù)責(zé)解決單個任務(wù)。為了進(jìn)一步地促進(jìn)任務(wù)間的相互協(xié)助,本文提出的 Interaction-aware LoRA 結(jié)構(gòu)(如圖 4 所示)由一個共享的 A 矩陣和多個不同的 LoRA Head B 矩陣組成,每個 Head 期望去學(xué)習(xí)數(shù)據(jù)交互的不同層面,進(jìn)而具備不同的能力。為了有效區(qū)分不同的 Head,額外增加一個 Router 用來給不同的任務(wù)分配不同的權(quán)重。例如,在學(xué)習(xí)過程中,時空推理任務(wù) AVQA 聚焦于增強(qiáng)模型的時序和空間定位能力,那么就會更多的激活對應(yīng) Head 的參數(shù),增強(qiáng)它們特定的能力,而其它的時序定位和空間任務(wù)都可以受益于這些增強(qiáng)后的 Head。從這個角度來說,模型的能力被解耦成多個特定的能力,模型可以顯示地依賴這些能力完成不同類型的任務(wù),而多個任務(wù)間共享的能力建立起了任務(wù)間協(xié)助的橋梁。

圖片

圖 2. 具有多個 LoRA head 的 Interaction-aware LoRA 結(jié)構(gòu)

實(shí)驗(yàn)與分析

為了證明顯示互助學(xué)習(xí)范式的有效性,本文分別對比了在所有任務(wù)上通用的模型以及在單個任務(wù)上專有的模型,并提供了全面的消融實(shí)驗(yàn)對比結(jié)果。表 1 展示了與多個任務(wù)上的通用模型的對比結(jié)果,相比于其它模型,本文提出的 Crab 統(tǒng)一學(xué)習(xí)框架在所有類型的任務(wù)上具有更加通用的理解能力,并且在多個任務(wù)上取得了更好的表現(xiàn)。這表明了 Crab 在視聽場景通用理解能力方面的優(yōu)越性。

圖片

表 1. 與多個任務(wù)上的通用模型的對比結(jié)果

表 2,3,4,5 分別展示了與時序定位、空間定位、像素級理解和時空推理等四種類型任務(wù)的專有模型對比結(jié)果,可以看到在 AVE、ARIG、AVQA 等任務(wù)上 Crab 均優(yōu)于單個任務(wù)上的專有模型,在 AVVP 和 AVS 任務(wù)上取得了相近的表現(xiàn)。表 6 展示了全面的消融實(shí)驗(yàn)結(jié)果,相比于單個任務(wù),簡單的多任務(wù) LoRA 微調(diào)并不能充分實(shí)現(xiàn)任務(wù)間的相互協(xié)助,甚至在一些任務(wù)上可能會降低性能。相比之下,在顯示互助的學(xué)習(xí)范式下,任務(wù)間的相互干擾被有效緩解,任務(wù)間的相互協(xié)助提高了單個任務(wù)的性能。

圖片

表 2. 與時序定位任務(wù)專有模型對比結(jié)果

圖片

表 3. 與空間定位任務(wù)專有模型對比結(jié)果

圖片

表 4. 與像素級理解任務(wù)專有模型對比結(jié)果

圖片

表 5. 與時空推理任務(wù)專有模型對比結(jié)果

圖片

表 6. 全面的消融實(shí)驗(yàn)對比結(jié)果

為了進(jìn)一步證明任務(wù)間顯示互助的過程,本文對多個 LoRA Head 進(jìn)行了可視化分析實(shí)驗(yàn)。在推理過程中,對于每個任務(wù)的多模態(tài)輸入數(shù)據(jù),每個 LoRA Head 會產(chǎn)生一個權(quán)重,權(quán)重越大,表明完成該任務(wù)越依賴于這個 Head。圖 3 對比了 3 個 Head 在不同任務(wù)上的權(quán)重,左圖是 B1 和 B2,右圖是 B2 和 B3。可以發(fā)現(xiàn)兩點(diǎn):1)相同類型的任務(wù)對不同 Head 的依賴程度是類似的,它們對不同 Head 的依賴權(quán)重分別形成不同的簇;2)不同任務(wù)對 3 個 Head 的不同依賴性表明每個 Head 具備不同的能力。這表明模型的能力被解耦成多種不同的能力,多個任務(wù)間可能會依賴于同一種能力,因此它們可以建立相互協(xié)助的關(guān)系。

圖片

圖 3. 3 個 LoRA Head 的權(quán)重可視化

總述

本文分別從數(shù)據(jù)和模型的角度出發(fā),提出了統(tǒng)一視聽場景理解的顯示互助范式來實(shí)現(xiàn)任務(wù)間的顯示互助,大量的實(shí)驗(yàn)結(jié)果以及可視化分析均證明了該范式的有效性。我們希望本文提出的想法可以為該領(lǐng)域的發(fā)展提供新的研究視角,并且在未來的工作中我們將聚焦于多模態(tài)推理的新范式,希望將現(xiàn)有的多模態(tài)推理工作提升到一個新的高度。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-06-06 14:09:32

模型開源

2025-05-14 08:51:00

2024-03-25 12:40:19

訓(xùn)練模型

2025-06-17 02:25:00

工業(yè)異常檢測

2025-01-06 10:00:00

模型視覺生成

2023-07-30 16:05:44

多模態(tài)學(xué)習(xí)框架自然語言

2024-10-22 13:33:48

2024-12-23 14:10:00

AI模型數(shù)據(jù)

2024-04-08 12:19:19

AI數(shù)據(jù)

2024-04-15 12:28:00

AI模型

2023-10-07 09:29:09

2025-03-19 09:30:00

2023-05-22 09:22:41

論文CV

2022-12-09 10:38:10

數(shù)據(jù)架構(gòu)

2025-05-21 08:47:00

2025-01-21 08:00:00

2022-11-03 14:13:52

強(qiáng)化學(xué)習(xí)方法

2025-06-26 09:13:22

2025-03-10 07:00:00

模型數(shù)據(jù)訓(xùn)練

2023-09-02 12:49:01

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號