偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

CVPR 2025 | 多模態(tài)統(tǒng)一學(xué)習(xí)新范式來了,數(shù)據(jù)、模型、代碼全部開源

人工智能 新聞
本文分別從數(shù)據(jù)和模型的角度出發(fā),提出了統(tǒng)一視聽場(chǎng)景理解的顯示互助范式來實(shí)現(xiàn)任務(wù)間的顯示互助,大量的實(shí)驗(yàn)結(jié)果以及可視化分析均證明了該范式的有效性。

本文第一作者杜恒輝為中國(guó)人民大學(xué)二年級(jí)碩士生,主要研究方向?yàn)槎嗄B(tài)大模型視聽場(chǎng)景理解與推理,長(zhǎng)視頻理解等,師從胡迪副教授。作者來自于中國(guó)人民大學(xué),清華大學(xué)和北京騰訊 PCG AI 技術(shù)中心。

我們?nèi)祟惿钤谝粋€(gè)充滿視覺和音頻信息的世界中,近年來已經(jīng)有很多工作利用這兩個(gè)模態(tài)的信息來增強(qiáng)模型對(duì)視聽場(chǎng)景的理解能力,衍生出了多種不同類型的任務(wù),它們分別要求模型具備不同層面的能力。

過去大量的工作主要聚焦于完成單一任務(wù),相比之下,我們?nèi)祟悓?duì)周圍復(fù)雜的的世界具有一個(gè)通用的感知理解能力。因此,如何設(shè)計(jì)一個(gè)像人類一樣對(duì)視聽場(chǎng)景具有通用理解能力的模型是未來通往 AGI 道路上一個(gè)極其重要的問題。當(dāng)前主流的學(xué)習(xí)范式是通過構(gòu)建大規(guī)模的多任務(wù)指令微調(diào)數(shù)據(jù)集并在此基礎(chǔ)上直接做指令微調(diào)。然而,這種學(xué)習(xí)范式對(duì)于多任務(wù)學(xué)習(xí)而言是最優(yōu)的嗎?

最近中國(guó)人民大學(xué)高瓴人工智能學(xué)院 GeWu-Lab 實(shí)驗(yàn)室,清華大學(xué)和北京騰訊 PCG AI 技術(shù)中心合作發(fā)表的 CVPR 2025 論文指出,當(dāng)前這種主流的學(xué)習(xí)范式忽視了多模態(tài)數(shù)據(jù)的異質(zhì)性和任務(wù)間的復(fù)雜關(guān)系,簡(jiǎn)單地將所有任務(wù)聯(lián)合訓(xùn)練可能會(huì)造成任務(wù)間的相互干擾。

為了有效實(shí)現(xiàn)任務(wù)間的顯示互助,作者團(tuán)隊(duì)提出了多模態(tài)大模型學(xué)習(xí)的新范式,分別從數(shù)據(jù)和模型兩個(gè)角度實(shí)現(xiàn)了多模態(tài)場(chǎng)景理解任務(wù)的高效一統(tǒng),并在多個(gè)場(chǎng)景理解任務(wù)上超過了垂類專家模型,數(shù)據(jù)集、模型和代碼全部開源。目前工作還在進(jìn)一步拓展中,歡迎感興趣的領(lǐng)域?qū)<壹尤?,共同?gòu)建一個(gè)統(tǒng)一的理解、生成與推理的框架。如有興趣,請(qǐng)郵件聯(lián)系 dihu@ruc.edu.cn。

圖片

  • 論文標(biāo)題:Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
  • 論文鏈接:https://arxiv.org/abs/2503.13068
  • 項(xiàng)目主頁(yè):https://github.com/GeWu-Lab/Crab

統(tǒng)一的多模態(tài)場(chǎng)景理解能力展示

時(shí)序定位

輸入一段音視頻,讓模型找到發(fā)生的音視頻事件并定位出時(shí)序片段。

空間定位

輸入一段音頻和一張圖像,讓模型定位出圖片中發(fā)聲的物體為止。

時(shí)空推理

輸入一段樂器演奏的音視頻場(chǎng)景,讓模型回答相關(guān)問題,涉及到時(shí)序和空間信息的理解以及推理。

像素級(jí)理解

輸入一段音頻和一張圖片,讓模型分割出圖片中發(fā)聲的物體,具體包含 S4, MS3, AVSS 和 Ref-AVS 等多種分割任務(wù)。

圖片


圖片



圖片


圖片

視覺和聽覺信息是我們?nèi)祟惤佑|最多的兩類信息,近年來已經(jīng)有很多工作開始探究基于這兩個(gè)模態(tài)的視聽場(chǎng)景理解任務(wù),主要可以分為時(shí)序定位、空間定位、像素級(jí)理解和時(shí)空推理等四種不同類型的任務(wù),它們分別要求模型具備不同層面的能力。過去大量的工作聚焦于完成單一任務(wù),相比之下,我們?nèi)祟悓?duì)周圍復(fù)雜的世界具有一個(gè)通用的感知理解能力。因此,讓模型也像人類一樣具有統(tǒng)一的視聽場(chǎng)景理解能力是具有重要意義的。

隨著多模態(tài)大語(yǔ)言模型的發(fā)展,構(gòu)建大規(guī)模的指令微調(diào)數(shù)據(jù)集并將各種不同的任務(wù)直接進(jìn)行聯(lián)合訓(xùn)練已經(jīng)成為當(dāng)前主流的學(xué)習(xí)范式。然而,這種學(xué)習(xí)范式忽視了多模態(tài)數(shù)據(jù)的異質(zhì)性和任務(wù)間的復(fù)雜關(guān)系,簡(jiǎn)單地將所有任務(wù)聯(lián)合訓(xùn)練可能會(huì)造成任務(wù)間的相互干擾,這種現(xiàn)象在之前的工作中已經(jīng)被證實(shí),并且這個(gè)問題對(duì)于任務(wù)間差異較大的視聽場(chǎng)景理解任務(wù)來說則更為重要。為了有效解決上述問題,本文分別從數(shù)據(jù)和模型的角度針對(duì)性地提出了一個(gè)統(tǒng)一的顯示互助學(xué)習(xí)范式來有效實(shí)現(xiàn)任務(wù)間的顯示互助。為了明確任務(wù)間的互助關(guān)系,首先構(gòu)建了一個(gè)具有顯示推理過程的數(shù)據(jù)集 AV-UIE,它包含具體的時(shí)序和空間信息,可以有效建立任務(wù)間的互助關(guān)系。然后為了進(jìn)一步在學(xué)習(xí)過程中促進(jìn)任務(wù)間的相互協(xié)助,本文提出了一種具有多個(gè) Head 的類 MoE LoRA 結(jié)構(gòu),每個(gè) Head 負(fù)責(zé)學(xué)習(xí)多模態(tài)數(shù)據(jù)交互的不同層面,通過這種結(jié)構(gòu)將模型的不同能力解耦,讓任務(wù)間的互助關(guān)系顯示地展現(xiàn)出來,共享的能力在不同任務(wù)間建立起相互協(xié)助的橋梁。

AV-UIE: 具有顯示推理過程的視聽場(chǎng)景指令微調(diào)數(shù)據(jù)集

從數(shù)據(jù)的角度來看,現(xiàn)有視聽場(chǎng)景理解數(shù)據(jù)集的標(biāo)簽是簡(jiǎn)單的單詞或者短語(yǔ),這樣簡(jiǎn)單的標(biāo)簽在訓(xùn)練過程中并不能顯著地幫助到其它任務(wù),或者說只能以一種隱式的方式增強(qiáng)模型的訓(xùn)練效果,我們并不能確保一定是對(duì)其它任務(wù)有幫助的。為了進(jìn)一步地促進(jìn)任務(wù)間的顯示互助并將互助關(guān)系顯示地體現(xiàn)出來,本文提出了具有顯示推理過程的視聽場(chǎng)景指令微調(diào)數(shù)據(jù)集 AV-UIE,通過細(xì)化現(xiàn)有數(shù)據(jù)集的標(biāo)簽,額外增加了顯示的推理過程,其中包含具體的時(shí)空信息,這些信息明確了任務(wù)間的互助關(guān)系。

圖片

圖 1. 具有顯示推理過程的 AV-UIE 數(shù)集構(gòu)造流程和統(tǒng)計(jì)分析

圖 1 展示了具體的構(gòu)建過程以及對(duì)數(shù)據(jù)集的統(tǒng)計(jì)分析,通過 in-context learning 的方式利用現(xiàn)有的強(qiáng)大的多模態(tài)大模型進(jìn)行標(biāo)注,從不同任務(wù)中的數(shù)據(jù)中獲取音視頻場(chǎng)景,為了保證結(jié)果的準(zhǔn)確性和推理過程的合理性,原有數(shù)據(jù)的標(biāo)簽也作為輸入,讓 Gemini 1.5 Pro 針對(duì)該場(chǎng)景輸出帶有時(shí)序和空間等信息的顯示推理過程。為了保證數(shù)據(jù)的質(zhì)量,最終再由人工進(jìn)行檢查糾正。在訓(xùn)練過程中這些細(xì)化后的標(biāo)簽?zāi)軌蚬膭?lì)模型準(zhǔn)確理解視聽場(chǎng)景內(nèi)容并輸出相應(yīng)的時(shí)空信息,以此來增強(qiáng)模型特定的能力,從而幫助到其它依賴這些特定能力的任務(wù)。圖 2 展示了 AVQA 和 AVVP 這兩種任務(wù)實(shí)現(xiàn)顯示互助的數(shù)據(jù)樣例,不同的顏色表示不同類型的時(shí)空信息,這兩個(gè)任務(wù)都能夠受益于增強(qiáng)后的空間定位和時(shí)序定位能力。

圖片

圖 2. AVQA 和 AVVP 任務(wù)通過顯示推理過程實(shí)現(xiàn)相互幫助的示例

AV-UIE 數(shù)據(jù)集包含九種任務(wù)的數(shù)據(jù),總共 200K 訓(xùn)練樣本。其中,時(shí)序定位任務(wù)包含 AVE 和 AVVP,數(shù)據(jù)占比 6.8%,空間定位任務(wù)包含 ARIG,數(shù)據(jù)占比 25.8%,像素級(jí)理解任務(wù)包含 S4,MS3,AVSS 和 Ref-AVS,數(shù)據(jù)占比 41.6%,時(shí)空理解任務(wù)包含 AVQA,數(shù)據(jù)占比 25.8%。相比于其它的指令微調(diào)數(shù)據(jù)集,盡管每一個(gè)任務(wù)的訓(xùn)練樣本數(shù)比較小,但是在顯示推理過程的幫助下,任務(wù)間的顯示互助仍然可以增強(qiáng)模型在單個(gè)任務(wù)上的性能。 

Crab: 實(shí)現(xiàn)任務(wù)間顯示互助的統(tǒng)一學(xué)習(xí)框架

從數(shù)據(jù)的角度保證了模型可以輸出帶有時(shí)序信息的顯示推理過程,這是從結(jié)果上對(duì)模型進(jìn)行約束,顯示地增強(qiáng)不同類型的能力,但是如何保證模型在學(xué)習(xí)過程中可以有效地學(xué)到這些不同的能力呢?為此,本文提出了一個(gè)視聽場(chǎng)景理解的統(tǒng)一學(xué)習(xí)框架,圖 3 展示了模型的整體架構(gòu),主要包括三個(gè)統(tǒng)一的多模態(tài)接口,分別用來處理 audio, visual 和 segmentation mask 數(shù)據(jù),一個(gè)具有 interaction-aware LoRA 結(jié)構(gòu)的大模型,用于在學(xué)習(xí)過程中有效學(xué)習(xí)數(shù)據(jù)交互的不同層面從而實(shí)現(xiàn)任務(wù)間的顯示互助。

圖片

圖 3. 模型總體架構(gòu)

傳統(tǒng)的 LoRA 結(jié)構(gòu)由一組對(duì)稱的 A 矩陣和 B 矩陣組成,用于在下游任務(wù)上高效微調(diào)模型,具有多組對(duì)稱的 AB 矩陣的 LoRA MoE 結(jié)構(gòu)通常被用來多任務(wù)微調(diào),每一組 LoRA 負(fù)責(zé)解決單個(gè)任務(wù)。為了進(jìn)一步地促進(jìn)任務(wù)間的相互協(xié)助,本文提出的 Interaction-aware LoRA 結(jié)構(gòu)(如圖 4 所示)由一個(gè)共享的 A 矩陣和多個(gè)不同的 LoRA Head B 矩陣組成,每個(gè) Head 期望去學(xué)習(xí)數(shù)據(jù)交互的不同層面,進(jìn)而具備不同的能力。為了有效區(qū)分不同的 Head,額外增加一個(gè) Router 用來給不同的任務(wù)分配不同的權(quán)重。例如,在學(xué)習(xí)過程中,時(shí)空推理任務(wù) AVQA 聚焦于增強(qiáng)模型的時(shí)序和空間定位能力,那么就會(huì)更多的激活對(duì)應(yīng) Head 的參數(shù),增強(qiáng)它們特定的能力,而其它的時(shí)序定位和空間任務(wù)都可以受益于這些增強(qiáng)后的 Head。從這個(gè)角度來說,模型的能力被解耦成多個(gè)特定的能力,模型可以顯示地依賴這些能力完成不同類型的任務(wù),而多個(gè)任務(wù)間共享的能力建立起了任務(wù)間協(xié)助的橋梁。

圖片

圖 2. 具有多個(gè) LoRA head 的 Interaction-aware LoRA 結(jié)構(gòu)

實(shí)驗(yàn)與分析

為了證明顯示互助學(xué)習(xí)范式的有效性,本文分別對(duì)比了在所有任務(wù)上通用的模型以及在單個(gè)任務(wù)上專有的模型,并提供了全面的消融實(shí)驗(yàn)對(duì)比結(jié)果。表 1 展示了與多個(gè)任務(wù)上的通用模型的對(duì)比結(jié)果,相比于其它模型,本文提出的 Crab 統(tǒng)一學(xué)習(xí)框架在所有類型的任務(wù)上具有更加通用的理解能力,并且在多個(gè)任務(wù)上取得了更好的表現(xiàn)。這表明了 Crab 在視聽場(chǎng)景通用理解能力方面的優(yōu)越性。

圖片

表 1. 與多個(gè)任務(wù)上的通用模型的對(duì)比結(jié)果

表 2,3,4,5 分別展示了與時(shí)序定位、空間定位、像素級(jí)理解和時(shí)空推理等四種類型任務(wù)的專有模型對(duì)比結(jié)果,可以看到在 AVE、ARIG、AVQA 等任務(wù)上 Crab 均優(yōu)于單個(gè)任務(wù)上的專有模型,在 AVVP 和 AVS 任務(wù)上取得了相近的表現(xiàn)。表 6 展示了全面的消融實(shí)驗(yàn)結(jié)果,相比于單個(gè)任務(wù),簡(jiǎn)單的多任務(wù) LoRA 微調(diào)并不能充分實(shí)現(xiàn)任務(wù)間的相互協(xié)助,甚至在一些任務(wù)上可能會(huì)降低性能。相比之下,在顯示互助的學(xué)習(xí)范式下,任務(wù)間的相互干擾被有效緩解,任務(wù)間的相互協(xié)助提高了單個(gè)任務(wù)的性能。

圖片

表 2. 與時(shí)序定位任務(wù)專有模型對(duì)比結(jié)果

圖片

表 3. 與空間定位任務(wù)專有模型對(duì)比結(jié)果

圖片

表 4. 與像素級(jí)理解任務(wù)專有模型對(duì)比結(jié)果

圖片

表 5. 與時(shí)空推理任務(wù)專有模型對(duì)比結(jié)果

圖片

表 6. 全面的消融實(shí)驗(yàn)對(duì)比結(jié)果

為了進(jìn)一步證明任務(wù)間顯示互助的過程,本文對(duì)多個(gè) LoRA Head 進(jìn)行了可視化分析實(shí)驗(yàn)。在推理過程中,對(duì)于每個(gè)任務(wù)的多模態(tài)輸入數(shù)據(jù),每個(gè) LoRA Head 會(huì)產(chǎn)生一個(gè)權(quán)重,權(quán)重越大,表明完成該任務(wù)越依賴于這個(gè) Head。圖 3 對(duì)比了 3 個(gè) Head 在不同任務(wù)上的權(quán)重,左圖是 B1 和 B2,右圖是 B2 和 B3。可以發(fā)現(xiàn)兩點(diǎn):1)相同類型的任務(wù)對(duì)不同 Head 的依賴程度是類似的,它們對(duì)不同 Head 的依賴權(quán)重分別形成不同的簇;2)不同任務(wù)對(duì) 3 個(gè) Head 的不同依賴性表明每個(gè) Head 具備不同的能力。這表明模型的能力被解耦成多種不同的能力,多個(gè)任務(wù)間可能會(huì)依賴于同一種能力,因此它們可以建立相互協(xié)助的關(guān)系。

圖片

圖 3. 3 個(gè) LoRA Head 的權(quán)重可視化

總述

本文分別從數(shù)據(jù)和模型的角度出發(fā),提出了統(tǒng)一視聽場(chǎng)景理解的顯示互助范式來實(shí)現(xiàn)任務(wù)間的顯示互助,大量的實(shí)驗(yàn)結(jié)果以及可視化分析均證明了該范式的有效性。我們希望本文提出的想法可以為該領(lǐng)域的發(fā)展提供新的研究視角,并且在未來的工作中我們將聚焦于多模態(tài)推理的新范式,希望將現(xiàn)有的多模態(tài)推理工作提升到一個(gè)新的高度。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-06-06 14:09:32

模型開源

2025-05-14 08:51:00

2024-03-25 12:40:19

訓(xùn)練模型

2025-06-17 02:25:00

工業(yè)異常檢測(cè)

2025-06-09 09:32:35

2025-07-31 08:45:00

模型AI開源

2025-01-06 10:00:00

模型視覺生成

2023-07-30 16:05:44

多模態(tài)學(xué)習(xí)框架自然語(yǔ)言

2025-08-25 08:45:00

模型代碼開源

2024-10-22 13:33:48

2025-07-14 08:42:00

開發(fā)模型圖像生成

2024-12-23 14:10:00

AI模型數(shù)據(jù)

2024-04-08 12:19:19

AI數(shù)據(jù)

2024-04-15 12:28:00

AI模型

2023-10-07 09:29:09

2025-03-19 09:30:00

2025-10-28 08:46:00

2023-05-22 09:22:41

論文CV

2025-03-10 07:00:00

模型數(shù)據(jù)訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)