偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

北大彭宇新教授團隊開源細粒度多模態(tài)大模型Finedefics

人工智能 新聞
北京大學彭宇新教授團隊系統(tǒng)地分析了多模態(tài)大模型在細粒度視覺識別上所需的 3 項能力。

本文是北京大學彭宇新教授團隊在細粒度多模態(tài)大模型領(lǐng)域的最新研究成果,相關(guān)論文已被 ICLR 2025 接收,并已開源。

盡管多模態(tài)大模型在通用視覺理解任務(wù)中表現(xiàn)出色,但不具備細粒度視覺識別能力,這極大制約了多模態(tài)大模型的應(yīng)用與發(fā)展。

細粒度視覺識別旨在區(qū)分同一粗粒度大類下的不同細粒度子類別,如將鳥類(粗粒度大類)圖像區(qū)分為西美鷗、灰背鷗、銀鷗等(細粒度子類別);將車區(qū)分為寶馬、奔馳、奧迪等,奧迪區(qū)分為 A4、A6、A8 等;將飛機區(qū)分為波音 737、波音 747、波音 777、空客 320、空客 380 等。實現(xiàn)對視覺對象的細粒度識別,在現(xiàn)實生產(chǎn)和生活中具有重要的研究和應(yīng)用價值。

針對這一問題,北京大學彭宇新教授團隊系統(tǒng)地分析了多模態(tài)大模型在細粒度視覺識別上所需的 3 項能力:對象信息提取能力、類別知識儲備能力、對象 - 類別對齊能力,發(fā)現(xiàn)了「視覺對象與細粒度子類別未對齊」是限制多模態(tài)大模型的細粒度視覺識別能力的關(guān)鍵問題,并提出了細粒度多模態(tài)大模型 Finedefics。

首先,F(xiàn)inedefics 通過提示大語言模型構(gòu)建視覺對象的細粒度屬性知識;然后,通過對比學習將細粒度屬性知識分別與視覺對象的圖像與文本對齊,實現(xiàn)數(shù)據(jù) - 知識協(xié)同訓(xùn)練。

Finedefics 在 6 個權(quán)威細粒度圖像分類數(shù)據(jù)集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均準確率達到了 76.84%,相比 Hugging Face 2024 年 4 月發(fā)布的 Idefics2 大模型提高了 10.89%。

  • 論文標題:Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models
  • 論文鏈接:https://openreview.net/forum?id=p3NKpom1VL
  • 開源代碼:https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025
  • 模型地址:https://huggingface.co/StevenHH2000/Finedefics
  • 實驗室網(wǎng)址:https://www.wict.pku.edu.cn/mipl

背景與動機

多模態(tài)大模型是指提取并融合文本、圖像、視頻等多模態(tài)數(shù)據(jù)表征,通過大語言模型進行推理,經(jīng)過微調(diào)后適配到多種下游任務(wù)的基礎(chǔ)模型。

盡管現(xiàn)有多模態(tài)大模型在視覺問答、推理等多種任務(wù)上表現(xiàn)出色,但存在識別粒度粗的局限性:因為多模態(tài)大模型的視覺識別能力依賴大量訓(xùn)練數(shù)據(jù),由于訓(xùn)練數(shù)據(jù)的細粒度子類別的標注成本巨大,實際也是無法細粒度標注的,導(dǎo)致現(xiàn)有多模態(tài)大模型缺乏細粒度視覺識別能力。

圖 1. 多模態(tài)大模型在細粒度視覺識別上所需的 3 項能力

本文系統(tǒng)地分析了多模態(tài)大模型在細粒度視覺識別上所需的 3 項能力,如圖 1 所示,包括:

1. 對象信息提取能力:視覺編碼器能夠從圖像中準確并全面地提取區(qū)分不同細粒度子類別的辨識性信息;

2. 類別知識儲備能力:大語言模型能夠儲備充分的細粒度子類別知識;

3. 對象 - 類別對齊能力:基于提取的辨識性視覺信息與儲備的細粒度子類別知識,在大語言模型的表征空間中對齊視覺對象與細粒度子類別,以建立輸入圖像到子類別名稱的細粒度映射關(guān)系。

實驗結(jié)果表明,「視覺對象與細粒度子類別未對齊」是限制多模態(tài)大模型具備細粒度視覺識別能力的關(guān)鍵問題。

技術(shù)方案

為解決視覺對象與細粒度子類別未對齊的問題,本文提出了細粒度多模態(tài)大模型 Finedefics。

如圖 2 所示,F(xiàn)inedefics 構(gòu)建過程包含 2 個主要步驟:

1. 首先通過屬性描述構(gòu)建,利用辨識屬性挖掘獲得區(qū)分細粒度子類別的關(guān)鍵特征,例如區(qū)分貓的品種的辨識性屬性「毛色」、「毛型」、「毛皮質(zhì)地」等,并利用視覺屬性提取獲得圖像對象的辨識性屬性對,例如「毛色:棕褐色」、「毛型:帶有斑紋」、「毛皮質(zhì)地:質(zhì)地柔軟」等,再利用屬性描述總結(jié)將屬性對轉(zhuǎn)化為自然語言形式的對象屬性描述,例如「圖中小貓的毛為棕褐色,帶有斑紋,質(zhì)地柔軟」;

2. 然后通過屬性增強對齊,將構(gòu)建的對象屬性描述作為視覺對象與細粒度子類別的共同對齊目標,通過對象 - 屬性、屬性 - 類別、類別 - 類別對比學習充分建立視覺對象與細粒度子類別的細粒度對應(yīng)關(guān)系,再利用以識別為中心的指令微調(diào)促進模型遵循細粒度視覺識別的任務(wù)指令。具體地,包含如下兩個訓(xùn)練階段:

 圖 2. 細粒度多模態(tài)大模型(Finedefics)框架圖

階段 I:屬性增強的對比學習

首先,針對每個「對象 - 屬性 - 類別」三元組,利用視覺編碼器與可學習的模態(tài)連接層  轉(zhuǎn)化為對象表征序列。

為更好捕捉全局表示,將標識符 [EOS] 輸入大語言模型的嵌入層得到向量表示,并將其與對象特征序列拼接,得到新構(gòu)建的對象表征序列 。相似地,得到屬性表征序列 與類別表征序列

然后,分別將  輸入到大語言模型中,將序列末尾的預(yù)測標志(token) 分別作為  的全局表示。


為簡化表示,定義訓(xùn)練采用的對比學習損失包含以下 3 種:

對象 - 屬性對比:為細粒度視覺識別數(shù)據(jù)集中的每個視覺對象 挖掘困難負樣本。具體地,針對每張樣本圖像,從三個最相似但錯誤的細粒度子類別數(shù)據(jù)中選擇負樣本,并將其屬性描述與細粒度子類別名稱作為困難負樣本加入對比學習。

因此,引入困難負樣本后的對象 - 屬性對比(Object-Attribute Contrastive, OAC)損失表示如下:

其中, 表示對象困難負樣本的屬性表征集合,Sim (?,?) 測量特征空間的余弦相似度。

屬性 - 類別對比:相似地,引入困難負樣本后的屬性 - 類別對比(Attribute-Category Contrastive, ACC)損失表示如下:

其中, 表示對象  困難負樣本的細粒度子類別表征集合。

類別 - 類別對比:由于難以在大語言模型的表征空間中區(qū)分不同細粒度子類別,提出了類別 - 類別對比(Category-Category Contrastive, CCC)損失如下:

此外,為保持模型的生成能力,將屬性描述作為生成目標,采用下一個標記預(yù)測(Next Token Prediction)任務(wù)進行模型訓(xùn)練。因此,階段 I 的優(yōu)化目標定義如下:

其中, 表示屬性描述生成損失。

階段 II:以識別為中心的指令微調(diào)

將細粒度視覺識別數(shù)據(jù)集構(gòu)建為兩種形式的指令微調(diào)數(shù)據(jù):開集問答數(shù)據(jù)與閉集多選題數(shù)據(jù),利用上述指令微調(diào)數(shù)據(jù)更新模型參數(shù)。因此,階段 II 模型的優(yōu)化目標定義如下:

其中, 表示以識別為中心的指令微調(diào)損失。

實驗結(jié)果

表 1. 細粒度多模態(tài)大模型(Finedefics)實驗結(jié)果

表 1 的實驗結(jié)果表明,F(xiàn)inedefics 在 6 個權(quán)威細粒度圖像分類數(shù)據(jù)集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均準確率達到了 76.84%,相比阿里 2024 年 1 月發(fā)布的通義千問大模型(Qwen-VL-Chat)提高了 9.43%,相比 Hugging Face 2024 年 4 月發(fā)布的 Idefics2 大模型提高了 10.89%。

圖 3. 視覺對象 - 細粒度子類別對齊效果可視化

圖 4. 細粒度多模態(tài)大模型(Finedefics)案例展示

圖 3 的可視化結(jié)果表明,(a)僅微調(diào)大模型,視覺對象與細粒度子類別表征的分布差異大;(b)僅引入對象 - 類別對比學習時,上述分布差異仍然難以降低;(c)同時引入對象 - 屬性、屬性 - 類別、類別 - 類別對比學習時,分布差異顯著降低,優(yōu)化了視覺對象與細粒度子類別的對齊效果,提升了多模態(tài)大模型的細粒度視覺識別能力。

圖 4 的案例展示表明,相較于 Idefics2,本方法 Finedefics 能成功捕捉視覺對象特征的細微區(qū)別,并將其與相似的細粒度子類別對象顯著區(qū)分。

更多詳情,請參見原論文。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-03-05 09:20:00

2023-08-15 14:35:48

2024-06-27 08:00:00

存儲數(shù)據(jù)庫細粒度

2010-04-14 11:04:53

Oracle細粒度

2025-04-29 09:21:00

2010-04-19 09:35:58

Oracle細粒度

2009-04-16 17:59:25

細粒度權(quán)限

2025-02-26 13:00:00

2023-12-04 13:40:09

AI訓(xùn)練

2025-01-20 09:43:00

AI算法

2009-10-27 09:31:24

Windows Ser口令策略

2024-04-26 12:13:45

NameNodeHDFS核心

2024-01-15 06:15:00

模型數(shù)據(jù)

2018-02-25 04:05:16

2022-11-07 12:15:13

開源深度學習

2023-10-18 13:27:00

數(shù)據(jù)訓(xùn)練

2010-04-16 16:39:25

Oracle細粒度

2025-03-04 04:00:00

擴散模型DDPM

2025-01-08 08:21:16

2024-11-04 12:48:12

點贊
收藏

51CTO技術(shù)棧公眾號