偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

牛津VGG、港大、上交發(fā)布ELIP:超越CLIP等,多模態(tài)圖片檢索的增強(qiáng)視覺語言大模型預(yù)訓(xùn)練

人工智能 新聞
牛津 VGG ,港大,上交大團(tuán)隊(duì)這篇論文旨在提供一種方法,能夠用學(xué)術(shù)界的資源來增強(qiáng)視覺語言大模型的預(yù)訓(xùn)練 (Enhance Language-Image Pre-training),使得其可以更好地用于文字 - 圖片檢索。

多模態(tài)圖片檢索是計(jì)算機(jī)視覺和多模態(tài)機(jī)器學(xué)習(xí)領(lǐng)域很重要的一個任務(wù)?,F(xiàn)在大家做多模態(tài)圖片檢索一般會用 CLIP/SigLIP 這種視覺語言大模型,因?yàn)樗麄兘?jīng)過了大規(guī)模的預(yù)訓(xùn)練,所以 zero-shot 的能力比較強(qiáng)。

牛津 VGG ,港大,上交大團(tuán)隊(duì)這篇論文旨在提供一種方法,能夠用學(xué)術(shù)界的資源來增強(qiáng)視覺語言大模型的預(yù)訓(xùn)練 (Enhance Language-Image Pre-training),使得其可以更好地用于文字 - 圖片檢索。這篇論文被 IEEE 國際基于內(nèi)容的多媒體索引大會(IEEE International Conference on Content-Based Multimedia Indexing)接受,并被評選為最佳論文提名,大會近期在愛爾蘭都柏林召開。

  • 關(guān)鍵詞:大模型;視覺語言模型;圖片檢索
  • 項(xiàng)目主頁:https://www.robots.ox.ac.uk/~vgg/research/elip/
  • 論文鏈接:https://www.robots.ox.ac.uk/~vgg/publications/2025/Zhan25a/zhan25a.pdf
  • 代碼倉庫:https://github.com/ypliubit/ELIP

方法概覽

下圖是這篇文章方法的預(yù)覽圖。ELIP 方法的核心思想是,先用傳統(tǒng)的 CLIP/SigLIP 對全體圖片做一次 ranking,然后選出 top-k candidate 再做一次 re-ranking。做 re-ranking 的時(shí)候,作者設(shè)計(jì)了一個簡單的 MLP mapping network,可以用文字的特征來定義一些視覺域中的 token,并把這些 token 插入到 image encoder 當(dāng)中,使得 image encoder 在編碼圖片信息的時(shí)候可以感知到語言信息。這樣重新編碼之后的圖片信息和語言信息再做比對的時(shí)候,同一個語言 query 能得到更好的 ranking 結(jié)果。ELIP 可以應(yīng)用到一系列大模型上,比如 CLIP/SigLIP/SigLIP-2/BLIP-2,作者稱之為 ELIP-C/ELIP-S/ELIP-S-2/ELIP-B。

學(xué)術(shù)界研究的挑戰(zhàn)

視覺語言大模型的預(yù)訓(xùn)練,一般都是工業(yè)界做的事情,但作者提出的方法使得用學(xué)術(shù)界兩張 GPU 做訓(xùn)練也變得可能。想法的創(chuàng)新點(diǎn)主要在模型架構(gòu)和訓(xùn)練數(shù)據(jù)上。

創(chuàng)新點(diǎn):模型架構(gòu)

模型架構(gòu)上,龐大的圖片編碼器和文本編碼器的權(quán)重是固定的,只有作者涉及的由三層 linear + GeLU 構(gòu)成的 MLP maping network 需要打開訓(xùn)練。

下圖是 ELIP-C 和 ELIP-S 的訓(xùn)練圖示。訓(xùn)練的時(shí)候,一個 batch 的文本圖片對輸入模型,文本特征映射到視覺特征空間來引導(dǎo)圖片信息的編碼。對于 CLIP 沿用 InfoNCE 損失函數(shù),對于 SigLIP 沿用 Sigmoid 損失函數(shù),來對齊文本特征和重新計(jì)算的圖片特征。

下圖是 ELIP-B 的訓(xùn)練圖示。和 CLIP/SigLIP 類似,MLP mapping network 把文本特征映射到視覺特征空間。唯一不同的是,在這里由文本引導(dǎo)的圖片特征放進(jìn)了 Q-Former 來和輸入的文本做 cross-attention,并最終由 ITM Head 來預(yù)測圖片和文本是否匹配。訓(xùn)練的時(shí)候,ELIP-B 沿用 BLIP-2 的 BCE 損失函數(shù)。

創(chuàng)新點(diǎn):訓(xùn)練數(shù)據(jù)

訓(xùn)練數(shù)據(jù)上,在學(xué)術(shù)界做大模型訓(xùn)練要面臨的挑戰(zhàn)就是 GPU 數(shù)量不夠,沒法開很大的 batch size 訓(xùn)練,這樣可能訓(xùn)練出來的模型分辨能力就會下降。而 ELIP 卻是要去分辨 CLIP/SigLIP 排序出來的 hard sample,對模型分辨能力的要求就更高了。為了解決這樣的挑戰(zhàn),作者在訓(xùn)練的時(shí)候先算了一下每個訓(xùn)練圖片和對應(yīng)文字標(biāo)題的 CLIP 特征,然后把相似特征的圖文對聚集在一起形成 hard sample training batch。下圖是作者聚合的訓(xùn)練 batch 的例子。對于每一行,第一個 sample 被用來聚合其他 sample。第一行的 caption 從左往右分別是:'a wooden table with no base'; 'a wooden table with a couple of folding legs on it'; 'a table that has a metal base with an olive wood top'; 'small table outdoors sitting on top of the asphalt'。第二行的 caption 從左往右分別是:'a huge body of blue ice floats in a mountain stream'; 'the big chunk of glacier is falling off of the cliff'; 'there is a broken piece of glass that has been broken from the ground'; 'a body of water surrounded by a forest near a mountain'。

新的評測數(shù)據(jù)集

除了在標(biāo)準(zhǔn)測試集比如 COCO, Flickr 上做測試之外,作者還提出了兩個新的 OOD 測試集:Occluded COCO 和 ImageNet-R。對于 Occluded COCO,正樣本包含了文字中描述的物體(物體通常被遮擋);對于 ImageNet-R,正樣本中包含了文字中描述的物體,但是是來自一些不常見的領(lǐng)域的。負(fù)樣本中不含文字中描述的物體。下圖是一些例子,第一行是正樣本,第二行是負(fù)樣本。對于 Occluded COCO,正樣本中含有被遮擋的自行車,負(fù)樣本中不含自行車;對于 ImageNet-R,正樣本中含有金魚,負(fù)樣本中不含金魚。

實(shí)驗(yàn)結(jié)果

文章的結(jié)果如下表??梢钥吹剑瑧?yīng)用了 ELIP 之后,CLIP/SigLIP/SigLIP-2 的圖片檢索表現(xiàn)都顯著增長,甚至于 SigLIP 系列模型達(dá)到了和 BLIP-2 接近的表現(xiàn)。ELIP-B 應(yīng)用到 BLIP-2 上之后,也提升了 BLIP-2 的表現(xiàn),超過了最新的 Q-Pert 方法。

在 OOD 的測試數(shù)據(jù)集上,ELIP-C/ELIP-S/ELIP-S-2/ELIP-B 都取得了 zero-shot 的泛化提升。如果我們在對應(yīng)的 domain 上做一些 fine-tune,比如對于 Occluded COCO 我們在 COCO 數(shù)據(jù)集上 fine-tune,對于 ImageNet-R 數(shù)據(jù)集我們在 ImageNet 數(shù)據(jù)集上 fine-tune,可以得到更顯著的提升。這進(jìn)一步說明了 ELIP 除了增強(qiáng)預(yù)訓(xùn)練之外,還提供了一種高效的 adaptation 的方式。

作者進(jìn)一步觀察了注意力圖,發(fā)現(xiàn)當(dāng) text query 和圖片相關(guān)時(shí),ELIP 可以提高圖片信息提取 CLS token 對于文字描述的相關(guān)區(qū)域的注意力和信息提取。

更多細(xì)節(jié)詳見論文原文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-07-04 10:11:28

數(shù)據(jù)模型

2024-03-25 12:30:18

AI訓(xùn)練開源

2022-03-04 19:07:03

模型視覺人工智能

2025-07-24 02:00:00

2024-07-23 10:34:57

2025-04-08 09:10:00

模型訓(xùn)練AI

2025-07-09 09:25:10

2024-11-13 09:39:13

2022-08-08 09:47:09

AI算法模型

2023-05-15 12:14:02

ChatGPT語音模型

2023-05-19 07:25:34

2024-05-17 16:02:00

2025-01-08 08:21:16

2024-08-07 13:00:00

2025-06-26 09:13:22

2024-01-03 18:53:13

語言模型LLM

2024-11-21 13:02:42

2023-01-05 09:33:37

視覺模型訓(xùn)練

2023-12-04 13:40:09

AI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號