偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

跨模態(tài)大升級!少量數(shù)據(jù)高效微調(diào),LLM教會CLIP玩轉(zhuǎn)復(fù)雜文本

人工智能 新聞
LLaVA 的視覺編碼器通過 LLM2CLIP 微調(diào)后的 CLIP 增強(qiáng)了對細(xì)節(jié)和語義的理解能力,使其在視覺問答、場景描述等任務(wù)中取得了全面的性能提升。

在當(dāng)今多模態(tài)領(lǐng)域,CLIP 模型憑借其卓越的視覺與文本對齊能力,推動了視覺基礎(chǔ)模型的發(fā)展。CLIP 通過對大規(guī)模圖文對的對比學(xué)習(xí),將視覺與語言信號嵌入到同一特征空間中,受到了廣泛應(yīng)用。

然而,CLIP 的文本處理能力被廣為詬病,難以充分理解長文本和復(fù)雜的知識表達(dá)。隨著大語言模型的發(fā)展,新的可能性逐漸顯現(xiàn):LLM 可以引入更豐富的開放時間知識、更強(qiáng)的文本理解力,極大提升 CLIP 的多模態(tài)表示學(xué)習(xí)能力。

在此背景下,來自同濟(jì)大學(xué)和微軟的研究團(tuán)隊提出了 LLM2CLIP。這一創(chuàng)新方法將 LLM 作為 CLIP 的強(qiáng)力 「私教」,以少量數(shù)據(jù)的高效微調(diào)為 CLIP 注入開放世界知識,讓它能真正構(gòu)建一個的跨模態(tài)空間。在零樣本檢索任務(wù)上,CLIP 也達(dá)成了前所未有的性能提升。

圖片

  • 論文標(biāo)題:LLM2CLIP: POWERFUL LANGUAGE MODEL UNLOCKS RICHER VISUAL REPRESENTATION
  • 論文鏈接:https://arxiv.org/pdf/2411.04997
  • 代碼倉庫:https://github.com/microsoft/LLM2CLIP
  • 模型下載:https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c

在實際應(yīng)用中,LLM2CLIP 的效果得到了廣泛認(rèn)可,迅速吸引了社區(qū)的關(guān)注和支持。

HuggingFace 一周內(nèi)的下載量就破了兩萬,GitHub 也突破了 200+ stars!

圖片

值得注意的是, LLM2CLIP 可以讓完全用英文訓(xùn)練的 CLIP 模型,在中文檢索任務(wù)中超越中文 CLIP。

此外,LLM2CLIP 也能夠在多模態(tài)大模型(如 LLaVA)的訓(xùn)練中顯著提升復(fù)雜視覺推理的表現(xiàn)。

代碼與模型均已公開,歡迎訪問 https://aka.ms/llm2clip 了解詳情和試用。

圖片

LLM2CLIP 目前已被 NeurIPS 2024 Workshop: Self-Supervised Learning - Theory and Practice 接收。

研究背景

CLIP 的橫空出世標(biāo)志著視覺與語言領(lǐng)域的一次革命。不同于傳統(tǒng)的視覺模型(如 ImageNet 預(yù)訓(xùn)練的 ResNet 和 ViT)依賴簡單的分類標(biāo)簽,CLIP 基于圖文對的對比學(xué)習(xí),通過自然語言的描述獲得了更豐富的視覺特征,更加符合人類對于視覺信號的定義。

這種監(jiān)督信號不僅僅是一個標(biāo)簽,而是一個富有層次的信息集合,從而讓 CLIP 擁有更加細(xì)膩的視覺理解能力,適應(yīng)零樣本分類、檢測、分割等多種任務(wù)。可以說,CLIP 的成功奠基于自然語言的監(jiān)督,是一種新時代的 「ImageNet 預(yù)訓(xùn)練」。

雖然 CLIP 在視覺表示學(xué)習(xí)中取得了成功,但其在處理長文本和復(fù)雜描述上存在明顯限制。而大語言模型(LLM)例如 GPT-4 和 Llama,通過預(yù)訓(xùn)練掌握了豐富的開放世界知識,擁有更強(qiáng)的文本理解和生成能力。

將 LLM 的這些能力引入到 CLIP 中,可以大大拓寬 CLIP 的性能上限,增強(qiáng)其處理長文本、復(fù)雜知識的能力。借助 LLM 的知識擴(kuò)展,CLIP 在圖文對齊任務(wù)中的學(xué)習(xí)效率也得以提升。

圖片

原始的 LLM 無法給 CLIP 帶來有意義的監(jiān)督

事實上,將 LLM 與 CLIP 結(jié)合看似簡單粗暴,實際并非易事。直接將 LLM 集成到 CLIP 中會引發(fā)「災(zāi)難」,CLIP 無法產(chǎn)生有效的表示。

這是由于 LLM 的文本理解能力隱藏在內(nèi)部,它的輸出特征空間并不具備很好的特征可分性。

于是,該團(tuán)隊設(shè)計了一個圖像 caption 到 caption 的檢索實驗,使用 COCO 數(shù)據(jù)集上同一張圖像的兩個不同 caption 互相作為正樣本進(jìn)行文本檢索。

他們發(fā)現(xiàn)原生的 llama3 8B 甚至無法找到十分匹配的 caption,例如 plane 和 bat 的距離更近,但是離 airplane 的距離更遠(yuǎn),這有點離譜了,因此它只取得了 18.4% 的召回率。

顯然,這樣的輸出空間無法給 CLIP 的 vision encoder 一個有意義的監(jiān)督,LLM 無法幫助 CLIP 的進(jìn)行有意義的特征學(xué)習(xí)。

圖片

圖像描述對比微調(diào)是融合 LLM 與 CLIP 的秘訣

從上述觀察,研究團(tuán)隊意識到必須對提升 LLM 輸出空間對圖像表述的可分性,才有可能取得突破。

為了讓 LLM 能夠讓相似的 caption 接近,讓不同圖像的 caption 遠(yuǎn)離,他們設(shè)計了一個新的圖像描述對比微調(diào) ——Caption-Contrastive(CC)finetuning。

該團(tuán)隊對訓(xùn)練集中每張圖像都標(biāo)注了兩個以上 caption,再采用同一個圖像的 caption 作為正樣本,不同圖像的 caption 作為負(fù)樣本來進(jìn)行對比學(xué)習(xí),來提升 LLM 對于不同畫面的描述的區(qū)分度。

圖片

實驗證明,這個設(shè)計可以輕易的提升上述 caption2caption 檢索的準(zhǔn)確率,從上述 cases 也可以看出召回的例子開始變得有意義。

高效訓(xùn)練范式 LLM2CLIP

讓 SOTA 更加 SOTA

LLM2CLIP 這一高效的訓(xùn)練范式具體是怎么生效的呢?

首先,要先使用少量數(shù)據(jù)對 LLM 進(jìn)行微調(diào),增強(qiáng)文本特征更具區(qū)分力,進(jìn)而作為 CLIP 視覺編碼器的強(qiáng)力 「教師」。這種設(shè)計讓 LLM 中的文本理解力被有效提取,CLIP 在各種跨模態(tài)任務(wù)中獲得顯著性能提升。

實驗結(jié)果表明,LLM2CLIP 甚至能在不增加大規(guī)模訓(xùn)練數(shù)據(jù)的情況下,將當(dāng)前 SOTA 的 CLIP 性能提升超過 16%。

圖片

英文訓(xùn)練,中文超越,CLIP 的語言能力再拓展

一個令人驚喜的發(fā)現(xiàn)是,LLM2CLIP 的開放世界知識不僅提升了 CLIP 在英文任務(wù)中的表現(xiàn),還能賦予其多語言理解能力。

盡管 LLM2CLIP 僅在英文數(shù)據(jù)上進(jìn)行了訓(xùn)練,但在中文圖文檢索任務(wù)上卻超越了中文 CLIP 模型。這一突破讓 CLIP 不僅在英文數(shù)據(jù)上達(dá)到領(lǐng)先水平,同時在跨語言任務(wù)中也展現(xiàn)了前所未有的優(yōu)勢。

圖片

提升多模態(tài)大模型的復(fù)雜視覺推理性能

LLM2CLIP 的優(yōu)勢還不止于此。當(dāng)該團(tuán)隊將 LLM2CLIP 應(yīng)用于多模態(tài)大模型 LLaVA 的訓(xùn)練時,顯著提升了 LLaVA 在復(fù)雜視覺推理任務(wù)中的表現(xiàn)。

LLaVA 的視覺編碼器通過 LLM2CLIP 微調(diào)后的 CLIP 增強(qiáng)了對細(xì)節(jié)和語義的理解能力,使其在視覺問答、場景描述等任務(wù)中取得了全面的性能提升。

總之,該團(tuán)隊希望通過 LLM2CLIP 技術(shù),推動大模型的能力反哺多模態(tài)社區(qū),同時為基礎(chǔ)模型的預(yù)訓(xùn)練方法帶來新的突破。

LLM2CLIP 的目標(biāo)是讓現(xiàn)有的預(yù)訓(xùn)練基礎(chǔ)模型更加強(qiáng)大,為多模態(tài)研究提供更高效的工具。

除了完整的訓(xùn)練代碼,他們也逐步發(fā)布了經(jīng)過 LLM2CLIP 微調(diào)的主流跨模態(tài)基礎(chǔ)模型,期待這些模型能被應(yīng)用到更多有價值的場景中,挖掘出更豐富的能力。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-11-21 13:02:42

2024-01-11 16:24:12

人工智能RAG

2025-01-08 08:21:16

2024-11-11 13:33:28

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-12-18 18:57:58

2024-06-06 08:25:30

2025-07-03 09:49:43

2025-06-26 15:11:41

AI模型自動化

2025-04-07 05:30:00

2025-02-14 08:18:33

2025-04-07 03:30:00

2025-04-08 03:00:00

2024-11-11 15:11:23

2025-09-03 09:13:18

2025-01-26 09:07:46

2010-07-15 09:11:59

JavaScrip

2025-04-10 06:30:00

2013-10-21 10:56:48

微軟大數(shù)據(jù)中國石化

2025-05-30 08:50:00

LLM模型AI
點贊
收藏

51CTO技術(shù)棧公眾號