偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

超CLIP準(zhǔn)確率11%!伯克利港大闡明「LLM文本-視覺」對齊深層機(jī)制

人工智能 新聞
多模態(tài)對齊模型借助對比學(xué)習(xí)在檢索與生成任務(wù)中大放異彩。最新趨勢是用凍結(jié)的大語言模型替換自訓(xùn)文本編碼器,從而在長文本與大數(shù)據(jù)場景中降低算力成本。LIFT首次系統(tǒng)性地剖析了此范式的優(yōu)勢來源、數(shù)據(jù)適配性、以及關(guān)鍵設(shè)計(jì)選擇,在組合語義理解與長文本任務(wù)上觀察到大幅提升。

多模態(tài)對齊模型近年來憑借對比學(xué)習(xí)范式在圖像檢索、文生圖等任務(wù)中表現(xiàn)出色。然而,主流框架(如 CLIP)需要從零訓(xùn)練文本和圖像編碼器,導(dǎo)致計(jì)算成本高昂,尤其在處理長文本或大規(guī)模數(shù)據(jù)時(shí)更加明顯。

近期,相關(guān)工作嘗試將預(yù)訓(xùn)練的大語言模型(LLM)作為文本編碼器融入多模態(tài)對齊框架,并在分類和檢索任務(wù)上觀察到性能提升。

然而,性能提升背后的機(jī)制尚不清晰,幾個(gè)關(guān)鍵問題仍未得到系統(tǒng)解答:

  • 能力提升的本質(zhì):LLM文本編碼器的加入究竟增強(qiáng)了多模態(tài)模型的哪些具體能力?
  • 數(shù)據(jù)特征的適配:在哪些類型的訓(xùn)練數(shù)據(jù)上,LLM文本編碼器表現(xiàn)更優(yōu),原因?yàn)楹危?/span>
  • 關(guān)鍵組件的貢獻(xiàn):LLM文本編碼器的哪些設(shè)計(jì)選擇對跨模態(tài)對齊至關(guān)重要?
  • 訓(xùn)練流程的簡化:若使用LLM作為固定文本編碼器,傳統(tǒng)對比學(xué)習(xí)框架能否進(jìn)一步優(yōu)化?

來自UC伯克利和香港大學(xué)的研究團(tuán)隊(duì)在最新工作LIFT(Language-Image Alignment with Fixed Text Encoders)中,對上述問題進(jìn)行了系統(tǒng)性解答。

圖片

論文鏈接:https://arxiv.org/pdf/2506.04209

項(xiàng)目代碼:https://github.com/Jingfeng0705/LIFT

該方法采用極簡訓(xùn)練范式——直接凍結(jié)預(yù)訓(xùn)練LLM作為文本編碼器,僅優(yōu)化圖像編碼器。

圖片

LIFT首次闡明了LLM文本嵌入驅(qū)動(dòng)語言-視覺對齊的關(guān)鍵機(jī)制,并為未來高效多模態(tài)模型的設(shè)計(jì)提供了全新思路。

能力提升的本質(zhì)

「組合語義」理解大幅提升

大量實(shí)驗(yàn)證明,CLIP及其變體缺乏「組合語義」理解(如詞序、空間關(guān)系、物體-物體關(guān)系, 物體-屬性關(guān)聯(lián)等)。

學(xué)界普遍認(rèn)為,對比預(yù)訓(xùn)練促使從零訓(xùn)練的編碼器傾向于學(xué)習(xí)「捷徑」,即丟棄與組合語義相關(guān)的特征。

在面向組合語義的SugarCrepe測試集上,LIFT相較CLIP在短文本訓(xùn)練場景下平均準(zhǔn)確率提升6.8%,長文本訓(xùn)練場景下進(jìn)一步提升至7.9%,在「添加屬性」、「替換屬性」與「替換關(guān)系」等子任務(wù)中優(yōu)勢尤為顯著。

圖片

這表明,LLM的自回歸訓(xùn)練能有效避免對比學(xué)習(xí)的組合語義盲區(qū),更精準(zhǔn)地建模物體間以及物體與其屬性間的關(guān)聯(lián)。

團(tuán)隊(duì)進(jìn)一步以LIFT和CLIP作為圖像編碼器訓(xùn)練LLaVA式多模態(tài)大模型進(jìn)行對比,以短文本訓(xùn)練的LIFT贏得6個(gè)LLaVA下游任務(wù)中的5項(xiàng),而在長文本訓(xùn)練場景下全部取勝。

圖片

LIFT在MMBench的細(xì)粒度感知與關(guān)系推理子任務(wù)上取得最大增益,這表明LIFT的組合語義理解優(yōu)勢可無縫遷移到大型多模態(tài)模型,顯著提升物體定位、屬性識別及物理關(guān)系判斷等視覺任務(wù)能力。

數(shù)據(jù)特征的適配

在合成長文本中優(yōu)勢顯著

由多模態(tài)模型合成的長文本在語言-視覺對齊中正發(fā)揮日益重要的作用,因其能提供更豐富的圖像細(xì)節(jié)信息。

現(xiàn)有研究已發(fā)現(xiàn),LLM文本編碼器在處理此類長文本時(shí)不僅效率更高,還能帶來性能提升。

圖片

LIFT通過一系列實(shí)驗(yàn)再次證實(shí)這一現(xiàn)象,并進(jìn)一步揭示了其背后的深層原因:預(yù)訓(xùn)練LLM文本編碼器對合成長文本的句法相似性具有更強(qiáng)的魯棒性。

團(tuán)隊(duì)發(fā)現(xiàn),合成文本通常遵循固定句法模板,這會(huì)扭曲原始文本分布,并分散從零訓(xùn)練的文本編碼器對核心語義的關(guān)注。

通過研究從Recap-DataComp-1B合成數(shù)據(jù)集中隨機(jī)抽取的圖像文本對,團(tuán)隊(duì)發(fā)現(xiàn)CLIP的文本編碼器容易賦予句法相似但語義迥異的圖像標(biāo)題對高相似度。

相比之下,LIFT采用海量文本預(yù)訓(xùn)練的LLM文本編碼器能有效抵抗句法干擾,更精準(zhǔn)地聚焦語義內(nèi)容,賦予這些生成文本對更合理的相似度評分。

關(guān)鍵組件的貢獻(xiàn)

對比微調(diào)至關(guān)重要

在LLM文本編碼器逐漸超越傳統(tǒng)文本編碼器的過程中,文本嵌入提取方式、對比微調(diào)等策略是最為關(guān)鍵的設(shè)計(jì)要素。為探究哪些設(shè)計(jì)真正有助于語言-視覺對齊,團(tuán)隊(duì)選取了五種7B規(guī)模的LLM作為LIFT的文本編碼器進(jìn)行對比實(shí)驗(yàn)。

結(jié)果顯示,未經(jīng)微調(diào)的原始LLM表現(xiàn)顯著落后,在ImageNet-1K零樣本分類任務(wù)中平均準(zhǔn)確率下降22.8%,這表明LLM本身難以提供高質(zhì)量的文本嵌入,對比微調(diào)對于語言-視覺對齊至關(guān)重要。

圖片

三種微調(diào)后的模型均取得良好且相近的表現(xiàn),既驗(yàn)證了對比微調(diào)的有效性,也說明簡單的<eos>隱狀態(tài)已能有效表征文本,復(fù)雜的嵌入提取方法可能并非必要

訓(xùn)練流程的簡化

極簡Cosine Similarity Loss

CLIP依賴基于余弦相似度的InfoNCE對比損失來防止模式坍縮,但其計(jì)算量和顯存需求會(huì)隨批次大小呈平方級增長,且嚴(yán)重依賴大批量負(fù)樣本。

而預(yù)訓(xùn)練的LLM文本編碼器解決了模式坍縮問題,因此團(tuán)隊(duì)嘗試改用僅計(jì)算正向圖像文本對的極簡余弦相似度損失來實(shí)現(xiàn)對齊。

這種損失函數(shù)使FLOPs和顯存需求降至線性復(fù)雜度,完全擺脫了對負(fù)樣本和大批次的依賴。

圖片

實(shí)驗(yàn)表明,在組合語義理解和LLaVA下游任務(wù)上,簡化后的損失函數(shù)與InfoNCE表現(xiàn)相當(dāng);使用長文本訓(xùn)練時(shí),該損失函數(shù)甚至在中英MMBench測試中顯著領(lǐng)先。

然而,其在零樣本分類與檢索任務(wù)中準(zhǔn)確率有所下降。

圖片

團(tuán)隊(duì)認(rèn)為這一差距源于缺乏負(fù)樣本導(dǎo)致表征區(qū)分度不足,證明對比損失函數(shù)在分類和檢索任務(wù)中仍具有獨(dú)特優(yōu)勢。

總結(jié)與后續(xù)工作

LIFT采用極簡的訓(xùn)練范式,結(jié)合系統(tǒng)測試與消融實(shí)驗(yàn),首次剖析了LLM文本嵌入驅(qū)動(dòng)語言-視覺對齊的關(guān)鍵機(jī)制,歸納出四大核心發(fā)現(xiàn):

  1. 相比從零訓(xùn)練的文本編碼器, LLM文本編碼器帶來的多模態(tài)模型性能提升主要來自于更強(qiáng)的組合語義理解能力;
  2. 面對句法模板化、語義信息豐富的合成長文本,LLM編碼器具備更強(qiáng)的魯棒性與判別力;
  3. 在語言-視覺對齊中,對比微調(diào)對于LLM文本編碼器至關(guān)重要,而復(fù)雜的嵌入提取方式并非必要,<eos>隱狀態(tài)即可勝任;
  4. 在固定文本編碼器后,用僅含正樣本的極簡線性余弦損失即可替代InfoNCE,對組合語義理解、LLaVA下游任務(wù)無損甚至有益。

未來,團(tuán)隊(duì)將把該簡化范式與自監(jiān)督等視覺表征學(xué)習(xí)策略結(jié)合,進(jìn)一步細(xì)化并豐富語義聯(lián)結(jié)。

此外,當(dāng)前對齊仍主要停留在低階統(tǒng)計(jì)層面,如何實(shí)現(xiàn)局部視覺特征與對應(yīng)語義的深度耦合,將成為下一階段的核心研究方向。

參考資料:

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-04-18 08:42:52

模型推理AI

2025-01-24 15:30:00

2025-06-03 08:38:00

2021-11-03 11:02:19

開發(fā)工具Excel

2022-03-28 13:25:42

AI扶貧機(jī)器之心

2023-05-26 17:20:29

模型工具

2024-12-18 07:20:00

2023-12-04 18:56:03

AI模型

2024-01-18 13:39:00

AI訓(xùn)練

2023-10-28 13:36:48

模型ChatGPT

2023-05-04 14:55:02

模型AI

2022-09-25 17:07:27

訓(xùn)練圖像

2023-11-14 07:47:42

IGN擴(kuò)散模型

2023-06-21 13:20:14

系統(tǒng)模型

2023-12-04 13:52:00

模型數(shù)據(jù)

2024-09-25 09:37:16

2024-08-19 14:05:00

2024-11-29 09:18:01

2024-03-25 08:30:00

AI數(shù)據(jù)

2024-12-16 11:57:21

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號