超CLIP準確率11%!伯克利港大闡明「LLM文本-視覺」對齊深層機制
多模態(tài)對齊模型近年來憑借對比學習范式在圖像檢索、文生圖等任務中表現(xiàn)出色。然而,主流框架(如 CLIP)需要從零訓練文本和圖像編碼器,導致計算成本高昂,尤其在處理長文本或大規(guī)模數(shù)據(jù)時更加明顯。
近期,相關工作嘗試將預訓練的大語言模型(LLM)作為文本編碼器融入多模態(tài)對齊框架,并在分類和檢索任務上觀察到性能提升。
然而,性能提升背后的機制尚不清晰,幾個關鍵問題仍未得到系統(tǒng)解答:
- 能力提升的本質:LLM文本編碼器的加入究竟增強了多模態(tài)模型的哪些具體能力?
- 數(shù)據(jù)特征的適配:在哪些類型的訓練數(shù)據(jù)上,LLM文本編碼器表現(xiàn)更優(yōu),原因為何?
- 關鍵組件的貢獻:LLM文本編碼器的哪些設計選擇對跨模態(tài)對齊至關重要?
- 訓練流程的簡化:若使用LLM作為固定文本編碼器,傳統(tǒng)對比學習框架能否進一步優(yōu)化?
來自UC伯克利和香港大學的研究團隊在最新工作LIFT(Language-Image Alignment with Fixed Text Encoders)中,對上述問題進行了系統(tǒng)性解答。
論文鏈接:https://arxiv.org/pdf/2506.04209
項目代碼:https://github.com/Jingfeng0705/LIFT
該方法采用極簡訓練范式——直接凍結預訓練LLM作為文本編碼器,僅優(yōu)化圖像編碼器。
LIFT首次闡明了LLM文本嵌入驅動語言-視覺對齊的關鍵機制,并為未來高效多模態(tài)模型的設計提供了全新思路。
能力提升的本質
「組合語義」理解大幅提升
大量實驗證明,CLIP及其變體缺乏「組合語義」理解(如詞序、空間關系、物體-物體關系, 物體-屬性關聯(lián)等)。
學界普遍認為,對比預訓練促使從零訓練的編碼器傾向于學習「捷徑」,即丟棄與組合語義相關的特征。
在面向組合語義的SugarCrepe測試集上,LIFT相較CLIP在短文本訓練場景下平均準確率提升6.8%,長文本訓練場景下進一步提升至7.9%,在「添加屬性」、「替換屬性」與「替換關系」等子任務中優(yōu)勢尤為顯著。
這表明,LLM的自回歸訓練能有效避免對比學習的組合語義盲區(qū),更精準地建模物體間以及物體與其屬性間的關聯(lián)。
團隊進一步以LIFT和CLIP作為圖像編碼器訓練LLaVA式多模態(tài)大模型進行對比,以短文本訓練的LIFT贏得6個LLaVA下游任務中的5項,而在長文本訓練場景下全部取勝。
LIFT在MMBench的細粒度感知與關系推理子任務上取得最大增益,這表明LIFT的組合語義理解優(yōu)勢可無縫遷移到大型多模態(tài)模型,顯著提升物體定位、屬性識別及物理關系判斷等視覺任務能力。
數(shù)據(jù)特征的適配
在合成長文本中優(yōu)勢顯著
由多模態(tài)模型合成的長文本在語言-視覺對齊中正發(fā)揮日益重要的作用,因其能提供更豐富的圖像細節(jié)信息。
現(xiàn)有研究已發(fā)現(xiàn),LLM文本編碼器在處理此類長文本時不僅效率更高,還能帶來性能提升。
LIFT通過一系列實驗再次證實這一現(xiàn)象,并進一步揭示了其背后的深層原因:預訓練LLM文本編碼器對合成長文本的句法相似性具有更強的魯棒性。
團隊發(fā)現(xiàn),合成文本通常遵循固定句法模板,這會扭曲原始文本分布,并分散從零訓練的文本編碼器對核心語義的關注。
通過研究從Recap-DataComp-1B合成數(shù)據(jù)集中隨機抽取的圖像文本對,團隊發(fā)現(xiàn)CLIP的文本編碼器容易賦予句法相似但語義迥異的圖像標題對高相似度。
相比之下,LIFT采用海量文本預訓練的LLM文本編碼器能有效抵抗句法干擾,更精準地聚焦語義內容,賦予這些生成文本對更合理的相似度評分。
關鍵組件的貢獻
對比微調至關重要
在LLM文本編碼器逐漸超越傳統(tǒng)文本編碼器的過程中,文本嵌入提取方式、對比微調等策略是最為關鍵的設計要素。為探究哪些設計真正有助于語言-視覺對齊,團隊選取了五種7B規(guī)模的LLM作為LIFT的文本編碼器進行對比實驗。
結果顯示,未經(jīng)微調的原始LLM表現(xiàn)顯著落后,在ImageNet-1K零樣本分類任務中平均準確率下降22.8%,這表明LLM本身難以提供高質量的文本嵌入,對比微調對于語言-視覺對齊至關重要。
三種微調后的模型均取得良好且相近的表現(xiàn),既驗證了對比微調的有效性,也說明簡單的<eos>隱狀態(tài)已能有效表征文本,復雜的嵌入提取方法可能并非必要
訓練流程的簡化
極簡Cosine Similarity Loss
CLIP依賴基于余弦相似度的InfoNCE對比損失來防止模式坍縮,但其計算量和顯存需求會隨批次大小呈平方級增長,且嚴重依賴大批量負樣本。
而預訓練的LLM文本編碼器解決了模式坍縮問題,因此團隊嘗試改用僅計算正向圖像文本對的極簡余弦相似度損失來實現(xiàn)對齊。
這種損失函數(shù)使FLOPs和顯存需求降至線性復雜度,完全擺脫了對負樣本和大批次的依賴。
實驗表明,在組合語義理解和LLaVA下游任務上,簡化后的損失函數(shù)與InfoNCE表現(xiàn)相當;使用長文本訓練時,該損失函數(shù)甚至在中英MMBench測試中顯著領先。
然而,其在零樣本分類與檢索任務中準確率有所下降。
團隊認為這一差距源于缺乏負樣本導致表征區(qū)分度不足,證明對比損失函數(shù)在分類和檢索任務中仍具有獨特優(yōu)勢。
總結與后續(xù)工作
LIFT采用極簡的訓練范式,結合系統(tǒng)測試與消融實驗,首次剖析了LLM文本嵌入驅動語言-視覺對齊的關鍵機制,歸納出四大核心發(fā)現(xiàn):
- 相比從零訓練的文本編碼器, LLM文本編碼器帶來的多模態(tài)模型性能提升主要來自于更強的組合語義理解能力;
- 面對句法模板化、語義信息豐富的合成長文本,LLM編碼器具備更強的魯棒性與判別力;
- 在語言-視覺對齊中,對比微調對于LLM文本編碼器至關重要,而復雜的嵌入提取方式并非必要,<eos>隱狀態(tài)即可勝任;
- 在固定文本編碼器后,用僅含正樣本的極簡線性余弦損失即可替代InfoNCE,對組合語義理解、LLaVA下游任務無損甚至有益。
未來,團隊將把該簡化范式與自監(jiān)督等視覺表征學習策略結合,進一步細化并豐富語義聯(lián)結。
此外,當前對齊仍主要停留在低階統(tǒng)計層面,如何實現(xiàn)局部視覺特征與對應語義的深度耦合,將成為下一階段的核心研究方向。
參考資料: