偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

超CLIP準(zhǔn)確率11%！伯克利港大闡明「LLM文本-視覺」對齊深層機(jī)制

2025-07-03 09:49:43

人工智能新聞

多模態(tài)對齊模型借助對比學(xué)習(xí)在檢索與生成任務(wù)中大放異彩。最新趨勢是用凍結(jié)的大語言模型替換自訓(xùn)文本編碼器，從而在長文本與大數(shù)據(jù)場景中降低算力成本。LIFT首次系統(tǒng)性地剖析了此范式的優(yōu)勢來源、數(shù)據(jù)適配性、以及關(guān)鍵設(shè)計(jì)選擇，在組合語義理解與長文本任務(wù)上觀察到大幅提升。

多模態(tài)對齊模型近年來憑借對比學(xué)習(xí)范式在圖像檢索、文生圖等任務(wù)中表現(xiàn)出色。然而，主流框架（如 CLIP）需要從零訓(xùn)練文本和圖像編碼器，導(dǎo)致計(jì)算成本高昂，尤其在處理長文本或大規(guī)模數(shù)據(jù)時(shí)更加明顯。

近期，相關(guān)工作嘗試將預(yù)訓(xùn)練的大語言模型（LLM）作為文本編碼器融入多模態(tài)對齊框架，并在分類和檢索任務(wù)上觀察到性能提升。

然而，性能提升背后的機(jī)制尚不清晰，幾個(gè)關(guān)鍵問題仍未得到系統(tǒng)解答：

能力提升的本質(zhì)：LLM文本編碼器的加入究竟增強(qiáng)了多模態(tài)模型的哪些具體能力？
數(shù)據(jù)特征的適配：在哪些類型的訓(xùn)練數(shù)據(jù)上，LLM文本編碼器表現(xiàn)更優(yōu)，原因?yàn)楹危?/span>
關(guān)鍵組件的貢獻(xiàn)：LLM文本編碼器的哪些設(shè)計(jì)選擇對跨模態(tài)對齊至關(guān)重要？
訓(xùn)練流程的簡化：若使用LLM作為固定文本編碼器，傳統(tǒng)對比學(xué)習(xí)框架能否進(jìn)一步優(yōu)化？

來自UC伯克利和香港大學(xué)的研究團(tuán)隊(duì)在最新工作LIFT（Language-Image Alignment with Fixed Text Encoders）中，對上述問題進(jìn)行了系統(tǒng)性解答。

論文鏈接：https://arxiv.org/pdf/2506.04209

項(xiàng)目代碼：https://github.com/Jingfeng0705/LIFT

該方法采用極簡訓(xùn)練范式——直接凍結(jié)預(yù)訓(xùn)練LLM作為文本編碼器，僅優(yōu)化圖像編碼器。

LIFT首次闡明了LLM文本嵌入驅(qū)動(dòng)語言-視覺對齊的關(guān)鍵機(jī)制，并為未來高效多模態(tài)模型的設(shè)計(jì)提供了全新思路。

能力提升的本質(zhì)

「組合語義」理解大幅提升

大量實(shí)驗(yàn)證明，CLIP及其變體缺乏「組合語義」理解（如詞序、空間關(guān)系、物體-物體關(guān)系, 物體-屬性關(guān)聯(lián)等）。

學(xué)界普遍認(rèn)為，對比預(yù)訓(xùn)練促使從零訓(xùn)練的編碼器傾向于學(xué)習(xí)「捷徑」，即丟棄與組合語義相關(guān)的特征。

在面向組合語義的SugarCrepe測試集上，LIFT相較CLIP在短文本訓(xùn)練場景下平均準(zhǔn)確率提升6.8%，長文本訓(xùn)練場景下進(jìn)一步提升至7.9%，在「添加屬性」、「替換屬性」與「替換關(guān)系」等子任務(wù)中優(yōu)勢尤為顯著。

這表明，LLM的自回歸訓(xùn)練能有效避免對比學(xué)習(xí)的組合語義盲區(qū)，更精準(zhǔn)地建模物體間以及物體與其屬性間的關(guān)聯(lián)。

團(tuán)隊(duì)進(jìn)一步以LIFT和CLIP作為圖像編碼器訓(xùn)練LLaVA式多模態(tài)大模型進(jìn)行對比，以短文本訓(xùn)練的LIFT贏得6個(gè)LLaVA下游任務(wù)中的5項(xiàng)，而在長文本訓(xùn)練場景下全部取勝。

LIFT在MMBench的細(xì)粒度感知與關(guān)系推理子任務(wù)上取得最大增益，這表明LIFT的組合語義理解優(yōu)勢可無縫遷移到大型多模態(tài)模型，顯著提升物體定位、屬性識別及物理關(guān)系判斷等視覺任務(wù)能力。

數(shù)據(jù)特征的適配

在合成長文本中優(yōu)勢顯著

由多模態(tài)模型合成的長文本在語言-視覺對齊中正發(fā)揮日益重要的作用，因其能提供更豐富的圖像細(xì)節(jié)信息。

現(xiàn)有研究已發(fā)現(xiàn)，LLM文本編碼器在處理此類長文本時(shí)不僅效率更高，還能帶來性能提升。

LIFT通過一系列實(shí)驗(yàn)再次證實(shí)這一現(xiàn)象，并進(jìn)一步揭示了其背后的深層原因：預(yù)訓(xùn)練LLM文本編碼器對合成長文本的句法相似性具有更強(qiáng)的魯棒性。

團(tuán)隊(duì)發(fā)現(xiàn)，合成文本通常遵循固定句法模板，這會(huì)扭曲原始文本分布，并分散從零訓(xùn)練的文本編碼器對核心語義的關(guān)注。

通過研究從Recap-DataComp-1B合成數(shù)據(jù)集中隨機(jī)抽取的圖像文本對，團(tuán)隊(duì)發(fā)現(xiàn)CLIP的文本編碼器容易賦予句法相似但語義迥異的圖像標(biāo)題對高相似度。

相比之下，LIFT采用海量文本預(yù)訓(xùn)練的LLM文本編碼器能有效抵抗句法干擾，更精準(zhǔn)地聚焦語義內(nèi)容，賦予這些生成文本對更合理的相似度評分。

關(guān)鍵組件的貢獻(xiàn)

對比微調(diào)至關(guān)重要

在LLM文本編碼器逐漸超越傳統(tǒng)文本編碼器的過程中，文本嵌入提取方式、對比微調(diào)等策略是最為關(guān)鍵的設(shè)計(jì)要素。為探究哪些設(shè)計(jì)真正有助于語言-視覺對齊，團(tuán)隊(duì)選取了五種7B規(guī)模的LLM作為LIFT的文本編碼器進(jìn)行對比實(shí)驗(yàn)。

結(jié)果顯示，未經(jīng)微調(diào)的原始LLM表現(xiàn)顯著落后，在ImageNet-1K零樣本分類任務(wù)中平均準(zhǔn)確率下降22.8%，這表明LLM本身難以提供高質(zhì)量的文本嵌入，對比微調(diào)對于語言-視覺對齊至關(guān)重要。

三種微調(diào)后的模型均取得良好且相近的表現(xiàn)，既驗(yàn)證了對比微調(diào)的有效性，也說明簡單的<eos>隱狀態(tài)已能有效表征文本，復(fù)雜的嵌入提取方法可能并非必要

訓(xùn)練流程的簡化

極簡Cosine Similarity Loss

CLIP依賴基于余弦相似度的InfoNCE對比損失來防止模式坍縮，但其計(jì)算量和顯存需求會(huì)隨批次大小呈平方級增長，且嚴(yán)重依賴大批量負(fù)樣本。

而預(yù)訓(xùn)練的LLM文本編碼器解決了模式坍縮問題，因此團(tuán)隊(duì)嘗試改用僅計(jì)算正向圖像文本對的極簡余弦相似度損失來實(shí)現(xiàn)對齊。

這種損失函數(shù)使FLOPs和顯存需求降至線性復(fù)雜度，完全擺脫了對負(fù)樣本和大批次的依賴。

實(shí)驗(yàn)表明，在組合語義理解和LLaVA下游任務(wù)上，簡化后的損失函數(shù)與InfoNCE表現(xiàn)相當(dāng)；使用長文本訓(xùn)練時(shí)，該損失函數(shù)甚至在中英MMBench測試中顯著領(lǐng)先。

然而，其在零樣本分類與檢索任務(wù)中準(zhǔn)確率有所下降。

團(tuán)隊(duì)認(rèn)為這一差距源于缺乏負(fù)樣本導(dǎo)致表征區(qū)分度不足，證明對比損失函數(shù)在分類和檢索任務(wù)中仍具有獨(dú)特優(yōu)勢。

總結(jié)與后續(xù)工作

LIFT采用極簡的訓(xùn)練范式，結(jié)合系統(tǒng)測試與消融實(shí)驗(yàn)，首次剖析了LLM文本嵌入驅(qū)動(dòng)語言-視覺對齊的關(guān)鍵機(jī)制，歸納出四大核心發(fā)現(xiàn)：

相比從零訓(xùn)練的文本編碼器， LLM文本編碼器帶來的多模態(tài)模型性能提升主要來自于更強(qiáng)的組合語義理解能力；
面對句法模板化、語義信息豐富的合成長文本，LLM編碼器具備更強(qiáng)的魯棒性與判別力；
在語言-視覺對齊中，對比微調(diào)對于LLM文本編碼器至關(guān)重要，而復(fù)雜的嵌入提取方式并非必要，<eos>隱狀態(tài)即可勝任；
在固定文本編碼器后，用僅含正樣本的極簡線性余弦損失即可替代InfoNCE，對組合語義理解、LLaVA下游任務(wù)無損甚至有益。

未來，團(tuán)隊(duì)將把該簡化范式與自監(jiān)督等視覺表征學(xué)習(xí)策略結(jié)合，進(jìn)一步細(xì)化并豐富語義聯(lián)結(jié)。

此外，當(dāng)前對齊仍主要停留在低階統(tǒng)計(jì)層面，如何實(shí)現(xiàn)局部視覺特征與對應(yīng)語義的深度耦合，將成為下一階段的核心研究方向。

參考資料：

責(zé)任編輯：張燕妮來源：新智元

相似話題

機(jī)器學(xué)習(xí)

2034內(nèi)容

深度學(xué)習(xí)

1699內(nèi)容

自然語言處理

110內(nèi)容

107內(nèi)容

同話題下的熱門內(nèi)容

VSCode AI 編程必裝！五款DeepSeek集成插件，每款都讓開發(fā)效率飆升 ElementPlusX + RuoyiAI：Vue3 首個(gè) AI 開發(fā)模板開源了！OpenAI 停工一周，緊急調(diào)薪！Meta滅霸式天價(jià)挖8名OpenAI大佬！緊急回應(yīng)：我們被偷家了！與Meta沖突是支線任務(wù)！當(dāng)Gemini CLI遇見n8n：免費(fèi)擼Google頂級模型的玩法甭提靜態(tài)AI了，MIT新框架讓模型具備自學(xué)能力 Cursor + MCP：雙劍合璧，解鎖極致編程效率 Grok 4源代碼剛剛泄露！上線倒計(jì)時(shí)，馬斯克xAI估值破1130億，大模型要變天你的RAG系統(tǒng)安全么？

相關(guān)專題更多

HarmonyOS NEXT 高效開發(fā)與創(chuàng)新實(shí)踐

馭浪者無疆：蛻變新生，以定馭變

2025-06-04 14:38:36

開發(fā)者成長學(xué)院 | 成長有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內(nèi)容

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<table id="sgp86"></table>

<thead id="sgp86"><option id="sgp86"></option></thead>

<center id="sgp86"><video id="sgp86"></video></center>