偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

馬毅LeCun謝賽寧曝出多模態(tài)LLM重大缺陷!開創(chuàng)性研究顯著增強(qiáng)視覺理解能力

人工智能 新聞
來自紐約大學(xué)和UC伯克利的研究團(tuán)隊成功捕捉到了多模態(tài)大模型在視覺理解方面存在的重大缺陷。針對這個問題,他們進(jìn)一步提出了一個將DINOv2特征與CLIP特征結(jié)合的方法,有效地提升了多模態(tài)大模型的視覺功能。

Sam Altman在各種場合都提到,大語言模型的多模態(tài)能力,是未來AI技術(shù)能夠造福人類的最亟待突破的領(lǐng)域。

圖片

那么現(xiàn)在在多模態(tài)大模型的視覺功能能否達(dá)到與語言功能匹配的水平?

當(dāng)前多模態(tài)模型取得的進(jìn)步很大程度上歸功于大語言模型(LLM)的推理能力。但在視覺方面,模型往往只基于實(shí)例級別的對比語言-圖像預(yù)訓(xùn)練(CLIP)。

最近,來自紐約大學(xué)和UC伯克利的團(tuán)隊研究表明,多模態(tài)大語言模型(MLLM)在視覺處理方面仍存在普遍性的缺陷。

其中,團(tuán)隊成員堪稱「豪華」,除了領(lǐng)隊謝賽寧外,共同參與還有馬毅和LeCun兩位大佬。

圖片

論文地址:https://arxiv.org/abs/2401.06209

開源項(xiàng)目:https://github.com/tsb0601/MMVP

在一些特殊場景之下,很多MLLM對于圖像內(nèi)容識別能力甚至不如隨機(jī)瞎猜。

圖片

在很多人類能夠輕易答對的圖像識別問題上,多模態(tài)大模型表現(xiàn)卻非常掙扎:

圖片

GPT-4V:老鷹只有一只眼。

圖片

GPT-4V:車門是關(guān)著的。

圖片

GPT-4V:蝴蝶的腳看不見。

圖片

GPT-4V:校車是背向鏡頭的。

圖片

GPT-4V:紅心的邊框是深色的。

研究人員提出了一種造成這種視覺缺陷最關(guān)鍵的原因:「對比語言-圖像預(yù)訓(xùn)練盲對(CLIP-blind pairs)」——發(fā)現(xiàn)CLIP嵌入中的識別不準(zhǔn)確,最主要是來源于那些視覺上不同,但由CLIP模型編碼卻很相似的圖像。

圖片

進(jìn)一步地,研究團(tuán)隊評估了SOTA開源模型(LLaVA-1.5、InstructBLIP、Mini-GPT4)和閉源模型(GPT-4V、Gemini、Bard)在這一類圖像中的識別能力。

再結(jié)合與人類的視覺能力對比,發(fā)現(xiàn)多模態(tài)LLM和人類視覺能力之間存在顯著的性能差距。

除GPT-4V和Gemini之外的模型得分都低于隨機(jī)猜測水平(25%)。最先進(jìn)的GPT-4V和Gemini在解決這類基本視覺基礎(chǔ)問題上表現(xiàn)也很不理想。

在此基礎(chǔ)之上,研究人員嘗試解決這個問題。

他們最終提出了「交錯特征混合(Interleaved-MoF)」方法來利用CLIP和DINOv2嵌入的優(yōu)勢來增強(qiáng)圖像表征。

證明了將視覺自監(jiān)督學(xué)習(xí)特征與MLLM集成起來可以顯著增強(qiáng)LLM的視覺基礎(chǔ)能力。

他們從CLIP和DINOv2中獲取經(jīng)過處理的特征,并在保持其原始空間順序的同時對它們進(jìn)行交錯混合。

「交錯特征混合(Interleaved-MoF)」顯著增強(qiáng)了視覺基礎(chǔ)能力,在MMVP基準(zhǔn)中獲得了10.7%的能力增強(qiáng),同時還不影響模型遵循指令的能力。

這個實(shí)驗(yàn)在LLaVA-1.5設(shè)置和各種圖像分辨率設(shè)置下能夠重復(fù),也能獲得相似的性能提升。

CLIP模型的視覺模式

具體來說,研究人員辨識出CLIP無法識別的圖像對(CLIP-blind pairs)之后,他們梳理了一些系統(tǒng)性的視覺模式,這些模式往往會讓CLIP視覺編碼器產(chǎn)生誤解。

他們參考了MMVP基準(zhǔn)測試中的問題和選項(xiàng)。通過這些問題,把圖像中難以捉摸的視覺模式轉(zhuǎn)換成了更加清晰、易于歸類的基于語言的描述。

研究人員總結(jié)出的9種視覺模式如下:

朝向和方向

圖片

某個特征是否出現(xiàn)

圖片

某種狀態(tài)和條件

圖片

數(shù)量的問題

圖片

顏色和外觀

圖片

位置和上下文

圖片

結(jié)構(gòu)特征

圖片

文字

圖片

不同的視角

圖片

在此基礎(chǔ)之上,研究人員引入了一個新的基準(zhǔn):MMVP-VLM,可以系統(tǒng)地研究CLIP模型是否能很好地處理這些視覺模式。

研究人員將MMVP基準(zhǔn)測試中的問題子集提煉成更簡單的語言描述,并將它們分類為視覺模式。為了保持每個視覺模式的問題數(shù)量平衡,他們會根據(jù)需要添加一些問題,以確保每個視覺模式由15個文本-圖像對表示。

擴(kuò)大CLIP規(guī)模無助于解決視覺模式問題

隨著時間推移,CLIP模型經(jīng)歷了發(fā)展和規(guī)模擴(kuò)大。研究人員在一系列不同的CLIP模型上進(jìn)行了MMVP的評估。

這些模型在大小、訓(xùn)練數(shù)據(jù)和方法學(xué)等方面各有不同。

下表顯示,盡管增加網(wǎng)絡(luò)規(guī)模和訓(xùn)練數(shù)據(jù)對于識別「顏色和外觀」以及「狀態(tài)和條件」這兩種視覺模式有所幫助,但其他的視覺模式仍然是對所有基于CLIP的模型的一大挑戰(zhàn)。

圖片

提高模型處理的圖像分辨率后,模型的改善程度十分有限,但當(dāng)增加模型網(wǎng)絡(luò)的規(guī)模時,可以看到一定程度的性能提升。

多模態(tài)大語言模型(MLLM)的缺陷

CLIP的表現(xiàn)不佳與MLLM的視覺缺陷之間有關(guān)系嗎?

為了探索這一點(diǎn),研究人員將MMVP中的問題分類為總結(jié)的這些視覺模式,并得到了每個MLLM在這些模式上的表現(xiàn)。

當(dāng)CLIP視覺編碼器在特定視覺模式上的表現(xiàn)不佳時,MLLM型通常也會顯示出相似的不足。

例如,那些明確采用CLIP視覺編碼器的開源模型,比如LLaVA 1.5和InstructBLIP,它們的表現(xiàn)之間有著密切的相關(guān)性。

如果CLIP在處理諸如「方向」這類視覺模式時效果欠佳,那么MLLM在同樣的視覺模式識別上也同樣難以達(dá)到預(yù)期的性能。

此外,研究人員計算了CLIP模型和MLLM在每種視覺模式上的表現(xiàn)之間的Pearson Correlation。結(jié)果入下表顯示,LLaVA 1.5和InstructBLIP的系數(shù)得分均大于0.7。

這個高分表明CLIP模型中視覺模式識別的弱點(diǎn)與MLLM的表現(xiàn)之間存在很強(qiáng)的相關(guān)性。

全新特征混合(MoF)方法

如果開源大語言模型在視覺方面的短板源自CLIP視覺編碼器,該如何打造出一個表現(xiàn)更出色的視覺編碼器?

為了回答這個問題,他們研究了一種特征混合(MoF)技術(shù),它將專注于視覺的自監(jiān)督學(xué)習(xí)(DINOv2)特征與CLIP特征結(jié)合在一起。

圖片

在大語言模型中采用不同的特征混合(MoF)策略。左圖:標(biāo)準(zhǔn)的大語言模型采用現(xiàn)成的CLIP預(yù)訓(xùn)練視覺編碼器;中圖:加性特征混合(A-MoF)大語言模型:在適配器前將CLIP和DINOv2特征進(jìn)行線性混合;右圖:交錯特征混合(I-MoF MLLM)在適配器后將CLIP視覺Token和DINOv2視覺Token進(jìn)行空間交錯。

只依賴視覺的自監(jiān)督學(xué)習(xí)特征:雖提升了視覺識別能力,卻削弱了語言處理性能

研究人員將預(yù)訓(xùn)練的DINOv2編碼器加入到大語言模型中,并與CLIP預(yù)訓(xùn)練編碼器進(jìn)行了混合,發(fā)現(xiàn):

1. 隨著DINOv2特征比例的提高,大語言模型在執(zhí)行指令方面的能力開始下降。特別是當(dāng)DINOv2特征比例達(dá)到87.5%時,能力下降尤為顯著。

2. DINOv2特征比例的增加確實(shí)提升了模型對視覺信息的理解能力,但當(dāng)DINOv2比例超過75%后,這一優(yōu)勢開始減弱,并且遵循指令的能力也明顯受到了影響。

「交錯特征混合(Interleaved-MoF)」:融合CLIP和DINOv2特征,發(fā)揮雙方優(yōu)點(diǎn)

最后研究人員提出「交錯特征混合(Interleaved-MoF)方法」,通過將CLIP和DINOv2的特征交錯排列,同時保持它們的原始空間順序,以此來整合兩者的優(yōu)勢,從而增強(qiáng)圖像的表征。

這種交錯特征混合顯著提升了模型對視覺信息的理解能力,在MMVP測試中獲得了10.7%的性能提升,而且模型執(zhí)行指令的能力并沒有受到影響。

這一實(shí)驗(yàn)在LLaVA-1.5的配置以及不同圖像分辨率的條件下都進(jìn)行了驗(yàn)證,均得到了類似的性能提升。

交錯特征混合在提升視覺信息理解能力的同時,能夠保持模型執(zhí)行指令能力的穩(wěn)定。

研究人員還評估了POPE,目的是測試視覺基礎(chǔ)中的幻覺。

交錯特征混合方法還顯示出相對于原始LLaVA模型的持續(xù)改進(jìn)。

僅僅增加圖像分辨率以及因此增加的token數(shù)量并不能提高視覺基礎(chǔ)能力。而交錯特征混合改進(jìn)了視覺基礎(chǔ)任務(wù)中的表現(xiàn)。

研究人員還在MMBench和GQA等其他基準(zhǔn)上評估了交錯特征混合方法,發(fā)現(xiàn)交錯特征混合方法在這些基準(zhǔn)上也實(shí)現(xiàn)了相似的性能。

作者介紹

Shengbang Tong(童晟邦)

圖片

Peter Tong(Shengbang Tong,童晟邦)是NYU Courant CS的一名博士生,導(dǎo)師是Yann LeCun教授和謝賽寧教授。

此前,他在加州大學(xué)伯克利分校主修計算機(jī)科學(xué)、應(yīng)用數(shù)學(xué)(榮譽(yù))和統(tǒng)計學(xué)(榮譽(yù))。并曾是伯克利人工智能實(shí)驗(yàn)室(BAIR)的研究員,導(dǎo)師是馬毅教授和Jacob Steinhardt教授。

他的研究興趣是世界模型、無監(jiān)督/自監(jiān)督學(xué)習(xí)、生成模型和多模態(tài)模型。

P.S.馬毅教授還特別鳴謝了Meta對研究給予的巨大支持。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-04-08 09:10:00

模型訓(xùn)練AI

2024-06-27 13:10:21

2024-12-23 07:15:00

多模態(tài)大模型MLLM人工智能

2023-11-26 17:14:05

2025-04-03 11:11:50

2024-01-12 13:38:54

業(yè)務(wù)購物ToC

2024-01-22 06:40:00

模型視覺

2024-12-23 12:37:34

2024-08-08 13:04:28

2025-04-14 09:38:00

2023-08-08 10:06:25

微軟大語言模型

2023-09-28 08:23:18

AI模型

2025-05-20 09:08:59

2025-05-20 13:02:23

2025-01-08 08:21:16

2024-06-17 07:10:00

2024-12-30 12:39:29

2009-08-05 08:51:28

Windows 7 R系統(tǒng)漏洞
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號