偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="gyjfg"><menuitem id="gyjfg"></menuitem></blockquote>

<strong id="gyjfg"><label id="gyjfg"><tbody id="gyjfg"></tbody></label></strong>

<center id="gyjfg"></center>

<u id="gyjfg"></u>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

馬毅LeCun謝賽寧曝出多模態(tài)LLM重大缺陷！開(kāi)創(chuàng)性研究顯著增強(qiáng)視覺(jué)理解能力

作者：新智元 2024-01-18 13:39:00

人工智能新聞

來(lái)自紐約大學(xué)和UC伯克利的研究團(tuán)隊(duì)成功捕捉到了多模態(tài)大模型在視覺(jué)理解方面存在的重大缺陷。針對(duì)這個(gè)問(wèn)題，他們進(jìn)一步提出了一個(gè)將DINOv2特征與CLIP特征結(jié)合的方法，有效地提升了多模態(tài)大模型的視覺(jué)功能。

Sam Altman在各種場(chǎng)合都提到，大語(yǔ)言模型的多模態(tài)能力，是未來(lái)AI技術(shù)能夠造福人類(lèi)的最亟待突破的領(lǐng)域。

那么現(xiàn)在在多模態(tài)大模型的視覺(jué)功能能否達(dá)到與語(yǔ)言功能匹配的水平？

當(dāng)前多模態(tài)模型取得的進(jìn)步很大程度上歸功于大語(yǔ)言模型（LLM）的推理能力。但在視覺(jué)方面，模型往往只基于實(shí)例級(jí)別的對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練（CLIP）。

最近，來(lái)自紐約大學(xué)和UC伯克利的團(tuán)隊(duì)研究表明，多模態(tài)大語(yǔ)言模型（MLLM）在視覺(jué)處理方面仍存在普遍性的缺陷。

其中，團(tuán)隊(duì)成員堪稱(chēng)「豪華」，除了領(lǐng)隊(duì)謝賽寧外，共同參與還有馬毅和LeCun兩位大佬。

論文地址：https://arxiv.org/abs/2401.06209

開(kāi)源項(xiàng)目：https://github.com/tsb0601/MMVP

在一些特殊場(chǎng)景之下，很多MLLM對(duì)于圖像內(nèi)容識(shí)別能力甚至不如隨機(jī)瞎猜。

在很多人類(lèi)能夠輕易答對(duì)的圖像識(shí)別問(wèn)題上，多模態(tài)大模型表現(xiàn)卻非常掙扎：

GPT-4V：老鷹只有一只眼。

GPT-4V：車(chē)門(mén)是關(guān)著的。

GPT-4V：蝴蝶的腳看不見(jiàn)。

GPT-4V：校車(chē)是背向鏡頭的。

GPT-4V：紅心的邊框是深色的。

研究人員提出了一種造成這種視覺(jué)缺陷最關(guān)鍵的原因：「對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練盲對(duì)（CLIP-blind pairs）」——發(fā)現(xiàn)CLIP嵌入中的識(shí)別不準(zhǔn)確，最主要是來(lái)源于那些視覺(jué)上不同，但由CLIP模型編碼卻很相似的圖像。

進(jìn)一步地，研究團(tuán)隊(duì)評(píng)估了SOTA開(kāi)源模型（LLaVA-1.5、InstructBLIP、Mini-GPT4）和閉源模型（GPT-4V、Gemini、Bard）在這一類(lèi)圖像中的識(shí)別能力。

再結(jié)合與人類(lèi)的視覺(jué)能力對(duì)比，發(fā)現(xiàn)多模態(tài)LLM和人類(lèi)視覺(jué)能力之間存在顯著的性能差距。

除GPT-4V和Gemini之外的模型得分都低于隨機(jī)猜測(cè)水平（25%）。最先進(jìn)的GPT-4V和Gemini在解決這類(lèi)基本視覺(jué)基礎(chǔ)問(wèn)題上表現(xiàn)也很不理想。

在此基礎(chǔ)之上，研究人員嘗試解決這個(gè)問(wèn)題。

他們最終提出了「交錯(cuò)特征混合（Interleaved-MoF）」方法來(lái)利用CLIP和DINOv2嵌入的優(yōu)勢(shì)來(lái)增強(qiáng)圖像表征。

證明了將視覺(jué)自監(jiān)督學(xué)習(xí)特征與MLLM集成起來(lái)可以顯著增強(qiáng)LLM的視覺(jué)基礎(chǔ)能力。

他們從CLIP和DINOv2中獲取經(jīng)過(guò)處理的特征，并在保持其原始空間順序的同時(shí)對(duì)它們進(jìn)行交錯(cuò)混合。

「交錯(cuò)特征混合（Interleaved-MoF）」顯著增強(qiáng)了視覺(jué)基礎(chǔ)能力，在MMVP基準(zhǔn)中獲得了10.7%的能力增強(qiáng)，同時(shí)還不影響模型遵循指令的能力。

這個(gè)實(shí)驗(yàn)在LLaVA-1.5設(shè)置和各種圖像分辨率設(shè)置下能夠重復(fù)，也能獲得相似的性能提升。

CLIP模型的視覺(jué)模式

具體來(lái)說(shuō)，研究人員辨識(shí)出CLIP無(wú)法識(shí)別的圖像對(duì)（CLIP-blind pairs）之后，他們梳理了一些系統(tǒng)性的視覺(jué)模式，這些模式往往會(huì)讓CLIP視覺(jué)編碼器產(chǎn)生誤解。

他們參考了MMVP基準(zhǔn)測(cè)試中的問(wèn)題和選項(xiàng)。通過(guò)這些問(wèn)題，把圖像中難以捉摸的視覺(jué)模式轉(zhuǎn)換成了更加清晰、易于歸類(lèi)的基于語(yǔ)言的描述。

研究人員總結(jié)出的9種視覺(jué)模式如下：

朝向和方向

某個(gè)特征是否出現(xiàn)

某種狀態(tài)和條件

數(shù)量的問(wèn)題

顏色和外觀

位置和上下文

結(jié)構(gòu)特征

文字

不同的視角

在此基礎(chǔ)之上，研究人員引入了一個(gè)新的基準(zhǔn)：MMVP-VLM，可以系統(tǒng)地研究CLIP模型是否能很好地處理這些視覺(jué)模式。

研究人員將MMVP基準(zhǔn)測(cè)試中的問(wèn)題子集提煉成更簡(jiǎn)單的語(yǔ)言描述，并將它們分類(lèi)為視覺(jué)模式。為了保持每個(gè)視覺(jué)模式的問(wèn)題數(shù)量平衡，他們會(huì)根據(jù)需要添加一些問(wèn)題，以確保每個(gè)視覺(jué)模式由15個(gè)文本-圖像對(duì)表示。

擴(kuò)大CLIP規(guī)模無(wú)助于解決視覺(jué)模式問(wèn)題

隨著時(shí)間推移，CLIP模型經(jīng)歷了發(fā)展和規(guī)模擴(kuò)大。研究人員在一系列不同的CLIP模型上進(jìn)行了MMVP的評(píng)估。

這些模型在大小、訓(xùn)練數(shù)據(jù)和方法學(xué)等方面各有不同。

下表顯示，盡管增加網(wǎng)絡(luò)規(guī)模和訓(xùn)練數(shù)據(jù)對(duì)于識(shí)別「顏色和外觀」以及「狀態(tài)和條件」這兩種視覺(jué)模式有所幫助，但其他的視覺(jué)模式仍然是對(duì)所有基于CLIP的模型的一大挑戰(zhàn)。

提高模型處理的圖像分辨率后，模型的改善程度十分有限，但當(dāng)增加模型網(wǎng)絡(luò)的規(guī)模時(shí)，可以看到一定程度的性能提升。

多模態(tài)大語(yǔ)言模型（MLLM）的缺陷

CLIP的表現(xiàn)不佳與MLLM的視覺(jué)缺陷之間有關(guān)系嗎？

為了探索這一點(diǎn)，研究人員將MMVP中的問(wèn)題分類(lèi)為總結(jié)的這些視覺(jué)模式，并得到了每個(gè)MLLM在這些模式上的表現(xiàn)。

當(dāng)CLIP視覺(jué)編碼器在特定視覺(jué)模式上的表現(xiàn)不佳時(shí)，MLLM型通常也會(huì)顯示出相似的不足。

例如，那些明確采用CLIP視覺(jué)編碼器的開(kāi)源模型，比如LLaVA 1.5和InstructBLIP，它們的表現(xiàn)之間有著密切的相關(guān)性。

如果CLIP在處理諸如「方向」這類(lèi)視覺(jué)模式時(shí)效果欠佳，那么MLLM在同樣的視覺(jué)模式識(shí)別上也同樣難以達(dá)到預(yù)期的性能。

此外，研究人員計(jì)算了CLIP模型和MLLM在每種視覺(jué)模式上的表現(xiàn)之間的Pearson Correlation。結(jié)果入下表顯示，LLaVA 1.5和InstructBLIP的系數(shù)得分均大于0.7。

這個(gè)高分表明CLIP模型中視覺(jué)模式識(shí)別的弱點(diǎn)與MLLM的表現(xiàn)之間存在很強(qiáng)的相關(guān)性。

全新特征混合（MoF）方法

如果開(kāi)源大語(yǔ)言模型在視覺(jué)方面的短板源自CLIP視覺(jué)編碼器，該如何打造出一個(gè)表現(xiàn)更出色的視覺(jué)編碼器？

為了回答這個(gè)問(wèn)題，他們研究了一種特征混合（MoF）技術(shù)，它將專(zhuān)注于視覺(jué)的自監(jiān)督學(xué)習(xí)（DINOv2）特征與CLIP特征結(jié)合在一起。

在大語(yǔ)言模型中采用不同的特征混合（MoF）策略。左圖：標(biāo)準(zhǔn)的大語(yǔ)言模型采用現(xiàn)成的CLIP預(yù)訓(xùn)練視覺(jué)編碼器；中圖：加性特征混合（A-MoF）大語(yǔ)言模型：在適配器前將CLIP和DINOv2特征進(jìn)行線性混合；右圖：交錯(cuò)特征混合（I-MoF MLLM）在適配器后將CLIP視覺(jué)Token和DINOv2視覺(jué)Token進(jìn)行空間交錯(cuò)。

只依賴視覺(jué)的自監(jiān)督學(xué)習(xí)特征：雖提升了視覺(jué)識(shí)別能力，卻削弱了語(yǔ)言處理性能

研究人員將預(yù)訓(xùn)練的DINOv2編碼器加入到大語(yǔ)言模型中，并與CLIP預(yù)訓(xùn)練編碼器進(jìn)行了混合，發(fā)現(xiàn)：

1. 隨著DINOv2特征比例的提高，大語(yǔ)言模型在執(zhí)行指令方面的能力開(kāi)始下降。特別是當(dāng)DINOv2特征比例達(dá)到87.5%時(shí)，能力下降尤為顯著。

2. DINOv2特征比例的增加確實(shí)提升了模型對(duì)視覺(jué)信息的理解能力，但當(dāng)DINOv2比例超過(guò)75%后，這一優(yōu)勢(shì)開(kāi)始減弱，并且遵循指令的能力也明顯受到了影響。

「交錯(cuò)特征混合（Interleaved-MoF）」：融合CLIP和DINOv2特征，發(fā)揮雙方優(yōu)點(diǎn)

最后研究人員提出「交錯(cuò)特征混合（Interleaved-MoF）方法」，通過(guò)將CLIP和DINOv2的特征交錯(cuò)排列，同時(shí)保持它們的原始空間順序，以此來(lái)整合兩者的優(yōu)勢(shì)，從而增強(qiáng)圖像的表征。

這種交錯(cuò)特征混合顯著提升了模型對(duì)視覺(jué)信息的理解能力，在MMVP測(cè)試中獲得了10.7%的性能提升，而且模型執(zhí)行指令的能力并沒(méi)有受到影響。

這一實(shí)驗(yàn)在LLaVA-1.5的配置以及不同圖像分辨率的條件下都進(jìn)行了驗(yàn)證，均得到了類(lèi)似的性能提升。

交錯(cuò)特征混合在提升視覺(jué)信息理解能力的同時(shí)，能夠保持模型執(zhí)行指令能力的穩(wěn)定。

研究人員還評(píng)估了POPE，目的是測(cè)試視覺(jué)基礎(chǔ)中的幻覺(jué)。

交錯(cuò)特征混合方法還顯示出相對(duì)于原始LLaVA模型的持續(xù)改進(jìn)。

僅僅增加圖像分辨率以及因此增加的token數(shù)量并不能提高視覺(jué)基礎(chǔ)能力。而交錯(cuò)特征混合改進(jìn)了視覺(jué)基礎(chǔ)任務(wù)中的表現(xiàn)。

研究人員還在MMBench和GQA等其他基準(zhǔn)上評(píng)估了交錯(cuò)特征混合方法，發(fā)現(xiàn)交錯(cuò)特征混合方法在這些基準(zhǔn)上也實(shí)現(xiàn)了相似的性能。

作者介紹

Shengbang Tong（童晟邦）

Peter Tong（Shengbang Tong，童晟邦）是NYU Courant CS的一名博士生，導(dǎo)師是Yann LeCun教授和謝賽寧教授。

此前，他在加州大學(xué)伯克利分校主修計(jì)算機(jī)科學(xué)、應(yīng)用數(shù)學(xué)（榮譽(yù)）和統(tǒng)計(jì)學(xué)（榮譽(yù)）。并曾是伯克利人工智能實(shí)驗(yàn)室（BAIR）的研究員，導(dǎo)師是馬毅教授和Jacob Steinhardt教授。

他的研究興趣是世界模型、無(wú)監(jiān)督/自監(jiān)督學(xué)習(xí)、生成模型和多模態(tài)模型。

P.S.馬毅教授還特別鳴謝了Meta對(duì)研究給予的巨大支持。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<em id="ns84v"></em>

<bdo id="ns84v"><fieldset id="ns84v"><thead id="ns84v"></thead></fieldset></bdo>