偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

準(zhǔn)確率不足20%,GPT-4V/Gemini竟看不懂漫畫!首個(gè)圖像序列基準(zhǔn)測試開源

人工智能
馬里蘭大學(xué)聯(lián)合北卡教堂山發(fā)布首個(gè)專為多模態(tài)大語言模型(MLLM)設(shè)計(jì)的圖像序列的基準(zhǔn)測試Mementos,涵蓋了真實(shí)世界圖像序列、機(jī)器人圖像序列,以及動漫圖像序列,用4761個(gè)多樣化圖像序列的集合,全面測試MLLM對碎散圖像序列的推理能力!

OpenAI的GPT-4V和谷歌最新的Gemini多模態(tài)大語言模型一經(jīng)推出就得到業(yè)界和學(xué)界的熱切關(guān)注: 一系列工作都從多角度展示了這些多模態(tài)大語言模型對視頻的理解能力。人們似乎相信我們離通用人工智能artificial general intelligence (AGI) 又邁進(jìn)了一大步!

可如果告訴你,GPT-4V連漫畫中的人物行為都會看錯, 試問:元芳,你怎么看?

我們來看看這幅迷你漫畫系列:

圖片圖片

如果讓生物界最高智能體——人類,也就是讀者朋友來描述, 你大概率會說:

圖片圖片

那我們來看看當(dāng)機(jī)器界最高智能體——也就是GPT-4V來看這幅迷你漫畫系列的時(shí)候,它會這么描述呢?

圖片圖片

GPT-4V作為公認(rèn)的站在鄙視鏈頂端的機(jī)器智能體,居然公然睜眼說瞎話。

還有更離譜的是,就算給GPT-4V實(shí)際的生活圖像片段,它也會把一個(gè)人上樓梯過程中與另一個(gè)人交談的行為也離譜的識別成兩個(gè)人手持「武器」相互打斗嬉鬧 (如下圖所示)。

圖片圖片

Gemini也不遑多讓,同樣的圖像片段,把這個(gè)過程看成了男子艱難上樓并與妻子爭吵被鎖在屋里。

圖片圖片

這些例子都來自于馬里蘭大學(xué)聯(lián)合北卡教堂山的研究團(tuán)隊(duì)的最新成果,他們推出了一個(gè)專門為MLLM設(shè)計(jì)的圖像序列的推理基準(zhǔn)測試——Mementos。

就像諾蘭的電影《Memento記憶碎片》重新定義了敘事方式,Mementos正在重塑測試人工智能的上限。

作為一個(gè)全新的基準(zhǔn)測試,它挑戰(zhàn)的是人工智能對如記憶碎片般的圖像序列的理解。

圖片圖片

論文鏈接:https://arxiv.org/abs/2401.10529

項(xiàng)目主頁:https://mementos-bench.github.io 

Mementos是第一個(gè)專為MLLM設(shè)計(jì)的圖像序列推理的基準(zhǔn)測試,主要關(guān)注大模型在連續(xù)圖像上的對象幻覺和行為幻覺。

其涉及的圖片類型多樣,涵蓋三大類別:真實(shí)世界圖像,機(jī)器人圖像,以及動漫圖像。

并且包含了4,761個(gè)不同長度的多樣化圖像序列,每個(gè)序列都配有人類注釋的主要對象及其在序列中的行為描述。

圖片圖片

目前數(shù)據(jù)已經(jīng)開源,并且還在更新中。

幻覺類型

作者在論文中闡述了MLLM在Mementos中會產(chǎn)生的兩種幻覺:對象幻覺(object hallucination)和行為幻覺(behavior hallucination)。

顧名思義, 對象幻覺是幻想出不存在的對象(object), 而行為幻覺則是幻想出對象并沒有做出的動作與行為。

測評方式

對于如何準(zhǔn)確的評估MLLM在Mementos上的行為幻覺和對象幻覺,研究團(tuán)隊(duì)選擇了將MLLM產(chǎn)生的圖像描述和人標(biāo)注的描述進(jìn)行關(guān)鍵詞匹配。

為了自動化評測每一個(gè)MLLM的表現(xiàn),作者采用了GPT-4輔助測試的方法來進(jìn)行評估:

圖片圖片

1. 作者將圖像序列和提示詞作為輸入給MLLM,并生成與相應(yīng)圖像序列對應(yīng)的描述;

2. 請求GPT-4提取AI生成描述中的對象和行為關(guān)鍵詞;

3. 獲得兩個(gè)關(guān)鍵詞列表:AI生成的對象關(guān)鍵詞列表和AI生成的行為關(guān)鍵詞列表;

4. 計(jì)算AI生成的對象關(guān)鍵詞列表和行為關(guān)鍵詞列表和人的標(biāo)注的關(guān)鍵詞表的召回率、準(zhǔn)確率和F1指標(biāo)。

測評結(jié)果

作者在Mementos上評估了MLLMs在序列圖像推理方面的表現(xiàn),對包括GPT4V和Gemini在內(nèi)的九種最新的MLLMs進(jìn)行了細(xì)致的評估。

MLLM被要求來描述圖像序列中正在發(fā)生的事件,從而來測評MLLM對于連續(xù)圖像的推理能力。

結(jié)果發(fā)現(xiàn),如下圖所示,GPT-4V和Gemini對于人物行為在漫畫數(shù)據(jù)集的正確率竟然不到20%。

圖片圖片

而在真實(shí)世界圖像和機(jī)器人圖像中,GPT-4V和Gemini的表現(xiàn)也不盡如人意:

圖片圖片

關(guān)鍵點(diǎn)

1. 在評估多模態(tài)大型語言模型時(shí),GPT-4V和LLaVA-1.5分別是在黑盒和開源MLLMs中表現(xiàn)最好的模型。GPT-4V在理解圖像序列方面的推理能力優(yōu)于其他所有MLLMs,而LLaVA-1.5在對象理解方面幾乎與黑盒模型Gemini相當(dāng)或甚至超越。

2. 雖然Video-LLaMA-2和Chat-UniVi是為視頻理解設(shè)計(jì)的,但它們并沒有顯示出比LLaVA-1.5更好的優(yōu)勢。

3. 所有MLLMs在圖像序列中對象推理的三個(gè)指標(biāo)上表現(xiàn)顯著優(yōu)于行為推理,表明當(dāng)前MLLMs在從連續(xù)圖像中自主推斷行為的能力不強(qiáng)。

4. 黑盒模型在機(jī)器人領(lǐng)域的表現(xiàn)最佳,而開源模型在日常生活領(lǐng)域表現(xiàn)相對較好。這可能與訓(xùn)練數(shù)據(jù)的分布偏移有關(guān)。

5. 訓(xùn)練數(shù)據(jù)的局限性導(dǎo)致開源MLLMs的推理能力較弱。這表明了訓(xùn)練數(shù)據(jù)的重要性以及它對模型性能的直接影響。

錯誤原因

作者對當(dāng)前多模態(tài)大型語言模型在處理圖像序列推理時(shí)失敗的原因的分析,主要識別了三個(gè)錯誤原因:

1. 對象與行為幻覺之間的相互作用

研究假設(shè),錯誤的對象識別會導(dǎo)致隨后的行為識別不準(zhǔn)確。量化分析和案例研究表明,對象幻覺會在一定程度上導(dǎo)致行為幻覺。例如,當(dāng)MLLM錯誤地將場景識別為網(wǎng)球場后,可能會描述人物正在打網(wǎng)球,即使這種行為在圖像序列中并不存在。

2. 共現(xiàn)對行為幻覺的影響

MLLM傾向于生成在圖像序列推理中常見的行為組合,這加劇了行為幻覺的問題。例如,在處理機(jī)器人領(lǐng)域的圖像時(shí),MLLM可能錯誤地描述一個(gè)機(jī)器人手臂在“抓取把手”之后拉開抽屜,即使實(shí)際行為是“抓取抽屜的側(cè)面”。

3. 行為幻覺的雪球效應(yīng)

隨著圖像序列的進(jìn)行,錯誤可能會逐漸累積或加劇,這稱為雪球效應(yīng)。在圖像序列推理中,如果早期出現(xiàn)錯誤,這些錯誤可能會在序列中積累和放大,導(dǎo)致對象和行為識別的準(zhǔn)確性下降。

舉個(gè)例子

圖片圖片

從上圖可知,MLLM失敗原因包括對象幻覺以及對象幻覺與行為幻覺之間的相關(guān)性,以及共現(xiàn)行為。

例如,在出現(xiàn)「網(wǎng)球場」的對象幻覺后,MLLM隨后展現(xiàn)出「拿著網(wǎng)球拍」的行為幻覺(對象幻覺與行為幻覺之間的相關(guān)性)以及「似乎在打網(wǎng)球」的共現(xiàn)行為。

圖片圖片

觀察上圖中的樣本,可以發(fā)現(xiàn)MLLM錯誤地認(rèn)為椅子再往后仰并且認(rèn)為椅子碎掉了。

這一現(xiàn)象揭示了MLLM對于圖像序列中的靜止的對象,它也會產(chǎn)生這個(gè)對象發(fā)生了某些動作的幻覺。

圖片圖片

在上圖關(guān)于機(jī)械臂的圖像序列展示中,機(jī)械臂伸到了把手旁邊,MLLM就錯誤地認(rèn)為機(jī)械臂抓住了把手,證明了MLLM會生成在圖像序列推理中常見的行為組合,從而產(chǎn)生幻覺。

圖片圖片

在上圖的案例中,老夫子并沒有牽著狗,MLLM錯誤地認(rèn)為遛狗就要牽著狗,并且「狗的撐桿跳」被識別成了「創(chuàng)造了噴泉」。

大量的錯誤反映了MLLM對于漫畫領(lǐng)域的不熟悉,在二次元動漫領(lǐng)域,MLLM可能需要大幅度的優(yōu)化和預(yù)訓(xùn)練.

在附錄中,作者通過詳細(xì)展示了各主要類別中的失敗案例,并進(jìn)行了深入的分析。

總結(jié)

近年來,多模態(tài)大型語言模型在處理各種視覺-語言任務(wù)上展現(xiàn)出了卓越的能力。

這些模型,如GPT-4V和Gemini,能夠理解和生成與圖像相關(guān)的文本,極大地推動了人工智能技術(shù)的發(fā)展。

然而,現(xiàn)有的MLLM基準(zhǔn)測試主要集中于基于單張靜態(tài)圖像的推理,而對于從圖像序列中推斷,這對于理解我們不斷變化的世界至關(guān)重要,的能力研究相對較少。

為了解決這一挑戰(zhàn),研究人員提出了一種新的基準(zhǔn)測試「Mementos」,目的是評估MLLMs在序列圖像推理方面的能力。

Mementos包含了4761個(gè)不同長度的多樣化圖像序列。此外,研究團(tuán)隊(duì)還采用了GPT-4輔助方法來評估MLLM的推理性能。

通過對九個(gè)最新的MLLMs(包括GPT-4V和Gemini)在Mementos上的仔細(xì)評估,研究發(fā)現(xiàn)這些模型在準(zhǔn)確描述給定圖像序列的動態(tài)信息方面存在挑戰(zhàn),常常導(dǎo)致對象及其行為的幻覺/誤表達(dá)。

量化分析和案例研究識別出三個(gè)關(guān)鍵因素影響MLLMs的序列圖像推理:

1. 對象和行為幻覺之間的相關(guān)性;

2. 共現(xiàn)行為的影響;

3. 行為幻覺的累積影響。

這一發(fā)現(xiàn)對于理解和提升MLLMs在處理動態(tài)視覺信息方面的能力具有重要意義。Mementos基準(zhǔn)不僅揭示了當(dāng)前MLLMs的局限性,也為未來的研究和改進(jìn)提供了方向。

隨著人工智能技術(shù)的快速發(fā)展,MLLMs在多模態(tài)理解領(lǐng)域的應(yīng)用將變得更加廣泛和深入。Mementos基準(zhǔn)測試的引入,不僅推動了這一領(lǐng)域的研究,也為我們提供了新的視角,去理解和改進(jìn)這些先進(jìn)的AI系統(tǒng)如何處理和理解我們復(fù)雜多變的世界。

參考資料:

https://github.com/umd-huanglab/Mementos

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-10-31 12:23:17

GPT-4版本VLM

2024-02-06 09:00:00

GPT-4VLLaVA大型語言

2023-12-01 12:32:04

數(shù)據(jù)訓(xùn)練

2025-05-26 08:33:00

2025-02-13 09:40:00

2025-04-01 09:25:00

2023-11-20 21:56:04

AI推理

2024-07-23 09:48:59

2023-11-13 18:19:35

AI訓(xùn)練

2023-09-19 09:20:16

2019-12-09 08:29:26

Netty架構(gòu)系統(tǒng)

2023-12-29 09:55:03

視覺模型

2024-05-20 08:20:00

OpenAI模型

2023-10-14 17:24:49

2023-10-19 09:32:45

自動駕駛技術(shù)

2024-06-20 10:43:15

2025-05-06 15:32:23

模型AI測試

2023-10-14 13:09:53

谷歌模型

2024-01-03 12:56:39

2023-05-05 09:42:12

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號