偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

如何全面評估多模態(tài)大模型能力?MLLM評測任務(wù)與指標(biāo)總結(jié) 原創(chuàng) 精華

發(fā)布于 2024-12-20 14:47
瀏覽
0收藏

本篇總結(jié)了多模態(tài)大模型的評測任務(wù)和指標(biāo)。

目前多模態(tài)大型語言模型(MLLMs)的研究主要集中在模型架構(gòu)和訓(xùn)練方法上,但用于評估這些模型的基準(zhǔn)測試的分析還比較少。

另外目前評測可能還存在三大問題:

  • 目標(biāo)不一致:每個模態(tài)、基準(zhǔn)測試都有不同的目標(biāo),導(dǎo)致研究領(lǐng)域碎片化。
  • 任務(wù)飽和:多樣化目標(biāo)驅(qū)動的任務(wù)激增,這種飽和使得很難辨別真正創(chuàng)新或有影響力的基準(zhǔn)測試,導(dǎo)致寶貴的資源被忽視或利用不足。
  • 指標(biāo)演變與差異:曾經(jīng)推出發(fā)一些設(shè)計良好的指標(biāo)受到基準(zhǔn)測試快速演變和頻繁更新的阻礙。

大家在評估哪些多模態(tài)大模型適用于自己的任務(wù)時,可能也會存在多方面的考慮,本篇對論文《A Survey on Multimodal Benchmarks: In the Era of Large AI Models》進行了一個解讀與快速總結(jié),讓大家對多模態(tài)大模型評測內(nèi)容有個快速的了解,可以在實際挑選的時候,有意識地去評估模型的相關(guān)能力。

一、理解任務(wù) 

1. 視覺感知

視覺感知能力涉及提取顯著特征和準(zhǔn)確識別和解釋視覺元素(例如,多個對象、文本信息和復(fù)雜的情感或隱含線索)

- 細粒度感知

  • 多類識別:識別圖像中是否存在某些對象。
  • 對象屬性:識別對象的特定屬性,如顏色、紋理和狀態(tài)。
  • 對象計數(shù):確定圖像中特定對象的實例數(shù)量。
  • 對象位置:表示對象相對于圖像的位置。由于上下文在對象檢測中的重要性,CODE基準(zhǔn)測試通過上下文豐富的環(huán)境更好地評估模型,增強了任務(wù)設(shè)計。
  • 空間關(guān)系:推理兩個或多個對象之間的空間關(guān)系。
  • 光學(xué)字符識別(OCR):識別查詢區(qū)域內(nèi)的文本。

- 高階感知

  • 情感識別:從圖像中識別情感表達。
  • 含義理解:給定圖像和一組多項選擇問題,具有固定的可能答案,模型必須選擇最能解釋圖像的視覺隱含含義或價值的正確答案。
  • 美學(xué)理解:通過問題從圖像中識別美學(xué)屬性(例如,內(nèi)容和主題),然后提供美學(xué)描述,最后通過數(shù)量分?jǐn)?shù)進行美學(xué)評估。

- 綜合感知

目前主要是下面三個方向:

  • 引入相對ICL準(zhǔn)確性和相對魯棒性,用于多選QA,以衡量上下文學(xué)習(xí)和魯棒性,強調(diào)超越隨機猜測的改進;
  • 引入通用智能準(zhǔn)確性(GIA)指標(biāo),利用驗證性因子分析來驗證MLLMs的認知結(jié)構(gòu)與人類智能的一致性;
  • 引入多模態(tài)增益(MG)衡量視覺輸入的改進,以及多模態(tài)泄漏(ML)檢測意外的數(shù)據(jù)暴露,確保公平比較。

2. 上下文理解

- 上下文依賴?yán)斫?/strong>

給定一個查詢和一個帶有兩種不同上下文的圖像,MLLMs需要生成正確的響應(yīng)。因此為了更好地衡量在不同上下文中識別的能力,設(shè)計了上下文意識指標(biāo)。

- 多圖像理解

通常結(jié)合多圖像輸入任務(wù),如動作識別和圖表理解。舉例來說,可以用于復(fù)雜任務(wù)的監(jiān)控和解密圖像序列中對象的位置變化。使用模型提取和標(biāo)準(zhǔn)化AI生成的描述中的對象和行為關(guān)鍵詞,將這些列表與人類基準(zhǔn)進行比較以評估準(zhǔn)確性。

- 長上下文理解

這項任務(wù)通過在長無關(guān)圖像和文本語料庫(haystack)中準(zhǔn)確找到相應(yīng)的信息來評估MLLM的長上下文理解能力。例如,模型必須定位由給定標(biāo)題描述的特定子圖像;在文本任務(wù)中,模型從密集的多模態(tài)上下文中提取7位密碼,而在圖像任務(wù)中,識別并檢索嵌入在圖像中的文本,需要OCR能力。

- 交錯圖像-文本理解

給定交錯的圖像-文本內(nèi)容(例如,上下文示例),模型必須有效地響應(yīng)查詢(例如,QA或字幕格式)

引入了交錯圖像-文本理解任務(wù),其中模型不僅基于更長的圖像-文本序列回答問題,還識別與響應(yīng)相關(guān)的特定圖像索引。

- 空間-時間感知

涉及檢索、排序和計數(shù)插入到視頻序列中的視覺(信息)“針”,挑戰(zhàn)模型準(zhǔn)確處理和分析長上下文視頻中的空間和時間信息。

3. 特定模態(tài)理解

- 長視頻理解

以事件為導(dǎo)向的長視頻理解,并提出了層次化任務(wù)分類法,包括原子事件理解(例如,事件描述)、復(fù)合事件理解(例如,時間推理)和整體理解(例如,上下文推理)

- 綜合視頻理解

任務(wù)涵蓋三個不同的層次:視頻專有理解、基于先驗知識的問題回答和理解與決策。

另外強調(diào)技能(記憶、抽象、物理、語義)和推理類型(描述性、解釋性、預(yù)測性、反事實性)在視頻、音頻和文本模態(tài)上的跨模態(tài)評估任務(wù)。

- 音頻理解

關(guān)注六個維度的分類任務(wù)——內(nèi)容、說話者、語義、退化、副語言學(xué)和音頻處理——使用指令調(diào)整來評估模型處理已見和未見場景的能力。另外結(jié)合了基礎(chǔ)和基于聊天的音頻任務(wù)的層次化評估,涵蓋所有音頻類型。

- 3D理解

引入了兩個新任務(wù):部件感知點定位和部件感知點定位字幕。

  • 在部件感知點定位中,根據(jù)用戶指令預(yù)測部件級別的分割掩模。在
  • 部件感知點定位字幕中,生成一個詳細的字幕,包括部件級別的描述,每個描述對應(yīng)一個分割掩模。

另外也有通過NeRF權(quán)重解釋3D場景的幾何和逼真表示的任務(wù)。

- 全模態(tài)理解

評估模型識別來自不同模態(tài)的輸入實體的共同點的能力,挑戰(zhàn)它從四個給定選項中選擇最合適的答案。

任務(wù)強調(diào)視覺定位,并引入了多模態(tài)通用信息提取的概念,涉及跨文本、圖像、音頻和視頻輸入提取和關(guān)聯(lián)信息,確保實體和事件準(zhǔn)確鏈接到它們對應(yīng)的模態(tài)。

二、推理任務(wù)

1. 關(guān)系推理

關(guān)系推理任務(wù)可以廣泛分為三種主要類型:

第一種類型側(cè)重于預(yù)測關(guān)系,包括實體之間還是模式之間。

  • 以實體為中心的任務(wù)涉及檢測對象及其成對關(guān)系,
  • 以模式為中心的任務(wù),旨在從給定的視覺模式中推斷關(guān)系,以預(yù)測后續(xù)模式。召回率和準(zhǔn)確性分別用于評估以實體為中心和以模式為中心的任務(wù)。

第二類涉及空間中心關(guān)系,如地面空間推理,3D空間定位和細粒度空間推理。像基于IoU(交并比)的準(zhǔn)確性這樣的指標(biāo)用于評估性能。

第三類涉及時間中心關(guān)系,如基于不同視頻片段回答問題,或執(zhí)行時間和語言定位。這些任務(wù)的常見評估指標(biāo)包括準(zhǔn)確性、BLEU、BERT分?jǐn)?shù)和召回率。最后,以比較為中心的任務(wù)側(cè)重于在對象、場景或情境之間進行相對比較。準(zhǔn)確性用于評估。

2. 多步推理

多步推理任務(wù)可以廣泛分為兩種主要類型:基于規(guī)則的任務(wù)和思維鏈(CoT)任務(wù)。

在基于規(guī)則的任務(wù)中,期望應(yīng)用預(yù)定義的規(guī)則或推斷底層模式來解決問題。例如,在尋找數(shù)學(xué)謎題中缺失值的任務(wù)中,模型必須從給定的信息中推斷出控制規(guī)則。

CoT任務(wù)強調(diào)模型將問題分解為一系列邏輯的、順序的步驟的能力。例如模型識別關(guān)鍵圖像區(qū)域并通過問題逐步推理,提供了中間邊界框和推理注釋以促進評估。

3. 反思推理

反思推理任務(wù)可以廣泛分為三種類型:反事實思維、分析性提問和知識編輯。

第一種反事實VQA 中,MLLMs被要求通過基于給定事實的假設(shè)場景生成答案,從而評估它們執(zhí)行反事實推理的能力。例如,一個典型的問題可能會問“如果地面是干的,人們戴著太陽帽而不是舉著傘,天氣可能會是什么?”。

第二種分析性提問這方面,現(xiàn)有工作主要集中在問答上,而分析性提問,包括提問和評估技能很大程度上沒有探索。

第三種類型的任務(wù),知識編輯,評估MLLMs更新知識的能力,特別是當(dāng)面對過時或不準(zhǔn)確的信息時。例如,引入了一跳和多跳推理任務(wù),用于知識編輯。知識編輯的指標(biāo)更為微妙,包括可靠性、普遍性、局部性、可移植性和一致性等措施。

三、生成任務(wù)

1. 面向能力

- 交錯圖像-文本生成

給定包含文本和圖像的提示,此任務(wù)旨在評估模型在模態(tài)間生成連貫、交錯內(nèi)容的能力。

例如基于給定問題的交錯圖像-文本生成,模型僅基于給定的問題生成交錯內(nèi)容,而不提供初始圖像信息,推動模型推理和預(yù)測結(jié)果;

或?qū)W⒂诠适骂I(lǐng)域,涉及任務(wù)如多模態(tài)故事延續(xù)和多模態(tài)故事生成。前者專注于用文本和圖像擴展給定的敘述,而后者挑戰(zhàn)模型從頭開始創(chuàng)建整個敘述序列,無縫整合文本和視覺內(nèi)容。此任務(wù)的主要評估方向是生成的交錯圖像和文本的連貫性和一致性;

或者利用模型評估交錯圖像-文本內(nèi)容中的實體和風(fēng)格一致性。通過采用思維鏈方法,BingChat逐步檢測和分析常見主題和視覺風(fēng)格因素,如色彩調(diào)色板和氛圍,以生成最終的定量分?jǐn)?shù)

- 代碼生成

涉及從各種格式的輸入創(chuàng)建編程代碼,如文本和圖像,甚至更復(fù)雜的網(wǎng)頁。旨在整合MLLMs的優(yōu)勢,它們可以理解和處理多樣化數(shù)據(jù)類型,促進將復(fù)雜的、多方面的規(guī)范轉(zhuǎn)換為可執(zhí)行代碼。

任務(wù)從網(wǎng)頁圖像生成HTML代碼,通過將代碼轉(zhuǎn)換回圖像并與ground-truth進行比較,專注于視覺保真度,而不是傳統(tǒng)的代碼級指標(biāo)。

或強調(diào)功能性和視覺準(zhǔn)確性,通過整合傳統(tǒng)的代碼執(zhí)行檢查與使用GPT-4v和詳細文本匹配指標(biāo)的高級視覺評估,提供超出標(biāo)準(zhǔn)代碼通過率的全面評估。

- 指令遵循

要求MLLMs生成嚴(yán)格遵循給定指令或指令的輸出。

例如查詢輸入通常結(jié)合了定義目標(biāo)和格式的任務(wù)指令,以及提供多模態(tài)上下文的特定任務(wù)實例。對于每個指令收集了指令條件字幕,這些字幕不僅提供圖像的一般描述,還強調(diào)與給定指令相關(guān)的特定信息。

- 幻覺

視覺幻覺(VH)指的是在視覺問答期間模型生成關(guān)于圖像的錯誤細節(jié)的實例,包括錯誤的前提、上下文不足和解釋視覺數(shù)據(jù),幻覺發(fā)生在模型提供錯誤答案時,適當(dāng)?shù)捻憫?yīng)應(yīng)該是“我不知道”。

可以通過測量模型響應(yīng)中幻覺對象的頻率來評估幻覺。

為了提高可信度并解決MLLMs中的幻覺,BEfore-AFter幻覺數(shù)據(jù)集(BEAF)引入了四個關(guān)鍵指標(biāo):真理解(TU)、無知(IG)、固執(zhí)己見(SB)和猶豫不決(ID)

TU評估模型是否正確回答了關(guān)于移除對象的問題;

  • IG在給出錯誤答案時測量無知;
  • SB評估模型堅持初始答案的傾向;
  • SBp和SBn表示一致的“是”或“否”響應(yīng);
  • ID跟蹤與移除對象無關(guān)的問題的答案的不必要變化。

- 安全性

安全性任務(wù)確保MLLMs的響應(yīng)不會導(dǎo)致有害或非法的結(jié)果。LLM需要從安全回答、謹(jǐn)慎回答或拒絕回答中選擇。

對于毒性評估可以提供了輸入,如NSFW圖像(例如,暴力或露骨內(nèi)容)與字幕查詢配對,以評估模型傾向于生成有害響應(yīng)的趨勢。

對于越獄,它涉及測試模型對旨在繞過安全協(xié)議的提示的抵抗力(例如,帶有嵌入文本截圖的圖像詢問非法查詢),并衡量模型是否以不違反安全指南的方式適當(dāng)響應(yīng)。

- 可信度

任務(wù)通過提供圖像與事實性或誤導(dǎo)性文本查詢配對的輸入來評估MLLMs,并評估它們響應(yīng)的準(zhǔn)確性。

例如專注于面部反欺騙和面部偽造檢測任務(wù),要求MLLMs根據(jù)不同模態(tài)(例如,RGB、深度圖、紅外圖像)的挑戰(zhàn)性輸入,準(zhǔn)確識別真實與假面部。

此外還可以引入了多屬性思維鏈范式,通過分析多個屬性(例如,形狀、顏色、紋理)來增強推理,以實現(xiàn)更可靠和全面的決策。

- 健壯性

MLLMs被給予圖像,并被要求回答正面問題以評估視覺理解,并回答誤導(dǎo)性問題以測試對欺騙性提示的健壯性,從多個選擇中選擇正確答案。

根據(jù)模型的響應(yīng)如何專注于本質(zhì)的核心特征,同時忽略不相關(guān)、誤導(dǎo)性的偶然特征,評估其對跨模態(tài)偶然偏見的抵抗力。

2. 面向模態(tài)

- 僅文本

應(yīng)用傳統(tǒng)的圖像字幕指標(biāo),例如ROUGE和METEOR,以及基于LLM的評估。

- 僅視覺

Inception Score(IS)和CLIP分?jǐn)?shù)這樣的指標(biāo)衡量與地ground truth的視覺保真度和多樣性。

為了評估風(fēng)格一致性和重建準(zhǔn)確性,采用像結(jié)構(gòu)相似性指數(shù)度量(SSIM)和峰值信噪比(PSNR)這樣的指標(biāo)。

- 跨模態(tài)

確保不同模態(tài)間內(nèi)容一致性和敘事連貫性至關(guān)重要,跟交錯圖像-文本生成比較類似。

利用MLLMs評估圖像和文本之間的連貫性或一致性,通過檢查風(fēng)格、實體、內(nèi)容趨勢等。

四、應(yīng)用任務(wù)

1. 交互式?jīng)Q策制定智能體

這個任務(wù)將環(huán)境和智能體被建模為部分可觀察的馬爾可夫決策過程(POMDP):E = (S, A, ?, T)

智能體接收狀態(tài)st ∈ S的部分觀察ot ∈ ?,采取行動at ∈ A,并根據(jù)函數(shù)T : S × A → S轉(zhuǎn)換到新狀態(tài),旨在完成像網(wǎng)頁導(dǎo)航或信息檢索這樣的任務(wù)。

2. 具身決策制定智能體

該任務(wù)概述任務(wù)目標(biāo)的語言指令以及進行人類水平的規(guī)劃,根據(jù)視覺輸入確定下一個合適的行動。這種視覺輸入由顯示過去幀的視頻序列組成,這些幀跟蹤任務(wù)進展,最后一幀代表當(dāng)前的自我中心視圖。

3. 機器人應(yīng)用

對模型響應(yīng)進行判斷,將模型的響應(yīng)分類為“A”(正確),“B”(錯誤)或“C”(不確定)。

4. 自動駕駛

引入圖形視覺問答(GVQA),其中推理任務(wù)被構(gòu)建為問題-答案對內(nèi)的有向圖,與傳統(tǒng)的自動駕駛視覺問答不同,GVQA利用問題-答案之間的邏輯依賴關(guān)系來增強回答過程。

本篇文把目前多模態(tài)大模型的評測方向和指標(biāo)進行了一個羅列總結(jié),大家可以在挑選大模型的時候基于自己想要完成的任務(wù),進行特定方向的評測~

參考文獻

[1] A Survey on Multimodal Benchmarks: In the Era of Large AI Models


文轉(zhuǎn)載自公眾號瓦力算法學(xué)研所,作者:喜歡瓦力的卷卷

原文鏈接:??https://mp.weixin.qq.com/s/FtcTO-2AKOddLiO453yBGg??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2024-12-20 14:56:08修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦