最強(qiáng)的GPT-4V都考不過?基于大學(xué)考試的測試基準(zhǔn)MMMU誕生了
目前最好的大型多模態(tài)模型 GPT-4V 與大學(xué)生誰更強(qiáng)?我們還不知道,但近日一個新的基準(zhǔn)數(shù)據(jù)集 MMMU 以及基于其的基準(zhǔn)測試或許能給我們提供一點(diǎn)線索,如下排行榜所示。

看起來,GPT-4V 在一些科目上已經(jīng)強(qiáng)過掛科的大學(xué)生了。當(dāng)然這個數(shù)據(jù)集的創(chuàng)造目的并不為了擊敗大學(xué)生,而是為了提供一個兼具深度與廣度的多模態(tài) AI 測試基準(zhǔn),助力人工智能系統(tǒng)的開發(fā),尤其是通用人工智能(Artificial General Intelligence,AGI)。
隨著大型語言模型(LLM)快速發(fā)展,人們對 AGI 這一頗具爭議的概念進(jìn)行了廣泛討論。簡單來說,AGI 是指在大多數(shù)任務(wù)上都與人類相當(dāng)或超越人類的人工智能系統(tǒng)。由于缺乏公認(rèn)的可操作定義,人們一直都很難就 AGI 開展更加坦誠和建設(shè)性的討論。
為了解決這個問題,Morris 等人的論文《Levels of AGI: Operationalizing Progress on the Path to AGI》提出了一種兼顧通用性(廣度)和性能(深度)的 AGI 分級分類法。
在這種分類法中,第 3 級是專家 AGI,這是一個重要的里程碑。它表示 AI 系統(tǒng)在廣泛的任務(wù)上達(dá)到了「掌握專業(yè)知識的成年人類的 90%」,并由此可以在許多行業(yè)中達(dá)到「機(jī)器智能接替人類勞動力的替代門檻」,從而造成重大的失業(yè)風(fēng)險和經(jīng)濟(jì)混亂。因此,密切關(guān)注專家 AGI 的發(fā)展情況具有重要的學(xué)術(shù)和社會意義。
那么,該如何創(chuàng)造用于度量專家 AGI 的基準(zhǔn)呢?
由于專家 AGI 的定義是基于與專業(yè)人士的比較,因此不同學(xué)科的大學(xué)水平考試就是一個很好的起點(diǎn),因為這些考試本身的目的就是評估人類在相應(yīng)學(xué)科的專業(yè)能力。MMLU 和 AGIEval 等基準(zhǔn)已經(jīng)成功采用了這一策略,但它們只考慮了基于文本的問題,而人類專家有能力解決多模態(tài)問題。
與此同時,能夠理解文本和圖像的大型多模態(tài)模型(LMM)已經(jīng)朝著更通用的人工智能邁出了一大步。這些 LMM 能在現(xiàn)有的多模態(tài)基準(zhǔn)測試上獲得穩(wěn)定一致的優(yōu)良表現(xiàn)。比如 CogVLM 在 VQA-v2 基準(zhǔn)上的成績?yōu)?85%,在 ScienceQA-IMG 上為 92%,在 RefCOCO 上為 93%。
然而,大多數(shù)現(xiàn)有的多模態(tài)基準(zhǔn)側(cè)重于常識 / 日常知識,而不是專家級的領(lǐng)域知識和高級推理。與這個目標(biāo)最接近的基準(zhǔn)是 ScienceQA。盡管 ScienceQA 覆蓋了多個學(xué)科(廣度),但其大部分問題都限于小學(xué)到初中水平,因此缺乏深度,不足以作為專家 AGI 的基準(zhǔn)。
為此,IN.AI Research 等多所機(jī)構(gòu)的一個研究團(tuán)隊構(gòu)建了一個新基準(zhǔn) MMMU,可用于評估 AI 在大學(xué)水平的多學(xué)科問題上的多模態(tài)理解和推理能力。

- 論文地址:https://arxiv.org/abs/2311.16502
 - 項目網(wǎng)站:https://mmmu-benchmark.github.io/
 - 數(shù)據(jù)集:https://huggingface.co/datasets/MMMU/MMMU
 - 代碼:https://github.com/MMMU-Benchmark/MMMU
 
其中包含的問題來自大學(xué)考試、測驗和教科書,涉及六個常見學(xué)科:藝術(shù)與設(shè)計、商科、科學(xué)、健康與醫(yī)學(xué)、人文與社會科學(xué)、技術(shù)與工程。MMMU 包含 1.15 萬個精心選取的多模態(tài)問題,涵蓋 30 個不同的科目和 183 個子領(lǐng)域,因此滿足廣度目標(biāo)。此外,MMMU 中許多問題都需要專家級的推理能力,比如使用傅立葉變換或均衡理論來推導(dǎo)問題的解,因此也滿足深度目標(biāo)。

MMMU 還具備了兩個特有挑戰(zhàn)(圖 1):一是其涵蓋多種圖像格式,從照片和繪畫等視覺場景到圖表和表格,可用于測試 LMM 的感知能力;二是 MMMU 具有文本和圖像混合交織的輸入。對于這個基準(zhǔn),AI 模型需要把圖像和文本放在一起理解,這往往需要回憶深度的學(xué)科知識并根據(jù)理解和知識來執(zhí)行復(fù)雜推理。
該團(tuán)隊不僅提出了基準(zhǔn),也基于新基準(zhǔn)評估了一些模型,其中包括 14 個開源 LMM 和 GPT-4V。他們從中得到了一些有趣的結(jié)論。
此外,他們還分析了 GPT-4V 的 150 個錯誤案例,結(jié)果發(fā)現(xiàn) 35% 的錯誤與感知有關(guān),29% 的錯誤源自缺乏知識、26% 則是由于推理過程的缺陷。這些發(fā)現(xiàn)表明 MMMU 是有難度的,可用于助力進(jìn)一步的研究發(fā)展。
MMMU 基準(zhǔn)
MMMU 概況
MMMU 是 Massive Multi-discipline Multimodal Understanding and Reasoning 的縮寫,即大規(guī)模多學(xué)科多模態(tài)理解和推理。其構(gòu)建目標(biāo)是評估基礎(chǔ)模型在廣泛多樣的任務(wù)上的專家級多模態(tài)理解能力。MMMU 涉及 6 個學(xué)科的 30 個科目。圖 2 給出了每個學(xué)科的一個 MMMU 樣本。

圖 3 詳細(xì)給出了所覆蓋的科目及相關(guān)統(tǒng)計數(shù)據(jù)。

該基準(zhǔn)中的問題是人工收集的,收集者是來自不同學(xué)科的 50 位大學(xué)生,數(shù)據(jù)來源包括網(wǎng)絡(luò)資源、教科書和課程材料。
如表 1 所示,MMMU 中共有 1.15 萬個問題,并分成了三個子集:少樣本開發(fā)集、驗證集和測試集。

少樣本開發(fā)集中每個科目包含 5 個問題;驗證集則包含大約 900 個問題,可用于超參數(shù)選擇;測試集則有 1.05 萬個問題。MMMU 的設(shè)計目標(biāo)是衡量 LMM 的三項基本技能:感知、知識和推理。
數(shù)據(jù)的收集和整理過程
數(shù)據(jù)收集。第一步,他們?yōu)g覽了常見的大學(xué)專業(yè),然后確定要將哪些學(xué)科包含進(jìn)該基準(zhǔn)中。他們選擇的原則是該學(xué)科需要經(jīng)常采用視覺輸入來提供有價值的信息?;谶@個原則,他們?nèi)サ袅朔▽W(xué)和語言學(xué)等一些學(xué)科,因為這些學(xué)科中很難找到足夠多的相關(guān)多模態(tài)問題。最后,他們從 6 個不同學(xué)科中選擇了 30 個科目。
第二步,他們招募了 50 位這些專業(yè)的大學(xué)生,讓他們作為標(biāo)注者來幫助收集問題。他們會從專業(yè)教科書和網(wǎng)絡(luò)資源收集多模態(tài)問題,并在有必要時根據(jù)自己的專業(yè)知識創(chuàng)建新問題??紤]到基礎(chǔ)模型的數(shù)據(jù)污染問題,標(biāo)注者會選擇沒有立即可用答案的問題,例如那些答案在不同的文檔中或教科書末尾的問題。這個過程中,他們得到了 1.3 萬個問題。
為了進(jìn)一步控制數(shù)據(jù)質(zhì)量,他們又執(zhí)行了兩個數(shù)據(jù)清理步驟。第一步,他們使用了詞匯重疊和來源網(wǎng)址相似度來識別潛在的重復(fù)問題。然后他們對這些重復(fù)項進(jìn)行了審查,并清除了所有重復(fù)項。第二步則是把這些問題分配給該論文的參與作者,讓他們幫助進(jìn)行格式和拼寫檢查。最后,該團(tuán)隊對這些問題進(jìn)行了難度分級:非常簡單、簡單、中等、困難。其中大約 10% 的問題屬于非常簡單;由于太過簡單,不符合該基準(zhǔn)的設(shè)計原則,因此被排除在外。
圖 4 給出了 MMMU 與已有基準(zhǔn)的差異。

實驗
該團(tuán)隊基于 MMMU 對多種 LLM 和 LMM 進(jìn)行了評估。每一種類型都兼顧了閉源和開源模型。評估采用了零樣本設(shè)置,以評估模型在沒有微調(diào)或少樣本演示的情況下生成準(zhǔn)確答案的能力。所有實驗均基于 NVIDIA A100 GPU。
主要結(jié)果
表 2 給出了在 MMMU 基準(zhǔn)上不同 LLM 和 LMM 的結(jié)果比較。

他們得到了一些重要發(fā)現(xiàn):
- MMMU 難度很大,就連 GPT-4V 的準(zhǔn)確度也只有 55.7%,這說明 AI 技術(shù)還有很大的改進(jìn)空間。
 - 開源 LMM 和 GPT-4V 的性能差距很大。BLIP2-FLAN-T5-XXL 和 LLaVA-1.5 等表現(xiàn)最好的開源模型也只有 34% 左右的準(zhǔn)確度。
 - 具備光學(xué)字符識別(OCR)或生成字幕的 LLM 沒有看到顯著的提升,這說明 MMMU 需要模型更深度地將圖像和文本放在一起理解。
 - 在藝術(shù)與設(shè)計以及人文與社會科學(xué)等視覺數(shù)據(jù)不太復(fù)雜的學(xué)科中,模型表現(xiàn)出的性能更高。相比之下,商科、科學(xué)、健康與醫(yī)學(xué)以及技術(shù)與工程等領(lǐng)域具有更復(fù)雜的視覺數(shù)據(jù)并需要復(fù)雜的推理,因此 AI 模型的性能也相對較低。
 
但該團(tuán)隊也指出,MMMU 并不足以對專家 AGI 進(jìn)行充分的測試,這是受定義限制的,因為模型的 MMMU 性能與「掌握專業(yè)知識的成年人類的 90%」之間不存在直接的映射關(guān)系,而且大學(xué)考試也并非 AGI 理應(yīng)解決的唯一任務(wù)。但他們也認(rèn)為專家 AGI 有必要在 MMMU 基準(zhǔn)上取得好成績,這樣才能體現(xiàn)其掌握知識的廣度和深度以及專家級的理解和推理能力。
對圖像類型和難度的分析
不同的圖像類型。圖 5 比較了在常用的圖像類型上,不同模型的性能??梢钥吹?,在所有類型上,GPT-4V 始終大幅優(yōu)于其它模型。在照片和繪畫等訓(xùn)練中更常見的類型上,開源模型的表現(xiàn)相對較好。但是,對于幾何形狀、樂譜和化學(xué)結(jié)構(gòu)等更不常見的圖像類別,所有模型的分?jǐn)?shù)都非常低(有些接近于隨機(jī)亂猜)。這表明現(xiàn)有模型在這些圖像類型上的泛化性能不佳。

不同難度。表 3 比較了所選模型在三個難度層級上的性能。在「容易」類別中,GPT-4V 的表現(xiàn)顯著優(yōu)于開源模型,成功率達(dá)到了 76.1%。對于「中等」難度類別,差距縮小了,但 GPT-4V 依然領(lǐng)先,為 55.6%。到了「困難」級別,模型的差距進(jìn)一步變小,這表明隨著任務(wù)復(fù)雜性的提升,GPT-4V 等更先進(jìn)模型的優(yōu)勢會逐漸消失。這可能表明當(dāng)前模型在處理專家級高難度查詢方面存在局限,即便最先進(jìn)模型也是如此。

錯誤分析與未來研究
該團(tuán)隊還深度分析了 GPT-4V 的錯誤,這有助于理解其運(yùn)作能力和局限。該分析不僅能識別模型當(dāng)前的缺點(diǎn),還可以幫助改進(jìn)未來的設(shè)計和訓(xùn)練。他們從 GPT-4V 的預(yù)測中隨機(jī)采樣的 150 個錯誤實例,然后請專家級標(biāo)注者分析了這些實例,這些專家根據(jù)自己的知識找到了這些錯誤預(yù)測的根本原因。圖 6 給出了這些錯誤的分布情況。

感知錯誤(35%):GPT-4V 的錯誤中很大一部分是感知錯誤,這又可以進(jìn)一步分為兩種類型:基本感知錯誤和特定領(lǐng)域的感知錯誤。如圖 7 所示,當(dāng)模型能準(zhǔn)確處理和理解給定信息,但無法解讀基本的視覺信息時,就會出現(xiàn)基本感知錯誤。而特定領(lǐng)域的感知錯誤則是由缺乏知識所致。當(dāng)分析根本原因時,研究者將此類錯誤歸類為缺乏知識。此外,GPT-4V 經(jīng)常表現(xiàn)出對文本的偏好,也就是以文本信息優(yōu)先,視覺輸入在后。

缺乏知識(29%):如前所述,對于 GPT-4V 模型,特定領(lǐng)域的感知錯誤的一個基本根本原因就是缺乏專業(yè)知識。類似地,缺乏專業(yè)知識還可能導(dǎo)致推理出現(xiàn)問題。
推理錯誤(26%):在一些實例中,模型正確解讀了文本和圖像,也找到了相關(guān)知識,但卻未能成功應(yīng)用邏輯和數(shù)學(xué)推理技能來進(jìn)行準(zhǔn)確的推導(dǎo)。
其它錯誤:其它錯誤還包括文本理解錯誤(6%)、拒絕問答(3%)、注釋錯誤(2%)、答案提取錯誤(1%)。這些錯誤的原因也多種多樣,比如復(fù)雜文本的解讀難度大、響應(yīng)生成的限制、數(shù)據(jù)注釋不準(zhǔn)確以及從較長輸出中提取精確答案存在問題。
更多詳細(xì)內(nèi)容,請閱讀原文。















 
 
 



















 
 
 
 