ICML 2025 Spotlight | 多模態(tài)大模型暴露短板?EMMA基準(zhǔn)深度揭秘多模態(tài)推理能力
「三個(gè)點(diǎn)電荷 + Q、-2Q 和 + 3Q 等距放置,哪個(gè)向量最能描述作用在 + Q 電荷上的凈電力方向?」
在解這道題時(shí),我們可以通過繪制受力分析草圖輕松解決。但即使是先進(jìn)的多模態(tài)大語言模型,如 GPT-4o,也可能在理解「同性相斥」的基本物理原則時(shí),錯(cuò)誤地判斷斥力的方向(例如,錯(cuò)誤地將 + 3Q 對(duì) + Q 的斥力方向判斷為右下方而非正確的左上方)。
這個(gè)看似簡(jiǎn)單的物理問題,卻暴露了多模態(tài)大模型一個(gè)「致命缺陷」:當(dāng)前的 MLLMs 仍然無法進(jìn)行需要深度視覺與文本融合的復(fù)雜多模態(tài)推理!一項(xiàng)最新研究推出的 EMMA 基準(zhǔn)測(cè)試,如同一面「照妖鏡」,揭示了即使是頂尖 MLLMs 也在這關(guān)鍵能力上顯著不足。
目前該研究已被 ICML 2025 接收為 spotlight,代碼數(shù)據(jù)已全部開源!
- 標(biāo)題: Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark
- 論文鏈接: https://www.arxiv.org/pdf/2501.05444
- 項(xiàng)目主頁:https://emma-benchmark.github.io/
- 代碼倉庫: https://github.com/EMMA-Bench/EMMA
- 數(shù)據(jù)集: https://huggingface.co/datasets/luckychao/EMMA
- 單位: 電子科技大學(xué),中山大學(xué),華盛頓大學(xué),微軟,香港中文大學(xué)
目前已有多個(gè)模型 / 方法在 EMMA 上驗(yàn)證其多模態(tài)推理能力,研究發(fā)現(xiàn):即使最先進(jìn)的模型 ——Gemini-2.5-pro-exp-03-25 ,或者是能夠進(jìn)行視覺工具調(diào)用的 o3/o4-mini 模型在 EMMA 上的表現(xiàn)仍然落后人類專家超 20%!
研究者們還邀請(qǐng)了人類專家完成題目,并對(duì)比了人類專家與 AI 模型的解題過程??梢钥闯鋈祟悓<以诿鎸?duì) EMMA 中的復(fù)雜問題時(shí),傾向于借助簡(jiǎn)潔的手繪草圖進(jìn)行「視覺化思考和空間模擬」,高效地找到解題路徑。與之形成鮮明對(duì)比的是,模型(如 o3)則依賴于詳盡的、結(jié)構(gòu)化的文本步驟進(jìn)行推理。這種差異凸顯了當(dāng)前 MLLMs 在處理多模態(tài)信息時(shí),更偏向于運(yùn)用其強(qiáng)大的語言邏輯能力進(jìn)行處理,而較少展現(xiàn)出類人的、以視覺為核心的直觀洞察和靈活高效的解題策略。
EMMA:深度考量 MLLMs 的多模態(tài)推理極限
將文本與圖像信息有機(jī)結(jié)合、協(xié)同進(jìn)行推理,是人類智能的一項(xiàng)核心能力。然而,多模態(tài)大語言模型是否真正具備這種深層次、非割裂的多模態(tài)推理能力,至今仍缺乏系統(tǒng)而深入的研究。當(dāng)前的主流基準(zhǔn)測(cè)試往往偏重于「文本主導(dǎo)」的推理過程,或僅需利用「淺層的視覺感知」而非「視覺推理」便可解決問題,難以全面衡量模型在復(fù)雜任務(wù)中對(duì)視覺與語言信息的整合能力,因而無法有效評(píng)估其真實(shí)的多模態(tài)理解與推理水平。
為應(yīng)對(duì)這一挑戰(zhàn),研究者們提出了 EMMA—— 一個(gè)專為評(píng)估 MLLMs 在數(shù)學(xué)、物理、化學(xué)和代碼這四大領(lǐng)域進(jìn)行原生多模態(tài)推理而設(shè)計(jì)的增強(qiáng)型基準(zhǔn),具體如下圖所示。EMMA 中的任務(wù)要求高級(jí)的跨模態(tài)推理,這些問題無法通過在單一模態(tài)中獨(dú)立思考來解決,從而為 MLLMs 的推理能力提供了更嚴(yán)苛、更全面的「試金石」。
EMMA 不僅僅是一個(gè)新的評(píng)估數(shù)據(jù)集,它是一套精心設(shè)計(jì)的「考題」,旨在全面考察 MLLMs 在以下方面的能力:
- 真正的多模態(tài)融合: EMMA 的首要標(biāo)準(zhǔn)是考驗(yàn)?zāi)P褪欠衲苓M(jìn)行「真」多模態(tài)推理。這意味著問題必須同時(shí)深度依賴視覺信息(如圖表、示意圖、化學(xué)結(jié)構(gòu)、代碼可視化)和文本信息(問題描述、邏輯條件)才能解決,從而檢驗(yàn)?zāi)P驮诓煌B(tài)間無縫切換與深度整合的能力。
- 跨學(xué)科的嚴(yán)峻挑戰(zhàn): 為了全面評(píng)估模型的泛化能力,EMMA 覆蓋了數(shù)學(xué)、物理、化學(xué)和代碼這四大核心科學(xué)與工程領(lǐng)域。這些領(lǐng)域的問題本質(zhì)上要求精確的邏輯演繹和對(duì)特定領(lǐng)域知識(shí)的運(yùn)用,為 MLLMs 提供了復(fù)雜且多樣化的推理場(chǎng)景。
- 細(xì)粒度能力診斷與性能極限探索: EMMA 不滿足于籠統(tǒng)的評(píng)分,而是為每個(gè)學(xué)科下的具體技能(例如,數(shù)學(xué)中的「2D 變換」、「3D 空間模擬」,物理中的「受力分析」、「場(chǎng)模擬」等,如上圖所示)提供了細(xì)致的分類。這種設(shè)計(jì)使得研究者能夠精確分析模型在特定推理環(huán)節(jié)上的優(yōu)勢(shì)與不足,繪制出模型能力的「細(xì)粒度畫像」。
該研究具有以下幾個(gè)主要發(fā)現(xiàn):
- 整體表現(xiàn)堪憂: 即使最先進(jìn)的模型(如 Gemini-2.5-pro-exp-03-25) ,或者是能夠進(jìn)行視覺工具調(diào)用的 o3/o4-mini 模型在 EMMA 上的表現(xiàn)仍然落后人類專家超 20%。無論采用何種提示策略或計(jì)算擴(kuò)展方式,模型都未能有效彌合與人類之間的差距。
- 思維鏈 (CoT) 并非萬能藥: 盡管思維鏈提示在文本推理任務(wù)中表現(xiàn)出色,但在 EMMA 的多模態(tài)挑戰(zhàn)下,其對(duì)模型性能的提升有限,甚至對(duì)某些開源模型產(chǎn)生負(fù)面影響。
- 測(cè)試時(shí)計(jì)算擴(kuò)展效果不彰: 即使通過增加候選答案數(shù)量(如多數(shù)投票、Best-of-N,錦標(biāo)賽策略)等方式擴(kuò)展測(cè)試時(shí)的計(jì)算資源,也未能有效彌補(bǔ)模型在根本視覺推理能力上的缺陷。
- 視覺推理是核心瓶頸: 錯(cuò)誤分析表明,MLLMs 常常在需要精確空間模擬、多跳視覺推理以及視覺與文本信息整合的任務(wù)上失敗,尤其是在視覺輔助能極大簡(jiǎn)化解題路徑的問題上。這進(jìn)一步強(qiáng)調(diào)了需要開發(fā)新型視覺與語言深度融合的機(jī)制。
數(shù)據(jù)集構(gòu)建:嚴(yán)謹(jǐn)篩選與細(xì)粒度剖析
EMMA 的構(gòu)建過程經(jīng)過精心設(shè)計(jì),旨在確保其能夠有效評(píng)估深層多模態(tài)推理能力。
- 數(shù)據(jù)來源與篩選: EMMA 包含從現(xiàn)有基準(zhǔn)(如 MathVision, MathVista, OlympiadBench, MMMU 等)中通過嚴(yán)格篩選流程(如上圖所示,過濾掉僅憑文本或「文本 + 圖像描述」就能解決的問題)獲得的 992 個(gè)問題,并與相關(guān)領(lǐng)域?qū)<液献魇謩?dòng)構(gòu)建了 1,796 個(gè)全新問題,總計(jì) 2,788 個(gè)問題。
- 領(lǐng)域覆蓋與技能評(píng)估:
a.數(shù)學(xué): 包含 2D 變換、3D 空間模擬、路徑追蹤、多跳視覺對(duì)象計(jì)數(shù)、模式推理等。
b.物理: 包含 3D 場(chǎng)模擬、圖表推理、路徑追蹤、多跳視覺推理等。
c.化學(xué): 包含基于知識(shí)的計(jì)數(shù)、結(jié)構(gòu)識(shí)別、反應(yīng)模擬等。
d.代碼: 包含圖表選擇代碼、代碼選擇圖表、基于目標(biāo)圖像修改代碼(提供或不提供原始圖像)等任務(wù),側(cè)重?cái)?shù)據(jù)可視化。
- 精細(xì)化分類: 每個(gè)問題都被賦予了細(xì)致的技能標(biāo)簽,以便對(duì)模型的各項(xiàng)能力進(jìn)行深入分析。
- 人工驗(yàn)證與質(zhì)量控制: 所有問題,特別是新構(gòu)建的問題和分類標(biāo)簽,都經(jīng)過領(lǐng)域?qū)<业膰?yán)格審查或創(chuàng)建,以確保問題的質(zhì)量、相關(guān)性以及對(duì)多模態(tài)推理能力的真實(shí)考察。
最終得到 EMMA 數(shù)據(jù)集的關(guān)鍵統(tǒng)計(jì)信息及數(shù)據(jù)分布如下:
實(shí)驗(yàn)與結(jié)果:SOTA 模型面臨嚴(yán)峻考驗(yàn)
研究團(tuán)隊(duì)在 EMMA 上評(píng)估了 10 個(gè) SOTA MLLMs,包括開源模型(如 Qwen2-VL, LLaVA-Onevision, InternVL2)和閉源模型(如 GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash/Thinking, o1)。
- 普遍表現(xiàn)不佳: 所有模型在 EMMA 上的表現(xiàn)均不理想,與人類專家存在巨大差距,凸顯了當(dāng)前模型在解決復(fù)雜多模態(tài)推理任務(wù)上的局限性。
- CoT 效果分化: 對(duì)于閉源模型,CoT 提示通常能帶來性能提升;但對(duì)于開源模型,CoT 反而可能導(dǎo)致性能下降,這可能與模型未能有效利用語言輔助多模態(tài)推理有關(guān)。
- 測(cè)試時(shí)計(jì)算擴(kuò)展難補(bǔ)短板: 盡管采用多數(shù)投票、Best-of-N、錦標(biāo)賽選擇等策略增加計(jì)算量能在一定程度上提升性能,但提升幅度有限,遠(yuǎn)不足以彌合與人類水平的差距。這表明僅僅增加文本 CoT 的候選數(shù)量,難以彌補(bǔ)模型在視覺推理步驟上的根本性不足。
錯(cuò)誤分析:視覺推理是核心癥結(jié)
- 錯(cuò)誤類型分析: 對(duì) o1 模型 在 EMMA-mini 的數(shù)學(xué)和代碼部分的錯(cuò)誤分析顯示,視覺推理錯(cuò)誤占比最高(52.83%),其次是感知錯(cuò)誤(30.19%),而文本推理錯(cuò)誤和知識(shí)缺乏錯(cuò)誤占比較小。這進(jìn)一步證明視覺推理是主要的性能瓶頸。
- CoT 對(duì)視覺密集型任務(wù)的負(fù)面影響: 雖然在「多跳計(jì)數(shù)」這類「語言可以輔助推理」的任務(wù)中,我們看到部分閉源模型在 CoT 的輔助下性能有所提升,但在如「2D 變換」這類「高度依賴視覺模擬和空間想象」的任務(wù)上,文本 CoT 甚至?xí)?duì)某些模型性能產(chǎn)生負(fù)面影響,這提示我們需要新的范式來改進(jìn)視覺推理。
- 實(shí)例分析: 一個(gè)典型的錯(cuò)誤案例是,在判斷磁場(chǎng)力方向時(shí),模型(o1)雖然知道應(yīng)使用「右手定則」,但在模擬拇指指向時(shí)出錯(cuò),這源于其有限的視覺空間想象能力。
未來展望:跨模態(tài)智能
EMMA 基準(zhǔn)系統(tǒng)性地揭示了當(dāng)前多模態(tài)智能在跨越語言與視覺鴻溝時(shí)所面臨的具體挑戰(zhàn)與瓶頸,并通過設(shè)計(jì)精細(xì)的任務(wù)集合,為下一代跨模態(tài)模型的發(fā)展明確了實(shí)踐方向與關(guān)鍵突破點(diǎn)。
盡管當(dāng)前的多模態(tài)模型取得了顯著的進(jìn)步,但仍面臨著兩個(gè)重要的技術(shù)瓶頸:
- 一方面,由于視覺和文本之間信息密度和抽象層次的巨大差異,多模態(tài)模型在預(yù)訓(xùn)練階段難以充分實(shí)現(xiàn)模態(tài)特征的精準(zhǔn)對(duì)齊和融合,嚴(yán)重制約了模型后續(xù)在推理階段的表現(xiàn);
- 另一方面,目前模型普遍缺乏視覺信息生成與動(dòng)態(tài)交互的能力,難以實(shí)現(xiàn)真正意義上的跨模態(tài)互動(dòng)與視覺狀態(tài)的實(shí)時(shí)更新。
因此,未來多模態(tài)智能的發(fā)展趨勢(shì)必將從現(xiàn)有的語言主導(dǎo)推理模式逐步轉(zhuǎn)向更深入的模態(tài)間動(dòng)態(tài)協(xié)作模式。具體而言,下一代模型不僅需要具備視覺動(dòng)作推理(如調(diào)用圖像編輯工具輔助推理)的能力,更要實(shí)現(xiàn)視覺狀態(tài)的主動(dòng)更新和跨模態(tài)反饋,從而高效地驅(qū)動(dòng)下一輪語言 - 視覺交互推理。EMMA 所揭示的這些具體挑戰(zhàn)與路徑,將有助于研究人員更清晰地設(shè)計(jì)新型多模態(tài)模型結(jié)構(gòu)與訓(xùn)練策略,真正推動(dòng)跨模態(tài)智能向更高層次邁進(jìn)。