小學(xué)數(shù)學(xué)題,大模型集體不及格!達(dá)摩院推出新基準(zhǔn)VCBench
大模型做數(shù)學(xué)題的能力很強(qiáng),可是它們真的能夠理解基本的數(shù)學(xué)原理嗎?
拿小學(xué)生的數(shù)學(xué)題進(jìn)行測(cè)試,人類平均得分為93.30%,而大模型的表現(xiàn)讓人意外:
閉源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)的綜合表現(xiàn)最佳,但仍未突破50%準(zhǔn)確率。
why?
因?yàn)榇竽P涂赡懿⒉荒苷嬲斫饣緮?shù)學(xué)元素和視覺(jué)概念。
現(xiàn)有的視覺(jué)數(shù)學(xué)基準(zhǔn)測(cè)試主要集中在知識(shí)導(dǎo)向的評(píng)估上,容易受到大型語(yǔ)言模型中預(yù)先嵌入的知識(shí)的影響。
上述結(jié)論來(lái)自達(dá)摩院推出的新基準(zhǔn)VCBench——這是一個(gè)專為評(píng)估具備顯式視覺(jué)依賴性的多模態(tài)數(shù)學(xué)推理任務(wù)而設(shè)計(jì)的綜合基準(zhǔn)。
該基準(zhǔn)主要面向小學(xué) 1-6 年級(jí)的數(shù)學(xué)問(wèn)題,即并不涉及復(fù)雜的數(shù)學(xué)或幾何推理,但高度依賴于顯式的視覺(jué)依賴性的問(wèn)題。
解決這種問(wèn)題,需要模型識(shí)別和整合圖像中的視覺(jué)特征,并理解不同視覺(jué)元素之間的關(guān)系。
△論文標(biāo)題:Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency
VCBench現(xiàn)已全面開(kāi)源,代碼可見(jiàn)文末。
強(qiáng)調(diào)vision-centric而非knowledge-centric
與以往側(cè)重知識(shí)評(píng)估的基準(zhǔn)不同,VCBench更強(qiáng)調(diào)視覺(jué)為核心的評(píng)測(cè)。
它主要針對(duì)無(wú)需專業(yè)知識(shí)、而是依賴于對(duì)數(shù)學(xué)圖像和概念的常見(jiàn)感知推理的問(wèn)題。
這種方法與兒童的學(xué)習(xí)路徑相符——他們首先掌握的是視覺(jué)推理能力,隨后才逐步獲取領(lǐng)域特定的知識(shí)。

聚焦多圖推理
VCBench聚焦于多圖(interleave)的問(wèn)題輸入形式,每個(gè)問(wèn)題平均包含3.9張圖像,顯著高于現(xiàn)有的多圖Benchmark。
這種設(shè)計(jì)要求模型能夠顯式地整合來(lái)自多幅圖像的視覺(jué)線索,并推理這些元素如何相互作用,這更符合現(xiàn)實(shí)世界中的情境——信息往往分散在多個(gè)視覺(jué)輸入之中。

全面評(píng)估純視覺(jué)推理的多種能力
VCBench全面地評(píng)估了純視覺(jué)推理的多種能力,涵蓋了六大核心認(rèn)知領(lǐng)域:時(shí)間與日歷、空間與位置感、幾何與形狀、物體與運(yùn)動(dòng)、推理與觀察以及組織與模式。
此外,它還評(píng)估了五種不同的認(rèn)知能力:時(shí)間推理、幾何推理、邏輯推理、空間推理以及模式識(shí)別。

綜合實(shí)驗(yàn)分析結(jié)果
在VCBench的綜合實(shí)驗(yàn)測(cè)試中,人類平均得分93.30%,顯著優(yōu)于所有AI模型,表明當(dāng)前任務(wù)對(duì)人類而言可解,但對(duì)AI系統(tǒng)仍具挑戰(zhàn)性;
閉源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)表現(xiàn)最佳,但仍未突破50%準(zhǔn)確率;
開(kāi)源模型表現(xiàn)整體趨勢(shì)低于閉源模型,且表現(xiàn)參差不齊,可能與架構(gòu)差異、多模態(tài)整合程度或訓(xùn)練數(shù)據(jù)質(zhì)量有關(guān);
大模型在推理、找規(guī)律一類問(wèn)題上表現(xiàn)較好,但在空間幾何表現(xiàn)很差,說(shuō)明在由小學(xué)數(shù)學(xué)題構(gòu)建的評(píng)測(cè)基準(zhǔn)中,大模型的邏輯推理能力是過(guò)剩的,但是視覺(jué)和幾何感知?jiǎng)t嚴(yán)重不足。

單圖實(shí)驗(yàn)對(duì)照結(jié)果
VCBench的一個(gè)核心目標(biāo)是評(píng)估模型多圖像依賴的推理能力,但為了驗(yàn)證模型是否真正具備跨圖像組合推理(compositional reasoning)而非依賴單圖優(yōu)化,需引入單圖實(shí)驗(yàn)作為對(duì)照。
如下圖所示,將文字和圖片整合成一張大圖。

單圖和多圖結(jié)果對(duì)比表明,除專為多圖設(shè)計(jì)的模型外,大多數(shù)模型在單圖場(chǎng)景下表現(xiàn)顯著優(yōu)于多圖(平均提升42.3%)。
例如,Emu2-Chat單圖性能飆升281.5%,Qwen-VL-Max提升21.3%,說(shuō)明常規(guī)模型更擅長(zhǎng)從孤立圖像提取信息,但缺乏跨圖像關(guān)聯(lián)和時(shí)序推理等關(guān)鍵能力。

思維鏈(CoT)對(duì)模型性能的影響分析
VCBench團(tuán)隊(duì)在三個(gè)閉源模型上對(duì)比了加入CoT以后對(duì)模型性能的影響,得到如下結(jié)論:
1、在需要多步邏輯推理的任務(wù)中(如模式識(shí)別、幾何推理),CoT能帶來(lái)顯著性能提升(如Qwen-VL-Max在reasoning任務(wù)上提升40%),說(shuō)明通過(guò)顯式分解推理步驟,幫助模型更好地整合視覺(jué)和語(yǔ)言信息,減少邏輯跳躍錯(cuò)誤。
2、效果具有任務(wù)依賴性:對(duì)感知型任務(wù)(如日歷讀取、方向判斷)效果有限甚至產(chǎn)生干擾。這類任務(wù)更依賴直接視覺(jué)感知而非分步推理,CoT的中間步驟反而可能降低效率。

錯(cuò)誤類型分布分析
錯(cuò)誤類型可分為以下5種:
- 視覺(jué)感知錯(cuò)誤:模型對(duì)視覺(jué)內(nèi)容的誤讀或未能準(zhǔn)確感知;
 - 計(jì)算錯(cuò)誤:算術(shù)計(jì)算過(guò)程中的失誤;
 - 上下文誤讀:模型錯(cuò)誤解讀文本內(nèi)容;
 - 邏輯錯(cuò)誤:推理過(guò)程中的出錯(cuò);
 - 答案整合錯(cuò)誤:未能直接回答問(wèn)題或提供多個(gè)相互沖突的答案。
 
VCBench團(tuán)隊(duì)對(duì)四個(gè)頂尖模型的所有錯(cuò)題進(jìn)行了手動(dòng)錯(cuò)誤分類,從而能夠精準(zhǔn)識(shí)別每個(gè)模型在不同錯(cuò)誤類別中的相對(duì)弱點(diǎn)。

通過(guò)分析,得到了如下結(jié)論:
1、視覺(jué)感知錯(cuò)誤在所有模型中占比最高,是當(dāng)前多模態(tài)模型最薄弱的環(huán)節(jié)。所有模型的視覺(jué)感知錯(cuò)誤占比均超過(guò)50%,其中Gemini2-Flash高達(dá)62%。這表明基礎(chǔ)視覺(jué)理解能力仍是當(dāng)前多模態(tài)模型的主要瓶頸。
2、計(jì)算錯(cuò)誤(4-7%)和上下文誤解錯(cuò)誤率普遍較低(3-6%),其中Gemini2-Flash(3%)和Claude(4%)表現(xiàn)最佳,而QVQ(6%)略高,可能反映其存在過(guò)度推理傾向。
3、邏輯推理能力在不同模型之間存在顯著差異。Claude的邏輯錯(cuò)誤率最高(33%),這反映了其推理穩(wěn)定性在本基準(zhǔn)中欠佳。
4、答案整合方面,GPT-4o的答案整合錯(cuò)誤率最高(23%),可能因其探索性推理產(chǎn)生多個(gè)答案而犧牲了響應(yīng)規(guī)范性。
論文鏈接:http://arxiv.org/abs/2504.18589數(shù)據(jù)倉(cāng)庫(kù):https://huggingface.co/datasets/cloudcatcher2/VCBench代碼:https://github.com/alibaba-damo-academy/VCBench網(wǎng)頁(yè):https://alibaba-damo-academy.github.io/VCBench/
















 
 
 














 
 
 
 