為防AI刷題,Nature等頂刊最新封面被做成數(shù)據(jù)集,考驗模型科學推理能力|上海交通大學
近年來,以GPT-4o、Gemini 2.5 Pro為代表的多模態(tài)大模型,在各大基準測試(如MMMU)中捷報頻傳,紛紛刷榜成功。
然而,這些令人矚目的進展也帶來了一個愈發(fā)嚴峻的問題:當現(xiàn)有的“題庫”逐漸被提前預訓練進模型,我們?nèi)绾尾拍艹掷m(xù)、準確地評估這些頂尖AI的真實能力?
為了應對這一挑戰(zhàn),上海交通大學王德泉教授課題組巧妙地將“動態(tài)基準”這一理念與不斷更新的科學前沿相結合,提出了MAC(多模態(tài)學術封面)基準:既然科學知識本身在不斷演進,為什么不用最新的科學內(nèi)容來測試AI呢?

研究團隊利用《Nature》《Science》《Cell》等188種頂級期刊的最新封面作為測試素材,從超過25,000個圖文對中構建測試集。這些期刊每周或每月都會發(fā)布新刊,每期封面都經(jīng)過頂尖科學家和專業(yè)編輯精心打造,蘊含著最前沿、最復雜的科學概念,從而評測多模態(tài)大模型是否能夠理解藝術化表達的視覺元素與科學概念之間的深層關聯(lián)。

結果發(fā)現(xiàn),包括GPT-5-thinking在內(nèi)的頂尖模型在面對這些最新科學內(nèi)容時表現(xiàn)出了令人意外的局限性。表現(xiàn)最好的Step-3,準確率也僅為79.1%,開源模型Qwen2.5-VL-7B準確率僅為56.8%。
這項研究將發(fā)表在2025年語言模型大會(COLM)上。
測試設計:精心設計的”語義陷阱”
MAC的核心挑戰(zhàn)在于:如何確保AI不能通過膚淺的視覺特征“蒙對”答案,而是更加深入的建立科學概念的理解。
研究者們設計了兩種測試任務:
- 看圖選文:給出期刊封面,從四個封面故事中選出對應的文本;
- 看文選圖:給出封面故事,從四張封面中選出最匹配的圖片。
關鍵在于“陷阱”的設計,為了防止AI通過膚淺特征作答,研究者們利用先進的嵌入模型(如CLIP)精心篩選出三個“語義干擾項”,從而使得它們在表面上與正確答案極為相似,只有真正理解科學概念的AI才能做出正確選擇。

舉個例子,如果正確的封面故事是關于“癌癥耐藥性機制”,那么干擾項可能是“癌癥產(chǎn)生機理”或“癌細胞”——都與癌癥相關,但科學概念完全不同。
盡管頂尖模型例如GPT-5-thinking和Gemini 2.5 Pro都能準確識別出選項圖片中的“藥丸”和“處方單”等視覺元素,但它們都未能將這些元素與封面故事中核心的“耐藥性”或“癌癥治療機制”等科學概念聯(lián)系起來,最終導致選擇錯誤。
此外,研究者們還構建了MAC-2025年度快照,專門選取2024年1月至2025年2月發(fā)布的最新期刊內(nèi)容,并計劃每年更新,從而盡可能減少評估中的數(shù)據(jù)污染問題,確保即使對最新的模型也能保持足夠的挑戰(zhàn)性。
頂尖AI也會“理解偏差”
研究團隊使用MAC-2025測試集,對包括GPT-4o和Step-3在內(nèi)的業(yè)界領先模型進行了全面評估。

結果令人意外:即便是表現(xiàn)最強的Step-3,準確率也僅為79.1%,這與它們在其他基準上近乎完美的表現(xiàn)形成了鮮明對比。更有趣的是,開源模型Qwen2.5-VL-7B準確率僅為56.8%。
同時,GPT-5-thinking和Gemini 2.5 Pro的案例分析也暴露出當前多模態(tài)AI的一個關鍵局限:雖然在視覺識別方面已經(jīng)相當出色,但在需要跨模態(tài)深層推理的科學理解任務上,距離人類水平還有相當差距。

DAD方法:讓AI學會“分步思考”
面對這一挑戰(zhàn),研究團隊沒有止步于發(fā)現(xiàn)問題,而是進一步提出了DAD的解決方案。
DAD的核心思想是“分工協(xié)作”:
- 描述階段:讓多模態(tài)大模型(如GPT-4o)對封面圖片進行詳細的視覺描述,并生成偽思維鏈;
- 推理階段:將描述結果和原始問題一起交給專門的語言推理模型,由它進行高層分析并做出最終選擇。
這種結構化的兩步法顯著提升了模型表現(xiàn)。實驗結果顯示,使用DAD方法后,多個模型的準確率都獲得了明顯提升,證明了推理時間擴展在多模態(tài)科學理解任務中的有效性。
有趣的是,這種”先看再想”的方式,某種程度上模擬了人類專家在面對復雜科學問題時的思維過程——先仔細觀察現(xiàn)象,再結合背景知識進行深入分析。
雙重動態(tài)機制:確保持續(xù)挑戰(zhàn)性
傳統(tǒng)基準測試的最大問題是“一次性”——發(fā)布后內(nèi)容固定,很快就會被模型“學會”。MAC通過動態(tài)數(shù)據(jù)和動態(tài)問題構建兩種機制提出了一種動態(tài)基準構建范式:

動態(tài)數(shù)據(jù):時間推進帶來的自然難度提升
研究團隊做了一個巧妙的對比實驗:讓模型分別在早期期刊數(shù)據(jù)(MAC-Old)和最新數(shù)據(jù)(MAC-2025)上測試。結果發(fā)現(xiàn),所有模型在處理新知識時都表現(xiàn)出明顯的性能下降。
這說明科學知識的自然演進本身就能為基準測試提供持續(xù)的挑戰(zhàn)性。隨著新理論、新發(fā)現(xiàn)、新技術的不斷涌現(xiàn),期刊封面所展現(xiàn)的科學概念也在持續(xù)更新,自然而然地對AI模型形成新的考驗。
動態(tài)問題構建:利用最新AI技術提升測試難度
更有意思的是第二種機制:研究者們保持MAC-2025的題目內(nèi)容不變,僅使用更強的嵌入模型(如與論文同期發(fā)布的SigLip2)重新生成語義干擾項。
結果顯示,所有模型的準確率都出現(xiàn)了進一步的下滑。這揭示了一個有趣的現(xiàn)象:AI領域的進步不僅能提升模型能力,也能同步提升測試難度。
當我們有了更好的語義理解工具時,就能構造出更加精妙的“陷阱”,讓基準測試始終保持在技術發(fā)展的前沿。這兩種機制的結合,確保了MAC能夠與科學發(fā)展和AI技術發(fā)展“齊頭并進”,避免了傳統(tǒng)靜態(tài)基準容易過時的問題。
展望未來,MAC基準有望發(fā)展成為一個更加完善的評估平臺。研究團隊計劃不僅擴展到更多科學期刊,還將考慮加入其他形式的動態(tài)科學內(nèi)容,如最新的學術會議論文、科學新聞等。
同時,隨著AI技術的快速發(fā)展,MAC基準本身也需要通過年度為周期的持續(xù)發(fā)布,來實現(xiàn)基準測試的持續(xù)演進。
當AI的能力不斷逼近人類時,我們需要的正是這樣能夠與科學發(fā)展和技術進步一同演進的“試金石”,讓我們更真實地理解AI的能力邊界,也更清晰地看到通往真正智能的道路。
作者簡介
論文第一作者是上海交通大學博士研究生蔣沫晗。他的研究方向包括多模態(tài)大模型,大模型智能體等。

論文的通訊作者為上海交通大學長聘教軌助理教授、博士生導師王德泉,他本科畢業(yè)于復旦大學,博士畢業(yè)于加州大學伯克利分校,師從Trevor Darrell教授。他的研究工作發(fā)表在CVPR、ICCV、ECCV、ICLR、ICML、ICRA、IROS等國際頂級會議,近五年論文谷歌學術總引用次數(shù)12000余次,H-index23。
項目鏈接:https://github.com/mhjiang0408/MAC_Bench
論文地址:https://arxiv.org/pdf/2508.15802


































