偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多模態(tài)模型具備“物理推理能力”了嗎?新基準(zhǔn)揭示:表現(xiàn)最好的GPT-o4 mini也遠(yuǎn)不及人類!

人工智能 新聞
就在最近,來自香港大學(xué)、密歇根大學(xué)等機(jī)構(gòu)的研究人員補(bǔ)齊了現(xiàn)有評估體系中的一處關(guān)鍵空白——評估多模態(tài)模型是否具備“物理推理能力”。

表現(xiàn)最好的GPT-o4 mini,物理推理能力也遠(yuǎn)不及人類!

就在最近,來自香港大學(xué)、密歇根大學(xué)等機(jī)構(gòu)的研究人員補(bǔ)齊了現(xiàn)有評估體系中的一處關(guān)鍵空白——

評估多模態(tài)模型是否具備“物理推理能力”。

圖片

物理推理,即模型在面對真實(shí)或擬真的物理情境時(shí),能否綜合利用視覺信息、物理常識、數(shù)學(xué)建模進(jìn)行判斷和預(yù)測,被認(rèn)為是通向具身智能的關(guān)鍵能力。

但這一能力在現(xiàn)有評估體系中仍是空白。

對此,研究人員構(gòu)建了PhyX(Physical Reasoning Benchmark),首個(gè)專門面向多模態(tài)大模型物理推理能力的大規(guī)?;鶞?zhǔn)測試。

PhyX包含3000道題目,涵蓋6大物理學(xué)科(力學(xué)、電磁、熱學(xué)、光學(xué)、波動(dòng)、現(xiàn)代物理),25個(gè)細(xì)分子類與6類推理方式(如空間理解、物理建模、公式聯(lián)立、預(yù)測性推理等),每道題目都結(jié)合教材級圖像與真實(shí)物理設(shè)定,并由STEM專業(yè)研究生精心審核。

圖片

那么,各大主流模型在PhyX上的表現(xiàn)如何呢?

強(qiáng)如GPT-o4 mini也比不上人類

截止目前,多模態(tài)大語言模型(MLLMs)不斷刷新各類圖文推理與科學(xué)問答任務(wù)的記錄。

諸如GPT-4o、Claude3.7、DeepSeek系列等最新模型,已經(jīng)在數(shù)學(xué)奧賽(AIME、MATH-V)、通識科學(xué)(MMMU)、跨學(xué)科推理(OlympiadBench)等標(biāo)準(zhǔn)化測試中展現(xiàn)出堪比人類的表現(xiàn)。

然而,這些測試所衡量的往往是抽象計(jì)算能力、公式記憶與文本邏輯,尚未系統(tǒng)性地檢驗(yàn)?zāi)P湍芊裾嬲斫猬F(xiàn)實(shí)世界中的物理規(guī)律與視覺場景。

利用PhyX,研究人員在包括GPT-4o、Claude3.7、DeepSeek-R等在內(nèi)的16個(gè)主流模型上進(jìn)行了系統(tǒng)評估,發(fā)現(xiàn):

  • 即便是表現(xiàn)最好的模型GPT-o4 mini,其準(zhǔn)確率也僅為45.8%,而人類物理本科/研究生在同一任務(wù)上的準(zhǔn)確率達(dá) 75.6%;
  • 在現(xiàn)代物理、電磁學(xué)、熱力學(xué)等高階推理任務(wù)上,模型的表現(xiàn)尤其低下,準(zhǔn)確率不足30%;
  • 錯(cuò)誤分析顯示,超過三分之一錯(cuò)誤來自圖像感知失敗,其次是知識缺失與邏輯推理能力不足。

說完結(jié)果,我們順便展開一下PhyX的構(gòu)建過程。

PhyX目標(biāo)在于建立一個(gè)真實(shí)、多樣、具挑戰(zhàn)性的物理圖文推理測試環(huán),系統(tǒng)評估多模態(tài)模型在處理物理場景中是否具備與人類相當(dāng)?shù)摹拔锢沓WR、感知理解與符號建?!蹦芰?。

與現(xiàn)有多模態(tài)基準(zhǔn)(如VQA、ScienceQA)側(cè)重日常知識與科普推理不同,PhyX聚焦高層次的物理專業(yè)問題解決能力,強(qiáng)調(diào)圖文信息的深度結(jié)合、推理鏈條的完整性與真實(shí)感知與建模的還原度。

學(xué)科維度與題目覆蓋

它總計(jì)包含3000道圖文物理題目,內(nèi)容涵蓋大學(xué)物理主干課程的六大核心學(xué)科:

圖片

每道題均為圖文結(jié)合問題,包含插圖、圖表或場景圖,并匹配相應(yīng)文字說明與問題設(shè)定。

下圖給出了每個(gè)學(xué)科的一個(gè)PhyX樣本。

圖片

此外,還詳細(xì)給出了所覆蓋的科目及相關(guān)統(tǒng)計(jì)數(shù)據(jù),六大物理學(xué)科分布均勻。

左邊對PhyX的關(guān)鍵數(shù)據(jù)進(jìn)行了描述性統(tǒng)計(jì)。如表1所示,PhyX中共有6000個(gè)問題,開放性問題與多選題各3000個(gè)。

圖片

PhyX的優(yōu)越性

為細(xì)粒度分析模型能力,PhyX對每道題標(biāo)注了0~2種核心推理類型,共六類。

該標(biāo)簽體系有助于研究者系統(tǒng)性研究模型在哪些類型推理上表現(xiàn)良好或薄弱,并支持跨模型、跨模態(tài)、跨學(xué)科橫向比較。

圖片

PhyX為每道題提供三種輸入模態(tài)與兩類題型,以支持多種模型與能力維度的測試:

圖片

下圖展示了PhyX如何去除重復(fù)內(nèi)容:

圖片

每道題支持兩種格式切換,適應(yīng)不同類型模型(閉式 vs 開放式、判別 vs 生成):

  • 多項(xiàng)選擇題(MC):方便統(tǒng)一評分與大規(guī)模測試
  • 主觀問答題(OE):用于評估鏈?zhǔn)酵评?、生成能力與公式表達(dá)

下圖與下表給出了PhyX與已有基準(zhǔn)的差異,可見PhyX全面領(lǐng)先于現(xiàn)有基準(zhǔn)。

圖片

下圖為基于GPT-4o的推理軌跡真實(shí)示例及所需時(shí)間對比解決物理和數(shù)學(xué)問題的能力。

圖片

數(shù)據(jù)構(gòu)建與審核流程

為確保題目質(zhì)量與廣度,PhyX采用如下多輪數(shù)據(jù)構(gòu)建流程:

1、初始設(shè)計(jì)與題源采集題目來源包括:物理教材、考試題庫、公開課程材料、大學(xué)教案與題目設(shè)計(jì)所有題目要求結(jié)合圖像;

2、專業(yè)標(biāo)注者構(gòu)建與重寫組建跨高校研究生團(tuán)隊(duì)(物理、AI雙背景),每位標(biāo)注者負(fù)責(zé)“構(gòu)建 + 重寫 + 圖文匹配”任務(wù)圖像統(tǒng)一制作規(guī)范,確保風(fēng)格多樣但信息清晰;

3、質(zhì)量控制與審核每題需經(jīng)過雙人交叉驗(yàn)證:科學(xué)性 + 語言可讀性標(biāo)注項(xiàng)包括:學(xué)科標(biāo)簽、推理類型、題型雙版本、答案及解析自動(dòng)檢測圖文重復(fù)性 + 模板重合度 + 圖像內(nèi)容覆蓋度。

模型評估與測試結(jié)果

為了全面評估當(dāng)前多模態(tài)大模型(MLLM)與語言模型(LLM)在真實(shí)物理場景下的理解與推理能力,研究人員在PhyX-testmini子集(共1,000 道題)上對16種主流模型進(jìn)行了系統(tǒng)性測試。

該子集覆蓋所有學(xué)科與推理類型,采用統(tǒng)一輸入模態(tài)和答題格式,確保評估公平與可復(fù)現(xiàn)。

下圖為三種領(lǐng)先的MLLM、兩種領(lǐng)先的LLM在PhyX基準(zhǔn)中的正確率。

圖片

所有模型均在zero-shot(零樣本)設(shè)定下運(yùn)行,即不提供任何示例或任務(wù)微調(diào),以真實(shí)反映其物理常識遷移能力與場景泛化能力。

即使是表現(xiàn)最好的模型(如GPT-o4 mini或DeepSeek-R1),也遠(yuǎn)未達(dá)到人類水平,尤其在“具圖像感知 + 多步建模”的綜合任務(wù)中顯著失分。

下表給出了在PhyX基準(zhǔn)上不同LLM和MLLM的結(jié)果比較。PHYX的testmini子集的準(zhǔn)確度分?jǐn)?shù)。每個(gè)模型中得分最高的部分和總體最高分分別以藍(lán)色和紅色突出顯示。

圖片

研究人員進(jìn)一步對模型在六大學(xué)科維度的得分情況做了細(xì)分分析。

下表顯示了,不同物理學(xué)領(lǐng)域的模型平均得分(開放式文本)冗余問題。各部分模型最高分及總最高分分別以藍(lán)色和紅色突出顯示:

  • GPT-4o在“現(xiàn)代物理”類題目的表現(xiàn)僅為21.2%,遠(yuǎn)低于人類平均;
  • 所有模型在“電磁學(xué)、熱力學(xué)”題型中的準(zhǔn)確率均低于50%;
  • “力學(xué)、波動(dòng)聲學(xué)”中模型表現(xiàn)略優(yōu),但差距仍在20分以上。

圖片

模型錯(cuò)誤分析與能力瓶頸

盡管多模態(tài)大模型在通用圖文問答與常識性推理上表現(xiàn)強(qiáng)勁,但在PhyX上,它們的錯(cuò)誤卻暴露出更深層次的結(jié)構(gòu)性缺陷。

研究人員對GPT-4o在testmini子集上的100+個(gè)錯(cuò)誤樣本進(jìn)行了逐題分析與專家標(biāo)注,總結(jié)出如下主要問題類別及其占比見下圖:

圖片圖片

在錯(cuò)誤分析中,研究人員觀察到MLLM(特別是GPT-4o)傾向于:

  • 過度依賴文字提示:一旦圖像中的信息未在題干中明示,模型傾向忽略;
  • 圖像信息降權(quán)處理:哪怕圖像中有明確變量、結(jié)構(gòu)或數(shù)值,模型也更偏好使用題干描述;
  • 多模態(tài)融合機(jī)制缺乏推理引導(dǎo):未能主動(dòng)調(diào)取圖像細(xì)節(jié)來修正文字中的不確定性或模糊性。

這表明,現(xiàn)有MLLM“多模態(tài)理解”仍更接近于圖文匹配或粗粒特征拼接,缺乏具備“物理結(jié)構(gòu)建模意圖”的跨模態(tài)融合能力。

更多細(xì)節(jié)歡迎查閱原論文。

Project Page: https://phyx-bench.github.io/
Arxiv: https://arxiv.org/abs/2505.15929
Github: https://github.com/NastyMarcus/PhyX
Huggingface Dataset: https://huggingface.co/datasets/Cloudriver/PhyX

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-08-08 13:04:28

2024-06-28 18:13:05

2025-05-21 08:47:00

2025-01-02 11:01:45

2025-02-18 12:30:00

2025-02-06 09:11:54

2025-06-06 14:17:11

模型訓(xùn)練AI

2025-05-15 09:10:00

2024-05-20 08:20:00

OpenAI模型

2021-12-14 15:59:38

數(shù)據(jù)模型推理

2024-06-12 11:50:23

2025-04-23 08:30:05

2025-04-21 08:22:25

2023-03-15 14:15:06

GPT4ChatGPT網(wǎng)站

2024-07-15 09:36:16

2024-06-27 12:45:30

2025-05-27 15:59:41

AI工具模型

2025-02-28 09:32:00

2024-06-04 13:05:58

2025-02-27 10:08:19

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號