偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

全球頂尖AI做物理,被人類按地摩擦?不懂推理大翻車,本科生碾壓

人工智能 新聞
最頂尖的AI模型,做起奧數(shù)題來已經(jīng)和人類相當(dāng),那做物理題水平如何呢?港大等機(jī)構(gòu)的研究發(fā)現(xiàn):即使GPT-4o、Claude 3.7 Sonnet這樣的最強(qiáng)模型,做物理題也翻車了,準(zhǔn)確率直接被人類專家碾壓!

大模型,真的懂物理推理嗎?

就在剛剛,港大、密歇根大學(xué)、多倫多大學(xué)等機(jī)構(gòu)的研究者用3000道物理題,給全球頂尖大模型來了一場大拷問。

結(jié)果,這些頂尖AI,毫無例外全部翻車了!

圖片

論文地址:https://arxiv.org/pdf/2505.15929

比如,GPT-4o、Claude3.7-Sonnet和GPT-o4-mini的準(zhǔn)確率分別僅為32.5%、42.2%和 45.8%。這個準(zhǔn)確率,直接被人類專家吊打,性能差距超過了29%。

最終,研究者們得出結(jié)論:當(dāng)前的AI模型過度依賴記憶的學(xué)科知識、過度依賴數(shù)學(xué)公式、過度依賴膚淺的視覺模式匹配,絕非做到了真正的物理理解。

能做奧數(shù)的AI模型,做物理題有多強(qiáng)?

物理學(xué)是所有科學(xué)中最基礎(chǔ)、最全面的學(xué)科。

——理查德·費(fèi)曼

當(dāng)前最先進(jìn)的模型在奧數(shù)問題上已經(jīng)達(dá)到了與人類相當(dāng)?shù)乃健?/span>

尤其是最新的多模態(tài)模型,如GPT-4o、Claude-3.7-Sonnet等,通過結(jié)合視覺理解和推理能力,展現(xiàn)了很強(qiáng)的潛力。

然而,現(xiàn)有的基準(zhǔn)測試未能捕捉到智能的一個關(guān)鍵維度:物理推理,即學(xué)科知識、符號推理與對現(xiàn)實(shí)世界約束的理解綜合起來的能力。

為了解決這些問題,來自港大、密歇根大學(xué)等機(jī)構(gòu)的研究者推出了PHYX:首個評估模型在視覺場景中物理推理能力的大規(guī)?;鶞?zhǔn)測試。

PHYX具有三大創(chuàng)新:

  • 收集了3000個全新的問題,涉及真實(shí)的物理場景,需要結(jié)合視覺分析和因果推理來解答;
  • 經(jīng)過專家驗(yàn)證的數(shù)據(jù)設(shè)計,涵蓋六個核心物理領(lǐng)域:熱力學(xué)、電磁學(xué)、力學(xué)、現(xiàn)代物理學(xué)、光學(xué)以及波動與聲學(xué);并包含六種不同的物理推理類型:物理模型推理、空間關(guān)系推理、多公式推理、隱含條件推理、數(shù)值推理和預(yù)測推理;
  • 采用嚴(yán)格統(tǒng)一的三步評估協(xié)議,考慮不同模型的指令遵循能力,確保推理能力的精確評估。每個場景都由物理學(xué)博士生進(jìn)行嚴(yán)格驗(yàn)證,以保證科學(xué)準(zhǔn)確性,同時消除數(shù)據(jù)集偏差。

圖片

PhyX數(shù)據(jù)集的數(shù)據(jù)示例。該數(shù)據(jù)集包含3000個人工標(biāo)注的物理問題,附帶視覺上下文

團(tuán)隊對16個基礎(chǔ)模型的評估揭示了一個前所未有的能力差距:物理學(xué)本科生和研究生的最差表現(xiàn)組準(zhǔn)確率為75.6%,而表現(xiàn)最好的大模型GPT-o4-mini僅為45.8%。

這一30個百分點(diǎn)的差距存在于所有的物理領(lǐng)域,尤其是現(xiàn)代物理學(xué)(人類86.7% vs. 模型40.6%)和波動與聲學(xué)(人類86.7% vs. 模型52.7%)最為明顯(圖 1)。

圖片

即便是最先進(jìn)的模型在物理推理方面也表現(xiàn)得相當(dāng)吃力。GPT-4o、Claude3.7-Sonnet和GPT-o4-mini 的準(zhǔn)確率分別僅為 32.5%、42.2% 和 45.8%。

這暴露了當(dāng)前多模態(tài)推理模型的三大關(guān)鍵局限:

  • 過于依賴記憶性學(xué)科知識;
  • 過度依賴數(shù)學(xué)公式;
  • 停留在表層視覺模式匹配而非真正的物理理解。

圖片

不同模型在 MMMU 排行榜上的總體表現(xiàn)。每個類別中表現(xiàn)最佳的模型以粗體顯示,次優(yōu)者以下劃線標(biāo)注

物理題實(shí)測:全部翻車

來自六大核心物理領(lǐng)域的考題,AI模型們完成得怎么樣?

接下來,我們來看看具體實(shí)測。

為了對模型的考驗(yàn)更加公平,研究者給它們提供的圖像具有高度的真實(shí)感,通常描繪的是具體的物理場景,而非風(fēng)格化、抽象化的插圖。

這些圖都根植于合理的物理設(shè)定之中,為物理推理提供了關(guān)鍵背景,非常有助于讓AI模型將抽象的物理原理與現(xiàn)實(shí)世界的表現(xiàn)聯(lián)系起來。

以下這些圖片,分別是力學(xué)、電磁學(xué)、熱力學(xué)、波動/聲學(xué)、光學(xué)和現(xiàn)代物理六大類題目的圖像。

圖片圖片圖片圖片圖片圖片

而這六大類,還包含不同的子領(lǐng)域。

圖片

力學(xué)

首先我們來看看,現(xiàn)在什么樣的力學(xué)物理題,大模型能做對。

一名消防員站在距離燃燒建筑物d的位置,將水龍帶噴出的水柱以與地面成θ_i角的方向噴向建筑,如圖所示。

問題:若水柱噴出的初速度為v_i,那么水柱擊中建筑物時的高度h是多少?

圖片

可以看到,GPT-4o將初始速度分解為水平分量和垂直分量,計算出來水流到達(dá)建筑物所需時間,然后計算出水珠在時間t時的垂直位移y,最終得出了水柱擊中建筑物的高度h。

結(jié)果正確。

但接下來這兩道經(jīng)典的高中力學(xué)題,GPT-4o就翻車了。

將一根輕質(zhì)、不可伸長的繩纏繞在一個實(shí)心圓柱體上。該圓柱質(zhì)量為50千克,直徑為0.120米,通過無摩擦軸承繞一條固定的水平軸旋轉(zhuǎn),如圖所示。用恒定的9.0牛的力拉動繩子的自由端,使其在拉出 2.0米的距離后帶動圓柱旋轉(zhuǎn),且在過程中繩子不會打滑。圓柱最初處于靜止?fàn)顟B(tài)。

問題:繩子的最終速度是多少?

圖片

在這道題中,GPT-4o分別計算了力F所做的功、圓柱的轉(zhuǎn)動動能、繩子線速度和圓柱角速度的關(guān)系,前四步都是對的。

然而,就在第五步計算系統(tǒng)的總動能時,它出現(xiàn)了錯誤,最終導(dǎo)致整個答案都錯了。

下面這道斜坡難題,GPT-4o依然沒做對。

將一個質(zhì)量為12千克的箱子沿一條長2.5米、傾角為30°的斜坡向上滑動。一名工人(忽略摩擦)計算認(rèn)為,他只需在坡底給予箱子一個初速度5.0 m/s,然后放手即可讓其滑上坡。但實(shí)際上,摩擦不能忽略:箱子只滑上了1.6米就停止,然后又滑回坡底。

問題:當(dāng)箱子滑回到坡底時,它的速度是多少?

圖片

在解題過程中,GPT-4o正確寫出了能量守恒方程,然后計算摩擦力做的功這一步時除了錯,導(dǎo)致接下來的最終速度也解錯了。

電磁學(xué)

接著看一下電磁學(xué)。

第一道題目需要計算電路中因電阻產(chǎn)生的能量耗散速率。

GPT-4o表現(xiàn)不錯,它先確定了滑線運(yùn)動產(chǎn)生的電動勢,再計算出電路中的電流,最后得出能量耗散速率,整個回答邏輯嚴(yán)密,步驟分明,成功得出正確結(jié)果。

圖片

第二道題目是關(guān)于電磁學(xué)中RL電路的時間常數(shù)計算。需要根據(jù)給定的電流變化情況,計算電路的時間常數(shù)并確定電感值。

看起來要更復(fù)雜一些。

不過,GPT-4o同樣表現(xiàn)得很出色,它一步步分析了電流變化的描述,提取出關(guān)鍵信息,通過已知條件計算出時間常數(shù),并進(jìn)一步推導(dǎo)出電感值,最終選出正確答案,過程清晰且準(zhǔn)確。

圖片

不過接下來,GPT-4o就開始翻車了。

第一道題目是關(guān)于一個電路中電壓讀取的問題。需要計算開關(guān)閉合后0.115毫秒時電壓表讀取的電壓;第二道題目是關(guān)于電偶極子在電場中的力矩,需要找出力矩的大??;第三道題目涉及電場計算,需要計算在某個點(diǎn)c處電場的總和。

GPT-4o在第一道題目上的表現(xiàn)有些失誤。它嘗試一步步分析電路的組成和電感的作用,計算了電流隨時間的變化以及電壓,但由于對電路元件行為理解不夠準(zhǔn)確,最終給出的電壓值偏離了正確答案,顯示出視覺推理上的問題。

第二道題目中,GPT-4o按部就班地分析了電偶極子的性質(zhì)和電場角度,計算了力矩的大小,但由于對文本描述的誤解,導(dǎo)致結(jié)果與標(biāo)準(zhǔn)答案不符,暴露了文本推理的弱點(diǎn)。

第三道題,GPT-4o展示了不錯的分析能力,它詳細(xì)考慮了兩個電荷對點(diǎn)的貢獻(xiàn),試圖將它們結(jié)合起來計算總電場,但由于知識上的不足,計算結(jié)果與實(shí)際答案有較大偏差。

圖片圖片圖片

熱力學(xué)

熱力學(xué)問題上,GPT-4o的表現(xiàn)也不穩(wěn)定。

不過,第一題表現(xiàn)還不錯。

第一道題目是關(guān)于熱力學(xué)中氣體分子速度的計算。題目描述了一個被隔板分隔的絕熱箱子,里面裝有氣體,初始時氣體在一半的空間,溫度已知。隔板被打破后,氣體充滿整個箱子,計算這個自由膨脹過程中的熵變是多少。

GPT-4o先從圖中提取了每個分子的速度信息,逐步計算了每個分子的速度大小,然后求出所有分子的平均速度,最后通過比較初始和最終狀態(tài),準(zhǔn)確得出氣體分子平均速度的變化,答案完全正確。

圖片

下一題GPT-4o暴露了在文本推理上的缺陷。

題目涉及水箱出水高度的判斷,描述了一個頂部密封的水箱,里面有壓縮空氣和水,水通過軟管流出,需要確定水流停止時水面的高度。

GPT-4o的分析過程有誤。它分析了水箱內(nèi)的壓力和水的高度關(guān)系,試圖通過平衡條件推導(dǎo)出水流停止時的水面高度,但由于對文本描述的理解出現(xiàn)偏差,計算結(jié)果偏離了標(biāo)準(zhǔn)答案。

圖片

波動/聲學(xué)

你們的團(tuán)隊正在為飛行員在雨天或濃霧中設(shè)計一種著陸輔助裝置。具體方法是在跑道兩側(cè)分別放置兩個相距 50 米的無線電發(fā)射器。這兩個發(fā)射器發(fā)出相同頻率但存在相位差的無線電波,從而在跑道中心線上形成一個波節(jié)線(干涉最小線)。  當(dāng)飛機(jī)正好對準(zhǔn)中心線時,飛行員聽不到聲音;若偏離中心線,則會聽到「嗶」的提示音。為了實(shí)現(xiàn)精確導(dǎo)航,希望第一個干涉極大點(diǎn)(聲音最強(qiáng))出現(xiàn)在離中心線60米、距發(fā)射器3.0公里的位置。

問題:應(yīng)為無線電發(fā)射器設(shè)定多少頻率?

在解題過程中,GPT-4o錯誤計算了兩個干涉極大線對應(yīng)的路徑差,從而導(dǎo)致后續(xù)的波長計算、頻率都出現(xiàn)了錯誤。

圖片

如圖所示,兩個揚(yáng)聲器相距3.00 米,并且同時發(fā)出頻率為474Hz、同相位的聲音。一個麥克風(fēng)被放置在兩個揚(yáng)聲器中點(diǎn)正前方3.20米處,在該位置記錄到一個強(qiáng)度最大值(干涉極大)。

問題:麥克風(fēng)需要向右移動多遠(yuǎn),才能找到第一個強(qiáng)度最小值(干涉極小)的位置?

在解題過程中,GPT-4o正確找到了解題關(guān)鍵——理解聲波的相消干涉條件。

在計算相關(guān)條件、聲波波長、幾何關(guān)系時都給出了正確答案,然而在第四步對小x進(jìn)行近似展開時,出現(xiàn)了計算錯誤。

圖片

光學(xué)

下面這道題,看起來很簡單。

如圖所示,一束光線穿過一塊折射率為n=1.50的玻璃塊時,會發(fā)生橫向偏移(偏移距離為d)。

問題:求光線通過該玻璃塊所需的時間間隔是多少?

這道題運(yùn)用了斯涅爾定律和棱鏡幾何知識。GPT-4o雖然正確理解了棱鏡內(nèi)外折射角的關(guān)系,卻在第二步計算θ角時出錯了。

圖片

現(xiàn)代物理

Owen和Dina在參考系S中保持靜止,而該參考系S相對于另一個參考系S′(可能是觀察者Ed所在的)在運(yùn)動。他們正在玩?zhèn)髑蛴螒?,Ed在S′系中觀看整個過程,如圖所示。Owen把球拋向Dina。

問題:球到達(dá)Dina所需的時間間隔是多少?

GPT-4o正確判斷出,此題需要運(yùn)用狹義相對論的原理。

第二步,就需要將球在S′中的速度轉(zhuǎn)換為在S中的速度,在運(yùn)用相對論的速度疊加公式時,它出現(xiàn)了錯誤。

圖片

ThePhyX基準(zhǔn)測試

PHYX中的每個問題都以真實(shí)的物理場景為中心,全面檢驗(yàn)?zāi)P屠斫夂屯评砦锢硎澜绲哪芰Α?/span>

詳細(xì)的數(shù)據(jù)統(tǒng)計見表1。

圖片

PHYX憑借其精心設(shè)計的結(jié)構(gòu)和對多種推理維度的全面覆蓋,為系統(tǒng)測試和提升基礎(chǔ)模型在真實(shí)物理推理任務(wù)中的能力提供了一個強(qiáng)大的工具。

數(shù)據(jù)整理過程

為了確保數(shù)據(jù)的高質(zhì)量,研究團(tuán)隊設(shè)計了一個四階段的數(shù)據(jù)收集流程。

  • 調(diào)研與設(shè)計:深入研究核心物理學(xué)科,確定基準(zhǔn)測試覆蓋范圍,選取多樣化物理領(lǐng)域與子領(lǐng)域,并定義推理類型。
  • 專家標(biāo)注:招募STEM研究生標(biāo)注團(tuán)隊,遵守版權(quán)規(guī)則,避免使用不可復(fù)制內(nèi)容,挑選答案不直接附于問題的題目以減少數(shù)據(jù)污染。
  • 問題轉(zhuǎn)換與版本:將開放式問題轉(zhuǎn)為多選題,反之亦然;為每題構(gòu)建三種版本:原始版、簡潔版(去除冗余文本)、核心問題版。
  • 多模態(tài)支持:使用GPT-4o為每張圖像生成描述性標(biāo)題,總結(jié)視覺內(nèi)容,支持大語言模型評估與多模態(tài)理解。

這一數(shù)據(jù)整理過程最終形成了來自各種來源的3300個多樣化問題。

主要結(jié)果

PHYX對當(dāng)前模型來說是個不小的挑戰(zhàn)。

值得注意的是,即便是表現(xiàn)最差的人類專家也能達(dá)到75.6%的準(zhǔn)確率,遠(yuǎn)超團(tuán)隊分析中包含的所有模型。這表明人類專家與當(dāng)前模型能力之間存在明顯差距,凸顯了PHYX的高標(biāo)準(zhǔn)和難度。

結(jié)果顯示,多選題形式會縮小不同模型之間的性能差距,較弱的模型能通過表面線索「蒙」對答案。

相比之下,開放式問題要求真正的推理能力和精確的答案生成,因此能更好地區(qū)分模型能力。這說明開放式問題在評估多模態(tài)推理能力時具有更高的區(qū)分度。

如表3所示,在波動/聲學(xué)和力學(xué)等領(lǐng)域,問題通常涉及自然圖像且推理要求較低,模型表現(xiàn)普遍較好。而在熱力學(xué)和現(xiàn)代物理等領(lǐng)域,任務(wù)往往需要復(fù)雜的視覺感知和多步驟推理,模型的表現(xiàn)通常較差。

圖片

不同物理領(lǐng)域中,模型在開放式去冗余文本問題上的平均得分。各領(lǐng)域模型的最高得分用藍(lán)色高亮顯示,整體最高得分用紅色高亮顯示

討論分析

以推理為核心的模型,如GPT-4o-mini和DeepSeek-R1,分別取得了45.8%和51.2%的準(zhǔn)確率,明顯優(yōu)于通用模型如GPT-4o和Claude3.7-Sonnet。

結(jié)果凸顯出專門為推理任務(wù)優(yōu)化的模型所具備的優(yōu)勢,并表明在彌合多模態(tài)推理差距時,模型架構(gòu)和訓(xùn)練方式的差異發(fā)揮了關(guān)鍵作用。

盡管沒有直接的視覺輸入,像DeepSeek-R1和GPT-3o-mini這樣的LLMs在性能上與大多數(shù)多模態(tài)模型不相上下。

LLMs的出色表現(xiàn)表明,在許多情況下,圖像的文本描述已足以提供推理所需的視覺上下文。

這不僅展現(xiàn)了LLMs強(qiáng)大的泛化能力,也暴露了當(dāng)前多模態(tài)模型(MLLMs)在利用原始視覺信號進(jìn)行物理推理時的局限性。

研究團(tuán)隊的實(shí)驗(yàn)顯示,多模態(tài)模型在很大程度上依賴詳細(xì)的文本描述,其純粹基于視覺上下文的推理能力有限。

相比GPT-4o在MathVista(63.8%)和MATH-V(63.8%)數(shù)據(jù)集上的表現(xiàn),其在物理推理任務(wù)中的準(zhǔn)確率明顯較低。

這一發(fā)現(xiàn)表明,物理推理需要更深入地整合抽象概念和現(xiàn)實(shí)世界的知識,相比純粹的數(shù)學(xué)推理,對當(dāng)前模型來說是更大的挑戰(zhàn)。

為了深入了解模型的推理能力和局限性,團(tuán)隊仔細(xì)檢查了96個隨機(jī)抽樣的錯誤,并基于GPT-4o進(jìn)行了詳細(xì)分析。

這次分析有兩個目標(biāo):一是找出模型當(dāng)前的弱點(diǎn),二是為未來的模型設(shè)計和訓(xùn)練提供改進(jìn)方向。錯誤分布情況如圖7所示。

  • 視覺推理錯誤(39.6%):模型在處理真實(shí)物理問題時,誤讀視覺信息或空間關(guān)系,比如,誤讀電壓值導(dǎo)致計算錯誤。真實(shí)圖片增加挑戰(zhàn),需提升多模態(tài)推理能力。
  • 文本推理錯誤(13.6%):模型處理文本時誤解隱含條件或邏輯關(guān)系,如忽略「無摩擦」指令,需改進(jìn)文本推理和語境理解。
  • 知識缺失(38.5%):模型缺乏特定領(lǐng)域知識,如忽略波速差異導(dǎo)致幾何推理錯誤,需加強(qiáng)領(lǐng)域知識儲備。
  • 計算錯誤(8.3%):模型理解物理背景但在算術(shù)、公式應(yīng)用或單位轉(zhuǎn)換中出錯,需優(yōu)化數(shù)值計算能力。

圖片

基于GPT-4o分析的90個標(biāo)注錯誤的分布顯示,其中一個典型的視覺推理錯誤對人類來說很簡單,但對GPT-4o卻頗具挑戰(zhàn)

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2018-06-20 09:23:07

AI專業(yè)科技

2024-12-17 11:30:00

2025-05-19 08:54:00

2025-02-26 14:24:43

AIChatGPT生成式人工智能

2019-02-27 14:06:53

AIAdamSGD

2025-04-01 09:17:00

2023-02-27 09:29:05

GPT模型

2023-01-14 14:33:06

AI審稿

2021-01-29 15:21:02

AI 數(shù)據(jù)人工智能

2023-03-04 22:03:59

AI論文

2019-12-24 16:46:10

AI 數(shù)據(jù)人工智能

2019-10-31 14:37:55

技術(shù)人工智能開發(fā)

2019-12-18 15:28:05

編程語言PythonJava

2025-03-05 09:00:00

DeepSeek模型AI

2023-07-24 12:30:36

谷歌AI

2025-02-03 11:37:56

2022-06-06 14:46:14

芯片圖靈班集成電路

2025-03-11 09:40:00

2022-03-22 18:19:29

論文深度學(xué)習(xí)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號