永別了,人類冠軍!AI橫掃天文奧賽,GPT-5得分遠超金牌選手2.7倍
IMO、IOI之后,AI再奪奧賽冠軍。
剛剛,在國際天文與天體物理奧林匹克競賽測試中,GPT-5和Gemini 2.5 Pro達到金牌水平!

在理論考試上,Gemini 2.5 Pro總體得分85.6%,GPT-5總體得分84.2%;在數據分析考試中:GPT-5總體得分88.5%,Gemini 2.5 Pro總體得分75.7%。

在IOAA 2025上,AI的表現驚人,其水平竟高達人類金牌得主的2.7倍!

我們正在見證AI大爆炸——今日之奧賽,明日之科學,AI將推動全部學科的進展。




AI再奪IOAA金牌,見證歷史!
國際天文與天體物理奧林匹克競賽(International Olympiad on Astronomy and Astrophysics,IOAA),由國際天文學聯合會主辦的全球性青少年天文賽事,是國際科學奧林匹克競賽之一、全球天文科學領域最具有影響力的賽事之一。

競賽包含理論測試、實測數據分析、天文觀測三大核心環(huán)節(jié),并設置團隊協作項目以增強國際互動。
這些競賽試題極為嚴苛,通常只有全球最頂尖的學生才能解答。
它們需要深厚的概念理解能力、冗長的公式推導,以及需耗時數小時才能完成的天體物理學難題。
如今人工智能不僅能夠通過考試,更在全球200至300名人類參賽者中躋身前兩名。GPT-5平均得分85.6%,Gemini 2.5 Pro獲得84.2%——兩者均達到金牌標準。
我們已正式進入AI能與物理學和天文學領域最聰穎的年輕頭腦抗衡的時代。
這并非瑣碎知識的比拼,而是關于中子星、吸積流、磁場和軌道力學的尖端推理。

人工智能不再只是生成文字,它開始思考宇宙的奧秘。
但報告指出,在空間和時間推理方面,目前所有LLM都存在困難。

因此,ASI之路還很長,仍需上下求索。
五大LLM打擂臺,幾乎全線摘金
最新研究由俄亥俄州立大學團隊完成,重點考察了五大頂尖LLM,在天文和物理學方面的實力。

論文地址:https://arxiv.org/pdf/2510.05016
為此,他們選取了最近四屆IOAA理論考試(2022-2025)。之所以選擇IOAA來衡量,原因有三:
- 現有的基準,如AstroMLab、AstroBench等僅通過選擇、簡答和判斷題來考察LLM的天文學知識;
- IOAA題目具備全面性,涵蓋了宇宙學、球面三角學、恒星天體物理學、天體力學、光度學和儀器學等廣泛的主題;
- IOAA將理論物理、觀測約束和真實天文數據與數學計算融為一體,為評估LLM的科學問題解決能力提供了一個獨特的視角。

除了以上提到的Gemini 2.5 Pro和GPT-5,團隊還讓o3、Claude-4.1-Opus、Claude-4-Sonnet等三款模型共同參戰(zhàn)。
它們均是在AstroBench表現最強模型之一,而且還具備了多模態(tài)能力。
所有模型的輸出,由兩名IOAA專家遵循官方評分細則進行獨立評分。
實驗結果:理論考試
在理論考試中,GPT-5和Gemini 2.5 Pro表現最佳,比分高出其他模型約7到25個百分點。
具體來說(見下表2),GPT-5在2022年(93.0%)、2023年(89.6%)和2025年(86.8%)取得最高分,而Gemini 2.5 Pro在2024年以83.0%奪冠。
在以幾何題為主的2024年試卷上,Gemini 2.5 Pro憑借更強的幾何問題解決能力,取得了最佳總體成績(85.6%);GPT-5在該年未能獲得高分。

盡管總體表現強勁,GPT-5在難題上的表現優(yōu)于簡單與中等難度題。
對此,研究人員分析出三點可能的原因。
第一,各難度級別的問題數量較少,容易產生表現波動:簡單題僅10道,中等題11道,分別約占總分185分和151分(總分為所有類別的1200分)。因此,少數錯誤就能顯著影響模型在該難度段的得分。
第二,GPT-5在2024年試卷上出現了若干重大失誤,這些失誤多來自涉及幾何與空間可視化的題目。
第三,GPT-5有時在天體物理學題上出錯。例如,2024年試卷的第9題(被歸為簡單題)中,GPT-5因概念性錯誤與計算錯誤共損失18分——這一題的錯誤幾乎占簡單題可得分數的10%。
基于這些原因,研究人員認為,GPT-5在簡單題和中等難度題上表現不佳,并非由于明顯的不當行為;更大的數據集,可能會減少偶爾錯誤的影響,并在難度類別之間實現更平衡的分布。
其他模型也具有競爭力:OpenAI o3總體得分77.5%,比Claude系列高出約13–17個百分點;其中Claude Opus 4.1得分64.7%,Claude Sonnet 4得分60.6%。
此外,這些模型的表現會隨著題目難度的增加而下降。
盡管三者在某些簡單基準(如帶多項選擇題的AstroMLab)上的表現相近并且積極,這次評估仍揭示了顯著的性能差距。
這提示需要更全面地評估天文學領域的LLM,以測試其在問題解決能力上超越單純知識回憶的能力。
實驗結果:數據分析考試
相比之下,數據分析考試更能揭示模型在細節(jié)與多模態(tài)任務上的能力與局限(見表1)。

GPT-5在數據分析部分表現出色,總體得分88.5%,高于其理論考試成績(84.2%)。
這一提升與其他模型形成鮮明對比:其他模型從理論到數據分析通常下降約10–15個百分點。
造成這種差異的原因在于:
- 數據分析考試,高度依賴圖表解讀與數據可視化;
- GPT-5更強的多模態(tài)能力解釋了其優(yōu)勢。
為進一步推動天體物理領域中大語言模型的發(fā)展,研究人員呼吁開發(fā)更具生態(tài)效度的多模態(tài)天文數據分析基準,作為對模型更全面評估的補充。
媲美頂尖人類選手
AI實力卻是很強,那么它們是否可與人類一較高下?
為此,研究人員根據IOAA的評分標準,將模型得分與人類參賽者進行比較。
IOAA獎牌的評定基于參賽者總分(理論+數據分析+觀測考試之和),相對于中位數的表現——
銅牌為中位數的100%–130%,銀牌為130%–160%,金牌則為160%以上。
注:本次評估不包含觀測考試,作者分別為理論考試和數據分析考試計算了相應的獎牌門檻。
在理論考試中,幾乎所有LLM表現堪稱「學霸級別」,得分輕松跨過金牌線!
唯一例外的是Claude Sonnet 4,在2023 IOAA中拿下了銀牌。

總體來看,這些模型不僅達到了金牌水平,甚至與全球TOP 200-300頂尖人類參賽者中,名列前茅。
在2022、2024和2025年的考試中,各模型均穩(wěn)定排名前12。
更令人震撼的是,在2022、2023、2025理論考試中,GPT-5均超過了當年的IOAA最佳學生,堪稱「學神」!
Gemini 2.5 Pro在2022和2023年,同樣力壓最佳人類選手。
OpenAI o3在2023年考試中,亦超過了最佳學生。
Claude Opus 4.1與Claude Sonnet 4在2023年雖未能與頂尖學生相媲美,但它們的得分仍明顯高于中位數,分別位列第45和第62。
LLM偶有失敗,仍需上下求索
為了更深入地了解LLM在天文問題解決中的長處和短處,根據IOAA理論考試中不同類型的問題,研究人員對LLM的表現進行了分析。
根據評分團隊專家的評估,這次研究將理論問題分為兩類:
? 第一類(幾何/空間):涉及空間可視化的問題,包括天球、球面三角學、時間計量系統(tǒng)和向量幾何。
? 第二類(物理/數學):主要涉及宇宙學和天體物理計算以及天體力學,不要求幾何可視化。

盡管這個分類(上表4)并不全面,但它清楚地揭示了系統(tǒng)性差異:
模型在第二類物理問題上的得分較高(67–91%),而在第一類幾何問題上的得分明顯較低(49–78%),兩者相差15–26個百分點。
這種差異在2024年的考試中尤為顯著,當時第一類問題占據了主導地位——只有Gemini 2.5 Pro保持了相對較高的性能(74.7%),而其他模型的性能則下降到了35–59%。

按年份、難度和類別劃分的IOAA理論問題分析
即便如此,Gemini在第一類問題上的性能也比第二類問題(91.3%)低12.7個百分點。
為什么LLM在幾何問題上表現不佳?
通過定性分析,研究人員發(fā)現除了計算錯誤外,LLM還面臨一些根本性的問題。
首先,模型在概念上難以理解球面三角學。例如,GPT-5會寫出違反基本幾何原理的球面三角學方程,并嘗試進行與大圓幾何不一致的角度計算。

此外,所有模型在時間計量系統(tǒng)上都表現出混淆,無法正確區(qū)分熱帶年和恒星年。一些解答甚至隱含地將日歷年和熱帶年視為相同。
最后,目前的LLM只能用自然語言進行推理,無法在思考時進行空間表示的視覺化或草圖繪制,這與人類參與者相比處于天然劣勢。
這些失敗模式表明,多模態(tài)推理,特別是空間和時間的,是提升LLM在天文問題解決能力的重要未來方向。
除了定性分析外,研究人員還將所有錯誤定量地分為八個類別,以系統(tǒng)地識別大語言模型的弱點。

圖1:所有模型在IOAA理論考試(2022-2025年,其中2023年得分標準化為300分)和數據分析考試(2022-2025年,其中2023年得分標準化為150分)中按錯誤類型丟失的分數分布。
在理論考試中,概念性錯誤和幾何/空間可視化錯誤在所有模型中占主導地位,共同占去了60-70%的總失分。GPT-5和Gemini 2.5 Pro顯示出最低的整體錯誤率,而Claude模型的錯誤率較高。
分布顯示,基本的推理錯誤(概念性和幾何性)遠遠超過了計算錯誤,特別是Claude模型在概念理解上存在困難,除了Gemini 2.5 Pro和GPT-5之外的所有模型都顯示出明顯的幾何/空間弱點。
在數據分析考試中,錯誤分布相對平衡,繪圖「Plotting」是OpenAI o3、Claude Opus 4.1和Claude Sonnet 4中最突出的錯誤類別。
在所有模型中,概念性錯誤最為普遍,反映了實現深度物理理解的難點。
與國際數學奧賽(IMO)等純數學競賽不同,物理和天體物理奧林匹克競賽要求將數學形式與物理直覺相結合,在評估科學推理能力方面別具價值。由于這些錯誤觸及理解的核心,它們通常出現在所有類型的問題中,并導致嚴重的扣分。
第二大錯誤來源是幾何或空間推理。這些錯誤完全集中在第一類問題中,這進一步證實了空間推理是大語言模型的一個關鍵弱點。
模型經常無法可視化三維配置,錯誤識別天體坐標之間的角度,或在球面幾何中錯誤地應用向量運算。

這些失敗甚至發(fā)生在幾何問題被清晰地用文字描述的情況下。這在第一類問題中占大多數,表明這些限制不僅在于多模態(tài),還在于LLM在處理與空間推理相關任務時的基本能力。
此外,天文學奧林匹克競賽非常重視近似和數量級推理,因為天文學涉及的尺度非常龐大。
盡管模型通常能夠合理地處理近似問題,但特定的失敗案例突顯了物理直覺方面的差距。
特別是,模型常常在數量級上錯誤判斷天文學距離,或者在問題約束下未能識別近似無效的情況。

在解釋圖表和圖像方面的錯誤,盡管僅限于有視覺輸入的問題,但也具有相當的權重。
這種模式與已知的LLM的多模態(tài)限制一致,比如記錄的圖表理解失敗,也符合莫拉維克悖論:
對人類來說簡單的任務,如視覺解釋,對人工智能來說仍然困難。
最后,當模型在沒有展示中間步驟的情況下直接給出最終表達式時,會觀察到缺失或不完整的推導,這表明數學推理的透明度存在限制。
其他類別,包括計算錯誤、符號精度和近似錯誤,導致的扣分較少,表明模型具有相當不錯的計算能力。
數據分析考試中的失敗模式
與理論考試不同,數據分析考試的錯誤分布(見圖1b)在多個類別中相對較為均勻。
正如預期的那樣,繪圖和圖表及圖像閱讀在數據分析考試中也會導致扣分。
能力較弱的三個模型,OpenAI o3、Claude Opus 4.1和Claude Sonnet 4,主要的錯誤類別是繪圖,而GPT-5和Gemini 2.5 Pro的主要扣分來源是圖像和圖表閱讀。
計算錯誤也在數據分析考試中導致了相當一部分的扣分。
對于Gemini 2.5 Pro,計算錯誤甚至與圖像和圖表閱讀一樣,是另一個主要的錯誤來源。這是因為許多數據分析問題涉及長表格,并且需要計算多個值以生成圖表。
值得注意的是,理論考試中主要的扣分原因——概念性錯誤和幾何錯誤——在數據分析考試中并不突出。
盡管概念性錯誤可能出現在任何問題中,并且仍然會導致大多數模型在數據分析考試中扣分,但對圖表閱讀和繪圖任務的強烈關注使得其他類型的錯誤更有可能發(fā)生。


































