大模型追逐星辰大海,GPT和Gemini國際天文奧賽奪金
人工智能真是日新月異。早上看到網(wǎng)友的評論:我們已經(jīng) 0 天沒有吸引注意的 AI 領(lǐng)域新突破了。

記得三個(gè)月前,OpenAI 官宣了他們的推理模型在國際數(shù)學(xué)奧林匹克(IMO)競賽中獲得了金牌。
現(xiàn)在看,大模型不僅僅在數(shù)學(xué)領(lǐng)域具有很強(qiáng)的推理泛化能力,也在很多其他科學(xué)研究領(lǐng)域中出彩。
值得關(guān)注的是,目前頂尖的大模型們都能在各類奧賽中取得令人驚嘆的成績。
就在最近,一篇全新發(fā)布的論文中,將國際天文學(xué)和天體物理學(xué)奧林匹克競賽 (IOAA) 作為基準(zhǔn)測試,證明了 GPT-5 和 Gemini 2.5 Pro 兩大模型能夠在天文和天體物理學(xué)中取得奧賽金牌成績。

OpenAI 的總裁兼聯(lián)合創(chuàng)始人 Greg Brockman 轉(zhuǎn)發(fā)了這項(xiàng)工作,激動的連 GPT 的名字都打錯(cuò)了:

終有一天,人類走向星辰大海的那一刻,也會有 AI 大模型的痕跡。


- 論文標(biāo)題:Large Language Models Achieve Gold Medal Performance at the International Olympiad on Astronomy & Astrophysics (IOAA)
- 論文鏈接:https://arxiv.org/abs/2510.05016
為什么選擇 IOAA
大型語言模型的出現(xiàn)為人工智能在科學(xué)研究,特別是天文學(xué)和天體物理學(xué)領(lǐng)域帶來了新的可能性。雖然傳統(tǒng)的天文學(xué)機(jī)器學(xué)習(xí)方法在模式識別任務(wù)(如目標(biāo)分類和異常檢測)方面表現(xiàn)出色,但它們往往缺乏解決復(fù)雜科學(xué)問題所需的通用性和復(fù)雜推理能力。
當(dāng)前用于評估天文學(xué)領(lǐng)域 LLM 的基準(zhǔn),如 AstroBench 和 Astro-QA,主要側(cè)重于簡單的問答形式,通過多項(xiàng)選擇或簡答題來測試天文學(xué)知識。這些評估未能評估真實(shí)天文學(xué)研究中必不可少的復(fù)雜推理、創(chuàng)造性問題解決和擴(kuò)展推導(dǎo)能力。本研究通過引入一個(gè)更嚴(yán)格、更全面的評估框架來解決這一關(guān)鍵差距。
研究人員選擇 2022 年至 2025 年的國際天文奧林匹克競賽(IOAA)試題作為主要基準(zhǔn)。這一選擇是基于三個(gè)關(guān)鍵因素:
首先,不同于 AstroMLab 的 AstroBench 和 Astro-QA 這類主要依賴選擇題、簡答題或判斷題來檢測天文知識的現(xiàn)有基準(zhǔn),IOAA 試題具備更高的生態(tài)有效性,因?yàn)槠淇疾榈氖菍?shí)際天文研究中所需的復(fù)雜推理、創(chuàng)新性問題求解以及多步推導(dǎo)能力。
其次,根據(jù)官方大綱 ,IOAA 題目覆蓋了廣泛的天文主題,包括宇宙學(xué)、球面三角、恒星天體物理、天體力學(xué)、光度測量以及觀測儀器學(xué),從而保證了評測的全面性。
最后,IOAA 將理論物理、觀測約束以及真實(shí)天文數(shù)據(jù)與數(shù)學(xué)推導(dǎo)結(jié)合在一起,提供了一種區(qū)別于 IMO、IPhO 和 IOI 等其他奧賽的新型評估方式,可用于檢驗(yàn) LLM 在科學(xué)問題求解方面的綜合能力。
評估重點(diǎn)關(guān)注 IOAA 的兩個(gè)組成部分:理論問題(共 49 個(gè))和數(shù)據(jù)分析問題(共 8 個(gè))。理論問題分為第一類(幾何 / 空間,需要天球幾何和球面三角學(xué))和第二類(物理 / 數(shù)學(xué),側(cè)重天體物理計(jì)算,無需幾何可視化)。由于 LLM 的數(shù)字性質(zhì),觀測部分被排除在外。
金牌結(jié)果

不同難度類別下,LLM 在 IOAA 理論題與數(shù)據(jù)分析題中的表現(xiàn)。所有分?jǐn)?shù)均為相對于總分的標(biāo)準(zhǔn)化百分比。
理論考試
如表所示,GPT-5 和 Gemini 2.5 Pro 在理論考試中表現(xiàn)最為突出,比分領(lǐng)先其他模型 7~25 個(gè)百分點(diǎn)。具體來說,GPT-5 在 2022 年(93.0%)、2023 年(89.6%)和 2025 年(86.8%)中取得最高分,而 Gemini 2.5 Pro 則在 2024 年以 83.0% 位列第一。
盡管表現(xiàn)整體強(qiáng)勢,但我們注意到 GPT-5 在難題上的表現(xiàn)反而優(yōu)于簡單題與中等難度題。我們的分析顯示,這種看似反常的波動主要由三方面因素造成:
1. 每個(gè)難度等級的問題數(shù)量較少,導(dǎo)致模型表現(xiàn)的自然波動。簡單題僅有 10 題,中等難度有 11 題,總分分別約為 185 分和 151 分,而總分為 1200 分,因此僅少量失誤就會顯著影響該難度區(qū)間的得分比例。
2. GPT-5 在 2024 年試題中出現(xiàn)了多次關(guān)鍵性錯(cuò)誤,其中很大一部分集中在需要幾何推理與空間想象的問題(見第 3.2 節(jié))。
3. GPT-5 偶爾會在天體物理概念題上出錯(cuò)。例如,在 2024 年試題的第 9 題(歸為簡單題)中,GPT-5 因一次概念性錯(cuò)誤疊加一次計(jì)算錯(cuò)誤丟失了 18 分,而這相當(dāng)于簡單題總分的近 10%。
其他模型也展現(xiàn)出一定競爭力:OpenAI o3 總體得分為 77.5%,并穩(wěn)定領(lǐng)先 Claude 系列 13~17 個(gè)百分點(diǎn),其中 Claude Opus 4.1 得分為 64.7%,Claude Sonnet 4 為 60.6%。此外,它們的表現(xiàn)均隨著難度提升而下降。盡管這三款模型在 AstroMLab 這類更簡單的多選題基準(zhǔn)上表現(xiàn)接近甚至亮眼,我們的評測結(jié)果揭示了在復(fù)雜問題求解上仍存在顯著能力差異。該結(jié)果提示:要真正評估 LLM 在天文學(xué)領(lǐng)域的科研潛力,必須超越知識回憶型任務(wù),構(gòu)建更全面的能力評估框架。
數(shù)據(jù)分析考試
雖然 LLM 在理論考試中接近頂尖人類水平,但數(shù)據(jù)分析考試更能揭示其細(xì)粒度的能力結(jié)構(gòu)與局限。GPT-5 在數(shù)據(jù)分析部分取得了 88.5% 的平均分,反而高于其理論考試表現(xiàn)(84.2%)。這種提升與其他模型形成鮮明對比 —— 其他 LLM 的數(shù)據(jù)分析得分普遍比理論試題下降了 10~15 個(gè)百分點(diǎn)。
這種分化主要來自數(shù)據(jù)分析試題高度依賴圖像閱讀、曲線理解與數(shù)據(jù)可視化推理的特點(diǎn)。GPT-5 擁有更強(qiáng)的多模態(tài)理解能力,在圖像解析和繪圖推理錯(cuò)誤率方面顯著更低,這直接支撐了其優(yōu)勢表現(xiàn)。
為了進(jìn)一步推動 LLM 在天體物理領(lǐng)域向科研級智能體邁進(jìn),我們的結(jié)果強(qiáng)調(diào):除了整體性評估外,還迫切需要具有生態(tài)效度的、多模態(tài)數(shù)據(jù)分析基準(zhǔn)來全面檢驗(yàn)?zāi)P驮谡鎸?shí)科研流程中的問題求解能力。
對比人類成績
為更好地理解 LLM 的表現(xiàn),我們將其得分與 IOAA 的獎(jiǎng)牌評定標(biāo)準(zhǔn)下的人類參賽者成績進(jìn)行比較。具體而言,獎(jiǎng)牌依據(jù)與中位數(shù)成績的比值來頒發(fā)(中位數(shù)按理論、數(shù)據(jù)分析與觀測三部分成績之和計(jì)算):若得分在中位數(shù)的 100%–130% 之間為銅牌,130%–160% 為銀牌,高于 160% 則為金牌。由于我們的評測范圍不包括觀測(observational)試題,因此我們分別根據(jù)理論考試與數(shù)據(jù)分析考試計(jì)算了對應(yīng)的獎(jiǎng)牌門檻。
大多數(shù) LLM 的表現(xiàn)均超過金牌門檻。唯一例外是 Claude Sonnet 4,在 2023 年考試中僅獲銀牌。尤其值得注意的是,GPT-5 在 2022、2023 與 2025 年的表現(xiàn)優(yōu)于當(dāng)屆 IOAA 的最佳學(xué)生,而 Gemini 2.5 Pro 在 2022 與 2023 年也達(dá)到相同水平。

LLM 與人類參賽者在 IOAA 理論考試(2022–2025)中的表現(xiàn)對比。

LLM 與人類參賽者在 IOAA 數(shù)據(jù)分析考試(2022–2025)中的表現(xiàn)對比。

IOAA 理論考試中不同題目類別下的模型表現(xiàn)。類別 I 為幾何 / 空間類問題,類別 II 為物理 / 數(shù)學(xué)類問題。所有分?jǐn)?shù)均以百分比形式表示。
錯(cuò)誤分析
在理論考試中,大型語言模型在第二類(物理 / 數(shù)學(xué))問題上的表現(xiàn)(67-91% 的準(zhǔn)確率)明顯優(yōu)于第一類(幾何 / 空間)問題(49-78% 的準(zhǔn)確率),性能差異為 15-26 個(gè)百分點(diǎn)。
最普遍的錯(cuò)誤類型是概念性錯(cuò)誤,反映了不正確的處理方法、公式誤用和推理缺陷。這表明在實(shí)現(xiàn)深刻的物理理解方面存在根本性挑戰(zhàn)。幾何或空間推理是第二大錯(cuò)誤來源,模型在球面三角學(xué)、計(jì)時(shí)系統(tǒng)和 3D 可視化方面尤其吃力。
在數(shù)據(jù)分析考試中,錯(cuò)誤在不同類別中分布更為均勻。主要的故障模式包括繪圖和圖表 / 圖像閱讀,這在 OpenAI o3 和 Claude 模型中尤為突出。由于對大型數(shù)據(jù)集進(jìn)行大量計(jì)算,計(jì)算錯(cuò)誤比理論考試中更常見。

按錯(cuò)誤類型劃分的丟分分布:(a)IOAA 理論考試 2022–2025;(b)IOAA 數(shù)據(jù)分析考試 2022–2025。
更多信息,請參考原論文。

































