谷歌27頁論文揭秘:Gemini如何“斬獲”2025 IMO金牌 | 三個看點(diǎn)
剛剛過去的幾天,科技圈和數(shù)學(xué)界因2025年的國際數(shù)學(xué)奧林匹克競賽(IMO)而異常熱鬧。首先,讓我們?yōu)檎嬲墓谲姟袊牎I(xiàn)上最熱烈的祝賀!六名隊員以絕對優(yōu)勢再次為中國捧回團(tuán)體總分第一的桂冠,基本上可以說咱中國人的智商碾壓全世界,作為中國人,咱們倍感驕傲與自豪。

然而,在這場人類智慧的巔峰對決之外,另一場關(guān)于人工智能(AI)的“競賽”也賺足了眼球。先是OpenAI略帶尷尬地宣布其模型達(dá)到“金牌水平”,后又被指出其測試方式存在爭議。緊接著,Google DeepMind高調(diào)入場,甩出一篇長達(dá)27頁的詳細(xì)技術(shù)論文,由Yichen Huang (黃溢辰)和Lin F. Yang (楊林)撰寫,標(biāo)題直截了當(dāng)——《Gemini 2.5 Pro Capable of Winning Gold at IMO 2025》。

與眾說紛紜的傳聞不同,這篇論文清晰、透明地展示了谷歌是如何利用Gemini 2.5 Pro,在IMO 2025的考題上,取得了官方認(rèn)證的金牌級別成績。這不僅是一次能力的展示,更是一次對AI復(fù)雜推理能力極限探索的翔實(shí)記錄。本文將深入解讀這篇論文,揭開Gemini“奪金”背后的技術(shù)秘密。小插曲:谷歌的這篇論文也是倆中國人寫的。以致于,美國流傳著一個段子

言歸正傳!
“金牌”的真相:5/6的含金量
首先,我們必須明確“金牌水平”的定義。在IMO競賽中,金牌并非只有一個得主,而是頒發(fā)給排名前約1/12的選手。根據(jù)歷年情況,通常解出4道題就能穩(wěn)定獲得金牌。
谷歌的論文摘要中明確指出,他們使用Gemini 2.5 Pro,在 6道官方賽題中,成功解決了5道題。這是一個毫無疑問的、遠(yuǎn)超金牌線的驚人成績。更關(guān)鍵的一點(diǎn)是,為了避免“數(shù)據(jù)污染”(即模型可能在訓(xùn)練數(shù)據(jù)中見過類似題目),研究團(tuán)隊特意使用了IMO 2025剛剛發(fā)布的全新問題。這意味著Gemini不是在“背題”,而是在進(jìn)行真正的數(shù)學(xué)推理。
那么,Gemini是如何做到的呢?答案并非簡單地把問題扔給模型然后等待結(jié)果,而是一個設(shè)計精巧、多步驟的“解題流水線”系統(tǒng)。
Gemini奪金的三大技術(shù)支柱
我們可以將Gemini的成功歸結(jié)為三大環(huán)環(huán)相扣的技術(shù)支柱,它們共同構(gòu)成了這套強(qiáng)大的推理系統(tǒng)。
看點(diǎn)一:迭代式自我修正流水線,AI版的“同行評審”
面對IMO級別的難題,即便是最頂尖的大模型,也難以“一步到位”給出完美答案。谷歌的核心戰(zhàn)術(shù),是構(gòu)建了一個模仿人類科研過程的、嚴(yán)謹(jǐn)?shù)牡搅魉€。
- 初始解法生成(探索與嘗試):首先,模型會像一個思路開闊的“探索者”,針對一個問題,生成多個可能的初始解法。這一步類似于人類的“頭腦風(fēng)暴”,盡可能多地探索解題路徑。論文坦誠地指出,在這一階段直接生成的解法質(zhì)量“普遍很低”,這說明了后續(xù)步驟的必要性。
 - 引入“驗(yàn)證者”角色(嚴(yán)苛的審稿人):接下來,系統(tǒng)會調(diào)用一個扮演“驗(yàn)證者”角色的Gemini模型。這個“驗(yàn)證者”被賦予了極其嚴(yán)格的指令,它像一位苛刻的IMO閱卷人,任務(wù)不是解題,而是逐行審查“探索者”給出的證明,并生成一份詳細(xì)的“Bug報告”。報告會將問題分為兩類:
 
- 致命錯誤(Critical Error):邏輯上完全錯誤,或計算上出現(xiàn)硬傷。一旦發(fā)現(xiàn),后續(xù)依賴于此的步驟將不再被檢查。
 - 證明缺陷(Justification Gap):結(jié)論可能正確,但論證過程不嚴(yán)謹(jǐn)、存在跳步或缺乏充分依據(jù)。
 
- 循環(huán)修正與收斂:這份“Bug報告”會被發(fā)回給最初的“解題模型”(現(xiàn)在是“修正者”)。它會根據(jù)報告中的意見,逐一修正錯誤、填補(bǔ)邏輯漏洞。修改后的新解法,將再次提交給“驗(yàn)證者”進(jìn)行評審。
 
這個“生成-驗(yàn)證-修正”的循環(huán)會不斷進(jìn)行。根據(jù)論文中的流程圖,如果一個解法連續(xù)5次通過了驗(yàn)證者的審查,系統(tǒng)就會“接受”這個答案;而如果一個解法在10輪迭代中始終存在重大問題,就會被“拒絕”。這個過程,本質(zhì)上是 AI版的“同行評審”,通過不斷的自我批判和修正,將一個粗糙的想法逐步打磨成無懈可擊的完美證明。
看點(diǎn)二:巧妙的“思考預(yù)算”策略,突破Token限制
這個精巧的流水線設(shè)計,并不僅僅是為了模擬人類。它背后有一個非常深刻的技術(shù)考量——“思考預(yù)算”(thinking budget)。
論文指出,Gemini 2.5 Pro的最大“思考預(yù)算”是32768個token。對于IMO這種極其復(fù)雜的任務(wù),生成一個完整且嚴(yán)謹(jǐn)?shù)淖C明,所需的token量很容易就超出這個上限。這意味著,如果試圖一次性解決問題,模型很可能“思考到一半”就無以為繼了。
而谷歌的流水線設(shè)計巧妙地解決了這個問題。將解題過程分解為多個步驟,實(shí)際上是為模型分階段注入了新的“思考預(yù)算”。例如,第一步“初始解法生成”用掉一份預(yù)算后,第二步“自我改進(jìn)”會再次獲得一份完整的32768 token預(yù)算,讓模型有充足的“精力”去審視和深化自己的工作。
這種化整為零的策略,將一個模型無法一次性完成的超復(fù)雜任務(wù),分解成了多個能力范圍內(nèi)可以處理的子任務(wù),是本次成功的關(guān)鍵工程保障。
看點(diǎn)三:不可或缺的人工智慧引導(dǎo),畫龍點(diǎn)睛
這篇論文最值得稱道的地方在于其坦誠。研究者明確指出,在解決某些問題時,他們提供了非常微妙但關(guān)鍵的“人工提示”。
- 對于問題1(組合數(shù)學(xué)),他們在將題目輸入模型后,額外補(bǔ)充了一句話:“讓我們嘗試用歸納法來解決這個問題?!?/li>
 - 對于問題2(平面幾何),他們同樣補(bǔ)充了一句:“讓我們嘗試用解析幾何來解決這個問題?!?/li>
 
這算是作弊嗎?論文作者給出了他們的解釋:歸納法和解析幾何是解決這類問題的非常通用和標(biāo)準(zhǔn)的方法。如果未來有一個更強(qiáng)大的“多智能體”AI系統(tǒng),它必然會分配不同的智能體去嘗試這些標(biāo)準(zhǔn)路徑。因此,這句提示的作用,更多是 幫助模型在正確的方向上起步,從而減少漫無目的的計算資源消耗,而非直接給出解題思路。
這恰恰說明了,在當(dāng)前階段,AI的強(qiáng)大能力仍然需要人類的智慧來引導(dǎo)和駕馭。設(shè)計精巧的系統(tǒng)流程、提供正確的方向性提示,這些“人的智慧”與“AI的算力”相結(jié)合,才共同促成了這次“奪金”壯舉。
結(jié)語
Google的這篇論文也為我們揭示了AI在人類最頂級的智力競賽中已經(jīng)達(dá)到的驚人高度。
Gemini的成功,并非源于某個單一模型的“神力”,而是源于一套精巧、嚴(yán)謹(jǐn)、且高度模仿人類科研范式的系統(tǒng)工程。它通過“生成-驗(yàn)證-迭代”的閉環(huán),將大模型的計算能力和邏輯潛力發(fā)揮到了極致。同時,它也坦誠地展現(xiàn)了現(xiàn)階段AI依然需要人類智慧進(jìn)行戰(zhàn)略引導(dǎo)的現(xiàn)實(shí)。
參考資料: Huang, Y., & Yang, L. F. (2025). Gemini 2.5 Pro Capable of Winning Gold at IMO 2025. arXiv:2507.15855v2 [cs.AI].
本文轉(zhuǎn)載自???后向傳播???,作者: 張發(fā)恩


















