一盤大棋!OpenAI「截胡」IMO金牌,奧特曼為GPT-5獻上「核彈級」預(yù)熱
誰曾想,OpenAI又搶盡了谷歌的風頭!
爆料稱,谷歌DeepMind的AI模型早在本周五,也就是兩天前,便拿下了IMO金牌。
但由于內(nèi)部審核慢,需等下周一市場部批準后,DeepMind才能官宣具體情況。

OpenAI瞅中了時機,用全新通用推理模型在IMO刷題后,立即公開了結(jié)果。
昨天,全網(wǎng)幾乎都被OpenAI拿下IMO金牌刷屏了。自家研究員紛紛現(xiàn)身,宣傳OpenAI神秘模型的強大。
如今看來,這一切都是有預(yù)謀的。
谷歌DeepMind研究員Archit Sharma調(diào)侃道,「恭喜!居然比我們先官宣了——現(xiàn)在P6是新標桿了嗎」?

OpenAI搶奪IMO金牌
GPT-5即將誕生
為什么通用推理模型拿下IMO金牌,會受到熱烈關(guān)注?
簡而言之,OpenAI這次的通用推理模型在「通用強化學習和測試時計算擴展方面開辟了新天地。」
這次的通用推理模型有啥不同之處?

OpenAI推理研究員Noam Brown指出,這個模型并非專門為國際數(shù)學奧林匹克競賽(IMO)設(shè)計。
它是一個融合了全新實驗性通用技術(shù)的推理LLM,使其在難以驗證的任務(wù)上表現(xiàn)得更好。
IMO問題正是這一挑戰(zhàn)的完美體現(xiàn):證明過程長達數(shù)頁,專家需要花費數(shù)小時來評分。
相比之下,AIME的答案只是一個0到999之間的整數(shù)。
與過去的基準相比,IMO問題需要更高層次的持續(xù)創(chuàng)造性思維。
這次的通用推理模型,在推理時間跨度上實現(xiàn)了逐步進步:從GSM8K(頂尖人類約 0.1 分鐘)→ MATH基準(約1分鐘)→ AIME(約10分鐘)→ IMO(約100 分鐘)。
「重要的是,它的思考效率也更高。而且在測試時計算能力和效率方面還有很大的提升空間?!?/span>

其次,IMO的參賽作品是難以驗證的多頁證明。
在這方面的進展需要超越明確、可驗證獎勵的強化學習范式。
通過這樣做,就可以獲得一個能夠像人類數(shù)學家一樣,構(gòu)建復雜且無懈可擊論證的模型。

https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt
這項成果到底意味著什么?
Noam Brown給出了答案:

可能因為這次IMO事件,奧特曼也出來公開發(fā)聲。
他稱,OpenAI拿下IMO金牌這事,需要強調(diào)的是,「這是一個LLM在做數(shù)學題,而不是一個特定的形式化數(shù)學系統(tǒng)這是朝著AGI邁進的主要部分?!?/span>

其實,奧特曼之所以這么「積極主動」,也不難發(fā)現(xiàn)是在為GPT-5發(fā)布提前鋪路呢!
當下這個節(jié)點對OpenAI非常重要,令人期待的GPT-5即將面世。

他們估計想在這個重要節(jié)點上,利用OpenAI拿下IMO金牌這事,為GPT-5來波神助攻。
但奧特曼也稍顯謹慎,調(diào)低各位對GPT-5的預(yù)期。
他指出,GPT-5是一個實驗性模型,用了一些將在未來模型中使用的新研究技術(shù)。
「在數(shù)月內(nèi),不會發(fā)布具備IMO金牌水平能力的模型?!?/span>
陶哲軒點評IMO
針對IMO金牌得主背后爭議,數(shù)學大佬陶哲軒也公開表達了自己的看法。
「不會評論任何未預(yù)先公開測試方法的AI競賽成績報告?!?/span>
陶哲軒簡明扼要,在缺乏受控測試環(huán)境的情況下,AI的數(shù)學能力難以準確評估。
他指出,很多人對AI有個誤解,就是把它的能力看成是「行」或「不行」兩個極端。
但實際上,它的能力是一個巨大的范圍。你給它提供的計算資源、給它的指令有多好,以及你要求它如何輸出結(jié)果,都會導致最終效果產(chǎn)生天壤之別。

以人類競賽舉個栗子: 在剛結(jié)束的IMO競賽中,各國派出六名高中生選手組成的團隊(由職業(yè)數(shù)學家擔任領(lǐng)隊)。
兩天賽程中,每位選手每天用四個半小時獨立解答三道難題,僅限紙筆演算。
期間選手嚴禁交流(包括與領(lǐng)隊),僅可向監(jiān)考詢問題目表述問題。領(lǐng)隊僅在評分環(huán)節(jié)向評審委員會申訴,不直接參與解題。
都知道,IMO被視為衡量中學生數(shù)學能力的金標準:金牌線今年定為35/42分(即完美解答五題),完整解出一題即可獲「榮譽提名」。
但若改變競賽形式,難度將發(fā)生劇變!

考慮一下如果我們以其他方式改變奧林匹克競賽的形式,其難度水平會發(fā)生什么變化?
比如,給學生幾天時間來完成每道題,而不是三個題目只給四個半小時。
在考試開始前,團隊負責人會將問題改寫成學生更容易理解的格式。
學生可以無限使用計算器、計算機代數(shù)軟件包、形式化證明助手、教科書或上網(wǎng)搜索。
領(lǐng)隊讓六人團隊同時處理同一個問題,相互交流各自的部分進展和遇到的死胡同。
在此期間,隊長會引導學生采用更有利的方法,并在某個學生花費過多時間在他們知道不太可能成功的方向時進行干預(yù)。
提交階段,每位隊員提交解答,但隊長只選出「最佳」解答遞交競賽,其余的都棄之不用。
如果團隊中的學生都未能獲得令人滿意的解決方案,團隊負責人將不會提交任何解決方案,并且會悄然退出比賽,而他們的參與也永遠不會被記錄。
這些情境下,答案仍「技術(shù)性」源自學生之手。
這也說明,競賽形式的改變能使原本銅牌線下的團隊躍升至金牌水平。
「這警示我們,在缺乏統(tǒng)一測試標準的情況下,貿(mào)然對比不同AI模型(或AI與人類選手)的IMO表現(xiàn)如同比較蘋果與橙子,沒有對比意義可言,」陶哲軒指出。


































