剛剛,GPT-5首次通過(guò)「哥德爾測(cè)試」!破解三大數(shù)學(xué)猜想
AI迎來(lái)歷史性一刻!
GPT-5成功破解三大猜想,通過(guò)了「哥德爾測(cè)試」。
圖片
OpenAI科學(xué)家Sebastien Bubeck驚嘆地表示,這類開放性問(wèn)題,頂尖博士生往往耗費(fèi)數(shù)日才能解決。
不同以往,這項(xiàng)由海法大學(xué)和思科主導(dǎo)的研究,首次讓AI直面「開放性數(shù)學(xué)猜想」的挑戰(zhàn)。
圖片
論文地址:https://arxiv.org/pdf/2509.18383
論文中,團(tuán)隊(duì)設(shè)計(jì)了五項(xiàng)「組合優(yōu)化」領(lǐng)域的測(cè)試任務(wù),每項(xiàng)任務(wù)提供1-2篇文獻(xiàn)作為了解。
在三個(gè)相對(duì)簡(jiǎn)單的問(wèn)題上,GPT-5給出了近乎完美的解法,證明了其強(qiáng)大的邏輯推理水平。
圖片
令人驚喜的是,在猜想二中,它不僅成功求解,還推導(dǎo)出與研究人員預(yù)期不同的有效解法,顛覆了原有猜想。
這一突破,標(biāo)志著頂尖AI正從「學(xué)習(xí)數(shù)學(xué)」邁向「真正做數(shù)學(xué)」的關(guān)鍵跨越。
不難看出,AI正為數(shù)學(xué)發(fā)現(xiàn)做出實(shí)質(zhì)性貢獻(xiàn),提前預(yù)演了2030年代科研范式的深遠(yuǎn)變革。
圖片
AI單挑「哥德爾測(cè)試」,遠(yuǎn)超陶哲軒想象
此前,陶哲軒曾分享了自己與OpenAI o1合作經(jīng)驗(yàn),生動(dòng)地將其比作「指導(dǎo)一名平庸,但并非完全無(wú)能的研究生」。
在他看來(lái),LLM雖能在大量提示后,逐步得出解決方案,但無(wú)法獨(dú)立生成關(guān)鍵概念性想法。
不過(guò),經(jīng)過(guò)一兩次迭代,結(jié)合工具,AI就能達(dá)到「合格研究生」的水平。
圖片
OpenAI和谷歌均宣稱,自家前沿LLM無(wú)需外部工具,即可拿下IMO金牌。
但這個(gè)具有挑戰(zhàn)性的問(wèn)題,畢竟是為高中生設(shè)計(jì)的。
圖片
在最新論文中,研究焦點(diǎn)不同:讓AI處理更高級(jí)的數(shù)學(xué)猜想,即「哥德爾測(cè)試」。
這些猜想要求的不只是解題能力,還需要整合背景知識(shí)和創(chuàng)新思維。
為此,研究人員從「組合數(shù)學(xué)」的子領(lǐng)域——子模最大化中挑選問(wèn)題。這類問(wèn)題具體、有明確動(dòng)機(jī),且控制在能展示數(shù)學(xué)推理范圍內(nèi)。
與陶哲軒實(shí)驗(yàn)不同,團(tuán)隊(duì)沒有提供大量提示或指導(dǎo)。
論文中,他們精心設(shè)計(jì)了五大猜想。
只給每個(gè)問(wèn)題一個(gè)最小化描述,外加上1-2篇參考文獻(xiàn)。
難度設(shè)定為:優(yōu)秀本科生、研究生,有望在一天內(nèi)解決所有問(wèn)題,同時(shí)確保大部分問(wèn)題,存在明確猜想及已知解決路徑。
GPT-5的任務(wù)是,基于有限輸入,生成完整證明。
這模擬了真實(shí)研究場(chǎng)景:數(shù)學(xué)家往往從少量線索出發(fā),獨(dú)立探索。
在測(cè)試中,GPT-5表現(xiàn)既有亮點(diǎn),也有短板,一起看看具體的解題能力。
GPT-5破解三大猜想
猜想一:「單調(diào)+非單調(diào)」的子模函數(shù)在凸多面體上取最大
這個(gè)要求好像是,讓「兩個(gè)互相掣肘的收益」加在一起最大化:
一部分收益G會(huì)越加?xùn)|西越大(單調(diào)),另一部分 H 可能先漲后跌(非單調(diào)),而選擇必須落在一個(gè)「不能超過(guò)上限」的凸集合里。
圖片
GPT-5做法是套用連續(xù)Frank-Wolfe思路,從零開始,每一步朝著「此刻最能漲分」的方向挪一小步,并使用「遮罩」保證不越界。
它把參考論文里「凹函數(shù)」的位置換成 H,推了個(gè)遞推式,最后得到一個(gè)拆分保證——
至少拿到約63%的G(o),再加上37%的H(o)(若H也單調(diào)則也是63%),外加一個(gè)隨步長(zhǎng)參數(shù)ε線性衰減的小誤差。
圖片
猜想二:p-system約束下的「雙指標(biāo)」算法
這題允許「價(jià)值幾乎最優(yōu)(1?ε)」,但在可行性上稍微超一點(diǎn)(放寬倍數(shù)g(ε)),目標(biāo)是在越廣泛的p-system約束下把g(ε)壓到盡量小。
圖片

GPT-5提了個(gè)樸素而有效的流程,每一輪都在當(dāng)前解的基礎(chǔ)上,再做一次「在約束里盡可能有價(jià)值」的貪心選集(greedy),最后把若干輪的結(jié)果并起來(lái)。
證明關(guān)鍵是:每一輪都能把「距離最優(yōu)」的差距按p/(p+1)的比例縮小,多滾幾輪差距就指數(shù)式消退,于是只要做 ?≈ln(1/ε)/ln((p+1)/p)輪,就能把價(jià)值推到1?ε。
這也意味著,放寬倍數(shù) g_p(ε)=?ln(1/ε)/ln((p+1)/p)?。
部分解題過(guò)程如下:
圖片
令人意想不到的是,猜想二中,GPT-5甚至推導(dǎo)出不同的近似保證,經(jīng)核查后推翻原有猜想,并提供了有效解。
猜想三:γ-弱DR子模+凸約束的最大化
這個(gè)猜想把「邊際收益遞減」的連續(xù)版放寬為一個(gè)強(qiáng)度參數(shù) γ(γ=1即標(biāo)準(zhǔn)情形;γ越小,遞減越弱)。
圖片
GPT-5還是用Frank-Wolfe:步步解一個(gè)「沿梯度的線性子問(wèn)題」,用小步長(zhǎng)前進(jìn),并靠平滑性控制離散化誤差。
核心一步是把經(jīng)典證明中的關(guān)鍵不等式按γ縮放,于是把著名的1?1/e近似比提升為更一般的1?e^{?γ},再加上一個(gè)可調(diào)的L/(2K)級(jí)別誤差項(xiàng)(K為迭代輪數(shù))。
在研究人員看來(lái),結(jié)論與推理主體靠譜。
只是GPT-5多假設(shè)了「向下封閉」這種其實(shí)用不上的條件、以及對(duì)「步長(zhǎng)總和=1」的細(xì)節(jié)有點(diǎn)不一致。
圖片
可以看出,如果題目有明確的、單一的推理路徑,GPT-5表現(xiàn)不錯(cuò)——五道題里有三道能給出幾乎正確的證明。
一旦需要把不同證明結(jié)合起來(lái),比如4和5,GPT-5就搞不定了。
猜想五中,GPT-5倒是識(shí)別出了和作者設(shè)想一樣的算法,但分析得不對(duì)。
他們后來(lái)復(fù)盤發(fā)現(xiàn),這個(gè)證明其實(shí)有可能做出來(lái),只是難度比預(yù)想的高。比起早期模型,GPT-5在組合優(yōu)化這種專業(yè)領(lǐng)域里,數(shù)學(xué)能力明顯進(jìn)步,偶爾還會(huì)冒出一點(diǎn)小創(chuàng)新。
圖片
這恰恰說(shuō)明了,它現(xiàn)在還缺乏「整合性推理」能力,這是個(gè)主要短板。
作者介紹
Moran Feldman
Moran Feldman是海法大學(xué)計(jì)算機(jī)科學(xué)系的教授。
圖片
在此之前,他曾擔(dān)任以色列開放大學(xué)的教職,并在洛桑聯(lián)邦理工學(xué)院(EPFL)擔(dān)任博士后研究員,師從Ola Svensson教授。
Amin Karbasi
圖片
Amin Karbasi思科基金會(huì)AI負(fù)責(zé)人,曾任Robust Intelligence首席科學(xué)家,耶魯大學(xué)教授,谷歌工程師。
參考資料:https://arxiv.org/abs/2509.18383 https://x.com/tunedgradient/status/1970955153361850606




































