數(shù)學(xué)圈地震!o3靠直覺刷爆人類頂尖難題,14位專家集體破防
推理模型不會(huì)推理,一夜成為硅谷最熱門的話題。
來自Epoch AI最新報(bào)告稱,o3-mini-high不僅會(huì)推理,還能破解頂尖數(shù)學(xué)難題。

14位數(shù)學(xué)家組團(tuán),共同評(píng)估o3在29道FrontierMath推理能力。
結(jié)果驚奇地發(fā)現(xiàn),o3-mini-high完全憑借「數(shù)學(xué)直覺」破解了難題,并非依靠單純死記硬背完成。

他們還發(fā)現(xiàn),o3具備一種類似物理學(xué)家思維方式,許多推理步驟缺少嚴(yán)格的論證、精確的證明。
一位數(shù)學(xué)家稱之為,「基于直覺的歸納推理器」。
缺乏創(chuàng)造力和深入的理解,成為o3最大的弱點(diǎn)。

在29道數(shù)學(xué)題考試中,o3-mini-high都有哪些表現(xiàn),以下是報(bào)告所有細(xì)節(jié)。
o3攻克13題,學(xué)識(shí)直覺兼具
在29個(gè)推理過程中,有13個(gè)得出了正確答案——o3-mini-high到底是怎么搞定這些數(shù)學(xué)難題的呢?
超強(qiáng)學(xué)識(shí)——不只是死記硬背
一個(gè)關(guān)鍵因素是它那驚人的學(xué)識(shí),這一點(diǎn)毫不意外,畢竟它接受了海量數(shù)據(jù)的訓(xùn)練。
o3-mini-high能應(yīng)對(duì)各種領(lǐng)域的FrontierMath問題,數(shù)學(xué)家們一致認(rèn)為它的知識(shí)儲(chǔ)備非常豐富。
一位數(shù)學(xué)家評(píng)價(jià)說:「o3-mini-high能準(zhǔn)確擴(kuò)展問題的數(shù)學(xué)背景,涉及一些非常高深的概念。它的通用知識(shí)和對(duì)問題的理解完全不是瓶頸?!?/span>
而且,這可不是單純的死記硬背。
即使問題設(shè)計(jì)者故意隱藏了解題所需的關(guān)鍵技術(shù),數(shù)學(xué)家們普遍發(fā)現(xiàn),o3-mini-high依然有不錯(cuò)的能力調(diào)用正確的定理來推進(jìn)解題。
特別是在大約66%的推理中,數(shù)學(xué)家們對(duì)模型調(diào)用相關(guān)數(shù)學(xué)結(jié)果的能力給出了至少3分(滿分5分)的高評(píng)價(jià)。

評(píng)審數(shù)學(xué)家普遍發(fā)現(xiàn),o3-mini-high在調(diào)用數(shù)學(xué)文獻(xiàn)中的相關(guān)結(jié)果方面表現(xiàn)尚可,在約三分之二的問題上獲得了3/5或更高的評(píng)分
全憑直覺,缺少精確
如前所述,o3-mini-high推理過程,更傾向于非正式的風(fēng)格。
簡言之,它是一個(gè)「基于直覺的歸納推理器」,并且擁有類似數(shù)學(xué)家好奇心,找出解決問題的最簡單的方法。
不過,在數(shù)學(xué)家看來,o3思考過程略顯隨意,不夠精確。
而且,其初始思路表述往往很粗糙,用語也不夠嚴(yán)謹(jǐn)。存在一些在正式數(shù)學(xué)論文中不被接受的特殊情況。
o3-mini-high為何不采用更形式化的推理?
Epoch尚未完全弄清其中緣由,但至少可以確定,并不僅僅是「模型偷懶」那么簡單。
比如,他們發(fā)現(xiàn),o3在需要的時(shí)候,會(huì)毫不猶豫地進(jìn)行計(jì)算和寫代碼。
這一看似并不起眼的繁瑣步驟,卻可以讓模型能夠保持更扎實(shí)、更少抽象的風(fēng)格。
不可否認(rèn),其推理依舊依賴的是直覺。
而且,另一種可能是,預(yù)訓(xùn)練中「形式化推理」數(shù)據(jù)集占比少,后期難以完美激發(fā)o3所有潛力。
三大短板曝出
缺乏精確性
上面提到的形式化精確性不足問題,是o3-mini-high的主要短板之一。
比如,一位數(shù)學(xué)家指出:「o3-mini-high相比人類數(shù)學(xué)家的一個(gè)明顯不足在于,它不會(huì)在發(fā)現(xiàn)某個(gè)結(jié)論后嘗試去證明它?!?/span>
在一個(gè)案例中,o3-mini-high通過非正式推理提出了一個(gè)正確的猜想,但完全沒有嘗試去證明這個(gè)猜想,而是直接用這個(gè)猜想來解決問題。
最后還得到了正確答案。
他們把這種情況稱之為「投機(jī)取巧」(cheesing)。
也就是說,模型基本上是靠猜答案,而沒有經(jīng)過完整的推理過程,完整的推理應(yīng)該包括去證明相關(guān)的猜想。
在模型得出正確答案的推理過程中,投機(jī)取巧的情況占了相當(dāng)少的部分:

「投機(jī)取巧」現(xiàn)象相對(duì)常見,但o3-mini-high在絕大多數(shù)情況下都能正確解決問題,且沒有任何投機(jī)取巧行為(即得分為5)。該圖僅適用于o3-mini-high正確回答所提問題的推理軌跡
有時(shí),o3-mini-high的思路大致是對(duì)的,但未能得出正確答案,僅僅是因?yàn)樗茨芙⑵鹱詈箨P(guān)鍵的聯(lián)系。
比如,在一個(gè)關(guān)于劃分理論的問題中,模型只差一步就能答對(duì),作者評(píng)論說:「如果它把n=0到某個(gè)數(shù)的輸出求和,答案就對(duì)了。我對(duì)它的表現(xiàn)真的很佩服?!?/span>
不過,更多時(shí)候,o3-mini-high并沒有這么接近解決問題,如下圖所示:

只有大約18%的情況下,o3-mini-high得到錯(cuò)誤解的情況非常接近正確解——總體而言,推理的正確程度分布更為廣泛
缺乏創(chuàng)造力和深刻理解
數(shù)學(xué)家們認(rèn)為,o3-mini-high最大的局限性在于缺乏創(chuàng)造力和深刻的理解,尤其是與具有同等知識(shí)水平的人類相比。
一位數(shù)學(xué)家這樣總結(jié)道:
這個(gè)模型就像一個(gè)勤奮的研究生,讀了很多書,能隨口說出很多結(jié)果和作者的名字。初看之下挺厲害,但專家很快就會(huì)發(fā)現(xiàn),這個(gè)「學(xué)生」并沒有真正深入理解這些內(nèi)容,大多只是鸚鵡學(xué)舌般地復(fù)述。
模型的表現(xiàn)也是如此——它擅長識(shí)別相關(guān)內(nèi)容,但無法以創(chuàng)新的方式擴(kuò)展或應(yīng)用這些知識(shí)。
另一位數(shù)學(xué)家則說:
這個(gè)模型有幾個(gè)它偏愛的思路,總是試圖套用這些想法。
一旦這幾個(gè)思路用盡,就沒有實(shí)質(zhì)性進(jìn)展了。
我覺得這挺讓人失望的,作為一個(gè)專業(yè)組合數(shù)學(xué)家,我會(huì)期待它能更具創(chuàng)造性地解決問題,或者換個(gè)角度去思考(即便這些嘗試可能會(huì)失敗)。
有位數(shù)學(xué)家甚至打趣道:「讓AI解一道需要新思路的八年級(jí)數(shù)學(xué)競賽題,可能比算一個(gè)大有限域上的超橢圓曲線有多少個(gè)點(diǎn)還難?!?/span>
雖然這話聽起來夸張,但它反映的情況和大多數(shù)數(shù)學(xué)家的觀察差不多。
幻覺問題
模型還表現(xiàn)出許多其他失敗模式。
一個(gè)顯著問題是,大約75%的推理過程包含「幻覺」,經(jīng)常記錯(cuò)數(shù)學(xué)術(shù)語和公式。
例如,一位數(shù)學(xué)家指出:「雖然它常常能回憶起相關(guān)公式的名字,但卻無法準(zhǔn)確復(fù)現(xiàn),經(jīng)常在無法回憶細(xì)節(jié)的地方插入占位符,如(…)?!?/span>
o3-mini-high在使用工具和資源(如網(wǎng)絡(luò)搜索)時(shí)也存在問題。
比如,有人描述它「試圖從許多它幻想出來的不存在的URL中獲取信息」。這類問題在需要準(zhǔn)確表達(dá)非常冷門的數(shù)學(xué)結(jié)果時(shí)就顯得尤為關(guān)鍵。
的確,有一位受訪者認(rèn)為:「一個(gè)能夠執(zhí)行類似瀏覽Google或arXiv,以查找潛在相關(guān)結(jié)果的智能體系統(tǒng)將大大提高它們?cè)趯?shí)際問題中的表現(xiàn)。」
推理像人,又不像人,為何?
o3-mini-high推理過程,與人類數(shù)學(xué)家有相似之處嗎?
對(duì)此,Epoch AI針對(duì)模型CoT和人類數(shù)學(xué)家進(jìn)行了比對(duì)。整體講,最終答案因不同數(shù)學(xué)家、推理過程而異。
如下圖所示,數(shù)學(xué)家對(duì)o3-mini-high推理像人程度,進(jìn)行了打分。
雖沒有達(dá)到完全無法區(qū)分的程度,但AI在解答四道題目中,拿下了與人類數(shù)學(xué)家思維過程類似的成績。

1分表示推理完全不像人類,5分表示推理與人類數(shù)學(xué)家無法區(qū)分
此外,在其他區(qū)間,o3均有涉及。為何跨度如此廣泛?
研究團(tuán)隊(duì)分析稱,之所以有這么大的差異,與o3-mini-high具備多樣化能力組合有關(guān),至少對(duì)于人類來說是這樣。
一方面,它似乎非常擅長像人類一樣推理問題,表現(xiàn)出好奇心并探索問題的不同解決路徑。
另一方面,它似乎知識(shí)過于淵博,缺乏創(chuàng)造力和嚴(yán)謹(jǐn)性,而且還有一些奇怪的「怪癖」。
做題過程中,o3-mini-high推理過程往往非常冗長。甚至數(shù)學(xué)家形象地將其比作——口試中長篇大論的學(xué)生,倒也不是壞事。
然而,并非所有的冗長推理細(xì)節(jié),都明顯有用。有時(shí),AI在提交最終答案時(shí),會(huì)出現(xiàn)類人的「焦慮」情緒。
舉個(gè)例子,o3-mini-high會(huì)最終陷入一種「反復(fù)重述」的循環(huán)怪圈——
已完成解答,上面推理過程就是最終答案,還夾雜著自我懷疑的內(nèi)心OS,然后又重新一步步計(jì)算得出最終公式的某些算術(shù)。
不僅是o3,任何一個(gè)推理模型,都會(huì)陷入這類的死循環(huán)。
至少在這種情況下,模型的推理過程明顯不像一個(gè)冷靜的人類數(shù)學(xué)家。
討論
基于以上內(nèi)容,我們可以簡單地將o3-mini-high總結(jié)為「一個(gè)博學(xué)但基于感覺的推理者,缺乏專業(yè)數(shù)學(xué)家的創(chuàng)造力和嚴(yán)謹(jǐn)性,且傾向于奇怪地冗長或重復(fù)」。
這似乎與我們?cè)诰W(wǎng)上看到的數(shù)學(xué)家的觀點(diǎn)大體一致。
他們認(rèn)為,這一分析自然而然地引出了兩個(gè)關(guān)鍵問題。
第一個(gè)問題是:為什么像o3-mini-high這樣的推理模型會(huì)展現(xiàn)出這些特性?
一部分原因顯而易見——這些模型之所以博學(xué),是因?yàn)樗鼈冊(cè)诖罅繑?shù)據(jù)上接受了訓(xùn)練,其中包括了大量公開的數(shù)學(xué)文獻(xiàn)。
但更讓人好奇的是,為什么這些模型并不能更深入地利用已有知識(shí),在不同數(shù)學(xué)子領(lǐng)域之間建立更多聯(lián)系,或者更具創(chuàng)造性地提出新想法?
這個(gè)問題的答案仍不明朗。
第二個(gè)問題是:這些推理模型在目前的弱項(xiàng)(比如創(chuàng)造力和形式化推理)方面,未來還能改進(jìn)到什么程度?而這樣的進(jìn)步,又會(huì)怎樣重塑整個(gè)數(shù)學(xué)推理的方式?
比如,我們可以把o3-mini-high的推理方式和AlphaProof這樣的系統(tǒng)作比較——后者主要甚至完全基于合成數(shù)據(jù)訓(xùn)練,因此它「見過」的數(shù)學(xué)世界可能完全不同。
考慮到數(shù)學(xué)本身對(duì)合成數(shù)據(jù)的高度適應(yīng)性,有理由認(rèn)為,未來的推理模型在思維方式上可能會(huì)和人類數(shù)學(xué)家越來越不一樣。
當(dāng)然,我們現(xiàn)在的理解還只是剛剛觸及這些模型工作機(jī)制的表層。希望未來能有更多類似的分析,來揭示這些系統(tǒng)背后的深層邏輯。




































