GPT-5慘遭零分打臉,頂級(jí)AI全軍覆沒(méi)!奧特曼AI博士級(jí)能力神話破滅
奧特曼在GPT-5的發(fā)布會(huì)上曾說(shuō)過(guò)一個(gè)結(jié)論。
「以后每個(gè)人的兜里都有一個(gè)博士級(jí)AI隨時(shí)隨地的提供建議」。
GPT-5的發(fā)布后也被全球的瘋狂實(shí)測(cè),API使用量暴增。
當(dāng)然,有些討論重點(diǎn)關(guān)注的是「還我GPT-4o」這種情緒化的能力方面。
但重點(diǎn)是,奧特曼一直強(qiáng)調(diào),GPT-5有「博士級(jí)」推理能力。
這事兒,真的靠譜嗎?

這不,一個(gè)叫FormulaOne的硬核測(cè)試,就讓世界上這些最頂級(jí)的模型「現(xiàn)了原形」。
FormulaOne題目分三關(guān),一關(guān)比一關(guān)難。

論文地址:https://arxiv.org/pdf/2507.13337
結(jié)果呢?有點(diǎn)扎心了。
基礎(chǔ)題,AI們還算頂?shù)米?,正確率還可以,唯一一個(gè)GPT-5能接近50%。
可到了進(jìn)階題,畫(huà)風(fēng)突變。
就算是GPT-5,也只做對(duì)了4%。其他模型更是慘不忍睹。
至于最難的「最深層問(wèn)題」部分?所有模型,全軍覆沒(méi)。直接交了白卷,全部零分。

FormulaOne測(cè)試基準(zhǔn)給自己取名字叫做:超越競(jìng)賽編程的算法推理深度測(cè)量。
這是由一家名為AAI的公司出品的,他們的官網(wǎng)是:doubleai.com。

公司是由Mobileye聯(lián)合創(chuàng)始人、希伯來(lái)大學(xué)教授Amnon Shashua發(fā)起的科研向AI創(chuàng)業(yè)公司,2023年8月在耶路撒冷成立,長(zhǎng)期「半隱身」。

Amnon Shashua曾于2020年榮獲丹·大衛(wèi)獎(jiǎng)(Dan David Prize)人工智能領(lǐng)域的獲獎(jiǎng)?wù)?,并?022年被汽車名人堂(Automotive Hall of Fame)評(píng)為移動(dòng)創(chuàng)新者。
1999年,Shashua聯(lián)合創(chuàng)立了Mobileye,該公司于2014年成為以色列歷史上規(guī)模最大的IPO。
2017年,公司被Intel以153億美元收購(gòu)。
2022年,公司再次于納斯達(dá)克證券交易所上市。
AI必須硬核
現(xiàn)在的AI離真正的專家,到底還有多遠(yuǎn)?
真正的專家,那可是要解決硬核難題的,他們是推動(dòng)科學(xué)邊界的人。
所以,得給AI上點(diǎn)真正的強(qiáng)度了。
目前的基準(zhǔn)測(cè)試往往無(wú)法完整描繪出人工智能理解的深度。
盡管最近取得了一些顯著成就,例如OpenAI在CodeForces上獲得了2724的評(píng)分,或是在國(guó)際信息學(xué)奧林匹克競(jìng)賽中獲得金牌。
但這些成績(jī)?nèi)匀谎谏w了一個(gè)令人清醒的現(xiàn)實(shí):為這些競(jìng)賽磨煉出的技能,并不能涵蓋解決大規(guī)?,F(xiàn)實(shí)世界研究問(wèn)題所需的全部推理能力。
例如優(yōu)化全球供應(yīng)鏈、管理大規(guī)模電網(wǎng)、設(shè)計(jì)具有彈性的網(wǎng)絡(luò)基礎(chǔ)設(shè)施等任務(wù)要困難多個(gè)數(shù)量級(jí),它們所需的算法洞察力遠(yuǎn)遠(yuǎn)超出了典型競(jìng)技編程的范疇。
FormulaOne包含220個(gè)新穎的、基于圖的動(dòng)態(tài)編程問(wèn)題。這些問(wèn)題分為三個(gè)類別,從適中的難度到研究級(jí)別的難度不等。

FormulaOne是一個(gè)處于圖論、邏輯和算法交叉點(diǎn)的基準(zhǔn)測(cè)試,完全在前沿模型的訓(xùn)練分布范圍內(nèi)。
這些問(wèn)題極具挑戰(zhàn)性,需要一系列推理步驟,涉及拓?fù)浜蛶缀味床?、?shù)學(xué)知識(shí)、組合考慮、精確實(shí)現(xiàn)等。
FormulaOne具有三個(gè)關(guān)鍵特性。
- 第一,它具有商業(yè)價(jià)值,與實(shí)際的大規(guī)模優(yōu)化問(wèn)題相關(guān),例如路徑規(guī)劃、調(diào)度和網(wǎng)絡(luò)設(shè)計(jì)中出現(xiàn)的問(wèn)題。
- 第二,它生成自圖上的單一二階(Monadic Second-Order,MSO)邏輯這一高度表達(dá)的框架,為大規(guī)模自動(dòng)問(wèn)題生成鋪平了道路——非常適合構(gòu)建強(qiáng)化學(xué)習(xí)(RL)環(huán)境。
- 第三,許多問(wèn)題與理論計(jì)算機(jī)科學(xué)的前沿以及其中的核心猜想密切相關(guān),例如強(qiáng)指數(shù)時(shí)間假設(shè)(Strong Exponential Time Hypothesis,SETH)。
為什么模型在「deepest」(最深層)任務(wù)上會(huì)出現(xiàn)概念崩潰,即使它們?cè)谒惴ň幊谈?jìng)賽中達(dá)到了超越人類頂尖選手的水平?
「deepest」層級(jí)的問(wèn)題需要非常深入的推理能力,而這是現(xiàn)有模型根本無(wú)法做到的。
FormulaOne可能需要一種定性不同的方法,正通過(guò)一個(gè)實(shí)時(shí)排行榜和評(píng)估框架與社區(qū)分享它。

FormulaOne中的問(wèn)題都很簡(jiǎn)潔,僅由一兩句話組成,任何本科生都能理解,但解決這些問(wèn)題卻需要?jiǎng)?chuàng)造力和深入的推理。




雖然這些問(wèn)題通常很容易描述,但它們的解決方案遠(yuǎn)非顯而易見(jiàn)。這一大類問(wèn)題的可解性由一個(gè)Courcelle提出的算法元定理所保證,該定理大致表述為:
對(duì)于每個(gè)足夠樹(shù)狀的圖,任何可在一種表達(dá)能力強(qiáng)的形式邏輯——單子二階(MSO)邏輯中定義的問(wèn)題,都可以通過(guò)一個(gè)動(dòng)態(tài)規(guī)劃算法來(lái)求解,該算法的運(yùn)行時(shí)間與圖的階數(shù)成線性關(guān)系。
FormulaOne中的問(wèn)題源自一個(gè)單一的無(wú)限族:圖上的單階二階(MSO)邏輯。
簡(jiǎn)單來(lái)說(shuō),這些問(wèn)題就是圖上的自然動(dòng)態(tài)規(guī)劃問(wèn)題。
雖然許多問(wèn)題在一般情況下是NP難的,但在「樹(shù)狀」圖上它們變得易于處理。
在這種情況下,這些問(wèn)題可以通過(guò)一種線性時(shí)間的動(dòng)態(tài)規(guī)劃算法來(lái)解決——該算法在一個(gè)稱為「bags」的小圖窗口上進(jìn)行操作。


「包」是使用一種稱為樹(shù)分解的結(jié)構(gòu),它將圖的頂點(diǎn)組織成一系列重疊的集合,這些集合本身以樹(shù)的形式排列。
然后,算法可以遍歷這個(gè)包(bag)樹(shù),使用動(dòng)態(tài)規(guī)劃逐塊解決該問(wèn)題。
此過(guò)程包括設(shè)計(jì)一個(gè)「狀態(tài)」,用以概括包中部分解決方案的所有必要信息,并定義當(dāng)頂點(diǎn)被引入、遺忘或包被合并時(shí),該狀態(tài)如何轉(zhuǎn)換。
「最深層」級(jí)別問(wèn)題難在哪里
那么,是什么讓「最深層」級(jí)別的難度遠(yuǎn)高于「淺層」級(jí)別呢?換句話說(shuō),如何解釋前沿模型在這些問(wèn)題上的崩潰?
是因?yàn)閿?shù)據(jù)不足嗎?還是因?yàn)樵趧?dòng)態(tài)規(guī)劃方面的專業(yè)知識(shí)水平較低?
不,前沿模型最近在算法編程競(jìng)賽和奧林匹克競(jìng)賽中已經(jīng)達(dá)到了頂尖人類水平,而動(dòng)態(tài)規(guī)劃(DP)正是這類競(jìng)賽中的關(guān)鍵技術(shù)之一。
相反,像CodeForces中的競(jìng)賽題目通常是這樣構(gòu)建的:一個(gè)人想出一個(gè)非常巧妙的技巧(或者可能兩個(gè)),然后圍繞這個(gè)技巧設(shè)計(jì)一個(gè)問(wèn)題。
一旦參賽者理解了這個(gè)技巧,通常很快就能寫(xiě)出一個(gè)簡(jiǎn)短的解決方案。對(duì)于「淺層」階段來(lái)說(shuō),情況某種程度上也是如此。
相比之下,現(xiàn)實(shí)世界的問(wèn)題,以及「更深」和「最深」階段的問(wèn)題,通常涉及多個(gè)不確定的步驟,并且沒(méi)有任何簡(jiǎn)單的捷徑可循。
設(shè)計(jì)一個(gè)正確且高效的動(dòng)態(tài)規(guī)劃程序很難。
關(guān)鍵在于每個(gè)包所存儲(chǔ)的信息——「狀態(tài)」。
狀態(tài)設(shè)計(jì)既是一門(mén)藝術(shù),也是一門(mén)科學(xué)。
狀態(tài)必須足夠豐富,以便在我們從一個(gè)包過(guò)渡到下一個(gè)包時(shí)能夠進(jìn)行更新,但同時(shí)又必須足夠簡(jiǎn)潔,以確保計(jì)算上的可行性。
模型傾向于急切地過(guò)度承諾;做出過(guò)早且不可逆的決策,而這些決策的無(wú)效性往往要到很久之后才會(huì)顯現(xiàn)出來(lái)。
隨著不確定性的增加,這種情況會(huì)變得更加明顯。
事實(shí)上,這僅僅是模型所犯的一系列分類錯(cuò)誤之一。
為了幫助理解模型的優(yōu)勢(shì)與不足,每個(gè)FormulaOne問(wèn)題都由一系列標(biāo)簽進(jìn)行標(biāo)注,代表其核心思想。

那么要突破這個(gè)新基準(zhǔn)需要什么?
雖然GPT-5在「更深」層級(jí)上顯示出一些進(jìn)展跡象,但這種進(jìn)展非常有限,而在「最深」層級(jí)上則完全沒(méi)有進(jìn)展。
這可能可以解釋為一種「信號(hào)缺失」,因?yàn)樵凇缸钌睢箤蛹?jí)的問(wèn)題中存在太多不確定點(diǎn)和需要做出的決策,要讓所有這些都正確對(duì)齊變得異常困難——以至于傳統(tǒng)的訓(xùn)練技術(shù)都失效了。

































