GPT-5、Grok 4、o3 Pro都零分,史上最難AI評測基準換它了
前沿 AI 模型真的能做到博士級推理嗎?
前段時間,谷歌、OpenAI 的模型都在數(shù)學奧林匹克(IMO)水平測試中達到了金牌水準,這樣的表現(xiàn)讓人很容易聯(lián)想到 LLM 是不是已經具備了解決博士級科研難題的推理能力?
然而,現(xiàn)實可能并不如想象中那么樂觀。
AAI,一個專注于超智能和高級 AI 系統(tǒng)研究的機構,近期提出的一個新基準 FormulaOne,讓一眾大模型集體得零分,包括 GPT-5、o3 Pro、Gemini 2.5 Pro、Grok 4 等前沿模型。

- HuggingFace:https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard
FormulaOne 包含 220 個新穎的圖結構動態(tài)規(guī)劃問題,按難度分為三類,從中等難度直至科研級別。其中最高等級難度的題包括拓撲與幾何、組合問題分析等。

測試題的具體示例如下:依次是淺層難度、深層難度、更深層難度。



盡管這些問題陳述起來通常很自然,但其解決方案卻遠非顯而易見。這一大類問題的可解性由 Courcelle 提出的一個算法元定理所保證,該定理大致可以表述為:
「對于每個足夠類似樹的圖,任何可用一種富有表現(xiàn)力的形式邏輯(一元二階邏輯)定義的問題,都可以通過一個動態(tài)規(guī)劃算法來解決,且其運行時間與圖的階數(shù)成線性關系。」
其關鍵在于使用一種稱為樹分解的結構,它將圖的頂點組織成一系列重疊的集合,即「袋」,而這些「袋」本身則以樹狀結構排列。
然后,算法可以遍歷這個由「袋」構成的樹,并使用動態(tài)規(guī)劃分步解決問題。這個過程涉及到設計一個「狀態(tài)」,該「狀態(tài)」總結了「袋」內部分解的所有必要信息,然后定義當頂點被引入、遺忘或當「袋」被合并時,該「狀態(tài)」如何轉換。

問題陳述看似簡單,但這背后實則掩蓋了發(fā)現(xiàn)正確動態(tài)規(guī)劃解法的非凡難度。這個過程遍布著微妙的組合與邏輯陷阱,要求(研究者)對問題的底層結構有深刻的理解。關于解決一個名為 Maximal-Cluster-Graph 的難題所需的十五個相互依賴的推理步驟,其詳細的推演過程請參閱論文的附錄。
- 論文地址:https://arxiv.org/pdf/2507.13337
這個工作在社交媒體上引發(fā)了很大關注,許多人表示應該讓人類博士生也參與評估。

結果
在淺層難度上,頂尖模型的表現(xiàn)達到了 50%–70%,表明它們對相關問題類型已有一定熟悉度,換句話說,這些任務完全處于它們的訓練分布之內。
在深層難度上,Grok 4、Gemini-Pro、o3-Pro、Opus-4 等模型最多只能解出 1/100 的題目;GPT-5 Pro 表現(xiàn)相對更好,但也只解出了 4/100。
在最深層難度上,所有模型的成功率均為 0%,集體崩潰。

AAI
AAI(AA-I Technologies,Double AI)是一家由以色列知名企業(yè)家、科學家 Amnon Shashua 于 2023 年 8 月在耶路撒冷創(chuàng)辦的人工智能初創(chuàng)公司。

Shashua 是自動駕駛公司 Mobileye、AI21 Labs 和 OrCam 等多個知名項目的創(chuàng)始人,在自動駕駛、人工視覺和 AI 領域具有極高聲譽。

AAI 的核心目標是推動「人工專家智能」(Artificial Expert Intelligence,AEI)的理論與應用,提出區(qū)別于傳統(tǒng)窄域 AI 和 AGI 的新 AI 發(fā)展路徑。這種 AEI 強調將領域知識與嚴密的科學推理能力相結合,旨在突破「只擅長特定任務」或「泛化無精度」的傳統(tǒng)瓶頸,使 AI 可以像頂級人類專家一樣,運用嚴謹推理來解決復雜科學或工程難題。
創(chuàng)立一年內,據(jù)報道公司已吸引了數(shù)千萬美元投資,并在 AWS 2024 年生成式 AI 加速器項目中入選(獲贈 100 萬美元計算資源),加速自身 AI 基礎設施建設。





































