偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

陶哲軒回應(yīng)OpenAI新模型IMO奪金！GPT-5測試版也曝光了

2025-07-21 09:00:00

人工智能新聞

IMO被公認為全球最頂尖的數(shù)學(xué)競賽，每年只有不到8%的參賽者能夠獲得金牌。而現(xiàn)在，一個AI模型做到了。

OpenAI最新模型曝光了，在2025年國際數(shù)學(xué)奧林匹克競賽（IMO）上達到了金牌水平！

IMO被公認為全球最頂尖的數(shù)學(xué)競賽，每年只有不到8%的參賽者能夠獲得金牌。而現(xiàn)在，一個AI模型做到了。

新模型最終成績：新模型在總共6道題中成功解決了5道，獲得35分（滿分42分），超過了今年的金牌線。

OpenAI員工Alexander Wei還透露，GPT-5即將發(fā)布，但IMO金牌模型是一個實驗性研究，在幾個月內(nèi)都沒有計劃發(fā)布。

他特別強調(diào)，這次成功并非依靠針對特定任務(wù)的狹隘方法，而是在通用強化學(xué)習(xí)和測試時計算擴展方面取得了新突破。

與此同時，第三方機構(gòu)的開源代碼中被發(fā)現(xiàn)GPT-5-reasoning-alpha-2025-07-13的字樣。

這段代碼被挖出來后很快就被刪除或隱藏，結(jié)合OpenAI在新模型發(fā)布前會找第三方機構(gòu)進行安全測試的慣例——

種種跡象表明，GPT-5離我們不遠了。

35分斬獲金牌，解題過程完全模擬人類考試

具體來看OpenAI的實驗性新模型，這次評測可不是隨便做個題那么簡單。

OpenAI團隊讓模型在與人類選手完全相同的條件下參加考試：兩場各4.5小時的考試，不能使用任何工具或聯(lián)網(wǎng)，只能閱讀官方題目陳述，然后用自然語言寫出證明過程。

最終成績出來了：模型在6道題中成功解決了5道，獲得35分（滿分42分），穩(wěn)穩(wěn)超過了今年的金牌線。

今年IMO的金牌分數(shù)線正好是35分，這個成績放在人類選手中也是妥妥的金牌水平。今年約600名參賽者中，只有5人拿到了滿分。

更讓人印象深刻的是評分過程的嚴謹性。每道題的解答都由三位前IMO獎牌獲得者獨立評分，只有在三人達成一致意見后才確定最終分數(shù)。

這次突破的意義不止于成績，正如研究團隊所說，IMO問題需要的是一種全新水平的持續(xù)創(chuàng)造性思維。

從推理時間跨度來看，AI的進步速度簡直讓人瞠目結(jié)舌：從GSM8K（頂尖人類約需0.1分鐘）到MATH基準測試（約1分鐘），再到AIME（約10分鐘），現(xiàn)在終于攻克了IMO（約100分鐘）這個需要長時間深度思考的難題。

更重要的是，IMO的答案是難以驗證的多頁證明，這與之前那些有明確正確答案的數(shù)學(xué)題完全不同。OpenAI團隊表示，他們突破了傳統(tǒng)強化學(xué)習(xí)中依賴明確可驗證獎勵的范式，創(chuàng)造出了能夠像人類數(shù)學(xué)家一樣構(gòu)建精巧論證的模型。

唯一沒能攻克的是第六題——這道被參賽者稱為“最終Boss”的組合數(shù)學(xué)難題：

有一個2025×2025的單位正方形網(wǎng)格。瑪?shù)贍栠_希望在網(wǎng)格上放置一些矩形塊，這些塊的大小可能不同，使得每個塊的每一條邊都位于網(wǎng)格線上，并且每個單位正方形最多被一個塊覆蓋。求瑪?shù)贍栠_需要放置的最小塊數(shù)，使得網(wǎng)格的每一行和每一列都恰好有一個單位正方形未被任何塊覆蓋。

去年IMO題目中，谷歌用Alphaproof和AlphaGeometry完成了四道題，未完成的兩道也屬于組合數(shù)學(xué)。

不過這一次，DeepMind研究員Archit Sharma在OpenAI宣布后回復(fù)：“恭喜！搶在我們前面宣布了——第6題是新的基準了嗎？”

但這條推文很快就被刪除了。

這個小插曲引發(fā)了網(wǎng)友們的各種猜測：莫非Google的模型也達到了類似水平。

如果感興趣的話，還可以進一步查看OpenAI公開的AI解題過程，鏈接在文末獲取。

引發(fā)圈內(nèi)熱議，陶哲軒發(fā)表長評

OpenAI模型斬獲IMO金牌的消息一出，AI圈炸開了鍋。不過，在一片贊嘆聲中，也出現(xiàn)了一些不同的聲音。

其中最受關(guān)注的，當(dāng)屬數(shù)學(xué)界頂尖學(xué)者陶哲軒的表態(tài)，他在社交媒體上針對此事發(fā)表了長篇評論。

陶哲軒指出，雖然多家AI公司都聲稱在IMO題目上取得了好成績，但由于缺乏統(tǒng)一的測試環(huán)境和標準，很難進行公平比較。

人們很容易將當(dāng)前AI的能力視為一個單一的量化指標——要么能搞定某件事，要么就完全不行。但其實不是這樣，AI到底有多厲害，這得看給它多少資源、多少輔助手段以及不同的結(jié)果呈現(xiàn)方式，種種因素影響下，AI能力能差出好幾個量級。

他特別強調(diào)：“在沒有預(yù)先公布方法論的情況下，不會對任何自我報告的AI競賽表現(xiàn)發(fā)表評論。”

陶哲軒用生動的比喻列舉了多項AI可能采取的措施：

給學(xué)生幾天時間來完成每道題，而非用四個半小時解答三道題。（稍微延伸一下：給學(xué)生的時間仍只有四個半小時，但領(lǐng)隊將他們放入某種昂貴且耗能巨大的時間加速裝置，在這段時間里，學(xué)生們會經(jīng)歷數(shù)月甚至數(shù)年的時光。）

考試開始前，領(lǐng)隊將題目改寫成學(xué)生更易理解的形式。

領(lǐng)隊讓學(xué)生可以無限制使用計算器、計算機代數(shù)軟件、形式化證明輔助工具、教科書，或者擁有上網(wǎng)搜索的權(quán)限

領(lǐng)隊讓6名學(xué)生組成的團隊共同攻關(guān)同一道題，就各自的部分進展和遇到的瓶頸進行交流。

領(lǐng)隊給學(xué)生提示可行的解題方向，若發(fā)現(xiàn)有學(xué)生在明知不太可能成功的方向上耗費過多時間，便會進行干預(yù)。

團隊的6名學(xué)生都提交了解答，但領(lǐng)隊只挑選出“最佳”解答提交給競賽，其余的則棄之不用。

若團隊中沒有任何一名學(xué)生得出令人滿意的解答，領(lǐng)隊就完全不提交任何解答，悄無聲息地退出競賽，且無人知曉他們曾參與過。

而這些措施均改變了競賽形式從而影響題目難度。

與此同時，數(shù)學(xué)競賽評測平臺MathArena發(fā)布了獨立評測結(jié)果。

在他們的測試中，即使是表現(xiàn)最好的Gemini 2.5 Pro也只獲得了13分（31%），遠低于銅牌線19分。

測試使用了best-of-32的選擇策略，即對于每個模型的解答，首先生成32份回應(yīng)，隨后借助“大語言模型評審系統(tǒng)”對這些回應(yīng)進行評估，兩兩比對選出更優(yōu)答案。

每份最終的模型答案生成成本至少為3美元，其中Grok-4模型每份答案的成本超過20美元，但即便如此，仍然沒有任何模型能達到獲獎牌的水平。

MathArena團隊也同步更新了OpenAI宣布實驗?zāi)Ｐ湍玫絀MO金牌的消息：

無法驗證這些結(jié)果是如何實現(xiàn)，期待該模型的發(fā)布以及使用MathArena基準進行獨立評估。

雖然OpenAI模型拿金牌的方法論未公開，但也有不少網(wǎng)友表示，不看過程，結(jié)果同樣具有意義。

OpenAI團隊對自己的成果充滿信心。

參與此項目的研究員Alexander Wei回憶說：“2021年，我的博士導(dǎo)師讓我預(yù)測2025年7月AI在數(shù)學(xué)上的進展，我當(dāng)時預(yù)測MATH基準測試能達到30%（還覺得其他人都太樂觀了）。結(jié)果現(xiàn)在我們拿到了IMO金牌。”

OpenAI新模型解題過程：
https://github.com/aw31/openai-imo-2025-proofs/

責(zé)任編輯：張燕妮來源：量子位

AI 模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<thead id="vis85"></thead>

<style id="vis85"></style>

<s id="vis85"></s>

<center id="vis85"></center>