偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

六小時復刻AI IMO金牌成果,螞蟻多智能體新進展已開源

人工智能 新聞
AWorld的復現(xiàn)實驗,拋出了一個激進結論:當前多智能體系統(tǒng)的數(shù)學能力,已超越99%人類選手(雖然測試集有限)。

2025年的IMO,好戲不斷。

7月19日,全世界頂尖大模型在2025年的IMO賽場上幾乎全軍覆沒。時隔1天,OpenAI、DeepMind等頂尖實驗室就在IMO 2025賽場斬獲5/6題,震驚數(shù)學圈。

有意思的是,7月23日——兩位來自Harvard和UCLA的學生,用Gemini 2.5 Pro+自研多輪驗證框架,在arXiv扔下一篇論文,首次系統(tǒng)性拆解了「解題+驗證」的IMO解題方法論。48小時后,他們開源了完整代碼。

來自螞蟻的多智能體框架AWorld項目團隊也加入了這場卷王之爭:

7月24日啟動,僅僅6小時,采用AWorld智能體框架,復現(xiàn)并開源了DeepMind的5/6道解題結果,并直接給出了可一鍵運行的多智能體IMO系統(tǒng)。

圖片

果然,大家好奇的點還是跟傳統(tǒng)長思維鏈LangChain等框架有什么不一樣。作者給出的回復,核心就是一個詞,自我進化。即,多智能體能夠超越單個智能體,能夠用于復雜問題協(xié)同,以及強化學習的獎勵模型等,最終實現(xiàn)AGI。

圖片

IMO 2025,把復雜推理模型推向了一種新的高度(盡管還處在實驗室階段,但DeepMind透露會對外)。

不過,能解IMO級別數(shù)學題的超級單智能體實屬稀有。AWorld的實驗也首次用工程系統(tǒng)證明:多智能體協(xié)同的智力上限,有可能超越其依賴的單個模型。

單模的「不可能三角」:為什么必須上多智能體?

單個裸模型,包括Gemini 2.5 pro,幾乎無法一次推理答對IMO賽題:level 1的第1,第4題在小概率下一次推理能答對(背景:IMO包括六道競賽題目,分為兩天進行,參賽者每天需完成3道題目,因此第一題難度相對較低),但是其余4題,一定需要多智能體協(xié)同才能完成,這揭露了一個殘酷現(xiàn)實:IMO級問題=單模的不可達之地。

AWorld的實測數(shù)據(jù)更扎心:

  • 單模嘗試第3題:連續(xù)10次推理全部失敗。
  • 多智能體協(xié)同:通過「解題者+驗證者」雙角色對話,第3題在第5輪迭代就生成了完整的解答。
  • “多智能體協(xié)同的智力上限,有可能超越其依賴的單個模型”的本質是什么呢?

為此,AWorld團隊嘗試提出了幾種解釋視角:

構建最優(yōu)輸入:從“好問題”到“完美上下文”

多智能體協(xié)同的核心優(yōu)勢在于它能動態(tài)地構造出一個遠超初始提問的、高質量的輸入信息。

基本原理(y = f(x)):我們可以將大模型視為一個固定的函數(shù)f,其輸出y的質量完全取決于輸入x的質量。

初始輸入的局限:對于如IMO競賽題這類復雜任務,最初的提問(x_0)信息稀疏,缺乏足夠的引導“腳手架”。這使得模型難以在其龐大的能力空間中,僅憑一次嘗試就找到通往正確答案的路徑。

協(xié)同的價值:多智能體系統(tǒng)并非提升模型f本身,而是設計了一個“智能流程”:通過生成和整合中間思想(如解題草稿、批判性反饋、改進建議),共同構建出一個信息極其豐富的“超級上下文”。這最終解鎖了模型早已具備、但通過簡單提問難以觸達的深層能力。

實現(xiàn)“元認知”:為系統(tǒng)外掛一個“反思模塊”

元認知,即“關于思考的思考”,是高級智能的核心標志。它包括自我監(jiān)控、自我評估和自我修正的能力。單個LLM本身不具備真正的元認知,但可以通過角色定義(Role-Play)來執(zhí)行元認知功能。

它不解決問題,而是評估解決方案的合理性、尋找邏輯漏洞、提出改進建議,從而避免了單模型容易陷入的思維定式和錯誤。

通過交互降低“信息熵”(Reducing Information Entropy)

一個復雜的IMO問題,其解空間的不確定性(信息熵)非常高。每一次有效的多智能體交互都在為系統(tǒng)提供新的約束,從而降低這種不確定性。

例如,審閱者指出“你的第一步假設A是無證據(jù)的”,這個反饋極大地減少了后續(xù)需要探索的可能性,使計算資源能更集中地探索更有希望的路徑,從而顯著提升了求解的效率和準確性。

綜上,多智能體協(xié)同的優(yōu)越性源于其智能化的流程,而非個體能力的提升。該流程通過協(xié)作分解與迭代修正,能有效解鎖基礎模型的深層潛力,最終涌現(xiàn)出超越個體能力之和的系統(tǒng)級智能。

AWorld的「六小時魔法」:把論文變成可運行系統(tǒng)

面對地獄級難度的IMO,相比模型頂流拿下成績秀肌肉,能夠復現(xiàn)的解題過程可能更加有利于技術的演進,所以我們更希望看到有一些開源的工作。AWorld的復現(xiàn)方式,提供了一些思路:

  • 核心結構:采用了”做題家”和”驗證者”的雙智能體對話機制,兩者均依賴于相同的基礎模型(如Gemini 2.5 pro)來構建。其中,做題家負責生成數(shù)學解答,驗證者扮演IMO考官角色進行嚴格驗證,兩者通過多輪對話迭代優(yōu)化解答質量。
  • 核心要素:設計了完整的對話循環(huán)機制,包括自動檢測終止條件、最終答案、記錄完整對話歷史,以及基于驗證者反饋的解答重構策略,有效挖掘了基礎模型的潛在能力。
  • 身份設定與上下文工程:做題家采用嚴格的數(shù)學證明格式要求,驗證者則具備詳細的錯誤分類體系和標準化的驗證流程,這種專業(yè)化的角色分工顯著提升了問題解決的質量和準確性。

目前,AWorld在著名的GAIA Test榜單(即通過增加工具支持、更高效的提示、接入搜索等手段獲得增強能力的新一代大語言模型的基準)上達到了77.08分,在所有署名的智能體中排名第三,在所有開源工作中排名第一。

為多智能體協(xié)同而生

作為一個為構建生產級、可擴展多智能體系統(tǒng)而設計的下一代框架,AWorld核心優(yōu)勢是采用事件驅動的群體智能架構,徹底超越了傳統(tǒng)LangChain等框架的局限。

智能體之間通過事件總線進行異步通信與協(xié)作,而非簡單的順序調用。這使得復雜的實時交互成為可能。

強大的工具與模型生態(tài)

  • 模型即插即用:通過統(tǒng)一接口,可在30秒內輕松切換OpenAI、Gemini、Claude等任意大語言模型,方便對比測試與成本優(yōu)化。
  • MCP協(xié)議支持:將MCP作為核心能力,允許智能體將其他模型或智能體作為工具調用,極大拓展了能力邊界。所有工具均在安全沙箱中執(zhí)行,保障企業(yè)級安全。

生產級的穩(wěn)健性與可觀測性

  • 全鏈路可觀測性:提供覆蓋智能體決策、工具調用全過程的追蹤、指標與日志,讓復雜的系統(tǒng)行為清晰透明,易于調試。
  • 精密的上下文與內存管理:支持長短期記憶和復雜編排,確保智能體在執(zhí)行長周期任務時能保持狀態(tài)、不“失憶”。

支持模型持續(xù)進化的學習閉環(huán)

  • 開放訓練接口:AWorld不僅是執(zhí)行框架,更是進化平臺。它提供開放接口,可與主流訓練框架結合,利用智能體在真實任務中產生的交互數(shù)據(jù)對底層模型進行訓練。
  • 實現(xiàn)智能體自我進化:通過“數(shù)據(jù)-訓練-部署”的閉環(huán),讓智能體在特定領域變得越來越“聰明”,構建真正的專家智能體系統(tǒng)。

如何體驗「IMO級多智能體」?

3步運行(詳見README.md):

  • 一鍵準備環(huán)境

進入項目目錄AWorld/examples/imo,然后直接運行腳本./setup_env.sh。自動創(chuàng)建獨立的Conda環(huán)境并安裝所有必需的依賴。

  • 配置API密鑰

復制模板文件cp.env_template.env,然后編輯新生成的.env文件,填入你自己的大模型API密鑰(LLM_API_KEY)、模型名稱(LLM_MODEL_NAME)和接口地址(LLM_BASE_URL)。

  • 激活環(huán)境并運行

首先激活環(huán)境,然后執(zhí)行主程序來解決指定的數(shù)學問題,例如運行python run.py —q imo4來解決IMO2025第4題。

寫在最后:IMO只是開始

AWorld的復現(xiàn)實驗,拋出了一個激進結論:當前多智能體系統(tǒng)的數(shù)學能力,已超越99%人類選手(雖然測試集有限)。

當單模在IMO折戟時,多智能體系統(tǒng)已經(jīng)證明:AI的智能上限,可能不只在于模型有多大,更在于我們如何組織它們工作。

多智能體協(xié)作,可能是一條通往更高群體智能的有效路徑。更震撼的是未來潛力:這套系統(tǒng)正在作為reward model訓練下一代模型——用多智能體生成的「高階推理軌跡」作為訓練數(shù)據(jù),相當于讓模型從IMO金牌選手的草稿紙里學習。

下一站,AWorld團隊透露正在測試「多智能體+形式化驗證」組合,目標直指Lean4形式化證明。

IMO 2026,可能將是人類最后一次有機會戰(zhàn)勝AI的數(shù)學競賽。

Gemini 2.5 Pro+:論文地址:https://arxiv.org/pdf/2507.15855

AWorld:GitHub:https://github.com/inclusionAI/AWorld

責任編輯:張燕妮 來源: 量子位
相關推薦

2021-10-12 11:47:35

Facebook宕機WhatsApp

2012-12-19 11:10:54

2022-02-18 09:53:17

AI芯片設計

2019-05-07 14:28:34

工具性能數(shù)據(jù)

2023-01-26 00:15:05

AI百萬瀏覽量

2023-07-17 10:21:25

TC39JavaScript

2017-02-22 18:15:31

AI谷歌

2019-11-15 10:11:03

人工智能埃博拉技術

2024-09-13 09:18:49

2009-09-25 09:27:33

Ubuntu 2010最新進展Lucid Lynx

2022-10-25 14:01:46

AI游戲

2013-02-27 16:28:27

思科軟硬件一體化Intucell

2012-11-19 10:50:39

思杰CloudStack開源

2012-11-19 10:37:57

思杰OpenStack

2015-11-12 09:27:13

C++最新進展

2023-08-15 14:35:48

2021-09-14 10:03:35

RustLinux開發(fā)工作

2020-07-02 16:00:53

?Flutter桌面應用代碼

2017-02-17 13:38:40

點贊
收藏

51CTO技術棧公眾號