開啟 AI 自主進化時代,普林斯頓 Alita 顛覆傳統(tǒng)通用智能體,GAIA 榜單引來終章
智能體技術(shù)日益發(fā)展,但現(xiàn)有的許多通用智能體仍然高度依賴于人工預(yù)定義好的工具庫和工作流,這極大限制了其創(chuàng)造力、可擴展性與泛化能力。
近期,普林斯頓大學(xué) AI Lab 推出了 Alita——一個秉持「極簡即是極致復(fù)雜」哲學(xué)的通用智能體,通過「最小化預(yù)定義」與「最大化自我進化」的設(shè)計范式,讓智能體可以自主思考、搜索和創(chuàng)造其所需要的 MCP 工具。
- 論文標(biāo)題:ALITA: GENERALIST AGENT ENABLING SCALABLE AGENTIC REASONING WITH MINIMAL PREDEFINITION AND MAXIMAL SELF-EVOLUTION
- 論文鏈接:https://arxiv.org/abs/2505.20286
- Twitter:https://x.com/JiahaoQiu99/status/1927376487285432790
- GitHub:https://github.com/CharlesQ9/Alita
Alita 目前已在 GAIA validation 基準(zhǔn)測試中取得 75.15% pass@1 和 87.27% pass@3 的成績,一舉超越 OpenAI Deep Research 和 Manus 等知名智能體,成為通用智能體新標(biāo)桿。Alita 在 GAIA test 上也達到了 72.43% pass@1 的成績。
極簡架構(gòu)設(shè)計,最大自我進化
「讓智能體自主創(chuàng)造 MCP 工具而不靠人工預(yù)設(shè)」,是 Alita 的核心設(shè)計理念。
現(xiàn)有的主流智能體系統(tǒng)通常依賴大量人工預(yù)定義的工具和復(fù)雜的工作流,這種方法有三個關(guān)鍵缺陷:
- 覆蓋范圍有限:通用智能體面臨的現(xiàn)實任務(wù)種類繁多,預(yù)先定義好所有可能需要的工具既不可行亦不現(xiàn)實。而且預(yù)定義工具很容易過擬合 GAIA,不具有泛化性。
- 創(chuàng)造力與靈活性受限:任務(wù)的難度可能超出了預(yù)定義工具或工作流的能力范圍。復(fù)雜任務(wù)通常需要智能體創(chuàng)新性地使用新工具,或以新的方式組合和利用現(xiàn)有工具,而預(yù)定義的工具庫和工作流會制約這種創(chuàng)造性和靈活性。
- 適配失配:不同工具的接口或環(huán)境未必與智能體兼容。例如,許多有用的工具并非用 Python 編寫,這使得它們難以(盡管并非不可能)提前預(yù)接到主要以 Python 編寫的主流智能體框架中。
這些挑戰(zhàn)共同限制了現(xiàn)有通用智能體的創(chuàng)造力、可擴展性和泛化能力。
與當(dāng)前日益復(fù)雜的趨勢相反,Alita 團隊認(rèn)為對于通用智能體而言,「simplicity is the ultimate sophistication」。遵循這一原則,Alita 實現(xiàn)了可擴展的動態(tài)能力、增強的創(chuàng)造力與靈活性,以及跨生態(tài)系統(tǒng)的兼容性。Alita 團隊由此提出了兩大設(shè)計范式:
- 最小化預(yù)定義:僅為智能體配備最核心的基礎(chǔ)能力,避免為特定任務(wù)或模態(tài)設(shè)計人工預(yù)定義的組件。
- 最大化自進化:賦予智能體按需自主創(chuàng)建、優(yōu)化和復(fù)用 MCP 工具的能力,實現(xiàn)自我進化。
具體而言,Alita 僅內(nèi)置了管理智能體(Manager Agent)和網(wǎng)頁智能體(Web Agent)作為其核心內(nèi)部組件,以及少量支持自主能力擴展的通用模塊,而不依賴繁雜的預(yù)定義工具庫和固定工作流程。Alita 利用了 Model Context Protocols(MCP) 這一開放協(xié)議,使智能體系統(tǒng)能根據(jù)任務(wù)需求動態(tài)生成、修改和復(fù)用 MCP 工具。相較于一般的工具創(chuàng)建,MCP 創(chuàng)建還具有更好的可復(fù)用性與更簡易的環(huán)境管理等優(yōu)勢。這種從人工設(shè)計工具和工作流到即時構(gòu)建 MCP 工具的轉(zhuǎn)變,為構(gòu)建簡約而通用的智能體開辟了新路徑。
Alita 的執(zhí)行流程:簡潔而高效
整體設(shè)計理念與系統(tǒng)架構(gòu)
Alita 基于「最小預(yù)定義 + 最大自主進化」的設(shè)計范式,其總體結(jié)構(gòu)十分簡單,僅由三個關(guān)鍵組件構(gòu)成:
- Manager Agent:充當(dāng)中央?yún)f(xié)調(diào)器的角色,分析任務(wù)需求,調(diào)度不同模塊和工具,執(zhí)行最終的聚合與回答生成。
- Web Agent:負(fù)責(zé)搜索有用的外部信息,包括開源代碼、文檔等。
- MCP 創(chuàng)建組件:由 MCP Brainstorming、ScriptGeneratingTool、CodeRunningTool 三個模塊組成,能夠進行自我能力評估、腳本生成與代碼執(zhí)行,還能夠動態(tài)生成 MCP 工具并實現(xiàn)自我進化。
在整個流程中,Alita 通過不斷創(chuàng)建、驗證、優(yōu)化新的工具,從而實現(xiàn)持續(xù)演化的智能閉環(huán)。
三大核心能力模塊
- MCP Brainstorming 模塊:分析任務(wù),思考需要什么工具
Alita 的第一步是調(diào)用 MCP Brainstorming 模塊,對輸入任務(wù)進行分析。該模塊會評估當(dāng)前智能體是否已經(jīng)具備完成任務(wù)所需的能力和工具:若已具備能力,就快速調(diào)度相應(yīng)的工具;若能力缺失,則生成「能力缺口描述」和「MCP 工具構(gòu)建建議」,以便后續(xù)創(chuàng)建新的 MCP 工具。
- 腳本生成模塊:實時創(chuàng)建工具
檢測到能力缺口后,Alita 會啟動腳本生成模塊。該模塊根據(jù)管理智能體提供的任務(wù)描述與工具構(gòu)建建議,結(jié)合網(wǎng)頁智能體檢索到的開源資源,生成一套可執(zhí)行的外部 MCP 工具代碼。Alita 生成的 MCP 工具代碼有良好的封裝性與通用性,可直接集成進任務(wù)流程并支持后續(xù)復(fù)用。
- 代碼運行與驗證模塊:確保工具能用,并不斷優(yōu)化
新生成的工具首先會在虛擬環(huán)境中執(zhí)行測試。系統(tǒng)會根據(jù)輸出判斷工具是否符合預(yù)期。如果工具運行成功,它將被正式注冊為可復(fù)用的 MCP 服務(wù),納入任務(wù)調(diào)用體系;若運行失敗,系統(tǒng)則會自動進入診斷與修復(fù)流程,嘗試調(diào)整依賴版本、修改關(guān)鍵參數(shù),甚至在必要時放棄當(dāng)前工具,轉(zhuǎn)向新的解決方案。此外,每次運行過程都會被詳細(xì)記錄,以支持后續(xù)模型學(xué)習(xí)與工具演化,真正實現(xiàn)「自我進化」。
自我工具創(chuàng)建:Alita 的秘密武器
Alita 能夠自主創(chuàng)建并優(yōu)化任務(wù)所需的工具,最后將新的工具打包為 MCP,可以在未來進行復(fù)用,或是給其他智能體系統(tǒng)使用。
例如,用戶的任務(wù)是詢問「這份 PPT 中有多少頁提到了甲殼類動物?」如果預(yù)定義的 PPT 處理工具僅將所有內(nèi)容轉(zhuǎn)換為文本,就可能無法提取頁碼信息并回答問題。但 Alita 會動態(tài)創(chuàng)建一個合適的 PPT 處理工具,并將其封裝為足以解決該任務(wù)的 MCP。
另一個場景是,用戶的任務(wù)涉及 YouTube 視頻理解?,F(xiàn)有的某些通用智能體所預(yù)定義的視頻分析工具僅是一個 YouTube 字幕抓取工具,然而部分視頻理解任務(wù)需要更深入的分析,僅讀取字幕無法徹底解決問題。Alita 能創(chuàng)建逐幀讀取視頻的 MCP 來解決更復(fù)雜的視頻理解任務(wù)——這種任務(wù)特定的 MCP 創(chuàng)建會根據(jù)任務(wù)難度動態(tài)調(diào)整。由于不是視頻理解領(lǐng)域的專家,Alita 團隊無法預(yù)先構(gòu)想此類工具如何實現(xiàn),直到 Alita 自動給出這個解決方案。該視頻理解組件后來還被復(fù)用至團隊的另一項工作《邁向多模態(tài)歷史推理:HistBench與HistAgent》(代碼庫已開源)。
Reference: On Path to Multimodal Historical Reasoning: HistBench and HistAgent
Link:https://arxiv.org/abs/2505.20246
性能突破:GAIA 基準(zhǔn)測試的新標(biāo)桿
GAIA 的終局已至,Alita 正是最終的答案。
在 GAIA 基準(zhǔn)測試中,Alita 展現(xiàn)了卓越的性能表現(xiàn)。GAIA 作為評估通用 AI 助手實際解決問題能力的標(biāo)桿測試,共包含 450 個涵蓋不同難度級別的測試題目。
Alita 在 GAIA Validation 測試中取得了 75.15% 的 pass@1 和 87.27% 的 pass@3 準(zhǔn)確率,暫時位居所有通用智能體的第一位,超越了 OpenAI Deep Research(67.36% 的 pass@1)和 Manus。在數(shù)學(xué)推理測試 Mathvista 和醫(yī)學(xué)圖像識別 PathVQA 測試中,Alita 也分別達到了 74.00% 和 52.00% 的 pass@1 準(zhǔn)確率,優(yōu)于許多裝備復(fù)雜工具庫的智能體系統(tǒng)。
這些結(jié)果也表明,簡約架構(gòu)并非性能限制,反而是激發(fā)智能體創(chuàng)造性行為的關(guān)鍵。通過強調(diào)最小化預(yù)編寫工具和最大化自主進化的設(shè)計哲學(xué),Alita 成功實現(xiàn)了簡潔與性能的統(tǒng)一。
有趣的是,在 Alita 團隊發(fā)推特的第二天,GAIA validation 榜單被移除,Alita 團隊提出,或許是時候邁向 HLE、BrowseComp 和 xbench 了。
MCP 復(fù)用:智能體蒸餾新范式與自我進化
在 Alita 構(gòu)建過程中,系統(tǒng)會動態(tài)生成一系列高質(zhì)量的 MCP,作為解決任務(wù)的中間產(chǎn)物。值得注意的是,這些 MCP 的價值遠(yuǎn)不止于完成一個任務(wù)這么簡單,它們可以在后續(xù)任務(wù)中被 Alita 調(diào)用,顯著提高性能和效率,也能被其他智能體復(fù)用。
具體來說,Alita 生成的 MCP 工具箱具備雙重優(yōu)勢:
其一,智能體蒸餾,自動生成 MCP 的復(fù)用可視為一種全新的智能體蒸餾機制,相比傳統(tǒng)蒸餾方法,其成本更低且更高效。
- 強智能體指導(dǎo)弱智能體:這些 MCP 可由其他較弱智能體復(fù)用,由 Alita(而非人類開發(fā)者)通過試錯設(shè)計出適配特定任務(wù)的 MCP 集,能顯著提升其性能。在不改變底層模型配置的情況下,僅通過引入 Alita 生成的 MCP,Open Deep Research-smolagents 在 GAIA 上的平均準(zhǔn)確率從 27.88% 提升至 33.94%,實現(xiàn)了在所有難度等級上的一致性能提升。
- 基于大模型的智能體指導(dǎo)基于小模型智能體:這些 MCP 同樣可被小模型智能體復(fù)用并顯著提升表現(xiàn)。即便使用算力更小、推理能力更弱的 GPT-4o-mini 模型,Alita 所生成的 MCP 也能顯著提升其性能:準(zhǔn)確率從 21.82% 提升至 29.09%,Level 3 的準(zhǔn)確率更是提升了三倍(3.85% → 11.54%)。
其二,自我進化,使 Pass@1 方法實現(xiàn) Pass@N 效果:MCP 工具箱與 Alita 連接后,可將單次嘗試的通過率提升至近似多次嘗試的水平。
結(jié)語:簡約設(shè)計引領(lǐng)通用智能體未來發(fā)展范式
Alita 的成功證明,在智能體設(shè)計中,簡約性并非功能限制,而是系統(tǒng)演進的驅(qū)動力。當(dāng)傳統(tǒng)方案陷入「工具膨脹,性能停滯」的困境時,Alita 通過動態(tài)協(xié)議機制實現(xiàn)了「架構(gòu)簡化,能力增強」的正向循環(huán)。我們也相信,隨著大語言模型編寫代碼和推理能力的不斷提升,Alita 將會變得更加強大。未來通用 AI 助手的設(shè)計或大幅簡化,無需任何預(yù)定義工具和直接解決問題的工作流。相反,開發(fā)者可能更專注于設(shè)計激發(fā)通用智能體創(chuàng)造力與進化潛能的模塊。
隨著人工智能技術(shù)向通用化方向發(fā)展,這種融合簡約設(shè)計與自主進化特性的范式,必將成為構(gòu)建下一代智能體的關(guān)鍵技術(shù)路徑——既保持核心系統(tǒng)的優(yōu)雅簡潔,又能通過持續(xù)演化獲得近乎無限的擴展能力。