偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="2dw0g"><rp id="2dw0g"></rp></pre>

<big id="2dw0g"><progress id="2dw0g"><thead id="2dw0g"></thead></progress></big>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

開啟 AI 自主進化時代，普林斯頓 Alita 顛覆傳統(tǒng)通用智能體，GAIA 榜單引來終章

2025-06-05 08:46:00

人工智能新聞

近期，普林斯頓大學(xué) AI Lab 推出了?Alita——一個秉持「極簡即是極致復(fù)雜」哲學(xué)的通用智能體，通過「最小化預(yù)定義」與「最大化自我進化」的設(shè)計范式，讓智能體可以自主思考、搜索和創(chuàng)造其所需要的 MCP 工具。

智能體技術(shù)日益發(fā)展，但現(xiàn)有的許多通用智能體仍然高度依賴于人工預(yù)定義好的工具庫和工作流，這極大限制了其創(chuàng)造力、可擴展性與泛化能力。

近期，普林斯頓大學(xué) AI Lab 推出了 Alita——一個秉持「極簡即是極致復(fù)雜」哲學(xué)的通用智能體，通過「最小化預(yù)定義」與「最大化自我進化」的設(shè)計范式，讓智能體可以自主思考、搜索和創(chuàng)造其所需要的 MCP 工具。

論文標(biāo)題：ALITA: GENERALIST AGENT ENABLING SCALABLE AGENTIC REASONING WITH MINIMAL PREDEFINITION AND MAXIMAL SELF-EVOLUTION
論文鏈接：https://arxiv.org/abs/2505.20286
Twitter：https://x.com/JiahaoQiu99/status/1927376487285432790
GitHub：https://github.com/CharlesQ9/Alita

Alita 目前已在 GAIA validation 基準(zhǔn)測試中取得 75.15% pass@1 和 87.27% pass@3 的成績，一舉超越 OpenAI Deep Research 和 Manus 等知名智能體，成為通用智能體新標(biāo)桿。Alita 在 GAIA test 上也達到了 72.43% pass@1 的成績。

極簡架構(gòu)設(shè)計，最大自我進化

「讓智能體自主創(chuàng)造 MCP 工具而不靠人工預(yù)設(shè)」，是 Alita 的核心設(shè)計理念。

現(xiàn)有的主流智能體系統(tǒng)通常依賴大量人工預(yù)定義的工具和復(fù)雜的工作流，這種方法有三個關(guān)鍵缺陷：

覆蓋范圍有限：通用智能體面臨的現(xiàn)實任務(wù)種類繁多，預(yù)先定義好所有可能需要的工具既不可行亦不現(xiàn)實。而且預(yù)定義工具很容易過擬合 GAIA，不具有泛化性。

創(chuàng)造力與靈活性受限：任務(wù)的難度可能超出了預(yù)定義工具或工作流的能力范圍。復(fù)雜任務(wù)通常需要智能體創(chuàng)新性地使用新工具，或以新的方式組合和利用現(xiàn)有工具，而預(yù)定義的工具庫和工作流會制約這種創(chuàng)造性和靈活性。

適配失配：不同工具的接口或環(huán)境未必與智能體兼容。例如，許多有用的工具并非用 Python 編寫，這使得它們難以（盡管并非不可能）提前預(yù)接到主要以 Python 編寫的主流智能體框架中。

這些挑戰(zhàn)共同限制了現(xiàn)有通用智能體的創(chuàng)造力、可擴展性和泛化能力。

與當(dāng)前日益復(fù)雜的趨勢相反，Alita 團隊認(rèn)為對于通用智能體而言，「simplicity is the ultimate sophistication」。遵循這一原則，Alita 實現(xiàn)了可擴展的動態(tài)能力、增強的創(chuàng)造力與靈活性，以及跨生態(tài)系統(tǒng)的兼容性。Alita 團隊由此提出了兩大設(shè)計范式：

最小化預(yù)定義：僅為智能體配備最核心的基礎(chǔ)能力，避免為特定任務(wù)或模態(tài)設(shè)計人工預(yù)定義的組件。
最大化自進化：賦予智能體按需自主創(chuàng)建、優(yōu)化和復(fù)用 MCP 工具的能力，實現(xiàn)自我進化。

具體而言，Alita 僅內(nèi)置了管理智能體（Manager Agent）和網(wǎng)頁智能體（Web Agent）作為其核心內(nèi)部組件，以及少量支持自主能力擴展的通用模塊，而不依賴繁雜的預(yù)定義工具庫和固定工作流程。Alita 利用了 Model Context Protocols（MCP）這一開放協(xié)議，使智能體系統(tǒng)能根據(jù)任務(wù)需求動態(tài)生成、修改和復(fù)用 MCP 工具。相較于一般的工具創(chuàng)建，MCP 創(chuàng)建還具有更好的可復(fù)用性與更簡易的環(huán)境管理等優(yōu)勢。這種從人工設(shè)計工具和工作流到即時構(gòu)建 MCP 工具的轉(zhuǎn)變，為構(gòu)建簡約而通用的智能體開辟了新路徑。

Alita 的執(zhí)行流程：簡潔而高效

整體設(shè)計理念與系統(tǒng)架構(gòu)

Alita 基于「最小預(yù)定義 + 最大自主進化」的設(shè)計范式，其總體結(jié)構(gòu)十分簡單，僅由三個關(guān)鍵組件構(gòu)成：

Manager Agent：充當(dāng)中央?yún)f(xié)調(diào)器的角色，分析任務(wù)需求，調(diào)度不同模塊和工具，執(zhí)行最終的聚合與回答生成。
Web Agent：負(fù)責(zé)搜索有用的外部信息，包括開源代碼、文檔等。
MCP 創(chuàng)建組件：由 MCP Brainstorming、ScriptGeneratingTool、CodeRunningTool 三個模塊組成，能夠進行自我能力評估、腳本生成與代碼執(zhí)行，還能夠動態(tài)生成 MCP 工具并實現(xiàn)自我進化。

在整個流程中，Alita 通過不斷創(chuàng)建、驗證、優(yōu)化新的工具，從而實現(xiàn)持續(xù)演化的智能閉環(huán)。

三大核心能力模塊

MCP Brainstorming 模塊：分析任務(wù)，思考需要什么工具

Alita 的第一步是調(diào)用 MCP Brainstorming 模塊，對輸入任務(wù)進行分析。該模塊會評估當(dāng)前智能體是否已經(jīng)具備完成任務(wù)所需的能力和工具：若已具備能力，就快速調(diào)度相應(yīng)的工具；若能力缺失，則生成「能力缺口描述」和「MCP 工具構(gòu)建建議」，以便后續(xù)創(chuàng)建新的 MCP 工具。

腳本生成模塊：實時創(chuàng)建工具

檢測到能力缺口后，Alita 會啟動腳本生成模塊。該模塊根據(jù)管理智能體提供的任務(wù)描述與工具構(gòu)建建議，結(jié)合網(wǎng)頁智能體檢索到的開源資源，生成一套可執(zhí)行的外部 MCP 工具代碼。Alita 生成的 MCP 工具代碼有良好的封裝性與通用性，可直接集成進任務(wù)流程并支持后續(xù)復(fù)用。

代碼運行與驗證模塊：確保工具能用，并不斷優(yōu)化

新生成的工具首先會在虛擬環(huán)境中執(zhí)行測試。系統(tǒng)會根據(jù)輸出判斷工具是否符合預(yù)期。如果工具運行成功，它將被正式注冊為可復(fù)用的 MCP 服務(wù)，納入任務(wù)調(diào)用體系；若運行失敗，系統(tǒng)則會自動進入診斷與修復(fù)流程，嘗試調(diào)整依賴版本、修改關(guān)鍵參數(shù)，甚至在必要時放棄當(dāng)前工具，轉(zhuǎn)向新的解決方案。此外，每次運行過程都會被詳細(xì)記錄，以支持后續(xù)模型學(xué)習(xí)與工具演化，真正實現(xiàn)「自我進化」。

自我工具創(chuàng)建：Alita 的秘密武器

Alita 能夠自主創(chuàng)建并優(yōu)化任務(wù)所需的工具，最后將新的工具打包為 MCP，可以在未來進行復(fù)用，或是給其他智能體系統(tǒng)使用。

例如，用戶的任務(wù)是詢問「這份 PPT 中有多少頁提到了甲殼類動物？」如果預(yù)定義的 PPT 處理工具僅將所有內(nèi)容轉(zhuǎn)換為文本，就可能無法提取頁碼信息并回答問題。但 Alita 會動態(tài)創(chuàng)建一個合適的 PPT 處理工具，并將其封裝為足以解決該任務(wù)的 MCP。

另一個場景是，用戶的任務(wù)涉及 YouTube 視頻理解?，F(xiàn)有的某些通用智能體所預(yù)定義的視頻分析工具僅是一個 YouTube 字幕抓取工具，然而部分視頻理解任務(wù)需要更深入的分析，僅讀取字幕無法徹底解決問題。Alita 能創(chuàng)建逐幀讀取視頻的 MCP 來解決更復(fù)雜的視頻理解任務(wù)——這種任務(wù)特定的 MCP 創(chuàng)建會根據(jù)任務(wù)難度動態(tài)調(diào)整。由于不是視頻理解領(lǐng)域的專家，Alita 團隊無法預(yù)先構(gòu)想此類工具如何實現(xiàn)，直到 Alita 自動給出這個解決方案。該視頻理解組件后來還被復(fù)用至團隊的另一項工作《邁向多模態(tài)歷史推理：HistBench與HistAgent》（代碼庫已開源）。

Reference: On Path to Multimodal Historical Reasoning: HistBench and HistAgent

Link:https://arxiv.org/abs/2505.20246

性能突破：GAIA 基準(zhǔn)測試的新標(biāo)桿

GAIA 的終局已至，Alita 正是最終的答案。

在 GAIA 基準(zhǔn)測試中，Alita 展現(xiàn)了卓越的性能表現(xiàn)。GAIA 作為評估通用 AI 助手實際解決問題能力的標(biāo)桿測試，共包含 450 個涵蓋不同難度級別的測試題目。

Alita 在 GAIA Validation 測試中取得了 75.15% 的 pass@1 和 87.27% 的 pass@3 準(zhǔn)確率，暫時位居所有通用智能體的第一位，超越了 OpenAI Deep Research（67.36% 的 pass@1）和 Manus。在數(shù)學(xué)推理測試 Mathvista 和醫(yī)學(xué)圖像識別 PathVQA 測試中，Alita 也分別達到了 74.00% 和 52.00% 的 pass@1 準(zhǔn)確率，優(yōu)于許多裝備復(fù)雜工具庫的智能體系統(tǒng)。

這些結(jié)果也表明，簡約架構(gòu)并非性能限制，反而是激發(fā)智能體創(chuàng)造性行為的關(guān)鍵。通過強調(diào)最小化預(yù)編寫工具和最大化自主進化的設(shè)計哲學(xué)，Alita 成功實現(xiàn)了簡潔與性能的統(tǒng)一。

有趣的是，在 Alita 團隊發(fā)推特的第二天，GAIA validation 榜單被移除，Alita 團隊提出，或許是時候邁向 HLE、BrowseComp 和 xbench 了。

MCP 復(fù)用：智能體蒸餾新范式與自我進化

在 Alita 構(gòu)建過程中，系統(tǒng)會動態(tài)生成一系列高質(zhì)量的 MCP，作為解決任務(wù)的中間產(chǎn)物。值得注意的是，這些 MCP 的價值遠(yuǎn)不止于完成一個任務(wù)這么簡單，它們可以在后續(xù)任務(wù)中被 Alita 調(diào)用，顯著提高性能和效率，也能被其他智能體復(fù)用。

具體來說，Alita 生成的 MCP 工具箱具備雙重優(yōu)勢：

其一，智能體蒸餾，自動生成 MCP 的復(fù)用可視為一種全新的智能體蒸餾機制，相比傳統(tǒng)蒸餾方法，其成本更低且更高效。

強智能體指導(dǎo)弱智能體：這些 MCP 可由其他較弱智能體復(fù)用，由 Alita（而非人類開發(fā)者）通過試錯設(shè)計出適配特定任務(wù)的 MCP 集，能顯著提升其性能。在不改變底層模型配置的情況下，僅通過引入 Alita 生成的 MCP，Open Deep Research-smolagents 在 GAIA 上的平均準(zhǔn)確率從 27.88% 提升至 33.94%，實現(xiàn)了在所有難度等級上的一致性能提升。

基于大模型的智能體指導(dǎo)基于小模型智能體：這些 MCP 同樣可被小模型智能體復(fù)用并顯著提升表現(xiàn)。即便使用算力更小、推理能力更弱的 GPT-4o-mini 模型，Alita 所生成的 MCP 也能顯著提升其性能：準(zhǔn)確率從 21.82% 提升至 29.09%，Level 3 的準(zhǔn)確率更是提升了三倍（3.85% → 11.54%）。

其二，自我進化，使 Pass@1 方法實現(xiàn) Pass@N 效果：MCP 工具箱與 Alita 連接后，可將單次嘗試的通過率提升至近似多次嘗試的水平。

結(jié)語：簡約設(shè)計引領(lǐng)通用智能體未來發(fā)展范式

Alita 的成功證明，在智能體設(shè)計中，簡約性并非功能限制，而是系統(tǒng)演進的驅(qū)動力。當(dāng)傳統(tǒng)方案陷入「工具膨脹，性能停滯」的困境時，Alita 通過動態(tài)協(xié)議機制實現(xiàn)了「架構(gòu)簡化，能力增強」的正向循環(huán)。我們也相信，隨著大語言模型編寫代碼和推理能力的不斷提升，Alita 將會變得更加強大。未來通用 AI 助手的設(shè)計或大幅簡化，無需任何預(yù)定義工具和直接解決問題的工作流。相反，開發(fā)者可能更專注于設(shè)計激發(fā)通用智能體創(chuàng)造力與進化潛能的模塊。

隨著人工智能技術(shù)向通用化方向發(fā)展，這種融合簡約設(shè)計與自主進化特性的范式，必將成為構(gòu)建下一代智能體的關(guān)鍵技術(shù)路徑——既保持核心系統(tǒng)的優(yōu)雅簡潔，又能通過持續(xù)演化獲得近乎無限的擴展能力。

責(zé)任編輯：張燕妮來源：機器之心

智能體 AI 模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<abbr id="1rhuc"><menu id="1rhuc"></menu></abbr>