卷瘋了!2.2k Star通用型、開源Agent平替Manus、GenSpark AI
2025 年是 Agent 之年。AI 能力現(xiàn)在已經(jīng)在多個(gè)領(lǐng)域達(dá)到了人類水平,我們都將擁有觸手可及的代理團(tuán)隊(duì),在我們的個(gè)人生活、工作及其他方面幫助我們。
隨著代理群的到來,通過 MCP、A2A 和其他協(xié)議連接起來,我們認(rèn)為這些協(xié)議的核心必須具有堅(jiān)實(shí)、開放、透明和可審計(jì)的基礎(chǔ)。對于真正重要的事情尤其如此——管理我們的健康、教育我們的孩子、協(xié)調(diào)我們的財(cái)務(wù)系統(tǒng)等等。這些可以集成專有和專家系統(tǒng),以兩全其美。
今天分享的 II-Agent,不僅在可用代理的基準(zhǔn)中名列前茅,而且是完全開源的。 并且正在構(gòu)建的更廣泛的智能互聯(lián)網(wǎng)系統(tǒng)的一個(gè)組成部分:數(shù)據(jù)集、模型、代理、集群和系統(tǒng),這些系統(tǒng)將完全開放,以應(yīng)對每個(gè)受監(jiān)管的行業(yè),并實(shí)現(xiàn)最大程度的采用和調(diào)整。
Agent爆發(fā)
自主 AI 代理的興起標(biāo)志著我們與技術(shù)交互方式的重大飛躍——從被動(dòng)工具轉(zhuǎn)變?yōu)槟軌颡?dú)立執(zhí)行復(fù)雜任務(wù)的智能系統(tǒng)。其中最突出的開發(fā)成果是 Manus 和 GenSpark AI,這兩個(gè)尖端的閉源代理就是這種演變的例證:
Manus 于 2025 年 3 月正式推出。Manus 旨在自主橋接人類意圖和任務(wù)執(zhí)行,能夠獨(dú)立處理各個(gè)領(lǐng)域的復(fù)雜活動(dòng),包括數(shù)據(jù)分析、內(nèi)容創(chuàng)建、編碼和個(gè)人協(xié)助。借助多模式功能,它可以無縫處理和生成文本、圖像和代碼,并與瀏覽器、代碼編輯器和數(shù)據(jù)庫等工具順利集成,以執(zhí)行實(shí)時(shí)任務(wù)和工作流程自動(dòng)化。Manus 通過用戶互動(dòng)不斷適應(yīng),改進(jìn)其方法以提供越來越個(gè)性化的結(jié)果。它在 GAIA 基準(zhǔn)測試中取得了顯著的表現(xiàn),得分約為 65%,并在首次發(fā)布時(shí)聲稱是最先進(jìn)的。它有效地應(yīng)用于商業(yè)分析、教育內(nèi)容生成、創(chuàng)意媒體和個(gè)人組織。
GenSpark AI 是一種創(chuàng)新的 AI 代理引擎,它通過采用多代理框架來生成針對用戶查詢量身定制的自定義實(shí)時(shí)“Sparkpages”,從而重新構(gòu)想傳統(tǒng)搜索。該系統(tǒng)中的每個(gè) AI 代理都專注于不同類型的信息,為創(chuàng)建全面、公正的內(nèi)容提供獨(dú)特的見解。與將用戶引導(dǎo)至現(xiàn)有網(wǎng)頁的傳統(tǒng)搜索引擎不同,GenSpark 綜合來自各種知名來源的信息,提供不受商業(yè)影響或 SEO 驅(qū)動(dòng)內(nèi)容的綜合結(jié)果。這些 Sparkpages 配備了 AI 副駕駛,可促進(jìn)動(dòng)態(tài)用戶交互和對主題的更深入探索。通過最大限度地減少瀏覽多個(gè)鏈接和廣告的需求,GenSpark 提供了更清晰、信息更豐富、更高效的數(shù)字體驗(yàn),徹底改變了用戶在線訪問信息并與之交互的方式。
II-Agent,是一款通用的智能助手,旨在簡化和增強(qiáng)跨多個(gè)領(lǐng)域的工作流程。以下是其核心功能的概述,包括與 Manus 和 GenSpark 提供的功能和性能相當(dāng)?shù)墓δ芎托阅埽?/p>
核心能力
II-Agent 是一款多功能的開源助手,旨在提高跨領(lǐng)域的工作效率。從研究和內(nèi)容創(chuàng)建到數(shù)據(jù)分析、編碼、自動(dòng)化和問題解決,它通過智能、結(jié)構(gòu)化的支持來適應(yīng)您的需求。深入了解更智能的工作流程,并幫助塑造開放、通用的 AI 的未來。
主要功能 | II-Agent 能做什么 |
研究與事實(shí)核查 | 多步驟 Web 搜索、源三角測量、結(jié)構(gòu)化筆記記錄、快速摘要 |
內(nèi)容生成 | 博客和文章草稿,課程計(jì)劃,創(chuàng)意散文,技術(shù)手冊,網(wǎng)站創(chuàng)作 |
數(shù)據(jù)分析與可視化 | 清理、統(tǒng)計(jì)、趨勢檢測、圖表和自動(dòng)報(bào)告生成 |
軟件開發(fā) | 跨多種語言的代碼合成、重構(gòu)、調(diào)試、測試編寫和分步教程 |
工作流程自動(dòng)化 | 腳本生成、瀏覽器自動(dòng)化、文件管理、流程優(yōu)化 |
解決問題 | 分解、替代路徑探索、逐步指導(dǎo)、故障排除 |
輸出示例:
方法
II-Agent 系統(tǒng)代表了一種構(gòu)建多功能 AI 代理的復(fù)雜方法,能夠處理各種任務(wù),從深入研究和數(shù)據(jù)分析到軟件開發(fā)和交互式內(nèi)容生成。我們的方法以強(qiáng)大的函數(shù)調(diào)用范式為中心,由強(qiáng)大的大型語言模型 (LLM) 驅(qū)動(dòng),并得到高級規(guī)劃、綜合執(zhí)行能力和智能上下文管理的支持。這種設(shè)計(jì)理念受到該領(lǐng)域觀察到的成功策略的啟發(fā),例如使用強(qiáng)推理模型(如 Anthropic 的 Claude 3.7 Sonnet)來完成復(fù)雜的編碼任務(wù) [3]。
1. 核心代理架構(gòu)和 LLM 交互
II-Agent 的作核心是一個(gè)中央推理和編排組件,它與基礎(chǔ) LLM(特別是 Anthropic 的 Claude 3.7 Sonnet)直接且最佳地連接。代理的作周期是迭代的,并遵循以下幾個(gè)關(guān)鍵原則:
- 系統(tǒng)提示:每個(gè)交互周期都從 LLM 收到全面的系統(tǒng)提示開始。此提示是根據(jù)當(dāng)前作上下文動(dòng)態(tài)定制的,包括有關(guān)代理工作區(qū)、底層作系統(tǒng)和臨時(shí)數(shù)據(jù)(例如,當(dāng)前日期)的信息。至關(guān)重要的是,它定義了代理的角色、其可用功能庫、工具參與的明確規(guī)則(包括 Web 瀏覽、shell 命令執(zhí)行、文件系統(tǒng)作和軟件開發(fā))、首選語言風(fēng)格、內(nèi)容生成指南、錯(cuò)誤恢復(fù)協(xié)議以及其沙盒執(zhí)行環(huán)境的詳細(xì)信息。
- 交互歷史管理:整個(gè)對話的時(shí)間順序記錄被精心維護(hù)。這包括用戶提供的指令、代理的文本響應(yīng)、代理調(diào)用的任何功能(工具)以及執(zhí)行這些功能時(shí)觀察到的結(jié)果。這段歷史構(gòu)成了 LLM 后續(xù)推理的主要背景基礎(chǔ)。
- 智能上下文管理:專用的上下文管理系統(tǒng)在每次調(diào)用 LLM 之前分析交互歷史記錄。該系統(tǒng)估計(jì)當(dāng)前對話的令牌占用情況,并在預(yù)定義的令牌預(yù)算(例如 120,000 個(gè)令牌)面臨超出的風(fēng)險(xiǎn)時(shí)戰(zhàn)略性地應(yīng)用截?cái)嗉夹g(shù)。這些技術(shù)旨在濃縮或總結(jié)對話的舊部分,同時(shí)優(yōu)先考慮完全保留最新和相關(guān)的交流。
- LLM 調(diào)用和能力選擇:LLM 通過此精選的對話上下文、總體系統(tǒng)提示以及當(dāng)前可用功能或“工具”的動(dòng)態(tài)更新清單來調(diào)用。
- 響應(yīng)解釋和工具執(zhí)行:LLM 的輸出可以表現(xiàn)為對用戶的直接文本響應(yīng),或者更常見的是,表現(xiàn)為使用一個(gè)或多個(gè)可用功能的指令。我們當(dāng)前的框架側(cè)重于在每個(gè)推理周期處理單個(gè)功能調(diào)用,以確保有條不紊地執(zhí)行。調(diào)用技能時(shí),代理會(huì)識(shí)別并執(zhí)行負(fù)責(zé)該作的相應(yīng)內(nèi)部模塊。然后,此執(zhí)行的結(jié)果被系統(tǒng)地記錄回交互歷史記錄中,為下一個(gè)周期提供信息。
- 迭代細(xì)化和任務(wù)完成:這個(gè)推理、能力選擇、執(zhí)行和觀察的循環(huán)迭代繼續(xù)。當(dāng)代理確定任務(wù)已完成(通常通過調(diào)用特定的“完成”功能發(fā)出信號(hào))、達(dá)到最大輪次數(shù)或收到外部中斷時(shí),該過程將結(jié)束。
2. 規(guī)劃與反思:結(jié)構(gòu)化推理能力
II-Agent 高級問題解決能力的一個(gè)關(guān)鍵要素是其用于結(jié)構(gòu)化規(guī)劃和反思推理的專用機(jī)制。這種能力在概念上與 Anthropic 的 “think” 工具一致,該工具主張?jiān)趶?fù)雜的工具使用場景中為元認(rèn)知提供離散空間 [4]。這種顯式的規(guī)劃模塊也被認(rèn)為在軟件工程等任務(wù)的高性能代理架構(gòu)中至關(guān)重要 [3]。
這種結(jié)構(gòu)化推理功能使代理能夠:
- 將復(fù)雜問題分解為更小的可作步驟,從而通過復(fù)雜的任務(wù)實(shí)現(xiàn)系統(tǒng)化的進(jìn)展。
- 通過清楚地闡明其內(nèi)部推理過程,使其決策背后的邏輯透明且可審查,將其戰(zhàn)略意圖外化。
- 按順序思考,逐步進(jìn)步,同時(shí)保持足夠的靈活性,以便在出現(xiàn)新的挑戰(zhàn)或見解時(shí)重新制定計(jì)劃。
- 反思以前的決策,當(dāng)新信息表明更好的前進(jìn)道路時(shí),能夠重新審視和修改以前的步驟。
- 探索替代策略,在需要時(shí)從其原始推理路線中分支出來,同時(shí)保持主要目標(biāo)在眼前。
- 保持開放式和迭代性,即使在得出初步結(jié)論后也要繼續(xù)思考,如果不確定性仍然存在或有更好的解決方案。
- 形成和測試假設(shè),根據(jù)其推理鏈驗(yàn)證結(jié)果并重復(fù)該過程,直到得出令人滿意的解決方案。
每次調(diào)用此規(guī)劃功能都會(huì)在代理的交互歷史記錄中記錄一個(gè)結(jié)構(gòu)化的 “想法”。這為決策過程創(chuàng)建了透明的審計(jì)跟蹤,這對于調(diào)試、了解代理行為和促進(jìn)問題解決策略的迭代改進(jìn)非常寶貴。
3. 執(zhí)行能力:多功能工具包
II-Agent 被賦予了一組豐富的功能或“工具”,使其能夠與環(huán)境交互、處理信息并生成不同的輸出:
- 文件系統(tǒng)作:代理可以在其安全的指定工作區(qū)中查看、創(chuàng)建和修改文件。它的編輯功能非常復(fù)雜,支持精確的字符串替換和基于行的插入。一個(gè)關(guān)鍵功能是它能夠在修改文件時(shí)智能地匹配和維護(hù)現(xiàn)有的代碼縮進(jìn)樣式,這對于保持源代碼的完整性和可讀性至關(guān)重要。
- 命令行執(zhí)行:代理可以訪問持久性 shell 環(huán)境,使其能夠執(zhí)行任意 shell 命令。這種交互是穩(wěn)健的 (通過 pexpect 或類似機(jī)制) 。該系統(tǒng)支持命令篩選,允許對命令進(jìn)行透明修改或包裝,例如,將執(zhí)行重定向到容器化環(huán)境。這提供了一種靈活且安全的方式來管理依賴關(guān)系和執(zhí)行上下文,這種技術(shù)也因其在標(biāo)準(zhǔn)化代理評估中的實(shí)用性而受到關(guān)注[3]。
- Web 交互:
導(dǎo)航和管理瀏覽器會(huì)話:包括導(dǎo)航到 URL、創(chuàng)建和在選項(xiàng)卡之間切換。
模擬用戶交互:例如單擊元素、在表單字段中輸入文本、滾動(dòng)和按鍵盤鍵。
捕獲和分析瀏覽器狀態(tài):每次作后,都會(huì)截取屏幕截圖并將其返回給代理。代理使用其視覺功能分析屏幕截圖以了解頁面并確定下一步作,例如單擊按鈕或字段。
- 初始信息檢索:為了快速收集信息,代理利用工具執(zhí)行 Web 搜索(例如,通過 Tavily API、SerpAPI、FireCrawl)并從指定的 URL 中提取主要文本內(nèi)容。如果此提取的內(nèi)容足以完成任務(wù),則可以避免進(jìn)一步的瀏覽器作,從而優(yōu)化速度和效率。
- 高級瀏覽器自動(dòng)化:當(dāng)任務(wù)需要的不僅僅是文本輸入,例如視覺解釋或網(wǎng)頁交互時(shí),II-Agent 會(huì)利用一組高級瀏覽器自動(dòng)化工具。這些是建立在 [10] 之上的,它利用 lmnr-ai/index [11] 以及語言模型(例如 Claude Sonnet 3.7 或 GPT-4o)的視覺功能,使代理能夠:
- 任務(wù)完成:專用功能允許代理正式發(fā)出已完成分配任務(wù)的信號(hào),并提供合并的最終答案、摘要或一組可交付成果。
- 專業(yè)能力:代理的體系結(jié)構(gòu)專為可擴(kuò)展性而設(shè)計(jì),可以合并適用于各種模式的專用工具。當(dāng)前的高級功能包括 PDF 文本提?。ɡ?pymupdf)、音頻轉(zhuǎn)錄和語音合成(通過 Azure 上的 OpenAI 模型)、圖像生成(在 Vertex AI 上使用 Google 的 Imagen 3)以及從文本生成視頻(通過 Vertex AI 上的 Google Veo 2)。
- 深度研究整合:雖然 Claude 3.7 Sonnet 在編碼和順序規(guī)劃方面表現(xiàn)出色,但他們執(zhí)行長時(shí)間復(fù)雜推理和解決困難數(shù)學(xué)問題的能力仍然不如人意。因此,為了進(jìn)一步提高 II-Agent 的能力,我們將 II-Researcher [12] 擴(kuò)展為可用于增強(qiáng) II-Agent 能力的研究工具。
4. 上下文管理
在可能漫長而復(fù)雜的交互中有效管理 LLM 的有限上下文窗口至關(guān)重要。II-Agent 實(shí)現(xiàn)了一個(gè)復(fù)雜的上下文管理系統(tǒng)來解決這個(gè)問題:
- Token 使用預(yù)估:該系統(tǒng)采用令牌計(jì)數(shù)機(jī)制來估計(jì)發(fā)送到 LLM 的對話歷史記錄的大小。這通常涉及啟發(fā)式方法(例如,文本的字符與標(biāo)記比率)和富媒體(如圖像)的特定計(jì)算。
- 戰(zhàn)略截?cái)啵?/strong>當(dāng)估計(jì)的令牌數(shù)量接近 LLM 的運(yùn)營預(yù)算時(shí),將應(yīng)用截?cái)嗖呗裕?/li>
標(biāo)準(zhǔn)截?cái)啵?/strong>基線方法包括總結(jié)或省略舊工具輸出或內(nèi)部代理審議的內(nèi)容。此策略優(yōu)先考慮保留對話中最近輪次的完全保真度,因?yàn)檫@些輪次通常與下一步最相關(guān)。
針對大型輸出的基于文件的存檔:對于可以產(chǎn)生異常詳細(xì)的輸出(例如網(wǎng)頁的完整文本內(nèi)容)的功能,采用更高級的策略。完整內(nèi)容不是直接包含在 LLM 的直接上下文中,而是將完整內(nèi)容存檔到代理專用工作區(qū)中的文件中。然后,對話歷史記錄會(huì)使用指向此存檔文件的緊湊占位符或參考標(biāo)記(例如,[內(nèi)容保存到:])進(jìn)行更新。這允許代理“記住”信息的存在,并且可以在后續(xù)步驟中明確需要時(shí)通過讀取文件來檢索它,而不會(huì)持續(xù)消耗 LLM 活動(dòng)上下文窗口的大部分。該技術(shù)對于涉及大量數(shù)據(jù)處理或?qū)彶榈娜蝿?wù)特別有價(jià)值,與在復(fù)雜的軟件工程工作流中管理大型工件的實(shí)踐保持一致 [3]。
上下文管理系統(tǒng)透明地記錄通過這些策略實(shí)現(xiàn)的代幣節(jié)省,幫助分析和優(yōu)化代理的對話效率。
5. 實(shí)時(shí)通信和交互
II-Agent 使用 WebSockets 整合了實(shí)時(shí)通信接口,以促進(jìn)交互式用例。它通常使用 FastAPI 等框架實(shí)現(xiàn)。
- 連接到 WebSocket 服務(wù)器的每個(gè)客戶端都會(huì)實(shí)例化一個(gè)專用的隔離代理實(shí)例。這些實(shí)例在其安全的工作區(qū)中運(yùn)行,通常映射到文件系統(tǒng)上的唯一子目錄,確保并發(fā)會(huì)話不會(huì)干擾。
- 代理利用內(nèi)部消息隊(duì)列將重要的作事件(例如思考步驟的啟動(dòng)、工具調(diào)用、工具執(zhí)行的結(jié)果或?yàn)g覽器狀態(tài)更改)流式傳輸回連接的客戶端。這通過提供對代理正在進(jìn)行的活動(dòng)的實(shí)時(shí)可見性來實(shí)現(xiàn)響應(yīng)式用戶體驗(yàn)。
- 服務(wù)器架構(gòu)通常還包括用于輔助功能的 API 端點(diǎn),例如允許用戶將文件直接上傳到其特定代理的工作區(qū)、提供必要的輸入或資源。
基準(zhǔn):
- 基準(zhǔn):我們的模型在GAIA 基準(zhǔn)上進(jìn)行評估,旨在評估在現(xiàn)實(shí)場景中運(yùn)行的基于 LLM 的代理。GAIA 基準(zhǔn)測試在多個(gè)維度上測試代理的能力,包括多模式處理、工具利用率和 Web 搜索,需要不同的自主性和復(fù)雜性。
- 評估指標(biāo):遵循 GAIA 基準(zhǔn),我們采用準(zhǔn)確性作為我們的主要評估指標(biāo)。
- 繼 OpenAI Manus 之后,我們也將驗(yàn)證集用于我們的基準(zhǔn)測試
II-Agent 在 GAIA 上的表現(xiàn):
本文轉(zhuǎn)載自??CourseAI??,作者:CourseAI
