AgentScope 1.0:從ReAct范式到生產(chǎn)級(jí)智能體應(yīng)用的開(kāi)發(fā)者中心框架

大家好,我是肆〇柒。今天要和大家分享的,是由阿里巴巴集團(tuán)(Alibaba Group)研究團(tuán)隊(duì)推出的智能體開(kāi)發(fā)框架——AgentScope 1.0。這篇論文不僅系統(tǒng)地解決了現(xiàn)代智能體應(yīng)用開(kāi)發(fā)中的諸多工程難題,更通過(guò)其“開(kāi)發(fā)者中心”的設(shè)計(jì)理念,為構(gòu)建可擴(kuò)展、適應(yīng)性強(qiáng)且高效的智能體應(yīng)用提供了堅(jiān)實(shí)的實(shí)踐基礎(chǔ)。
你是否曾花費(fèi)數(shù)小時(shí)調(diào)試一個(gè)智能體應(yīng)用,只因?yàn)樗谡{(diào)用第7個(gè)工具時(shí)突然失敗?或者在嘗試集成新的瀏覽器自動(dòng)化工具時(shí),不得不為每個(gè)模型提供商重寫(xiě)適配代碼?這些正是現(xiàn)代智能體開(kāi)發(fā)中普遍存在的痛點(diǎn)——工具過(guò)多反而降低性能("工具選擇悖論"),長(zhǎng)軌跡應(yīng)用調(diào)試如同在迷宮中尋找出口,不同模型提供商的API規(guī)范各異導(dǎo)致工具集成復(fù)雜無(wú)比。
隨著大語(yǔ)言模型(LLM)技術(shù)的迅猛發(fā)展,智能體(Agent)已從簡(jiǎn)單的對(duì)話(huà)系統(tǒng)演變?yōu)槟軌蚺c環(huán)境進(jìn)行復(fù)雜交互的自主實(shí)體?,F(xiàn)代LLM不僅具備強(qiáng)大的推理能力,更關(guān)鍵的是它們能夠調(diào)用外部工具,實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)的自動(dòng)處理、計(jì)算任務(wù)的執(zhí)行以及與各類(lèi)API的交互,從而極大地?cái)U(kuò)展了其功能邊界。在這一背景下,如何構(gòu)建靈活高效、支持工具調(diào)用的智能體應(yīng)用框架,已成為學(xué)術(shù)研究與工業(yè)實(shí)踐中的關(guān)鍵議題。
AgentScope 1.0 則通過(guò)系統(tǒng)化實(shí)現(xiàn)ReAct(Reasoning and Acting)范式,為開(kāi)發(fā)者提供從原型到生產(chǎn)應(yīng)用的完整解決方案,標(biāo)志著智能體開(kāi)發(fā)框架進(jìn)入了一個(gè)新紀(jì)元。但更重要的是,它解決了上述實(shí)際開(kāi)發(fā)中的痛點(diǎn),讓智能體應(yīng)用開(kāi)發(fā)從"痛苦調(diào)試"轉(zhuǎn)變?yōu)?流暢體驗(yàn)"。
智能體框架的演進(jìn)與行業(yè)痛點(diǎn)
智能體框架的發(fā)展正經(jīng)歷著從依賴(lài)內(nèi)在推理到賦能環(huán)境感知與交互的深刻轉(zhuǎn)變。早期的智能體主要依靠LLM的內(nèi)在知識(shí)進(jìn)行推理和響應(yīng),而現(xiàn)代智能體則需要通過(guò)動(dòng)態(tài)調(diào)用工具與環(huán)境進(jìn)行交互,以解決復(fù)雜的現(xiàn)實(shí)問(wèn)題。這一轉(zhuǎn)變使得工具調(diào)用能力成為現(xiàn)代LLM的關(guān)鍵特征,也是智能體框架發(fā)展的新方向。
然而,這一轉(zhuǎn)變也帶來(lái)了諸多工程挑戰(zhàn)。首先,不同模型提供商使用各異的API規(guī)范、參數(shù)格式和響應(yīng)結(jié)構(gòu),導(dǎo)致工具集成過(guò)程異常復(fù)雜。開(kāi)發(fā)者不得不為每個(gè)模型編寫(xiě)特定的適配代碼,極大地增加了開(kāi)發(fā)成本。其次,"工具選擇悖論"日益凸顯——研究表明,工具過(guò)多實(shí)際上會(huì)降低智能體性能,導(dǎo)致在選擇適當(dāng)工具或正確配置其參數(shù)時(shí)出現(xiàn)失敗。這不僅增加了智能體的認(rèn)知負(fù)擔(dān),還消耗了寶貴的上下文長(zhǎng)度。
此外,長(zhǎng)軌跡智能體應(yīng)用的開(kāi)發(fā)與調(diào)試也面臨嚴(yán)峻挑戰(zhàn)。隨著任務(wù)復(fù)雜度的提升,智能體需要執(zhí)行多步操作,形成復(fù)雜的執(zhí)行軌跡,這使得問(wèn)題定位和性能優(yōu)化變得異常困難。同時(shí),智能體在調(diào)用外部工具時(shí)的安全執(zhí)行環(huán)境也成為一個(gè)不容忽視的問(wèn)題。在缺乏適當(dāng)隔離的情況下,智能體可能意外執(zhí)行危險(xiǎn)操作,威脅系統(tǒng)安全。
這些痛點(diǎn)不僅阻礙了智能體技術(shù)的廣泛應(yīng)用,也限制了開(kāi)發(fā)者在實(shí)際場(chǎng)景中充分發(fā)揮LLM潛力的能力。因此,一個(gè)能夠系統(tǒng)化解決這些問(wèn)題、提供從開(kāi)發(fā)到部署全流程支持的框架顯得尤為重要。
AgentScope 1.0的核心創(chuàng)新與技術(shù)價(jià)值
AgentScope 1.0通過(guò)"開(kāi)發(fā)者中心"的設(shè)計(jì)理念,提供了針對(duì)上述痛點(diǎn)的系統(tǒng)性解決方案。其核心創(chuàng)新在于通過(guò)模塊化設(shè)計(jì)原則、統(tǒng)一接口與可擴(kuò)展模塊,實(shí)現(xiàn)了從原型到生產(chǎn)應(yīng)用的無(wú)縫銜接。特別值得一提的是,框架創(chuàng)新性地圍繞三大維度構(gòu)建:高級(jí)交互性(Advanced Interactivity)、操作靈活性與效率(Operational Flexibility and Efficiency)、以及工程穩(wěn)健性與可擴(kuò)展性(Engineering Robustness and Extensibility)。這些維度共同構(gòu)成了AgentScope 1.0的技術(shù)基石。
框架創(chuàng)新的三大維度
高級(jí)交互性:AgentScope 1.0重新定義了人機(jī)協(xié)作模式。通過(guò)實(shí)時(shí)引導(dǎo)(Real-time Steering)機(jī)制,用戶(hù)能夠在任務(wù)執(zhí)行過(guò)程中引導(dǎo)、糾正或重定向智能體,將交互從僵化、單向的過(guò)程轉(zhuǎn)變?yōu)殪`活、協(xié)作的體驗(yàn)。當(dāng)接收到外部中斷信號(hào)時(shí),框架會(huì)優(yōu)雅地暫停正在進(jìn)行的ReAct循環(huán),并允許開(kāi)發(fā)者在handle_interrupt方法中定義各種處理策略。關(guān)鍵創(chuàng)新在于將中斷視為可觀察事件,使智能體能夠捕獲每次中斷的上下文并整合到其狀態(tài)中,從而保持對(duì)中斷的情境感知能力。
操作靈活性與效率:框架突破了傳統(tǒng)的順序工具使用范式,提供了并行工具調(diào)用和動(dòng)態(tài)工具配置能力。智能體可以在單個(gè)推理步驟中生成多個(gè)工具調(diào)用,并行執(zhí)行這些調(diào)用,特別適用于I/O密集型任務(wù)。研究表明,這種并行處理方式可將任務(wù)延遲減少約35%,顯著提升了執(zhí)行效率。動(dòng)態(tài)工具配置則通過(guò)reset_equipped_tools函數(shù)實(shí)現(xiàn),使智能體能夠在任務(wù)執(zhí)行過(guò)程中自主修改可用工具集,適應(yīng)任務(wù)的不同階段。分組工具管理策略有效解決了"工具選擇悖論",顯著提升了工具選擇的準(zhǔn)確率。
工程穩(wěn)健性與可擴(kuò)展性:AgentScope 1.0引入了自動(dòng)化的狀態(tài)管理系統(tǒng)和非侵入式定制機(jī)制。狀態(tài)持久化系統(tǒng)通過(guò)StateModulebase類(lèi)實(shí)現(xiàn),支持雙模式注冊(cè):StateModule實(shí)例的屬性如果是其他StateModule對(duì)象,會(huì)自動(dòng)納入其狀態(tài);同時(shí)提供register_state方法顯式注冊(cè)其他屬性類(lèi)型。這種設(shè)計(jì)不僅消除了樣板代碼,還為開(kāi)發(fā)者提供了state_dict和load_state_dict方法,用于保存和恢復(fù)整個(gè)嵌套智能體層次結(jié)構(gòu)。鉤子系統(tǒng)則在智能體生命周期中植入了全面的預(yù)/后事件點(diǎn),允許開(kāi)發(fā)者在不修改核心代碼庫(kù)的情況下修改運(yùn)行時(shí)行為。
基礎(chǔ)組件的創(chuàng)新設(shè)計(jì)
AgentScope 1.0將智能體應(yīng)用的基礎(chǔ)組件抽象為四個(gè)關(guān)鍵模塊:消息(Message)、模型(Model)、記憶(Memory)和工具(Tool),實(shí)現(xiàn)了高度的模塊解耦和廣泛的兼容性。
消息模塊作為信息交換的基本單元,采用Msg對(duì)象統(tǒng)一表示各類(lèi)信息。該對(duì)象包含發(fā)送者名稱(chēng)、角色、內(nèi)容和元數(shù)據(jù)等關(guān)鍵字段,其中內(nèi)容可以是簡(jiǎn)單的文本字符串,也可以是結(jié)構(gòu)化的ContentBlock對(duì)象序列,如文本塊、圖像塊、工具使用塊等。這種設(shè)計(jì)使智能體能夠交換多模態(tài)內(nèi)容、工具使用細(xì)節(jié)和推理信息,為各種實(shí)際應(yīng)用場(chǎng)景提供了原生支持。

The overview of AgentScope framework
消息創(chuàng)建的代碼示例清晰展示了其靈活性:
# 創(chuàng)建工具調(diào)用消息
msg_tool_call = Msg(
    name="Jarvis",
    role="assistant",
    cnotallow=[
        ToolUseBlock(
            type="tool_use",
            id="xxx",
            name="get_weather",
            input={"location": "Beijing"}
        )
    ]
)模型模塊則通過(guò)統(tǒng)一抽象解決了不同LLM提供商的異構(gòu)性問(wèn)題。AgentScope整合了OpenAI、DashScope、Anthropic、Gemini、Ollama等多種模型提供商,提供了完整的功能兼容性。其核心創(chuàng)新在于模型特定格式化器,能夠?qū)gentScope中的消息對(duì)象轉(zhuǎn)換為提供商特定的數(shù)據(jù)結(jié)構(gòu)。
框架提供了兩種專(zhuān)門(mén)的格式化器:ChatFormatter用于支持單智能體交互,而MultiAgentFormatter則用于處理多參與者對(duì)話(huà),其中說(shuō)話(huà)者識(shí)別和角色管理至關(guān)重要。考慮到并非所有模型提供商都原生支持多智能體消息,MultiAgentFormatter利用對(duì)話(huà)歷史提示和結(jié)構(gòu)化內(nèi)容確保與標(biāo)準(zhǔn)聊天完成端點(diǎn)的兼容性。這種設(shè)計(jì)使開(kāi)發(fā)者能夠在不同模型提供商之間無(wú)縫處理多模態(tài)輸入,無(wú)需額外的應(yīng)用級(jí)格式管理。
此外,模型模塊統(tǒng)一了異步模型調(diào)用、響應(yīng)模式以及細(xì)粒度的使用跟蹤,使開(kāi)發(fā)者能夠以一致的方式與不同模型交互。特別值得一提的是,框架通過(guò)ThinkingBlock對(duì)象暴露內(nèi)部推理軌跡,支持OpenAI、Anthropic、Gemini和Ollama等提供顯式推理能力的模型。開(kāi)發(fā)者可以通過(guò)提供者特定機(jī)制對(duì)推理輸出進(jìn)行細(xì)粒度控制,例如OpenAI的o系列模型支持推理努力級(jí)別("low"、"medium"和"high"),而Anthropic和Gemini則提供可配置的推理過(guò)程token預(yù)算。
記憶模塊分為短期記憶和長(zhǎng)期記憶兩部分。短期記憶(InMemoryMemory)作為默認(rèn)緩沖區(qū),存儲(chǔ)對(duì)話(huà)歷史和執(zhí)行軌跡;長(zhǎng)期記憶則通過(guò)抽象類(lèi)LongTermMemoryBase實(shí)現(xiàn),支持開(kāi)發(fā)者控制和智能體控制兩種操作范式。特別值得一提的是,AgentScope集成了基于mem0庫(kù)的長(zhǎng)期記憶實(shí)現(xiàn),提供了語(yǔ)義索引、檢索和記憶演化等高級(jí)功能。
工具模塊是AgentScope 1.0最具創(chuàng)新性的部分之一。它通過(guò)Toolkit實(shí)現(xiàn)了靈活的工具管理,將各種函數(shù)和MCP(Model Context Protocol)標(biāo)準(zhǔn)化為JSON schema。其中,分組工具管理策略有效解決了"工具選擇悖論"——開(kāi)發(fā)者可以使用create_tool_group邏輯地捆綁相關(guān)工具,并通過(guò)update_tool_groups動(dòng)態(tài)激活或停用整個(gè)工具集,顯著減少了工具選擇的搜索空間。

The usage of the Toolkit module in AgentScope
Toolkit模塊的工作流程清晰地展示了工具注冊(cè)(綠色)、分組管理(藍(lán)色)和執(zhí)行(紅色)的完整過(guò)程。這種設(shè)計(jì)使得工具管理變得系統(tǒng)化和高效,特別是當(dāng)智能體需要執(zhí)行網(wǎng)頁(yè)瀏覽任務(wù)時(shí),可以激活"browser tools"組,使相關(guān)工具可用,而其他無(wú)關(guān)工具則被自動(dòng)排除,從而將工具選擇的準(zhǔn)確率從68%提升至89%。
此外,AgentScope 1.0的MCP客戶(hù)端架構(gòu)提供了細(xì)粒度的遠(yuǎn)程工具管理。它采用狀態(tài)化和無(wú)狀態(tài)化雙客戶(hù)端設(shè)計(jì):狀態(tài)化客戶(hù)端維護(hù)與MCP服務(wù)器的持久連接,適用于需要狀態(tài)連續(xù)性的服務(wù);無(wú)狀態(tài)化客戶(hù)端則為每次工具調(diào)用建立新連接,適合輕量級(jí)和事務(wù)性服務(wù)。

The sequence diagram of the stateless and stateful MCP clients
如序列圖所示,狀態(tài)化客戶(hù)端(右)維持持久連接,適合遠(yuǎn)程瀏覽器會(huì)話(huà)等需要保持cookies和上下文的場(chǎng)景;而狀態(tài)化客戶(hù)端(左)則為每次工具調(diào)用建立新會(huì)話(huà),最小化資源開(kāi)銷(xiāo)。這種設(shè)計(jì)使得遠(yuǎn)程服務(wù)與本地工具在智能體視角下無(wú)差別,極大增強(qiáng)了框架的靈活性。狀態(tài)化與無(wú)狀態(tài)化雙客戶(hù)端設(shè)計(jì)不僅解決了遠(yuǎn)程服務(wù)連接的靈活性問(wèn)題,還顯著降低了網(wǎng)絡(luò)資源消耗——狀態(tài)化客戶(hù)端適用于需要保持cookies和上下文的遠(yuǎn)程瀏覽器會(huì)話(huà),而無(wú)狀態(tài)化客戶(hù)端則為每次工具調(diào)用建立新連接,使輕量級(jí)服務(wù)的資源開(kāi)銷(xiāo)降低約40%。
智能體級(jí)基礎(chǔ)設(shè)施的工程實(shí)現(xiàn)
在基礎(chǔ)組件之上,AgentScope 1.0通過(guò)系統(tǒng)化實(shí)現(xiàn)ReAct范式,構(gòu)建了高效的智能體級(jí)基礎(chǔ)設(shè)施。ReAct范式將推理(Reasoning)與行動(dòng)(Acting)相結(jié)合,使智能體能夠分析任務(wù)、調(diào)用工具、觀察執(zhí)行結(jié)果并迭代優(yōu)化步驟,形成一個(gè)閉環(huán)。

The workflow of the ReAct agent in AgentScope
如工作流程圖所示,AgentScope中的智能體被設(shè)計(jì)為通過(guò)明確定義的接口與環(huán)境交互的實(shí)體,包含三個(gè)核心功能:
? Reply:作為智能體的主要主動(dòng)響應(yīng)機(jī)制,用于執(zhí)行推理、采取行動(dòng)并生成結(jié)論性響應(yīng)
? Observe:處理外部信息,更新內(nèi)部狀態(tài)或記憶
? Handle Interrupt:處理中斷信號(hào),允許智能體暫停正在進(jìn)行的操作
多智能體應(yīng)用架構(gòu)深度解析
AgentScope 1.0提供了兩種主要的多智能體應(yīng)用架構(gòu)模式,為構(gòu)建復(fù)雜智能體系統(tǒng)提供了強(qiáng)大支持:
Agent as a Tool模式:這是一種廣泛使用且推薦的方法,將智能體視為可調(diào)用組件,允許智能體作為大型工作流中的可調(diào)用組件。這種模式的核心思想是,雖然主智能體仍管理直接的用戶(hù)交互和對(duì)話(huà),但它可以自主選擇并調(diào)用專(zhuān)門(mén)的智能體作為工具來(lái)處理特定的子任務(wù)或?qū)I(yè)領(lǐng)域。
例如,如最新研究所示,知識(shí)集成型多智能體系統(tǒng)通常需要不同的智能體管理不同的知識(shí)庫(kù)。當(dāng)用戶(hù)提交查詢(xún)時(shí),主智能體會(huì)將問(wèn)題路由到適當(dāng)?shù)闹悄荏w(每個(gè)實(shí)例化為待調(diào)用的工具)。收到請(qǐng)求后,這些智能體基于其知識(shí)庫(kù)生成響應(yīng)。最終,這些輸出可以聚合起來(lái),向用戶(hù)提供全面的響應(yīng)。這種"智能體作為工具"的架構(gòu)促進(jìn)了AgentScope的可擴(kuò)展性和靈活性,使智能體能夠獨(dú)立開(kāi)發(fā)、測(cè)試,并作為新工具快速添加到系統(tǒng)中,從而在不破壞現(xiàn)有工作流的情況下快速適應(yīng)不斷變化的用戶(hù)需求。
Agent Conversation模式:這種模式代表了多智能體應(yīng)用的另一種標(biāo)準(zhǔn)范式。為簡(jiǎn)化開(kāi)發(fā)并降低復(fù)雜性,AgentScope提供了管道(Pipelines)和消息中心(MsgHub)來(lái)高效管理智能體交互,最大限度地減少重復(fù)編碼。
管道抽象將智能體對(duì)話(huà)中的常見(jiàn)模式(包括順序、條件和迭代消息交換)封裝成簡(jiǎn)單可重用的組件。開(kāi)發(fā)者可以通過(guò)組裝處理智能體間消息流的管道來(lái)構(gòu)建智能體對(duì)話(huà),實(shí)現(xiàn)交互邏輯與底層消息傳遞機(jī)制的清晰分離。管道可以采用函數(shù)式和面向?qū)ο髢煞N風(fēng)格使用,如下例所示:
# 1: 函數(shù)式實(shí)現(xiàn)
from agentscope.pipeline import sequential_pipeline
msg = await sequential_pipeline(
    # 按順序執(zhí)行的智能體列表
    agents=[alice, bob, charlie, david],
    # 第一個(gè)輸入消息,可以為None
    msg=None
)
# 2: 類(lèi)式實(shí)現(xiàn)
from agentscope.pipeline import SequentialPipeline
# 創(chuàng)建管道對(duì)象
pipeline = SequentialPipeline(agents=[alice, bob, charlie, david])
# 調(diào)用管道
msg = await pipeline(msg=None)
# 使用不同輸入重用管道
msg = await pipeline(msg=Msg("user", "Hello!", "user"))消息中心抽象作為一個(gè)集中式廣播機(jī)制,簡(jiǎn)化了智能體間的群組對(duì)話(huà)。通過(guò)將消息中心配置為一組參與智能體和初始消息,開(kāi)發(fā)者可以實(shí)現(xiàn)自動(dòng)消息分發(fā),每當(dāng)任何智能體生成新消息時(shí),如下例所示:
async defexample_broadcast_message():
    """使用MsgHub廣播消息的示例。"""
    
    # 創(chuàng)建消息中心
    asyncwith MsgHub(
        participants=[alice, bob, charlie],
        announcement=Msg(
            "user",
            "Now introduce yourself in one sentence, including your name, age and career.",
            "user",
        ),
    ) as hub:
        # 無(wú)需手動(dòng)傳遞消息的群組聊天
        await alice()
        await bob()
        await charlie()
asyncio.run(example_broadcast_message())消息中心確保所有參與智能體保持上下文同步,并支持動(dòng)態(tài)群組對(duì)話(huà)。這種架構(gòu)特別適合需要多個(gè)智能體協(xié)作解決復(fù)雜問(wèn)題的場(chǎng)景,例如多領(lǐng)域?qū)<蚁到y(tǒng)或分布式?jīng)Q策系統(tǒng)。
狀態(tài)持久化與非侵入式定制機(jī)制進(jìn)一步增強(qiáng)了框架的健壯性和可擴(kuò)展性。自動(dòng)化狀態(tài)管理系統(tǒng)通過(guò)StateModulebase類(lèi)實(shí)現(xiàn),支持雙模式注冊(cè):
1. StateModule實(shí)例的屬性如果是其他StateModule對(duì)象,會(huì)自動(dòng)納入其狀態(tài)
2. 通過(guò)register_state方法顯式注冊(cè)其他屬性類(lèi)型
這種設(shè)計(jì)不僅消除了樣板代碼,還為開(kāi)發(fā)者提供了state_dict和load_state_dict方法,用于保存和恢復(fù)整個(gè)嵌套智能體層次結(jié)構(gòu)。同時(shí),框架在智能體生命周期中植入了全面的鉤子系統(tǒng),允許開(kāi)發(fā)者在不修改核心代碼庫(kù)的情況下修改運(yùn)行時(shí)行為。

The workflow of Deep Research Agent
鉤子系統(tǒng)包括reply、observe、reasoning、acting和print等關(guān)鍵操作點(diǎn)的預(yù)/后事件。這些鉤子不僅能被動(dòng)監(jiān)聽(tīng),還能主動(dòng)修改各自函數(shù)的輸入和輸出,支持從詳細(xì)日志記錄到驗(yàn)證規(guī)則實(shí)施的廣泛應(yīng)用。例如,pre_print鉤子可以攔截控制臺(tái)消息并將其重定向到基于Web的用戶(hù)界面,有效地將智能體的核心邏輯與其表示層解耦。
并行工具調(diào)用和動(dòng)態(tài)工具配置是AgentScope 1.0的另一大亮點(diǎn)。智能體可以在單個(gè)推理步驟中生成多個(gè)工具調(diào)用,并行執(zhí)行這些調(diào)用,特別適用于I/O密集型任務(wù)。研究表明,這種并行處理方式可將任務(wù)延遲減少約35%,顯著提升了執(zhí)行效率。動(dòng)態(tài)工具配置則通過(guò)reset_equipped_tools函數(shù)實(shí)現(xiàn),使智能體能夠在任務(wù)執(zhí)行過(guò)程中自主修改可用工具集,適應(yīng)任務(wù)的不同階段。
內(nèi)置智能體的技術(shù)實(shí)現(xiàn)與應(yīng)用場(chǎng)景
AgentScope 1.0提供了三類(lèi)針對(duì)特定應(yīng)用場(chǎng)景優(yōu)化的內(nèi)置智能體,均基于ReAct范式構(gòu)建,為開(kāi)發(fā)者提供了開(kāi)箱即用的解決方案或定制化起點(diǎn)。
深度研究智能體:系統(tǒng)化的研究工作流
深度研究智能體專(zhuān)為搜索、收集和整合多源信息而設(shè)計(jì),能夠使用搜索API(如Tavily MCP)為用戶(hù)提供報(bào)告格式的答案。其工作流程包括任務(wù)分解與擴(kuò)展、知識(shí)關(guān)聯(lián)、文檔研究記錄和最終報(bào)告生成等環(huán)節(jié)。
該智能體的核心能力在于查詢(xún)擴(kuò)展、反思和總結(jié)。查詢(xún)擴(kuò)展能力將線性工作流轉(zhuǎn)變?yōu)闃?shù)狀結(jié)構(gòu),通過(guò)任務(wù)分解為可管理的子任務(wù);反思能力分為低級(jí)和高級(jí)兩種:低級(jí)反思處理工具錯(cuò)誤或參數(shù)使用不當(dāng)?shù)葐?wèn)題,高級(jí)反思則解決持續(xù)性失敗,可能涉及重新表述當(dāng)前步驟;總結(jié)能力使智能體能夠模擬人類(lèi)研究行為,在搜索過(guò)程中記錄有用結(jié)果,形成初步報(bào)告。
深度研究智能體與AgentScope的記憶模塊深度集成,能夠在研究過(guò)程中存儲(chǔ)和回顧重要信息,進(jìn)一步增強(qiáng)其生成高質(zhì)量、全面報(bào)告的能力。這一智能體特別適合學(xué)術(shù)研究、市場(chǎng)分析、技術(shù)調(diào)查等需要多源驗(yàn)證和深度分析推理的任務(wù)。
The workflow of Deep Research Agent
如圖5所示,深度研究智能體的工作流程從用戶(hù)查詢(xún)開(kāi)始,經(jīng)過(guò)任務(wù)分解與擴(kuò)展、知識(shí)關(guān)聯(lián)、文檔研究記錄,最終生成綜合報(bào)告。在整個(gè)過(guò)程中,智能體持續(xù)進(jìn)行反思和調(diào)整,確保研究方向的正確性和信息的全面性。這種系統(tǒng)化的研究工作流使深度研究智能體能夠處理復(fù)雜的多步驟研究任務(wù),提供高質(zhì)量的研究成果。
瀏覽器使用智能體:網(wǎng)頁(yè)交互的自動(dòng)化
瀏覽器使用智能體通過(guò)將LLM與Playwright等瀏覽器自動(dòng)化工具集成,實(shí)現(xiàn)了對(duì)網(wǎng)站的自主導(dǎo)航和交互。其典型應(yīng)用場(chǎng)景包括預(yù)訂航班和酒店、查詢(xún)股票價(jià)格并整合相關(guān)新聞、網(wǎng)絡(luò)爬蟲(chóng)和信息匯總、提交在線表格,以及監(jiān)控特定網(wǎng)頁(yè)內(nèi)容的實(shí)時(shí)更新。

The workflow of Browser-user Agent
該智能體的關(guān)鍵特性包括:子任務(wù)分解與管理,將復(fù)雜用戶(hù)查詢(xún)分解為可管理的子任務(wù)并按順序執(zhí)行;視覺(jué)與網(wǎng)頁(yè)文本信息整合,通過(guò)利用具有視覺(jué)能力的大模型,對(duì)網(wǎng)頁(yè)截圖和HTML內(nèi)容進(jìn)行推理;多標(biāo)簽瀏覽,支持同時(shí)管理多個(gè)瀏覽器標(biāo)簽頁(yè);以及長(zhǎng)網(wǎng)頁(yè)高效處理,將長(zhǎng)頁(yè)面分割為較小的可管理塊,確保全面信息處理。
這些能力使瀏覽器使用智能體能夠高效收集信息、執(zhí)行復(fù)雜交互并管理多個(gè)子任務(wù),最終使用戶(hù)能夠通過(guò)自動(dòng)化的網(wǎng)絡(luò)環(huán)境導(dǎo)航解決復(fù)雜問(wèn)題。圖6清晰地展示了瀏覽器使用智能體的工作流程:從用戶(hù)查詢(xún)開(kāi)始,經(jīng)過(guò)任務(wù)分解、瀏覽器初始化、網(wǎng)頁(yè)觀察、推理與準(zhǔn)備、執(zhí)行瀏覽器操作,最終更新瀏覽器和網(wǎng)頁(yè)內(nèi)容,形成一個(gè)完整的閉環(huán)。
元規(guī)劃智能體:復(fù)雜任務(wù)的層次化處理
元規(guī)劃智能體解決了當(dāng)代自主智能體系統(tǒng)在處理需要復(fù)雜規(guī)劃、資源分配和協(xié)調(diào)能力的多步驟問(wèn)題時(shí)面臨的挑戰(zhàn)。它通過(guò)整合規(guī)劃能力和動(dòng)態(tài)工作智能體編排,擴(kuò)展了ReAct范式。
元規(guī)劃智能體采用雙模式架構(gòu),能夠在輕量級(jí)ReAct處理(適用于簡(jiǎn)單任務(wù))和全面規(guī)劃執(zhí)行模式(適用于復(fù)雜多階段問(wèn)題)之間自動(dòng)切換,從而優(yōu)化計(jì)算資源同時(shí)保持對(duì)各種任務(wù)復(fù)雜度的穩(wěn)健性能。

The key component of Meta Planner and an example of its trajectory
該系統(tǒng)圍繞三個(gè)核心功能模塊運(yùn)行:通過(guò)結(jié)構(gòu)化路線圖生成進(jìn)行層次化任務(wù)分解、具有專(zhuān)用工具包分配的動(dòng)態(tài)工作智能體實(shí)例化,以及支持長(zhǎng)期任務(wù)連續(xù)性的持久狀態(tài)管理。元規(guī)劃智能體特別適合處理多源數(shù)據(jù)分析、研究綜合和迭代內(nèi)容生成等復(fù)雜工作流,同時(shí)通過(guò)全面的進(jìn)度跟蹤和狀態(tài)持久化機(jī)制保持透明度,支持任務(wù)恢復(fù)和調(diào)試。
元規(guī)劃智能體生成的路線圖結(jié)構(gòu)清晰展示了任務(wù)分解的層次化:
{
  "roadmap":{
    "original_task":"Create a comprehensive analysis report of Meta(META) stock...",
    "decomposed_tasks":[
      {
        "subtask_specification":{
          "subtask_description":"Research and gather comprehensive company overview information...",
          "input_intro":"Need to collect current information about Meta's business operations...",
          "exact_input":"Research Meta Platforms Inc.(META)-gather information about: business model...",
          "expected_output":"A comprehensive company overview document...",
          "desired_auxiliary_tools":"tavily-search for current company information and recent news"
        },
        "status":"Planned",
        "updates":[],
        "attempt":0,
        "workers":[]
      }
    ]
}
}這種結(jié)構(gòu)化的任務(wù)分解使智能體能夠清晰地管理復(fù)雜任務(wù)的執(zhí)行流程,確保每個(gè)子任務(wù)都有明確的輸入、輸出和所需工具。圖7不僅展示了元規(guī)劃智能體的關(guān)鍵組件,還提供了實(shí)際執(zhí)行軌跡的示例,清晰地說(shuō)明了智能體如何通過(guò)調(diào)用各種工具(如任務(wù)分解、路線圖管理、工作智能體創(chuàng)建和執(zhí)行)來(lái)完成復(fù)雜任務(wù)。
工程支持與開(kāi)發(fā)者體驗(yàn)
AgentScope 1.0通過(guò)三位一體的工程支持體系——評(píng)估模塊、Studio可視化界面和Runtime沙箱,為開(kāi)發(fā)者提供了從開(kāi)發(fā)到部署的全流程支持,顯著提升了開(kāi)發(fā)體驗(yàn)。
評(píng)估模塊:系統(tǒng)化的質(zhì)量保障
評(píng)估模塊采用層次化架構(gòu),系統(tǒng)地組織了任務(wù)、解決方案和指標(biāo)等核心組件。任務(wù)對(duì)象代表單個(gè)評(píng)估單元,封裝了智能體執(zhí)行和評(píng)估所需的所有信息;解決方案輸出類(lèi)標(biāo)準(zhǔn)化了智能體生成解決方案的表示;指標(biāo)抽象類(lèi)支持開(kāi)發(fā)者定義的評(píng)估標(biāo)準(zhǔn);而基準(zhǔn)測(cè)試則將多個(gè)任務(wù)聚合為連貫的評(píng)估套件。

The evaluation module in AgentScope
評(píng)估模塊的架構(gòu)圖清晰展示了任務(wù)、解決方案和指標(biāo)如何通過(guò)評(píng)估器協(xié)同工作,形成完整的評(píng)估流程。SolutionOutput捕獲三個(gè)關(guān)鍵元素:
1. 表示解決方案是否無(wú)異常執(zhí)行的成功標(biāo)志
2. 智能體產(chǎn)生的最終輸出
3. 記錄執(zhí)行過(guò)程中所有工具調(diào)用和操作結(jié)果的完整軌跡
這種設(shè)計(jì)支持基于結(jié)果和基于過(guò)程的評(píng)估方法,使開(kāi)發(fā)者能夠全面了解智能體的性能。特別值得注意的是,Studio的評(píng)估結(jié)果可視化采用了先進(jìn)的統(tǒng)計(jì)學(xué)方法,通過(guò)自舉技術(shù)(Bootstrapping)計(jì)算置信區(qū)間,提供統(tǒng)計(jì)上有效的結(jié)果。它將性能表示為概率分布,智能適應(yīng)離散類(lèi)別和連續(xù)指標(biāo)的不同可視化方式,避免了可能產(chǎn)生誤導(dǎo)的平均值。
Studio將測(cè)試項(xiàng)分組為"始終正確"、"始終錯(cuò)誤"或"不穩(wěn)定"等類(lèi)別,幫助開(kāi)發(fā)者快速識(shí)別特定問(wèn)題類(lèi)型。這種基于分布的評(píng)估方法提供了對(duì)智能體穩(wěn)定性、預(yù)期性能范圍的透明和可靠視角,相比單一指標(biāo)具有顯著優(yōu)勢(shì)。研究表明,這種可視化方式可將開(kāi)發(fā)者的問(wèn)題定位時(shí)間減少約50%,顯著提升了調(diào)試效率。
框架提供了兩種評(píng)估器:GeneralEvaluator適用于開(kāi)發(fā)和調(diào)試場(chǎng)景,按順序執(zhí)行任務(wù);RayEvaluator則利用Ray分布式計(jì)算框架實(shí)現(xiàn)并行和分布式評(píng)估,適合大規(guī)模基準(zhǔn)測(cè)試。這兩種評(píng)估器共享相同接口,使開(kāi)發(fā)者能夠在調(diào)試便利性和計(jì)算效率之間靈活選擇,而無(wú)需修改解決方案生成邏輯或基準(zhǔn)定義。
Studio:可視化開(kāi)發(fā)體驗(yàn)
Studio作為AgentScope 1.0的可視化平臺(tái),通過(guò)原生集成OpenTelemetry標(biāo)準(zhǔn),直接消費(fèi)和渲染應(yīng)用程序中生成的詳細(xì)遙測(cè)數(shù)據(jù),為開(kāi)發(fā)者提供了直觀的開(kāi)發(fā)體驗(yàn)。


Demonstrations of Studio in AgentScope
Studio的聊天式對(duì)話(huà)界面以直觀的方式可視化智能體交互,明確顯示結(jié)構(gòu)化消息組件,如思考過(guò)程、工具調(diào)用、操作結(jié)果和多模態(tài)內(nèi)容。執(zhí)行軌跡以層次化的時(shí)間戳跨度序列展示,每個(gè)跨度代表離散的計(jì)算步驟,如LLM調(diào)用、工具執(zhí)行或異常發(fā)生。這種緊密集成使開(kāi)發(fā)者能夠快速識(shí)別延遲源,加速調(diào)試和優(yōu)化過(guò)程。
在評(píng)估結(jié)果可視化方面,Studio不僅將原始評(píng)估結(jié)果轉(zhuǎn)換為交互式可視化,還提供軌跡比較功能,支持細(xì)粒度分析。當(dāng)智能體在分布尾部表現(xiàn)出性能差異時(shí),Studio允許并排比較相應(yīng)的執(zhí)行軌跡。通過(guò)并置工具調(diào)用鏈、推理步驟和LLM響應(yīng),開(kāi)發(fā)者可以進(jìn)行細(xì)粒度的根因分析,將高層次的統(tǒng)計(jì)觀察與可操作的低層次調(diào)試見(jiàn)解有效連接。
Studio還內(nèi)置了一個(gè)名為Friday的助手智能體,它不僅能夠積極協(xié)助開(kāi)發(fā)者,還展示了AgentScope的高級(jí)功能:
- 實(shí)時(shí)引導(dǎo)功能:Friday能夠響應(yīng)開(kāi)發(fā)者的查詢(xún),即使在任務(wù)執(zhí)行過(guò)程中也能調(diào)整行為
 - 動(dòng)態(tài)工具配置:它能夠根據(jù)上下文自動(dòng)選擇和配置適當(dāng)?shù)墓ぞ呒?/span>
 - 長(zhǎng)期記憶管理:Friday能夠記住開(kāi)發(fā)者的偏好和歷史交互,提供更加個(gè)性化的支持
 - 框架能力展示:作為框架能力的參考實(shí)現(xiàn),F(xiàn)riday為開(kāi)發(fā)者提供了理解AgentScope高級(jí)功能的具體示例
 
Friday配備了專(zhuān)門(mén)的工具集,可以訪問(wèn)AgentScope提供的資源,將靜態(tài)文檔轉(zhuǎn)化為動(dòng)態(tài)、對(duì)話(huà)式資源,加速學(xué)習(xí)和開(kāi)發(fā)過(guò)程。例如,它可以檢索Python SDK中函數(shù)的確切簽名,或在README和FAQ中查找答案,展示了如何將框架的高級(jí)功能整合到實(shí)際應(yīng)用中。這種設(shè)計(jì)不僅提升了開(kāi)發(fā)體驗(yàn),還為開(kāi)發(fā)者提供了理解框架能力的實(shí)用示例。
Runtime:安全部署與執(zhí)行環(huán)境
Runtime是AgentScope 1.0的綜合性智能體運(yùn)行時(shí)系統(tǒng),專(zhuān)為智能體部署和安全沙箱工具執(zhí)行而設(shè)計(jì)。它采用雙核架構(gòu),包括提供底層基礎(chǔ)設(shè)施的Engine模塊和提供隔離環(huán)境的Sandbox模塊。
Engine模塊使開(kāi)發(fā)者能夠創(chuàng)建Runner對(duì)象并將智能體作為參數(shù)傳遞。通過(guò)deploy函數(shù),智能體可以輕松部署,自動(dòng)生成具有集成健康監(jiān)控、優(yōu)雅生命周期管理和標(biāo)準(zhǔn)化API協(xié)議的生產(chǎn)就緒FastAPI服務(wù)。AgentScope還提供對(duì)多種智能體通信協(xié)議的原生支持,包括Google的Agent-to-Agent(A2A)協(xié)議和自定義協(xié)議適配器,確保在異構(gòu)智能體生態(tài)系統(tǒng)中的無(wú)縫互操作性。
# 創(chuàng)建并配置智能體
agent = AgentScopeAgent(
    name="Friday",
    model=OpenAIChatModel("gpt-4"),
    agent_builder=ReActAgent, # Or your agent class built with AgentScope
)
# 創(chuàng)建可執(zhí)行Runner
runner = Runner(
    agent=agent,
    context_manager=ContextManager(),
    environment_manager=EnvironmentManager(),
)
# 部署支持A2A協(xié)議的生產(chǎn)服務(wù)
await runner.deploy(
    deploy_manager=LocalDeployManager(
        host="localhost",
        port=8090,
    ),
    endpoint_path="/process",
    protocol_adapters=A2AFastAPIDefaultAdapter(agent=agent),
)Sandbox模塊提供函數(shù)式接口,在確保完全隔離的同時(shí)保持一致的編程模式。它支持各種專(zhuān)用環(huán)境,包括:
1. Filesystem Sandbox:用于安全文件操作,隔離文件系統(tǒng)訪問(wèn)
2. BrowserSandbox:專(zhuān)為網(wǎng)絡(luò)自動(dòng)化設(shè)計(jì),提供瀏覽器會(huì)話(huà)管理
3. TrainingSandbox:用于基準(zhǔn)評(píng)估,確保評(píng)估環(huán)境的一致性
這些專(zhuān)用環(huán)境保持一致的接口設(shè)計(jì),使開(kāi)發(fā)者能夠無(wú)縫切換不同環(huán)境,同時(shí)確保安全隔離。Sandbox還支持狀態(tài)化操作,如跨調(diào)用保持狀態(tài):
# 安全工具執(zhí)行與自動(dòng)沙箱管理
from agentscope_runtime.sandbox.tools.base import run_ipython_cell
result = run_ipython_cell(code="import os; print(os.listdir())")
# 用于狀態(tài)化操作的持久沙箱
with BaseSandbox() as sandbox:
    func = run_ipython_cell.bind(sandbox=sandbox)
    func(code="data = [1, 2, 3]")
    # 跨調(diào)用狀態(tài)保留
    func(code="print(sum(data))")狀態(tài)持久化機(jī)制使長(zhǎng)軌跡應(yīng)用的恢復(fù)時(shí)間縮短約60%,顯著提升了開(kāi)發(fā)效率。開(kāi)發(fā)者可以輕松地將額外的MCP服務(wù)器擴(kuò)展到應(yīng)用程序中,而無(wú)需準(zhǔn)備安全的工具執(zhí)行環(huán)境。這種設(shè)計(jì)不僅降低了部署復(fù)雜度,還保證了企業(yè)級(jí)的可靠性和安全性,使開(kāi)發(fā)者能夠?qū)W⒂谥悄荏w邏輯而非基礎(chǔ)設(shè)施問(wèn)題。
價(jià)值總結(jié)
AgentScope 1.0通過(guò)整合模塊化基礎(chǔ)組件、高效智能體級(jí)基礎(chǔ)設(shè)施和定制化接口,為構(gòu)建可擴(kuò)展、適應(yīng)性強(qiáng)且高效的智能體應(yīng)用提供了實(shí)用基礎(chǔ)。其核心價(jià)值體現(xiàn)在三個(gè)方面:
首先,模塊化設(shè)計(jì)帶來(lái)了前所未有的靈活性。消息、模型、記憶和工具四大基礎(chǔ)組件的可組合性,使開(kāi)發(fā)者能夠根據(jù)具體需求靈活組裝智能體應(yīng)用,無(wú)需從頭開(kāi)始構(gòu)建每個(gè)組件。特別是Toolkit模塊的分組管理策略,有效解決了"工具選擇悖論",將工具選擇的準(zhǔn)確率從68%提升至89%,顯著提升了智能體的決策效率。
其次,ReAct范式的工程化實(shí)現(xiàn)成功架起了理論與實(shí)踐之間的橋梁。通過(guò)系統(tǒng)異步設(shè)計(jì)、實(shí)時(shí)引導(dǎo)、并行工具調(diào)用和動(dòng)態(tài)工具配置等機(jī)制,AgentScope 1.0將ReAct范式的理論優(yōu)勢(shì)轉(zhuǎn)化為實(shí)際應(yīng)用中的性能提升。狀態(tài)持久化與非侵入式定制機(jī)制進(jìn)一步增強(qiáng)了框架的健壯性和可擴(kuò)展性,使開(kāi)發(fā)者能夠輕松保存和恢復(fù)整個(gè)嵌套智能體層次結(jié)構(gòu)。并行工具調(diào)用特別適用于I/O密集型任務(wù),可將任務(wù)延遲減少約35%,顯著提升執(zhí)行效率。
最后,開(kāi)發(fā)者友好體驗(yàn)的系統(tǒng)性支持覆蓋了從開(kāi)發(fā)到部署的全流程。評(píng)估模塊的層次化架構(gòu)和基于統(tǒng)計(jì)學(xué)的可視化使性能評(píng)估更加科學(xué)和直觀;Runtime的雙核架構(gòu)確保了安全部署和執(zhí)行。這些工具共同構(gòu)成了一個(gè)完整的開(kāi)發(fā)生態(tài)系統(tǒng),使開(kāi)發(fā)者能夠?qū)W⒂跇I(yè)務(wù)邏輯而非底層實(shí)現(xiàn)細(xì)節(jié)。
對(duì)開(kāi)發(fā)者而言,AgentScope 1.0不僅降低了智能體應(yīng)用開(kāi)發(fā)的門(mén)檻,通過(guò)統(tǒng)一接口和標(biāo)準(zhǔn)化組件簡(jiǎn)化了開(kāi)發(fā)過(guò)程;還提升了開(kāi)發(fā)效率與質(zhì)量,通過(guò)評(píng)估與調(diào)試工具支持快速迭代;更重要的是,它通過(guò)內(nèi)置智能體作為開(kāi)發(fā)起點(diǎn),促進(jìn)了創(chuàng)新與實(shí)踐。
在LLM技術(shù)快速演進(jìn)的今天,AgentScope 1.0代表了智能體框架發(fā)展的方向——從單純的推理工具到能夠與環(huán)境進(jìn)行復(fù)雜交互的自主實(shí)體。隨著工具調(diào)用能力成為現(xiàn)代LLM的關(guān)鍵特征,一個(gè)能夠系統(tǒng)化支持工具調(diào)用與環(huán)境感知的框架將成為開(kāi)發(fā)真正實(shí)用智能體應(yīng)用的必備工具。AgentScope 1.0正是這樣一個(gè)框架,它連接了原型智能體與實(shí)際應(yīng)用,為構(gòu)建可擴(kuò)展、適應(yīng)性強(qiáng)且高效的智能體應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。















 
 
 









 
 
 
 