智能體互聯(lián)網(wǎng)(Agentic Web)
1.引 言
隨著大模型在多模態(tài)理解、邏輯推理等方面的進(jìn)一步發(fā)展,Agent 或?qū)⒃?2025 年迎來(lái)大規(guī)模落地應(yīng)用,替代人類自主解決越來(lái)越多的日常工作。人工智能(AI)專家普遍認(rèn)為,2025 年將是智能體(agent)爆發(fā)之年。
2024年底,Gartner 也將 agentic AI 列入了 2025 年十大技術(shù)趨勢(shì)之一,并預(yù)測(cè) 2028 年將至少有 15% 的日常工作決策由 agentic AI 自主完成,而這一數(shù)字在 2024 年為 0。
在CES 2025,黃仁勛也強(qiáng)調(diào)2025年Agent將會(huì)有許多商業(yè)化應(yīng)用。
本文從Agent展開(kāi),重點(diǎn)介紹Agent組網(wǎng)(Agentic Web)的相關(guān)發(fā)展。
2.什么是 AI Agent
根據(jù)OpenAI前安全研究副總裁Lilian Weng的博文,Agent =大語(yǔ)言模型(LLM)+規(guī)劃(planning)+記憶(memory)+工具(tools)+行動(dòng)(Action),在大語(yǔ)言模型(LLM)驅(qū)動(dòng)的Agent系統(tǒng)中,LLM充當(dāng)Agent的大腦,并由Planning(規(guī)劃)、Memory(記憶)、Tools(工具)、Action(動(dòng)作)等幾個(gè)關(guān)鍵組件組成。
3.多 AI Agent 協(xié)作
隨著單個(gè)Agent具有很大的自主性,研究人員逐步發(fā)現(xiàn)可以通過(guò)多個(gè)Agent之間協(xié)助完成并解決一些問(wèn)題。
2023年斯坦福大學(xué)的人機(jī)交互研究小組創(chuàng)造了一個(gè)包含25個(gè)Agent的AI小鎮(zhèn),用以模擬社會(huì)互動(dòng)。這個(gè)AI小鎮(zhèn)設(shè)有大學(xué)、公寓、咖啡館和書(shū)店等基礎(chǔ)設(shè)施,Agent在其中居住并進(jìn)行日?;顒?dòng),盡管他們沒(méi)有意識(shí)到自己生活在模擬環(huán)境中。這些Agent不僅能去工作、閑聊、組織社交活動(dòng)、結(jié)交新朋友,甚至能墜入愛(ài)河,每個(gè)Agent都有獨(dú)特的個(gè)性和背景故事。通過(guò)這種社會(huì)化模擬,展示了Agent在復(fù)雜的人類社交環(huán)境中的適應(yīng)能力和行為多樣性。
清華大學(xué)的研究團(tuán)隊(duì)嘗試了AI員工的一些早期探索,他們打造了一個(gè)名為ChatDev的虛擬軟件公司,由各種具有不同角色的Agent運(yùn)作,包括CEO(首席執(zhí)行官)、CPO(首席產(chǎn)品官)、CTO(首席技術(shù)官)、程序員、代碼審查員、測(cè)試員和藝術(shù)設(shè)計(jì)師等。這些Agent組成了一個(gè)多代理組織結(jié)構(gòu),被設(shè)定了一個(gè)使命是“通過(guò)編程革新數(shù)字世界”。
復(fù)旦大學(xué)的技術(shù)團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為AI2Apps的一站式AI員工開(kāi)發(fā)與端側(cè)服務(wù)平臺(tái),將Devin的開(kāi)發(fā)模式復(fù)刻到了任何崗位的AI員工上。團(tuán)隊(duì)自研了一套基于瀏覽器的Agent操作系統(tǒng),提供全套的開(kāi)發(fā)人員工具,包括終端、文件管理、Agent調(diào)試、代碼編輯器和瀏覽器沙盒環(huán)境等,讓開(kāi)發(fā)者能在“建筑師Agent”的主導(dǎo)下完成任何崗位AI員工團(tuán)隊(duì)的構(gòu)建與組合。經(jīng)過(guò)AI2Apps的端側(cè)部署后,AI員工可以通過(guò)瀏覽器在各種用戶設(shè)備中既“無(wú)所不能”又“有所不為”,模擬人類員工辦公的同時(shí)又避免了直接操控用戶設(shè)備。
上面的多 agent 系統(tǒng),都是在自己的“局域網(wǎng)”組成的系統(tǒng),而如果所有的Agent都在目前的互聯(lián)網(wǎng)上,我們還需要全球公認(rèn)和采用的協(xié)議,這些協(xié)議應(yīng)該得到普遍認(rèn)可和實(shí)施,以便協(xié)調(diào) agent 能夠安全、合乎道德地與其他企業(yè) agent 進(jìn)行溝通、協(xié)商和合作,并使雙方互惠互利。這種“合奏”級(jí)別的參與必須快速、高效和公平。如果沒(méi)有這樣的協(xié)議,往好了說(shuō),我們會(huì)面臨 agent 與 agent 之間的“垃圾郵件”風(fēng)險(xiǎn),往壞了說(shuō),我們會(huì)面臨欺詐和其他危險(xiǎn)。
4.AI Agent 互聯(lián)網(wǎng)
正如互聯(lián)網(wǎng)把全世界所有信息和人連接在一起,物聯(lián)網(wǎng)把所有設(shè)備連接在一起,一個(gè)統(tǒng)一的智能體平臺(tái)可以把散落在世界各地的Agent連接起來(lái)。
但是“互聯(lián)網(wǎng)Agent”可能有不同的架構(gòu)、運(yùn)行于不同的設(shè)備、有不同的能力,同時(shí)在數(shù)量和功能上飛速演進(jìn),但目前單個(gè)智能體更多處于“孤島”的相對(duì)隔離狀態(tài),智能體之間的互相發(fā)現(xiàn)、大規(guī)模自由協(xié)作,還沒(méi)有先例。多智能體局域網(wǎng)協(xié)作,盡管已經(jīng)顯示了巨大的應(yīng)用潛力,卻依然存在著三重限制:
- 只允許接入內(nèi)部定義的智能體。
- 大多數(shù)多智能體系統(tǒng)在一個(gè)設(shè)備上模擬多個(gè)智能體。現(xiàn)實(shí)場(chǎng)景更迫切的需求,是分布在多個(gè)設(shè)備和位置的智能體通過(guò)“網(wǎng)絡(luò)”進(jìn)行協(xié)作。
- 大多數(shù)多智能體系統(tǒng)的溝通機(jī)制單一,或者需要用戶進(jìn)行指定。溝通和多輪的信息交換,非常的不靈活。
為了跨過(guò)這些障礙,許多研究機(jī)構(gòu) 都希望提出類似Http的協(xié)議,統(tǒng)一將世界各地的Agent 通過(guò)協(xié)議連接起來(lái)。
IoA(Internet of Agents)
清華大學(xué)某AI團(tuán)隊(duì)推出了LLM驅(qū)動(dòng)的智能體互聯(lián)網(wǎng)(Internet of Agents, IoA),這是一個(gè)受互聯(lián)網(wǎng)啟發(fā)的智能體通信和協(xié)作通用框架。簡(jiǎn)單來(lái)說(shuō),IoA 創(chuàng)建了一個(gè)可以自由注冊(cè)、互相發(fā)現(xiàn)的Agent協(xié)作平臺(tái),并且讓智能體之間協(xié)作再向上構(gòu)建,對(duì)原來(lái)Agent協(xié)作工作流(Work Flow)進(jìn)行三個(gè)方向擴(kuò)容,跨設(shè)備、更多異質(zhì)Agent開(kāi)放互聯(lián)、協(xié)作組織方式高度靈活,從而在更高維度上形成智能體互聯(lián)網(wǎng) Internet of Agents(IoA)。
IoA 的核心由兩個(gè)主要組件組成:服務(wù)器和客戶端。服務(wù)器作為中心樞紐,管理智能體注冊(cè)、發(fā)現(xiàn)和消息路由,確保具備不同能力的智能體能夠互相發(fā)現(xiàn)并發(fā)起通信??蛻舳藙t作為單個(gè)智能體的包裝,提供必要的通信功能,并適應(yīng)指定的溝通協(xié)議。IoA能夠?qū)崿F(xiàn)智能體注冊(cè)與發(fā)現(xiàn) 、自主嵌套團(tuán)隊(duì)組建、自主會(huì)話流程控制、任務(wù)分配與執(zhí)行等功能。
MCP(Model Context Protocol)
Anthropic 提出了一種MCP協(xié)議,以模型為核心,整個(gè)互聯(lián)網(wǎng)都是他的上下文與工具(如下圖所示)。MCP允許任何一臺(tái)Server通過(guò)Web Apis訪問(wèn)互聯(lián)網(wǎng)提供上下文信息。
Agora Protocol
異構(gòu)的LLM 之間的通信效率低下,嚴(yán)重制約了 AI Agent網(wǎng)絡(luò)的規(guī)?;瘧?yīng)用,來(lái)自牛津大學(xué)的研究團(tuán)隊(duì)提出的 Agora 協(xié)議,為解決這一難題提供了創(chuàng)新方案。
具體步驟為:
- 定義協(xié)議文檔(PD):創(chuàng)建 PD 來(lái)描述通信協(xié)議,使 LLM 能夠理解和遵循協(xié)議。
- 實(shí)現(xiàn)多層次通信策略:根據(jù)通信頻率和任務(wù)復(fù)雜度,選擇自然語(yǔ)言、LLM 編寫(xiě)的例程或人工編寫(xiě)的例程進(jìn)行通信。
- 自動(dòng)協(xié)商與實(shí)現(xiàn)協(xié)議:代理之間通過(guò)自然語(yǔ)言或 PD 中定義的例程自動(dòng)協(xié)商和實(shí)現(xiàn)通信協(xié)議。
- 協(xié)議的涌現(xiàn)與共享:鼓勵(lì)代理生成和共享 PD,以促進(jìn)自組織協(xié)議的涌現(xiàn)和網(wǎng)絡(luò)的自我優(yōu)化。
- 成本效益分析:評(píng)估 Agora 協(xié)議相對(duì)于純自然語(yǔ)言通信的成本效益。
ANP(Agent Network Protocol)
國(guó)內(nèi)方面,提出了一種ANP,愿景是定義智能體之間的連接方式,為數(shù)十億智能體構(gòu)建一個(gè)開(kāi)放、安全、高效的協(xié)作網(wǎng)絡(luò),成為智能體互聯(lián)網(wǎng)時(shí)代的HTTP。
- 身份與加密通信層:基于W3C DID(Decentralized Identifiers,去中心化標(biāo)識(shí)符)規(guī)范,在現(xiàn)有成熟的Web基礎(chǔ)設(shè)施上,構(gòu)建一個(gè)去中心化的身份認(rèn)證方案和端到端加密通信方案。它可以讓任意平臺(tái)之間的智能體進(jìn)行身份認(rèn)證,而不依賴于任何中心化系統(tǒng)。
- 元協(xié)議層:元協(xié)議即協(xié)商智能體之間通信協(xié)議的協(xié)議。是智能體網(wǎng)絡(luò)演進(jìn)為自組織、自協(xié)商的高效協(xié)作網(wǎng)絡(luò)的關(guān)鍵。
- 應(yīng)用協(xié)議層:基于語(yǔ)義網(wǎng)相關(guān)規(guī)范,讓智能體能夠描述其他能力與支持的應(yīng)用協(xié)議,并且高效的管理這些協(xié)議。
此外,AutoGPT和W3C 也各自定義了Agent Protocol設(shè)計(jì)的目標(biāo),不過(guò)都在萌芽階段。
5.總 結(jié)
從上面的分析可以看出,目前基于Agent提出的互聯(lián)網(wǎng)協(xié)議都在實(shí)驗(yàn)階段,可能各家都基于自身的產(chǎn)品都提出了各自的想法。隨著我們對(duì)大量Agent 協(xié)作的理解不斷加深,我們發(fā)現(xiàn)未來(lái)不是人類與人工智能的對(duì)決,而是人類與人工智能的協(xié)同合作,發(fā)揮各自的獨(dú)特優(yōu)勢(shì)。而建立多個(gè)Agent之間、Agent與人之間如何交互的協(xié)議也成為重中之重。
隨著互聯(lián)網(wǎng)的逐步發(fā)展,我們已經(jīng)走過(guò)Web 1.0、2.0、3.0,前兩代?絡(luò)專注于信息傳播,Web 3.0通過(guò)去中心化和區(qū)塊鏈等技術(shù),用戶能夠真正擁有自己的數(shù)據(jù),可以自由決定數(shù)據(jù)的使用方式、分享對(duì)象等,同時(shí)也能更好地保護(hù)自己的隱私,?現(xiàn)在通過(guò)Agent組網(wǎng)則通過(guò)?型語(yǔ)?模型(LLM)賦予了智能,因此有專家提出我們正在進(jìn)入“Web 4.0”時(shí)代。
本文轉(zhuǎn)載自??AI遇見(jiàn)云??,作者: 王亞平 ????
