AI智能體協(xié)議全面綜述:從碎片化到互聯(lián)互通的智能體網(wǎng)絡(luò)
《人工智能智能體協(xié)議調(diào)研》是上海交通大學(xué)楊映璇、柴華燦、宋遠(yuǎn)逸等學(xué)者撰寫的一項(xiàng)綜合性研究報(bào)告。該報(bào)告首次對現(xiàn)有的AI智能體協(xié)議進(jìn)行了全面分析,提出了一個系統(tǒng)的二維分類框架,區(qū)分了面向上下文的協(xié)議與智能體間協(xié)議,以及通用型與特定領(lǐng)域的協(xié)議。
報(bào)告指出,隨著大型語言模型(LLM)的快速發(fā)展,LLM智能體已在客戶服務(wù)、內(nèi)容生成、數(shù)據(jù)分析和醫(yī)療等多個行業(yè)廣泛部署,但由于缺乏標(biāo)準(zhǔn)化的通信協(xié)議,使智能體之間難以有效協(xié)作和擴(kuò)展,限制了解決復(fù)雜問題的能力。
核心內(nèi)容包括對安全性、可擴(kuò)展性和延遲性等關(guān)鍵性能維度的比較分析,以及對智能體協(xié)議未來發(fā)展趨勢的探討,如分層架構(gòu)、適應(yīng)性與進(jìn)化性、隱私保護(hù)與聯(lián)邦學(xué)習(xí)和基于群體的交互機(jī)制等。這項(xiàng)研究為研究人員和工程師設(shè)計(jì)、評估或集成智能體通信基礎(chǔ)設(shè)施提供了實(shí)用參考。
解鎖協(xié)作的鑰匙:不同智能體協(xié)議的運(yùn)作模式探秘
為了更直觀地理解AI智能體協(xié)議的重要性及其運(yùn)作方式,我們可以通過一個具體的、與我們生活息息相關(guān)的任務(wù)來觀察不同協(xié)議是如何應(yīng)對挑戰(zhàn)的。該學(xué)術(shù)報(bào)告中,研究者們精心設(shè)計(jì)了一個場景:“規(guī)劃一次從北京到紐約的五日游” ?。這個看似簡單的需求,實(shí)則需要整合航班、酒店、天氣、活動等多方面信息,并進(jìn)行統(tǒng)籌安排,對AI智能體的協(xié)作能力和信息處理能力提出了很高的要求。讓我們看看幾種代表性的協(xié)議是如何指揮智能體大軍完成這個任務(wù)的。
首先登場的是“模型上下文協(xié)議”(Model Context Protocol, MCP)。這種協(xié)議代表了一種高度中心化的解決思路 ?。在其架構(gòu)中(如圖4左上角所示 ?),存在一個核心的“MCP旅行客戶端”智能體,它如同一個事必躬親的總指揮官,直接負(fù)責(zé)與所有外部服務(wù)進(jìn)行溝通和協(xié)調(diào) ?。無論是查詢航班信息、預(yù)訂酒店,還是獲取天氣數(shù)據(jù),都由這個中央客戶端智能體通過直接調(diào)用相應(yīng)的服務(wù)接口(例如get_flights(), get_hotels(), get_weather())來完成 ?。
在這個模式下,所有的外部服務(wù),如航班服務(wù)器、酒店服務(wù)器和天氣服務(wù)器,都被視為提供信息的“工具”,它們之間并不直接發(fā)生交互 ?。信息流嚴(yán)格遵循一種以MCP旅行客戶端為中心的“星形”模式 ?,所有數(shù)據(jù)都匯總到中央客戶端,再由它負(fù)責(zé)整合所有響應(yīng)并最終生成完整的旅行計(jì)劃 ?。MCP架構(gòu)的優(yōu)點(diǎn)在于其簡單性和易于控制 ?,因?yàn)樗械倪壿嫼蜎Q策都集中在一個點(diǎn)上。然而,它的缺點(diǎn)也同樣明顯:缺乏靈活性。中央智能體必須了解所有服務(wù)的接口和細(xì)節(jié),形成了一個高度依賴的結(jié)構(gòu),這使得系統(tǒng)在需要擴(kuò)展或修改時變得困難 ?。
更重要的是,所有的通信都必須經(jīng)過中央智能體,這很容易使其成為性能瓶頸,特別是在處理大規(guī)?;蚋卟l(fā)請求時 ?。這種方法雖然直接,但對于日益復(fù)雜的任務(wù)和不斷增多的服務(wù)種類,其可維護(hù)性和可擴(kuò)展性面臨嚴(yán)峻考驗(yàn)。
接下來,我們看看“智能體到智能體協(xié)議”(Agent-to-Agent, A2A)。與MCP的中央集權(quán)不同,A2A協(xié)議倡導(dǎo)的是一種更為分布式和協(xié)作式的理念,它允許不同的智能體之間直接進(jìn)行通信以共同完成復(fù)雜任務(wù) ?。在“規(guī)劃五日游”的場景中,A2A的實(shí)現(xiàn)方式(如圖4右上角所示 ?)是將智能分散到多個專門化的智能體中。這些智能體可以被組織到邏輯上的部門,例如“交通部門”和“住宿與活動部門” ?。
每個智能體都有其明確的依賴關(guān)系,例如,A2A航班智能體和活動智能體可能都需要從A2A天氣智能體那里獲取環(huán)境數(shù)據(jù)以輔助決策 ?。關(guān)鍵在于,這些智能體之間可以直接溝通,而無需事事都通過一個中央?yún)f(xié)調(diào)器 ?。例如,A2A航班智能體可以直接向天氣智能體請求天氣信息,而不需要通過旅行規(guī)劃器這個角色 ?。
這里的“A2A旅行規(guī)劃器”更像是一個非核心的協(xié)調(diào)者,主要負(fù)責(zé)收集各個專業(yè)智能體最終的處理結(jié)果,并將它們整合成最終方案 ?。A2A協(xié)議展現(xiàn)了一種更靈活、也更貼近現(xiàn)實(shí)組織運(yùn)作的架構(gòu)。它通過允許智能體在需要時建立直接連接,減少了不必要的通信開銷,并支持了在任何類型的組織或多智能體系統(tǒng)中實(shí)現(xiàn)更復(fù)雜的協(xié)作模式 ?。這種模式更適應(yīng)動態(tài)變化的需求,因?yàn)楦鱾€智能體可以更加自主地響應(yīng)和處理其負(fù)責(zé)的部分。
然而,當(dāng)協(xié)作需要跨越不同的組織或系統(tǒng)邊界時,A2A協(xié)議可能就會遇到新的挑戰(zhàn)。這時,“智能體網(wǎng)絡(luò)協(xié)議”(Agent Network Protocol, ANP)便應(yīng)運(yùn)而生。ANP通過標(biāo)準(zhǔn)化的跨領(lǐng)域交互,進(jìn)一步擴(kuò)展了智能體間的協(xié)作能力 ?。在其示意圖(如圖4左下角 ?)中,我們可以清晰地看到不同的組織邊界,例如航空公司、酒店和天氣網(wǎng)站各自獨(dú)立存在 ?。
跨領(lǐng)域的協(xié)作正是通過基于協(xié)議的正式請求和響應(yīng)來實(shí)現(xiàn)的 ?。例如,ANP航班智能體可以跨越領(lǐng)域邊界與ANP天氣智能體進(jìn)行協(xié)商 ?。在這個過程中,旅行規(guī)劃器負(fù)責(zé)協(xié)調(diào)整個流程,但并不干預(yù)每一次具體的跨域交互 ?。ANP的核心優(yōu)勢在于它通過形式化的協(xié)議交互過程,解決了獨(dú)立智能體之間協(xié)作的難題 ?。
如果說A2A更側(cè)重于基于消息的委托,那么ANP則為智能體之間建立了清晰的、基于結(jié)構(gòu)化請求和響應(yīng)的交互規(guī)則 ?。這使得ANP特別適用于那些擁有不同能力、定義明確的接口,并且可能存在不同安全邊界的智能體之間的協(xié)作場景,無論這些智能體是存在于同一個系統(tǒng)中還是跨越多個系統(tǒng) ?。
最后,我們來看看一種更具前瞻性的協(xié)議:“Agora:自然語言到協(xié)議生成” ?。Agora協(xié)議代表了一種以用戶為中心的設(shè)計(jì)思想,它致力于將用戶的自然語言請求直接轉(zhuǎn)換成標(biāo)準(zhǔn)化的協(xié)議,供下游的專業(yè)智能體執(zhí)行 ?。在其架構(gòu)圖(如圖4右下角 ?)中,Agora引入了幾個獨(dú)特的層次。
首先是自然語言理解層,它負(fù)責(zé)解析用戶的原始請求(例如“規(guī)劃一個從北京到紐約,為期五天,預(yù)算3000美元的旅行” ?),并從中提取出結(jié)構(gòu)化的關(guān)鍵信息,如出發(fā)地、目的地、時長、預(yù)算等 ?。緊接著,協(xié)議生成層會將這些結(jié)構(gòu)化信息轉(zhuǎn)換成針對不同服務(wù)類型的形式化協(xié)議,例如生成專門的航班協(xié)議、酒店協(xié)議、天氣協(xié)議和預(yù)算協(xié)議 ?。
最后,協(xié)議分發(fā)層會將這些生成的協(xié)議準(zhǔn)確地派發(fā)給相應(yīng)的專業(yè)智能體(如航班智能體、酒店智能體等)去執(zhí)行 ?。這些專業(yè)智能體只需要響應(yīng)它們所理解的特定協(xié)議,而無需直接處理復(fù)雜和模糊的自然語言請求 ?。Agora的這種三階段處理流程(理解、生成、分發(fā))創(chuàng)建了一個高度適應(yīng)性的系統(tǒng),它將領(lǐng)域特定的智能體從自然語言處理的復(fù)雜性中解放出來,使它們能夠?qū)W⒂谧陨淼暮诵墓δ?nbsp;?。這種關(guān)注點(diǎn)分離的設(shè)計(jì),極大地提升了系統(tǒng)的靈活性和可擴(kuò)展性。
通過對這四種協(xié)議在同一旅行規(guī)劃任務(wù)下的應(yīng)用分析,我們可以清晰地看到,每種協(xié)議都有其特定的適用條件和依賴關(guān)系 ?。MCP依賴一個中央智能體(如旅行助手)順序調(diào)用具有清晰接口的工具來完成任務(wù),這種方式對于定義明確的工作流非常高效,但適應(yīng)新場景可能需要修改中央智能體 ?。
A2A通過專業(yè)智能體(如航班、酒店、天氣智能體)之間的消息或數(shù)據(jù)交換來實(shí)現(xiàn)協(xié)作,每個智能體自主處理分配的任務(wù)并將結(jié)果反饋給協(xié)調(diào)智能體,這種方式允許靈活的通信模式同時保持整體協(xié)調(diào) ?。ANP則利用結(jié)構(gòu)化的、基于協(xié)議的交互,主智能體保留處理邏輯,但通過定義良好的類似API的接口委托特定的執(zhí)行步驟,這種標(biāo)準(zhǔn)化方法無論智能體是否在同一系統(tǒng)或跨不同領(lǐng)域都能有效工作 ?。
最后,Agora專注于將自然語言翻譯成合適的結(jié)構(gòu)化協(xié)議,充當(dāng)一個中間層,將用戶意圖映射到不同智能體所需的特定協(xié)議上 ?。選擇哪種協(xié)議,取決于任務(wù)所需的智能體自主性水平、通信靈活性、接口標(biāo)準(zhǔn)化程度以及任務(wù)本身的復(fù)雜性等多種因素 ?。這些不同的探索共同指向了一個目標(biāo):讓AI智能體之間的協(xié)作更加順暢、高效,從而更好地服務(wù)于人類的需求。
智能對話的未來圖景:從靜態(tài)規(guī)則到智慧生態(tài)
智能體協(xié)議的發(fā)展日新月異,遠(yuǎn)未達(dá)到終點(diǎn) ?。學(xué)術(shù)界和產(chǎn)業(yè)界正積極地擘畫著下一代智能體交互的藍(lán)圖,這些藍(lán)圖不僅關(guān)乎技術(shù)細(xì)節(jié)的演進(jìn),更預(yù)示著人工智能協(xié)作方式乃至整個智能生態(tài)的深刻變革。我們可以從短期、中期和長期三個維度來展望這場激動人心的變革。
在短期內(nèi),智能體協(xié)議的發(fā)展將首先聚焦于從當(dāng)前的靜態(tài)、固定模式向更具適應(yīng)性和可演化性的方向轉(zhuǎn)變。一個迫切的需求是建立統(tǒng)一的評估和基準(zhǔn)測試體系 ?。盡管目前已經(jīng)有多種針對不同應(yīng)用的智能體協(xié)議被提出,但如何科學(xué)、公正地衡量它們的有效性,仍然是一個尚待深入探索的領(lǐng)域。未來的研究趨勢正朝著設(shè)計(jì)超越簡單任務(wù)成功率的評估框架發(fā)展,這些框架將綜合考量通信效率、對環(huán)境變化的魯棒性、適應(yīng)能力以及可擴(kuò)展性等多個維度 ?。為此,開發(fā)多樣化的模擬環(huán)境和標(biāo)準(zhǔn)化的測試平臺至關(guān)重要,它們將提供從受控到開放的各種場景,從而促進(jìn)不同協(xié)議之間進(jìn)行公平一致的比較 ?。
與此同時,隨著智能體越來越多地應(yīng)用于醫(yī)療、金融等敏感領(lǐng)域,確保通信的安全和保密變得至關(guān)重要 ?。因此,隱私保護(hù)協(xié)議的研發(fā)將是近期的另一個重點(diǎn)。未來的協(xié)議需要允許智能體在交換信息的同時,最大限度地減少內(nèi)部狀態(tài)或個人數(shù)據(jù)的暴露 ?。這可能涉及到基于智能體角色、任務(wù)或安全許可等級的授權(quán)機(jī)制,這些機(jī)制本身也需要被定義在通信協(xié)議之內(nèi) ?。受到聯(lián)邦學(xué)習(xí)等技術(shù)的啟發(fā),協(xié)議還可以促進(jìn)智能體通過共享聚合后的洞察、從本地私有數(shù)據(jù)中提取的衍生信息,或者匿名的中間結(jié)果來進(jìn)行協(xié)作,而不是直接傳輸原始的敏感數(shù)據(jù) ?。
此外,現(xiàn)有的智能體交互協(xié)議大多是為兩個智能體之間的通信而設(shè)計(jì)的,當(dāng)智能體的數(shù)量和復(fù)雜性增加時,這種點(diǎn)對點(diǎn)的通信方式效率會逐漸降低 ?。為了克服這些限制,一種被稱為“智能體網(wǎng)狀協(xié)議”(Agent Mesh Protocol)的新型通信模型被寄予厚望 ?。
這個模型的靈感來源于數(shù)字時代人類的群聊方式,它旨在實(shí)現(xiàn)智能體群組內(nèi)部通信歷史的完全透明和共享訪問,從而促進(jìn)更有效的協(xié)調(diào)和協(xié)作決策 ?。實(shí)現(xiàn)網(wǎng)狀協(xié)議需要設(shè)計(jì)支持群組級語義、維護(hù)共享知識的一致性和同步,并有效處理消息排序、動態(tài)群組成員關(guān)系和通信開銷等挑戰(zhàn)的機(jī)制 ?。
更進(jìn)一步,未來的智能體系統(tǒng)可能會將協(xié)議視為動態(tài)的、模塊化的、可學(xué)習(xí)的組件,使其成為智能體適應(yīng)能力不可或缺的一部分,這就是“可演化協(xié)議”的理念 ?。在這種范式下,協(xié)議不再是外部強(qiáng)加的不可變框架,而是智能體可以主動管理和改進(jìn)的資源 ?。
智能體或許能夠檢索特定的協(xié)議模塊,或組合來自多個協(xié)議的元素,以構(gòu)建針對當(dāng)前任務(wù)需求定制的通信策略 ?。更有甚者,智能體可以通過訓(xùn)練來發(fā)現(xiàn)能夠提高通信效率或任務(wù)成功率的最優(yōu)協(xié)議變體或協(xié)商策略 ?。這種適應(yīng)性將使智能體系統(tǒng)能夠更好地泛化到新情境,針對特定的合作伙伴或條件優(yōu)化交互,并有潛力擴(kuò)展到更復(fù)雜的協(xié)作場景中 ?。
展望中期,智能體協(xié)議的發(fā)展可能會從遵循預(yù)設(shè)規(guī)則,演變?yōu)闃?gòu)建一個更為復(fù)雜的“生態(tài)系統(tǒng)”。一個重要的方向是探索將協(xié)議知識“內(nèi)建”到大型語言模型中 ?。不同于在推理時提供協(xié)議指令,未來的發(fā)展可能會研究將協(xié)議內(nèi)容和結(jié)構(gòu)直接整合到模型參數(shù)中的可能性。
這將使智能體能夠在沒有明確提示的情況下執(zhí)行符合協(xié)議的行為,從而實(shí)現(xiàn)更高效、更無縫的交互 ?。當(dāng)然,通過訓(xùn)練直接注入?yún)f(xié)議知識也存在局限性,例如一旦模型訓(xùn)練完成,就很難再整合協(xié)議標(biāo)準(zhǔn)的更新或修改 ?。盡管如此,對于模型提供商而言,選擇嵌入哪些協(xié)議可能影響未來的標(biāo)準(zhǔn)制定和智能體生態(tài)系統(tǒng)中的競爭格局,因此具有重要的戰(zhàn)略意義 ?。
另一個中期趨勢是“分層協(xié)議架構(gòu)”的出現(xiàn)。當(dāng)前的協(xié)議設(shè)計(jì)多為孤立結(jié)構(gòu),未來可能會朝著旨在分離不同通信層面關(guān)注點(diǎn)的分層架構(gòu)發(fā)展 ?。通過將底層的傳輸和同步機(jī)制與高層的語義和任務(wù)相關(guān)交互解耦,這種架構(gòu)可以提高異構(gòu)智能體之間的模塊化程度和可擴(kuò)展性 ?。
受到經(jīng)典計(jì)算機(jī)網(wǎng)絡(luò)協(xié)議設(shè)計(jì)的啟發(fā),這種分層架構(gòu)允許不同的智能體通過在每一層遵守共享的抽象來更有效地互操作。更重要的是,分層架構(gòu)可能為動態(tài)協(xié)議組合鋪平道路,智能體可以根據(jù)上下文協(xié)商或自動選擇合適的交互層,從而從僵化的規(guī)則遵循行為轉(zhuǎn)變?yōu)楦鲿车摹⑸鷳B(tài)系統(tǒng)級別的行為 ?。這種適應(yīng)性在人機(jī)混合環(huán)境中尤為關(guān)鍵,因?yàn)樵谶@些環(huán)境中,規(guī)范、偏好和目標(biāo)都會隨著時間而演變 ?。分層協(xié)議還可以在較高層面整合倫理、法律和社會約束,使智能體的行為與更廣泛的社會價值觀保持一致 ?。
而從更長遠(yuǎn)的角度來看,智能體協(xié)議的終極目標(biāo)可能是構(gòu)建起支撐“集體智能”的“智能基礎(chǔ)設(shè)施” ?。隨著智能體協(xié)議的不斷成熟,一個引人入勝的長期方向是探索在由大規(guī)模、互聯(lián)的智能體組成的群體中集體智能的涌現(xiàn) ?。
借鑒多智能體系統(tǒng)、群體智能和復(fù)雜自適應(yīng)網(wǎng)絡(luò)等領(lǐng)域的先前工作,未來的研究可能會關(guān)注智能體和環(huán)境的“尺度定律”,即群體規(guī)模、通信拓?fù)浜蛥f(xié)議配置如何共同塑造系統(tǒng)級的行為、突現(xiàn)屬性和魯棒性 ?。與傳統(tǒng)模擬不同,互聯(lián)網(wǎng)原生的、去中心化的智能體協(xié)議的出現(xiàn),使得在網(wǎng)絡(luò)規(guī)模上觀察和分析這些動態(tài)變得越來越可行 ?。從長遠(yuǎn)來看,這些發(fā)現(xiàn)可能會為分布式智能體集群的原則性設(shè)計(jì)提供信息,使其成為一種新型的計(jì)算基底——可擴(kuò)展、自適應(yīng),并能展現(xiàn)超越個體能力的智能 ?。
與此并行,我們可以預(yù)見一個專門為自主智能體通信和協(xié)調(diào)而優(yōu)化的基礎(chǔ)數(shù)據(jù)設(shè)施——“智能體數(shù)據(jù)網(wǎng)絡(luò)”(Agent Data Network, ADN)的出現(xiàn) ?。與主要為人類解讀和前端渲染而設(shè)計(jì)的傳統(tǒng)網(wǎng)絡(luò)交互不同,ADN將支持智能體之間結(jié)構(gòu)化的、意圖驅(qū)動的、符合協(xié)議的信息交換 ?。盡管ADN仍將運(yùn)行在現(xiàn)有的互聯(lián)網(wǎng)協(xié)議棧(如TCP/IP和HTTP)之上,但它代表了語義抽象層面的一次轉(zhuǎn)變:智能體將越來越依賴以機(jī)器為中心的數(shù)據(jù)表示,例如潛在任務(wù)狀態(tài)、分布式內(nèi)存快照和時間上下文日志,而不是人類可讀的網(wǎng)頁內(nèi)容 ?。這個網(wǎng)絡(luò)層將直接服務(wù)于智能體的操作需求,支持持久狀態(tài)同步、長遠(yuǎn)規(guī)劃和異步協(xié)作,而無需人工干預(yù)或可見性 ?。
總結(jié)
總而言之,從近期的協(xié)議評估、隱私保護(hù)和可演化性,到中期的知識內(nèi)建和分層架構(gòu),再到遠(yuǎn)期的集體智能基礎(chǔ)設(shè)施和專用數(shù)據(jù)網(wǎng)絡(luò),智能體協(xié)議的發(fā)展路徑清晰地指向一個更加智能、自主和高度協(xié)作的未來。
這一系列關(guān)于AI智能體協(xié)議的探索,從對現(xiàn)有協(xié)議的系統(tǒng)性分類和性能評估 ?,到對未來發(fā)展趨勢的展望,共同構(gòu)成了一幅波瀾壯闊的技術(shù)演進(jìn)圖景。通過提供一個結(jié)構(gòu)化的概覽,這些研究不僅幫助實(shí)踐者和研究人員更好地理解和駕馭日益增長的智能體協(xié)議生態(tài)系統(tǒng),也揭示了在構(gòu)建可靠、高效和安全的智能體系統(tǒng)時所涉及的權(quán)衡與設(shè)計(jì)考量 ?。展望未來,下一代協(xié)議,如可演化的、注重隱私的、支持群體協(xié)調(diào)的協(xié)議,以及分層架構(gòu)和集體智能基礎(chǔ)設(shè)施的出現(xiàn),都預(yù)示著智能體技術(shù)即將邁入新的發(fā)展階段 ?。
智能體協(xié)議的發(fā)展,正在為構(gòu)建一個聯(lián)系更緊密、協(xié)作更深入的智能體生態(tài)系統(tǒng)鋪平道路 ?。在這個生態(tài)系統(tǒng)中,智能體和工具能夠動態(tài)地形成聯(lián)盟,交換知識,并共同進(jìn)化以解決日益復(fù)雜的現(xiàn)實(shí)世界問題 ?。這不禁讓我們回想起互聯(lián)網(wǎng)早期那些奠基性的通信協(xié)議,正是它們的存在,才使得信息得以在全球范圍內(nèi)自由流動,催生了我們今天所熟知的數(shù)字時代。與之相似,未來的智能體通信標(biāo)準(zhǔn),也擁有著解鎖一個分布式集體智能新紀(jì)元的巨大潛力,它將深刻地重塑智能在不同系統(tǒng)間共享、協(xié)調(diào)和放大的方式 ?。
這不僅僅是技術(shù)層面的進(jìn)步,更可能引發(fā)社會組織、經(jīng)濟(jì)模式乃至人類生活方式的深遠(yuǎn)變革。智能體之間的“對話”一旦規(guī)范化、高效化,它們所能釋放的集體智慧,將遠(yuǎn)超我們目前的想象,引領(lǐng)我們走向一個更加智能、也更加充滿無限可能的未來。
本文轉(zhuǎn)載自???歐米伽未來研究所???,作者:歐米伽未來研究所
