多 AI 智能體技術(shù)架構(gòu)設(shè)計演進剖析 原創(chuàng)
本文將深度探討 AI 智能體技術(shù)架構(gòu)演進和多 AI 智能體當(dāng)前的架構(gòu)設(shè)計能力,給大家提供一個全面且深入的視角來理解多 AI 智能體的協(xié)作架構(gòu)。

下文我們詳細剖析之。
一、AI 智能體技術(shù)架構(gòu)演進
AI 智能體技術(shù)架構(gòu)至今已經(jīng)演進了5個階段,下文詳細剖析之:

第一階段:手藝人
手藝人象征著人類腦力的初步應(yīng)用,這一階段的入門門檻較低,幾乎每個人都能參與其中。然而,能夠達到頂尖水平的手藝人卻寥寥無幾。AI 智能體技術(shù)在這一階段主要體現(xiàn)為算法、算力和模態(tài)理解。當(dāng)前的大模型技術(shù)正是處于這一階段,當(dāng)算法突破瓶頸后,其稀缺性將逐漸顯現(xiàn),從而超越其他模型。AI 智能體技術(shù)在這一階段通常用于聊天、總結(jié)和翻譯等場景,能夠直接輸出知識。
第二階段:工作室
工作室的核心特點是擁有一個靈魂人物(例如:小老板),負責(zé)產(chǎn)品的立項和設(shè)計決策,并將具體任務(wù)分配給關(guān)鍵的手藝人。工作室的產(chǎn)品通常是定制化的,會結(jié)合用戶的特定內(nèi)容進行定制。關(guān)鍵技術(shù)包括意圖模型和工具使用。在業(yè)界,例如:豆包、元寶、頻道問問等 AI 智能體產(chǎn)品,都在進行特定內(nèi)容的上下文處理,實現(xiàn)總結(jié)、問答和聊天等娛樂化功能。
第三階段:流水線
流水線階段的特點是批量化執(zhí)行和拉線管理。在工廠中,每個流水線都有專門的管理人員監(jiān)督工作進度,確保生產(chǎn)環(huán)節(jié)順利進行。對應(yīng)的 AI 智能體技術(shù)包括任務(wù)編排、管理和 AI-Devops。例如,任務(wù)分發(fā)后可以通過多種方式執(zhí)行并回收結(jié)果。產(chǎn)品示例包括豆包的 Coze 平臺和 Dify 平臺。
第四階段:小型組織
小型組織類似于現(xiàn)代工廠的制造部門,關(guān)鍵技術(shù)是規(guī)劃決策算法和自動化技術(shù)。在這個階段,任務(wù)可能是模糊的,需要規(guī)劃和決策算法來優(yōu)化產(chǎn)品。自動化技術(shù)結(jié)合 MCP(可能指某種管理控制平臺)可以提高效率。例如,規(guī)劃決策算法用于分析問題、數(shù)據(jù)和工具選擇,而自動化技術(shù)則使任務(wù)執(zhí)行得更快。
第五階段:現(xiàn)代企業(yè)組織
現(xiàn)代企業(yè)組織由多個部門協(xié)作,關(guān)鍵在于持續(xù)穩(wěn)定的角色驅(qū)動。當(dāng)前,所有上下文都是基于用戶輸入啟動的,但組織需要持續(xù)運轉(zhuǎn),并實時調(diào)整數(shù)據(jù)輸入和反饋。關(guān)鍵技術(shù)包括數(shù)據(jù)共享和自我決策驅(qū)動,通過接入更多數(shù)據(jù)實現(xiàn)自我迭代。目前,環(huán)境感知在 AI 智能體上的應(yīng)用還比較少,但未來 AI 智能體協(xié)作的形態(tài)應(yīng)該是持續(xù)運營狀態(tài),基于持續(xù)的數(shù)據(jù)輸入對自身進行迭代。
例如,PM(產(chǎn)品經(jīng)理)和 DS(數(shù)據(jù)科學(xué)家)作為兩個 AI 智能體每天交流信息,他們可能共同開了一個會議,目標(biāo)更新了。當(dāng)這個目標(biāo)需要兩個角色共同完成時,AI 智能體集群可以自我編排,將兩個 AI 智能體整合成一個新的高維 AI 智能體來實現(xiàn)目標(biāo)(類似于項目組織的概念)。
企業(yè)組織通過 OKR(目標(biāo)與關(guān)鍵結(jié)果)驅(qū)動目標(biāo)劃分,依據(jù)部門定位編排目標(biāo)。當(dāng)外部的產(chǎn)品或技術(shù)發(fā)生變化時,企業(yè)會自行更新組織來適應(yīng)。對于 AI 智能體協(xié)作來說,達到企業(yè)級別的 AI 智能體會自行通過決策,在已有基礎(chǔ)上創(chuàng)建新的 AI 智能體來適應(yīng)變化,并在持續(xù)的外部數(shù)據(jù)輸入后進行更新迭代和編排。
總之,各階段的 AI 智能體技術(shù)架構(gòu)演進展示了從手藝人到現(xiàn)代企業(yè)組織的逐步發(fā)展,每個階段都有相應(yīng)的技術(shù)和應(yīng)用場景。應(yīng)用的選擇應(yīng)根據(jù)使用場景和用戶規(guī)模來判斷,不一定每個應(yīng)用都要走到最后階段。
二、AI 智能體能力架構(gòu)剖析
1、AI 智能體能力核心模塊
AI 智能體的能力主要可以分為以下四個核心部分:

- 知識記憶
- 預(yù)測功能
- 動作執(zhí)行
- 工具能力
第一、知識記憶 (Memory and Knowledge)
AI 智能體的大腦負責(zé)記憶和知識的獲取。知識記憶通常通過微調(diào)訓(xùn)練或者特定方案(例如 RAG 的方案)來實現(xiàn)。這些方法使 AI 智能體能夠在不同情況下調(diào)用相關(guān)知識,從而更好地應(yīng)對各種任務(wù)。

第二、預(yù)測功能 (Prediction)
對于預(yù)測任務(wù),AI 智能體可以將圖像、多模態(tài)數(shù)據(jù)等轉(zhuǎn)換成文本形式,然后進行預(yù)測。這種轉(zhuǎn)換使得 AI 智能體在處理不同類型的數(shù)據(jù)時更加靈活和高效,能夠快速適應(yīng)多樣化的輸入。

第三、動作執(zhí)行 (Action)
動作執(zhí)行是通過工具能力來實現(xiàn)的,例如:
- API 調(diào)用
- SQL 調(diào)用
- 機械手操作
- 其他工具調(diào)用
這些調(diào)用都屬于 AI 智能體的動作執(zhí)行部分,幫助 AI 智能體完成具體的任務(wù)操作。

第四、工具能力 (Tool Capability)
在工具能力方面,以 ReAct 架構(gòu)模式的方案為例,AI 智能體可以實現(xiàn) API 調(diào)用和搜索等功能。這些能力使得 AI 智能體能夠高效地與外部系統(tǒng)交互,獲取所需信息并執(zhí)行任務(wù)。

MCP (萬能插口)
MCP 的概念可以理解為一個萬能的插口。目前,所有工具調(diào)用可能各自有獨立的沙箱板,而 MCP 作為一個通用接口,使得所有工具都能接入,從而提高了兼容性和靈活性,MCP 需要建立在 Function Calling 的基礎(chǔ)之上。

RAG (知識補充)
RAG 是一個知識補充機制,用于增強 AI 智能體的知識庫。通過 RAG,AI 智能體可以動態(tài)地獲取和更新知識,從而更好地應(yīng)對復(fù)雜多變的任務(wù)需求。

總之,當(dāng)前的 AI 智能體通過整合計算能力、知識記憶、預(yù)測功能和動作執(zhí)行等多個方面,能夠高效地與外部用戶進行交互,并完成復(fù)雜的任務(wù)。這些能力的實現(xiàn)依賴于各種工具和接口的使用,例如 API 調(diào)用、SQL 調(diào)用和機械手操作等。通過 MCP 和 RAG 等機制,AI 智能體能夠更加靈活地調(diào)用和補充知識,從而提升整體性能。
本文轉(zhuǎn)載自???玄姐聊AGI?? 作者:玄姐

















