一種模塊化大模型Agent框架全棧技術(shù)綜述 精華
現(xiàn)有基于LLM的智能體雖然在功能上取得了進(jìn)展,但缺乏模塊化,導(dǎo)致在研究和開(kāi)發(fā)中存在術(shù)語(yǔ)和架構(gòu)上的混淆,在軟件架構(gòu)上缺乏統(tǒng)一。
“A survey on LLM based autonomous agents”提出的框架,它并沒(méi)有明確指出大型語(yǔ)言模型(LLM)、工具、數(shù)據(jù)源和記憶是否是Agent的一部分。這種對(duì)每個(gè)模塊功能的模糊區(qū)分促進(jìn)了軟件開(kāi)發(fā)者之間的分裂,并導(dǎo)致不兼容和阻礙了可重用性
LLM-Agent-UMF框架通過(guò)明確區(qū)分智能體的不同組件,包括LLM、工具和新引入的核心智能體(core-agent),來(lái)解決這些問(wèn)題。核心智能體是智能體的中央?yún)f(xié)調(diào)器,包含規(guī)劃、記憶、檔案、行動(dòng)和安全五個(gè)模塊,其中安全模塊在以往的研究中常被忽視。
核心智能體作為基于大型語(yǔ)言模型(LLM)智能體的中心組成部分
核心智能體(core-agent)的內(nèi)部結(jié)構(gòu)
核心智能體(core-agent)是LLM-Agent-UMF框架的關(guān)鍵組成部分。核心智能體被設(shè)計(jì)為智能體的中央?yún)f(xié)調(diào)器,負(fù)責(zé)管理和協(xié)調(diào)智能體的各種功能和組件。內(nèi)部結(jié)構(gòu)被劃分為五個(gè)主要模塊,每個(gè)模塊都有其特定的功能和責(zé)任:
核心智能體的內(nèi)部結(jié)構(gòu)
- 規(guī)劃模塊(Planning Module):
- 規(guī)劃模塊是核心智能體的關(guān)鍵組成部分,負(fù)責(zé)將復(fù)雜的任務(wù)分解成可執(zhí)行的步驟,并生成有效的行動(dòng)計(jì)劃:
- 規(guī)劃過(guò)程(Planning Process):
- 任務(wù)分解(Task Decomposition):將復(fù)雜任務(wù)分解為更簡(jiǎn)單的子任務(wù),建立中間目標(biāo)的層次結(jié)構(gòu)。
- 計(jì)劃生成(Plan Generation):為每個(gè)子任務(wù)制定具體計(jì)劃,包括所需工具和參與方。
- 規(guī)劃策略(Planning Strategies):
- 單路徑策略(Single-path Strategy):生成單一路徑或程序序列來(lái)實(shí)現(xiàn)目標(biāo),不探索替代方案。
- 多路徑策略(Multi-path Strategy):生成多個(gè)計(jì)劃,評(píng)估并選擇最合適的路徑。
- 規(guī)劃技術(shù)(Planning Techniques):
- 基于規(guī)則的技術(shù)(Rule-based Technique):使用符號(hào)規(guī)劃器和PDDL等正式推理方法。
- 語(yǔ)言模型驅(qū)動(dòng)的技術(shù)(Language Model Powered Technique):利用LLM的知識(shí)和推理能力來(lái)制定規(guī)劃策略。
- 反饋源(Feedback Sources):
- 人類反饋(Human Feedback):來(lái)自核心智能體與人類的直接互動(dòng),用于調(diào)整規(guī)劃以符合人類價(jià)值觀和偏好。
- 工具反饋(Tool Feedback):來(lái)自核心智能體使用的內(nèi)部或外部工具的反饋,用于優(yōu)化工具選擇和使用策略。
- 同級(jí)核心智能體反饋(Sibling Core-Agent Feedback):來(lái)自同一系統(tǒng)內(nèi)不同核心智能體之間的互動(dòng)和信息交換。
- 記憶模塊(Memory Module):
- 負(fù)責(zé)存儲(chǔ)和檢索與核心智能體活動(dòng)相關(guān)的信息,以提高決策效率和任務(wù)執(zhí)行能力。
- 記憶結(jié)構(gòu)分為短期記憶和長(zhǎng)期記憶,分別對(duì)應(yīng)不同的信息存儲(chǔ)和檢索需求。
- 記憶位置包括嵌入式記憶(核心智能體內(nèi))和記憶擴(kuò)展(核心智能體外,但在智能體系統(tǒng)內(nèi))。
- 記憶格式可以是自然語(yǔ)言、嵌入向量、SQL數(shù)據(jù)庫(kù)或結(jié)構(gòu)化列表。
- 檔案模塊(Profile Module):
- 定義LLM的角色和行為,以適應(yīng)特定的用例和策略。
- 包含多種方法,如手工制作上下文學(xué)習(xí)方法、LLM生成方法、數(shù)據(jù)集對(duì)齊方法和新引入的微調(diào)可插拔模塊方法。
- 行動(dòng)模塊(Action Module):
- 將智能體的決策轉(zhuǎn)化為具體行動(dòng),通過(guò)行動(dòng)目標(biāo)、行動(dòng)產(chǎn)生、行動(dòng)空間和行動(dòng)影響四個(gè)視角來(lái)定義。
- 行動(dòng)產(chǎn)生方法包括通過(guò)記憶回憶、計(jì)劃遵循和API調(diào)用請(qǐng)求來(lái)執(zhí)行行動(dòng)。
- 安全模塊(Security Module):
- 監(jiān)控行動(dòng)模塊,特別是在生產(chǎn)環(huán)境中,以確保LLM的安全和負(fù)責(zé)任的使用。
- 遵循機(jī)密性、完整性、可用性(CIA)原則,確保信息和資源的安全。
- 安全措施包括提示保護(hù)、響應(yīng)保護(hù)和數(shù)據(jù)隱私保護(hù)。
核心智能體(core-agent)的分類
對(duì)核心智能體進(jìn)行了分類,區(qū)分為主動(dòng)核心智能體(Active Core-Agents)和被動(dòng)核心智能體(Passive Core-Agents),以闡明它們?cè)诮Y(jié)構(gòu)和功能上的差異。
主動(dòng)和被動(dòng)核心智能體的內(nèi)部結(jié)構(gòu)
主動(dòng)核心智能體(Active Core-Agents):
- 包含規(guī)劃、記憶、檔案、行動(dòng)和安全五個(gè)模塊。
- 負(fù)責(zé)協(xié)調(diào)和管理智能體的其他組件,需要規(guī)劃模塊來(lái)分解任務(wù)、提供上下文、分析信息和做決策。
- 具有狀態(tài)性(stateful),能夠維護(hù)關(guān)于其過(guò)去交互和狀態(tài)的信息。
- 能夠控制LLM的行為和檔案,具有動(dòng)態(tài)適應(yīng)不同任務(wù)的能力。
- 在多核心智能體系統(tǒng)中,可能需要復(fù)雜的同步機(jī)制。
多主動(dòng)核心智能體架構(gòu)
被動(dòng)核心智能體(Passive Core-Agents):
- 主要負(fù)責(zé)執(zhí)行特定程序,通常不包含規(guī)劃和記憶模塊。
- 通常是無(wú)狀態(tài)的(stateless),只處理當(dāng)前任務(wù)的狀態(tài)。
- 行動(dòng)模塊是其核心,根據(jù)外部指令(如LLM或主動(dòng)核心智能體的指令)執(zhí)行操作。
- 與人類的互動(dòng)通常是單向的,只能由被動(dòng)核心智能體發(fā)起。
- 在多核心智能體系統(tǒng)中,集成新的核心智能體相對(duì)簡(jiǎn)單,因?yàn)樗鼈冎饕獔?zhí)行特定的、有限的任務(wù)。
包括被動(dòng)核心智能體的基于大型語(yǔ)言模型(LLM)的智能體架構(gòu)
多被動(dòng)核心智能體架構(gòu)
混合多核心智能體(Hybrid Multi-Core Agent)架構(gòu),
- 這是一種結(jié)合了主動(dòng)核心智能體(Active Core-Agents)和被動(dòng)核心智能體(Passive Core-Agents)的智能體設(shè)計(jì)。
- 利用主動(dòng)核心智能體的管理和協(xié)調(diào)能力,以及被動(dòng)核心智能體的執(zhí)行特定任務(wù)的能力。
- 在保持系統(tǒng)靈活性和可擴(kuò)展性的同時(shí),處理更廣泛的任務(wù)。
一主動(dòng)多被動(dòng)核心智能體混合架構(gòu)
多主動(dòng)多被動(dòng)核心智能體混合架構(gòu)
核心智能體(core-agent)的有效性
- 驗(yàn)證LLM-Agent-UMF框架在設(shè)計(jì)和改進(jìn)多核心智能體系統(tǒng)中的應(yīng)用價(jià)值。
- 展示如何通過(guò)合并不同智能體的特性來(lái)創(chuàng)建具有增強(qiáng)功能的新型智能體。
- 通過(guò)將LLM-Agent-UMF框架應(yīng)用于現(xiàn)有的智能體,如Toolformer、Confucius、ToolLLM和ChatDB,來(lái)識(shí)別和分類這些智能體中的核心智能體及其模塊。
使用LLM-Agent-UMF對(duì)最新智能體進(jìn)行分類。
Toolformer和Confucius的多被動(dòng)核心智能體系統(tǒng):結(jié)合了Toolformer和Confucius的被動(dòng)核心智能體,以處理特定的工具調(diào)用和任務(wù)執(zhí)行。
基于大型語(yǔ)言模型的智能體1(LA1):Toolformer和Confucius - 多被動(dòng)核心智能體架構(gòu)。
ToolLLM和ChatDB的多主動(dòng)核心智能體系統(tǒng):將ToolLLM的API檢索能力和ChatDB的復(fù)雜推理能力結(jié)合起來(lái),創(chuàng)建了一個(gè)能夠執(zhí)行高級(jí)任務(wù)規(guī)劃和執(zhí)行的智能體。
基于大型語(yǔ)言模型的智能體2-A(LA2-A):ToolLLM和ChatDB - 多主動(dòng)核心智能體架構(gòu)。
https://arxiv.org/pdf/2409.11393
LLM-AGENT-UMF: LLM-BASED AGENT UNIFIED MODELING FRAMEWORK FOR SEAMLESS INTEGRATION OF M
本文轉(zhuǎn)載自??PaperAgent??
