近期爆火的 AI Agent,運(yùn)行原理全解析
“Android、iOS 和 Windows 都是平臺(tái),AI Agent 將成為下一個(gè)平臺(tái)”,比爾·蓋茨在他的博客文章中這樣說(shuō)到。
那讓比爾·蓋茨都為之傾倒的 AI Agent,究竟是什么呢?
隨著 AI 技術(shù)的日益普及,未來(lái)五年內(nèi)我們將不再使用不同的應(yīng)用程序來(lái)完成不同的任務(wù),相反只需用日常用語(yǔ)告訴你的手機(jī)或電腦想要做什么,它們就能夠處理你的請(qǐng)求。在不遠(yuǎn)的將來(lái),任何上網(wǎng)的人都將能夠擁有一個(gè)由人工智能驅(qū)動(dòng)的個(gè)人助理,也就是所謂的“AI Agent”。
1、AI Agent 的概念
AI Agent 是一種應(yīng)用了大模型(LLM)能力的 Agent,也被稱(chēng)為智能體。它由 LLM、 Planning(規(guī)劃)、 Memory(記憶)和 Tools(工具)等幾部分組成。其中,LLM 是核心大腦,Memory、Planning Skills 以及 Tool Use 等則是 Agents 系統(tǒng)實(shí)現(xiàn)的三個(gè)關(guān)鍵組件。
與大型語(yǔ)言模型(LLM)在像 ChatGPT 這樣的工具中“通?!钡氖褂梅绞讲煌?,Agent 擁有復(fù)雜的工作流程,模型本質(zhì)上可以自我對(duì)話,而無(wú)需人類(lèi)驅(qū)動(dòng)每一部分的交互。
AI Agent 具有自主決策和行動(dòng)能力,可以理解并適應(yīng)復(fù)雜環(huán)境,根據(jù)目標(biāo),自主思考、制定計(jì)劃并執(zhí)行相應(yīng)任務(wù)。相較于 Copilot 的工具型輔助能力,Agent 更注重對(duì)環(huán)境的實(shí)時(shí)感知和判斷,更像人類(lèi)一樣形成獨(dú)立的決策和行動(dòng)方案。
圖片
IDC 調(diào)研顯示,Agent 被普遍認(rèn)為是 AI 應(yīng)用發(fā)展的趨勢(shì)性方向,50%的企業(yè)已經(jīng)在某項(xiàng)工作中進(jìn)行了 AI Agent 的試點(diǎn),另有 34%的企業(yè)正在制定 AI Agent 的應(yīng)用計(jì)劃,主要應(yīng)用于智能終端、智能座艙、汽車(chē)自動(dòng)駕駛、工業(yè)機(jī)器人和人形機(jī)器人等領(lǐng)域。
2、AI Agent 的潛力與優(yōu)勢(shì)
比爾·蓋茨認(rèn)為 AI Agent 將成為下一個(gè)平臺(tái),未來(lái)五年內(nèi)人們將通過(guò)日常用語(yǔ)與 AI Agent 交流,完成各種任務(wù)。Meta 創(chuàng)始人扎克伯格也曾表示,看到了“以有用、且有意義的方式,向數(shù)十億人介紹 AI Agents 的機(jī)會(huì)”。
AI Agent 是一種人工智能技術(shù),它具有巨大的潛力和優(yōu)勢(shì),可以幫助人們解決各種問(wèn)題和任務(wù)。以下是 AI Agent 的一些主要優(yōu)勢(shì)和潛在應(yīng)用:
- 自動(dòng)化
AI Agent 可以自動(dòng)執(zhí)行各種任務(wù),從而節(jié)省時(shí)間和提高效率。它可以處理重復(fù)性的任務(wù),如數(shù)據(jù)輸入、客戶服務(wù)和訂單處理等,從而釋放人力資源,使人們能夠?qū)W⒂诟袃r(jià)值的工作。
- 智能決策
AI Agent 可以使用數(shù)據(jù)和算法來(lái)做出更明智的決策。它可以分析市場(chǎng)趨勢(shì)、客戶行為和競(jìng)爭(zhēng)對(duì)手,從而幫助企業(yè)制定更有效的戰(zhàn)略和決策。
- 個(gè)性化服務(wù)
AI Agent 可以根據(jù)客戶的偏好和行為來(lái)提供個(gè)性化的服務(wù)。它可以通過(guò)分析客戶數(shù)據(jù)來(lái)了解客戶的需求和喜好,從而提供更符合客戶需求的產(chǎn)品和服務(wù)。
- 高用戶滿意度
AI Agent 可以提供 24/7 的客戶服務(wù),從而提高客戶滿意度。它可以快速響應(yīng)客戶的問(wèn)題和請(qǐng)求,并提供準(zhǔn)確的信息和解決方案。
- 創(chuàng)新
AI Agent 可以幫助企業(yè)探索新的業(yè)務(wù)模式和創(chuàng)新解決方案。它可以分析市場(chǎng)趨勢(shì)和技術(shù)發(fā)展,從而幫助企業(yè)發(fā)現(xiàn)新的機(jī)會(huì)和創(chuàng)新點(diǎn)。
3、AI Agent 的基本框架
OpenAI 將 AI Agent 定義為:以大語(yǔ)言模型為大腦驅(qū)動(dòng),具有自主理解感知、規(guī)劃、記憶和使用工具的能力,能自動(dòng)化執(zhí)行完成復(fù)雜任務(wù)的系統(tǒng)。
AI Agent 基本框架如下圖:
它包括以下幾個(gè)核心模塊:
- 記憶(Memory)
記憶模塊負(fù)責(zé)存儲(chǔ)信息,包括過(guò)去的交互、學(xué)習(xí)到的知識(shí),甚至是臨時(shí)的任務(wù)信息。對(duì)于一個(gè)智能體來(lái)說(shuō),有效的記憶機(jī)制能夠保障它在面對(duì)新的或復(fù)雜的情況時(shí),調(diào)用以往的經(jīng)驗(yàn)和知識(shí)。
例如,一個(gè)具備記憶功能的聊天機(jī)器人可以記住用戶的偏好或先前的對(duì)話內(nèi)容,從而提供更個(gè)性化和連貫的交流體驗(yàn)。
它分為短期記憶和長(zhǎng)期記憶:
a. 短期記憶,所有的上下文學(xué)習(xí)都是利用短期記憶來(lái)學(xué)習(xí);
b. 長(zhǎng)期記憶,這為智能體提供了長(zhǎng)時(shí)間保留和回憶。
- 規(guī)劃(Planning)
規(guī)劃模塊具有事前規(guī)劃和事后反思兩個(gè)階段。
a. 在事前規(guī)劃階段,這里涉及對(duì)未來(lái)行動(dòng)的預(yù)測(cè)和決策制定,如執(zhí)行復(fù)雜任務(wù)時(shí),智能體將大目標(biāo)分解為更小的、可管理的子目標(biāo),從而能夠高效地規(guī)劃一系列步驟或行動(dòng),以達(dá)到預(yù)期結(jié)果。
b. 在事后反思階段,智能體具有檢查和改進(jìn)制定計(jì)劃中不足之處的能力,反思錯(cuò)誤不足并吸取經(jīng)驗(yàn)教訓(xùn)進(jìn)行完善,形成和加入長(zhǎng)期記憶,幫助智能體之后規(guī)避錯(cuò)誤、更新其對(duì)世界的認(rèn)知。
- 使用工具(Tool use)
工具使用模塊指的是智能體能夠利用外部資源或工具來(lái)執(zhí)行任務(wù)。如學(xué)習(xí)調(diào)用外部 API 來(lái)獲取模型權(quán)重中缺失的額外信息,包括當(dāng)前信息、代碼執(zhí)行能力、對(duì)專(zhuān)有信息源的訪問(wèn)等,以此來(lái)補(bǔ)足 LLM 自身弱項(xiàng)。
例如 LLM 的訓(xùn)練數(shù)據(jù)不是實(shí)時(shí)更新的,這時(shí)可以使用工具訪問(wèn)互聯(lián)網(wǎng)來(lái)獲取最新信息,或者使用特定軟件來(lái)分析大量數(shù)據(jù)。
現(xiàn)在市場(chǎng)上已經(jīng)存在大量數(shù)字化、智能化的工具,智能體使用工具比人類(lèi)更為順手和高效,通過(guò)調(diào)用不同的 API 或工具,完成復(fù)雜任務(wù)和輸出高質(zhì)量結(jié)果,這種使用工具的方式也代表了智能體的一個(gè)重要特點(diǎn)和優(yōu)勢(shì)。
- 行動(dòng)(Action)
行動(dòng)模塊是智能體實(shí)際執(zhí)行決定或響應(yīng)的部分。面對(duì)不同的任務(wù),智能體系統(tǒng)有一個(gè)完整的行動(dòng)策略集,在決策時(shí)可以選擇需要執(zhí)行的行動(dòng),比如廣為熟知的記憶檢索、推理、學(xué)習(xí)、編程等。
除了以上四個(gè)核心模塊之外,一個(gè) AI Agent 的良好運(yùn)行離不開(kāi)LLM、提示詞(Prompt)以及知識(shí)庫(kù)(Knowledge)。
- LLM
AI Agent 的核心計(jì)算引擎是一個(gè)大語(yǔ)言模型。LLM 在海量數(shù)據(jù)集上進(jìn)行訓(xùn)練,以理解文本數(shù)據(jù)并從中推理。
- 提示詞(Prompt)
提示詞是向大語(yǔ)言模型(LLM)提供關(guān)于 Agent 的目標(biāo)、行為與計(jì)劃的信息闡述。建議從角色、技能、插件、知識(shí)庫(kù)等層面,分層次進(jìn)行描述,這樣能讓提示詞(Prompt)更完善。
它分為通用提示詞和特定提示詞:
a. 通用提示詞(General prompt):對(duì) Agent 的角色與行為予以說(shuō)明。
b. 特定提示詞(Specific prompt):將特定任務(wù)的目標(biāo)傳達(dá)給 Agent。
- 知識(shí)庫(kù)(Knowledge)
沒(méi)有該領(lǐng)域的知識(shí),代理就無(wú)法解決甚至理解任務(wù)。因此,要么必須對(duì) LLM 進(jìn)行微調(diào)以獲得知識(shí),要么我們可以創(chuàng)建一個(gè)工具來(lái)從數(shù)據(jù)庫(kù)中提取知識(shí)。
總的來(lái)說(shuō),以上各個(gè)模塊相互配合使 Agent 能夠在更廣泛的情境中采取行動(dòng)和作出決策,以更智能、更高效的方式執(zhí)行復(fù)雜任務(wù)。
4、應(yīng)用示例
示例 Agent 使用 Langchain 框架創(chuàng)建,“wikipedia”工具用于從互聯(lián)網(wǎng)中提取知識(shí),“l(fā)lm-math”用于數(shù)值計(jì)算。
# Large language model
llm = AzureChatOpenAI()
# Tool integration
tools = load_tools(['wikipedia', 'llm-math'], llm=llm)
# Initialization of the agent
agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
verbose=True, handle_parsing_errors=True)
# Run the agent with a prompt
result = agent.run('What is the average age of a dog? Multiply the age by 3')
執(zhí)行及結(jié)果:
圖片
5、一些常見(jiàn)的 AI Agent 構(gòu)建平臺(tái)
AI Agent 是一種能夠自主執(zhí)行任務(wù)并與環(huán)境進(jìn)行交互的智能體。以下是一些常見(jiàn)的 AI Agent 構(gòu)建平臺(tái):
- Coze
是一個(gè)新一代的一站式 AI Bot 開(kāi)發(fā)平臺(tái),適用于構(gòu)建基于 AI 模型的各類(lèi)問(wèn)答 Bot。它集成了豐富的插件工具,可以極大地拓展 Bot 的能力邊界。
- Microsoft 的 Copilot Studio
這個(gè)平臺(tái)的主要功能包括外掛數(shù)據(jù)、定義流程、調(diào)用 API 和操作,以及將 Copilot 部署到各種渠道。
- 文心智能體
是百度推出的基于文心大模型的智能體(Agent)平臺(tái),支持開(kāi)發(fā)者根據(jù)自身需求打造大模型時(shí)代的產(chǎn)品能力。
- 釘釘 AI 超級(jí)助理
依托于釘釘強(qiáng)大的場(chǎng)景和數(shù)據(jù)優(yōu)勢(shì),提供更深入的環(huán)境感知和記憶功能。這使得它在處理高頻工作場(chǎng)景如銷(xiāo)售、客服、行程安排等方面表現(xiàn)更加出色。
- 以及阿里通義、智譜清言、豆包等等
Finally,最后
總的來(lái)說(shuō),AI Agent 是一種非常有前途的技術(shù),它可以幫助企業(yè)提高效率、降低成本、提高客戶滿意度和實(shí)現(xiàn)創(chuàng)新。
然而,要真正擴(kuò)展 AI Agent 的開(kāi)發(fā)和管理,靈活、直觀的無(wú)代碼到低代碼解決方案將是變革性的。