AI應(yīng)用落地關(guān)鍵技術(shù):AI Agent 原創(chuàng)
一、什么是 AI Agent?
1、用快思考與慢思考類(lèi)比大模型的能力
根據(jù)丹尼爾·卡尼曼的著作《思考,快與慢》,人類(lèi)的思維可以分為兩大系統(tǒng):系統(tǒng)1和系統(tǒng)2。系統(tǒng)1負(fù)責(zé)直覺(jué)式的快速思考,這種思考往往是無(wú)意識(shí)的;而系統(tǒng)2則擅長(zhǎng)進(jìn)行有意識(shí)的邏輯推理和主動(dòng)控制。
在探討大型模型的思維能力時(shí),我們首先可以觀察到,這些大模型可能具備了類(lèi)似人類(lèi)的分析問(wèn)題能力,它們能夠理解、分析和解決復(fù)雜問(wèn)題。進(jìn)一步地,人類(lèi)與動(dòng)物的一個(gè)重要區(qū)別在于人類(lèi)擅長(zhǎng)創(chuàng)造和使用工具。隨著大模型認(rèn)知能力的不斷提升,當(dāng)它們遇到自身不擅長(zhǎng)的領(lǐng)域時(shí),這些大模型可能會(huì)展現(xiàn)出一種類(lèi)似于人腦使用工具的能力——即尋找并利用適當(dāng)?shù)墓ぞ邅?lái)解決問(wèn)題,而不是直接依靠自身能力去解決。
2、OpenAI 對(duì) AI Agent 的定義
在2023年6月,Open AI 的應(yīng)用研究主管 Lilian Weng發(fā) 表了《LLM Powered Autonomous Agents》一文,其中她提出了一個(gè)公式:“智能體=大模型(LLMs)+規(guī)劃(Planning)+記憶(Memory)+工具使用(Tools)”。
1)智能體的推理與執(zhí)行能力,指的是利用大模型(LLMs)來(lái)理解、執(zhí)行并回顧任務(wù)。這包括將復(fù)雜任務(wù)分解為更小、更易管理的子任務(wù)以提高效率,并且通過(guò)吸取歷史經(jīng)驗(yàn)和錯(cuò)誤教訓(xùn)來(lái)優(yōu)化行動(dòng)的質(zhì)量。
2)智能體具備短期與長(zhǎng)期記憶功能:短期記憶通過(guò)利用提示(Prompt)中的信息和上下文數(shù)據(jù)進(jìn)行學(xué)習(xí),而長(zhǎng)期記憶則通過(guò)外部向量存儲(chǔ)和快速檢索技術(shù)來(lái)實(shí)現(xiàn),這使得智能體能夠在更廣泛的時(shí)間跨度內(nèi)存儲(chǔ)和回憶(理論上無(wú)限)信息。
3)智能體具有調(diào)用外部 API 來(lái)使用“工具”的能力,這包括瀏覽網(wǎng)頁(yè)、啟動(dòng)應(yīng)用程序、讀寫(xiě)文件、進(jìn)行支付甚至操控用戶(hù)設(shè)備等。與傳統(tǒng)的自動(dòng)化工具不同,AI智能體能夠在未知和不可預(yù)測(cè)的新環(huán)境中有效工作。
4)在Open AI 的定義基礎(chǔ)上,還應(yīng)補(bǔ)充智能體的反饋接受能力。正如人類(lèi)在處理復(fù)雜任務(wù)時(shí)需要與環(huán)境互動(dòng),我們的行為會(huì)改變環(huán)境,環(huán)境也會(huì)給予我們反饋,我們根據(jù)這些反饋進(jìn)行決策。因此,智能體應(yīng)該能夠根據(jù)采取的行動(dòng)接收正面或試錯(cuò)性的反饋、階段性成果或獎(jiǎng)勵(lì),并據(jù)此進(jìn)行下一輪的規(guī)劃和行動(dòng)。
3、AI Agent 更廣泛的定義
在 AI Agent 的整體架構(gòu)設(shè)計(jì)中,一般可以將框架劃分為五個(gè)主要模塊:感知、定義、記憶、規(guī)劃和行動(dòng)。
- 感知模塊:這一部分主要負(fù)責(zé)處理各種輸入信息,確保智能體能夠與環(huán)境進(jìn)行有效的交互。
- 定義模塊:該模塊包含了智能體的特性、目標(biāo)和其他相關(guān)屬性信息。
- 記憶模塊:涵蓋了短期和長(zhǎng)期記憶,它為智能體在處理復(fù)雜任務(wù)時(shí)提供歷史數(shù)據(jù)和策略支持。
- 規(guī)劃模塊:涉及任務(wù)分解、反思、推理、策略制定等,是智能體的決策中心,類(lèi)似于大腦的功能。
- 行動(dòng)模塊:負(fù)責(zé)以文本、實(shí)體動(dòng)作、工具指令等多種方式輸出智能體的決策結(jié)果。
二、AI Agent 的關(guān)鍵能力要素
1、記憶能力
目前的研究普遍將記憶分為短期記憶和長(zhǎng)期記憶兩大類(lèi)。
- -短期記憶主要依賴(lài)于上下文學(xué)習(xí),但受到 Transformer 模型上下文窗口大小的限制。
- 長(zhǎng)期記憶則更加廣泛地應(yīng)用于任務(wù)中,它涉及對(duì)世界的宏觀和抽象理解。這包括存儲(chǔ)生產(chǎn)系統(tǒng)的過(guò)程記憶、關(guān)于世界事實(shí)的語(yǔ)義記憶,以及代理過(guò)去行為序列的情節(jié)記憶。長(zhǎng)期記憶通過(guò)參數(shù)知識(shí)存儲(chǔ)(模型訓(xùn)練)和非參數(shù)知識(shí)存儲(chǔ)(外部搜索)來(lái)實(shí)現(xiàn)。
- 對(duì)于超出常規(guī)上下文范圍的長(zhǎng)期記憶,學(xué)術(shù)界探索了兩條路徑:一條是擴(kuò)展上下文,即將上下文支持?jǐn)U展到100K甚至無(wú)限大;另一條是利用 RAG 和信息壓縮技術(shù),即對(duì)輸入信息進(jìn)行總結(jié)和壓縮存儲(chǔ),僅在需要時(shí)提取相關(guān)記憶。
- 擴(kuò)展上下文的方案相對(duì)簡(jiǎn)單,依賴(lài)于算力的提升和成本的降低,但目前的成本仍然較高。
- RAG 技術(shù)則是搜索相關(guān)信息片段,并將搜索結(jié)果融入大模型的上下文中,以便大模型基于這些結(jié)果回答問(wèn)題。
- 信息壓縮則是對(duì)信息進(jìn)行總結(jié),最基本的方法是文本總結(jié),更高級(jí)的方法是使用指令訪問(wèn)外部存儲(chǔ),或者在模型層面使用 Embedding 技術(shù)進(jìn)行總結(jié)。
2、規(guī)劃能力
規(guī)劃是 AI Agent 解決復(fù)雜問(wèn)題的關(guān)鍵能力,主要包括子目標(biāo)分解、反思和提煉等。
- 子目標(biāo)分解:通過(guò)思維鏈(CoT)技術(shù),將大任務(wù)分解為多個(gè)更易管理的子任務(wù),并為大模型的思維過(guò)程提供解釋線(xiàn)索。思維樹(shù)技術(shù)則通過(guò)在每一步探索多種推理可能性來(lái)擴(kuò)展 CoT,創(chuàng)建一個(gè)樹(shù)狀結(jié)構(gòu)的思考過(guò)程。
- 反思提煉:ReAct 技術(shù)通過(guò)將動(dòng)作空間擴(kuò)展為特定任務(wù)的離散動(dòng)作和語(yǔ)言空間的組合,將推理和動(dòng)作整合到 LLM中。Reflexion 框架則為智能體提供了動(dòng)態(tài)記憶和自我反思的能力,以提高推理技能。
- ReAct 方法能夠發(fā)揮 LLM 的推理能力,通過(guò)交錯(cuò)生成推理軌跡和任務(wù)特定的操作,實(shí)現(xiàn)推理與操作的協(xié)同。盡管存在一些局限性,如解決復(fù)雜問(wèn)題的能力有限、成本不可控等,但它仍然是提升AI智能體能力的重要途徑。
3、行動(dòng)能力
智能體的行動(dòng)能力主要體現(xiàn)在文本輸出、工具使用和具身動(dòng)作等方面。
- 在工具使用方面,智能體主要通過(guò)微調(diào)或預(yù)設(shè)模型描述框架來(lái)調(diào)用外部API,實(shí)現(xiàn)對(duì)現(xiàn)有功能的使用或特定信息的訪問(wèn)。未來(lái),隨著模型能力的提升,智能體可能能夠創(chuàng)造新工具。
- 如何讓大模型學(xué)會(huì)按需使用工具?有兩種觀點(diǎn):一種認(rèn)為工具使用是過(guò)程記憶,需要通過(guò) Fine-tuning 方法教授模型工具使用的樣例;另一種認(rèn)為工具使用是代碼生成能力,可以通過(guò) RAG 方法匹配工具并使用。
4、減少幻覺(jué)
減少幻覺(jué)主要依賴(lài)于基礎(chǔ)模型的進(jìn)步和 Scaling Law,同時(shí)也有工程方法可以減少現(xiàn)有模型的幻覺(jué)。
- 事實(shí)性校驗(yàn):首先使用大模型生成回答,然后通過(guò) RAG 方法找到與回答內(nèi)容匹配的原始語(yǔ)料,最后讓大模型判斷回答的準(zhǔn)確性。
- 多次生成:論文 SelfCheckGPT 提出的多次生成方法,通過(guò)多次生成同一問(wèn)題的回答并讓大模型挑選最一致的回答,以減少偶發(fā)的幻覺(jué)問(wèn)題,但無(wú)法解決系統(tǒng)性偏差。
三、AI Agent 發(fā)展的三個(gè)階段
1、AI Agent 能力的三個(gè)發(fā)展階段
1) Embedding 嵌入式模式:這一階段主要依賴(lài)于人類(lèi)問(wèn)答,提供信息和建議,這是目前最普遍的大模型(LLM)應(yīng)用方式。
2) Copilot 輔助駕駛模式:在這一階段,Agent 基于人類(lèi)設(shè)定的目標(biāo),完成單一或簡(jiǎn)單任務(wù)。
3) Agent 智能體模式:智能體在這一階段能夠基于人類(lèi)的目標(biāo),執(zhí)行多任務(wù)、復(fù)雜任務(wù)或任務(wù)組合。
2、ChatGPT 代表了第一階段的大模型能力。
它并不完全符合 Agent 的典型定義,主要向用戶(hù)提供廣泛的世界知識(shí)。
3、目前,單一任務(wù)場(chǎng)景下已有一些 AI 應(yīng)用實(shí)例
在辦公場(chǎng)景中,我們有 Microsoft 365 Copilot(及其新推出的個(gè)人版 Copilot Pro)、Google Duet AI、專(zhuān)注于輕文檔辦公的 Notion AI、輔助代碼開(kāi)發(fā)的 Copilot X 以及數(shù)據(jù)分析處理的 Deepnote AI 等。這些應(yīng)用常見(jiàn)的功能包括起草文檔、內(nèi)容匯總、提供公式建議等,它們通常以側(cè)邊欄或?qū)υ?huà)框的形式出現(xiàn),幫助用戶(hù)自動(dòng)調(diào)用工作空間中的文件和信息,并進(jìn)行處理生成。
4、展望未來(lái),AI Agent 將不僅僅局限于解決問(wèn)題的執(zhí)行層面,而是將進(jìn)一步深入到如何解決問(wèn)題的規(guī)劃層面。
在工作場(chǎng)景中,我們對(duì) AI Agent 的期待包括:
1) 連續(xù)執(zhí)行:Agent 能夠?qū)τ脩?hù)的任務(wù)指令進(jìn)行拆解,分解為多個(gè)步驟,對(duì)這些步驟進(jìn)行規(guī)劃排序并連續(xù)執(zhí)行。
2) 完成復(fù)雜任務(wù):目前 Agent 只能解決單個(gè)或少數(shù)簡(jiǎn)單任務(wù),未來(lái)期望能夠處理多個(gè)復(fù)雜任務(wù)。
3) 多步驟規(guī)劃:Agent 在執(zhí)行后續(xù)步驟的同時(shí),能夠保持對(duì)任務(wù)目標(biāo)和前序任務(wù)的記憶,具備強(qiáng)大的步驟規(guī)劃執(zhí)行能力。
本文轉(zhuǎn)載自公眾號(hào)玄姐聊AGI 作者:玄姐
