從單一大型語言模型到智能體人工智能:生成式人工智能演進(jìn)的解讀
生成式人工智能(GenAI)的發(fā)展歷程宛如一場技術(shù)革命的史詩,從最初簡單的單一大型語言模型(LLM)API調(diào)用,逐步演進(jìn)到如今具備自主決策與協(xié)作能力的智能體系統(tǒng)。這場演進(jìn)不僅改變了人工智能應(yīng)用的構(gòu)建方式,更重塑了人類與機(jī)器交互的模式。本文將通過可視化的視角,詳細(xì)梳理這一演進(jìn)路徑,解析從單一大型語言模型到智能體人工智能的關(guān)鍵里程碑與技術(shù)突破。
生成式人工智能的全景概覽
生成式人工智能的發(fā)展并非一蹴而就,而是經(jīng)歷了多個階段的迭代與突破?;厮萑昵埃蠖鄶?shù)技術(shù)團(tuán)隊(duì)在構(gòu)建人工智能應(yīng)用時,依賴的是針對特定任務(wù)的模型。例如,為分類任務(wù)訓(xùn)練一個模型,為抽取式問答再訓(xùn)練另一個模型。這些模型要么是使用scikit-learn或PyTorch等工具從零構(gòu)建,要么是基于預(yù)訓(xùn)練的Transformer模型進(jìn)行微調(diào),以適應(yīng)特定任務(wù)需求。
這種狀況在GPT-3.5出現(xiàn)后發(fā)生了根本性轉(zhuǎn)變。隨著ChatGPT的推出,開發(fā)者們開始轉(zhuǎn)向通用型大型語言模型,用其來處理曾經(jīng)需要多個專用模型才能完成的任務(wù)。這標(biāo)志著大型語言模型在批處理應(yīng)用中的首次大規(guī)模應(yīng)用——使用簡單的提示模板處理數(shù)據(jù)集,而非構(gòu)建復(fù)雜的自定義機(jī)器學(xué)習(xí)管道。一夜之間,人們不再需要為每個任務(wù)單獨(dú)開發(fā)模型,只需設(shè)計(jì)高質(zhì)量的“提示”即可。
批處理大型語言模型應(yīng)用
批處理大型語言模型應(yīng)用代表了生成式人工智能發(fā)展的第一個重要階段,它為后續(xù)的技術(shù)演進(jìn)奠定了基礎(chǔ)。在這一階段,應(yīng)用主要通過兩種方式利用大型語言模型的能力:單一大型語言模型API調(diào)用和鏈?zhǔn)酱笮驼Z言模型調(diào)用。
1.1 用于批處理的單一大型語言模型API調(diào)用應(yīng)用
這種應(yīng)用模式的核心在于,使用相同的大型語言模型處理流程來處理多個數(shù)據(jù)項(xiàng)。例如,在對一批電影劇本進(jìn)行分類時,開發(fā)者會設(shè)計(jì)一個分類提示模板,然后將所有劇本依次輸入到大型語言模型中,利用其通用能力完成分類任務(wù)。這種模式的優(yōu)勢在于能夠輕松擴(kuò)展大型語言模型的使用范圍,適用于諸如文本分類、情感分析等批量操作。
在實(shí)際應(yīng)用中,上下文或指令可以通過提示模板進(jìn)行動態(tài)調(diào)整,外部上下文也可以模塊化,以避免冗長、硬編碼的提示。同一批次中的所有數(shù)據(jù)都使用相同的提示模板,確保處理的一致性和效率。這種模式極大地簡化了人工智能應(yīng)用的開發(fā)流程,降低了技術(shù)門檻,使得更多開發(fā)者能夠利用大型語言模型的能力。
1.2 用于批處理的鏈?zhǔn)酱笮驼Z言模型應(yīng)用
隨著應(yīng)用需求的復(fù)雜化,單一大型語言模型API調(diào)用逐漸無法滿足需求,鏈?zhǔn)酱笮驼Z言模型應(yīng)用應(yīng)運(yùn)而生。在這種模式中,一個大型語言模型調(diào)用的輸出會作為另一個大型語言模型調(diào)用的輸入,形成一個處理鏈條。
以文本分類應(yīng)用為例,第一個大型語言模型調(diào)用可能負(fù)責(zé)將文本初步分類為幾個大類,第二個調(diào)用則在大類的基礎(chǔ)上進(jìn)行更細(xì)致的子分類。這種模式展示了如何將邏輯拆分為可重用、模塊化的步驟,提高了應(yīng)用的靈活性和可擴(kuò)展性。通過鏈?zhǔn)秸{(diào)用,開發(fā)者可以構(gòu)建更復(fù)雜的處理流程,實(shí)現(xiàn)單一模型難以完成的任務(wù)。
聊天式大型語言模型應(yīng)用
聊天式大型語言模型應(yīng)用是生成式人工智能向更自然、更交互方向發(fā)展的關(guān)鍵一步。它使人工智能系統(tǒng)從僵化的問答系統(tǒng)演進(jìn)為今天的對話式人工智能,極大地提升了用戶體驗(yàn)。
2.1 無狀態(tài)的單一大型語言模型API調(diào)用響應(yīng)
這是聊天式應(yīng)用的最基礎(chǔ)形式,每個響應(yīng)都僅通過一次大型語言模型調(diào)用生成。這種模式是無狀態(tài)的,意味著系統(tǒng)不保留對話歷史,每次調(diào)用都是獨(dú)立的。用戶的查詢會被嵌入到所選大型語言模型的固定提示中,模型根據(jù)該提示生成響應(yīng)。
例如,當(dāng)用戶問“日本的首都是什么”時,系統(tǒng)會將這個問題嵌入到預(yù)設(shè)的提示模板中,調(diào)用大型語言模型得到答案“東京”。但如果用戶接著問“這個國家還有其他什么城市”,系統(tǒng)無法關(guān)聯(lián)到上一個問題,也就無法給出相關(guān)的日本城市列表。這種模式雖然簡單,但無法提供連貫的對話體驗(yàn)。
2.2 具有上下文歷史記憶的聊天機(jī)器人
隨著大型語言模型上下文窗口的擴(kuò)大,開發(fā)者開始將對話歷史添加到提示中,以增強(qiáng)對話記憶。這種模式雖然從技術(shù)上講仍然是無狀態(tài)的——聊天歷史需要手動拼接到每個提示中,但它通過將歷史記錄傳遞給每個API調(diào)用來模擬對話的連續(xù)性,每次查詢?nèi)匀恢贿M(jìn)行一次大型語言模型調(diào)用。
例如,在使用Ollama運(yùn)行Gemma:7b模型時,當(dāng)用戶先問“日本的首都是什么”,得到答案“東京”后,再問“這個國家還有其他什么城市”,系統(tǒng)能夠利用之前的對話歷史,正確理解“這個國家”指的是日本,并給出大阪、京都、名古屋等城市名稱。這種模式極大地提升了對話的連貫性和自然度,為現(xiàn)代聊天機(jī)器人奠定了基礎(chǔ)。
2.3 檢索增強(qiáng)生成(RAG)聊天機(jī)器人
檢索增強(qiáng)生成聊天機(jī)器人是聊天式應(yīng)用的一次重要升級,它結(jié)合了嵌入技術(shù)和向量搜索,使系統(tǒng)能夠生成比單純依賴大型語言模型預(yù)訓(xùn)練知識更準(zhǔn)確、更具上下文感知的響應(yīng)。
在RAG架構(gòu)中,原始文檔(文本或圖像)會被轉(zhuǎn)換為語義豐富的嵌入向量,這些向量被索引到向量數(shù)據(jù)庫中,以便進(jìn)行快速的相似性搜索。當(dāng)用戶提出查詢時,系統(tǒng)會先從向量數(shù)據(jù)庫中檢索相關(guān)的文檔片段,然后將這些片段作為上下文提供給大型語言模型,輔助其生成答案。這種架構(gòu)的優(yōu)勢在于能夠?qū)⒋鸢富谝阎獢?shù)據(jù)源,有效減少大型語言模型的“幻覺”問題。
文檔分塊是RAG系統(tǒng)中的一個關(guān)鍵步驟,它能提高搜索的粒度和檢索準(zhǔn)確性。分塊越合理,答案的準(zhǔn)確性就越高。同時,嵌入函數(shù)的質(zhì)量也至關(guān)重要,嵌入向量對語義的編碼能力越強(qiáng),答案的準(zhǔn)確性也就越高。RAG聊天機(jī)器人在企業(yè)場景中得到了廣泛應(yīng)用,例如作為企業(yè)人力資源聊天機(jī)器人,能夠基于公司內(nèi)部文檔為員工提供準(zhǔn)確的信息查詢服務(wù)。
2.4 大型語言模型+結(jié)構(gòu)化工具或函數(shù)調(diào)用
大型語言模型與工具調(diào)用的結(jié)合,代表了聊天式應(yīng)用向更具實(shí)用性方向的發(fā)展。這種模式使大型語言模型能夠生成行動,而不僅僅是文本。其工作流程通常包括三個步驟:首先,大型語言模型預(yù)測需要使用的工具;然后,執(zhí)行該工具;最后,大型語言模型解釋工具的結(jié)果。
在這個過程中,大型語言模型會自主決定何時以及如何調(diào)用外部工具,并預(yù)測提供給工具函數(shù)的參數(shù)。工具的結(jié)果會成為后續(xù)推理的上下文,這種設(shè)置在一定程度上使大型語言模型具備了智能體的特征。如果“預(yù)測正確工具→使用工具→觀察結(jié)果→使用下一個工具/生成響應(yīng)”的循環(huán)能夠遞歸進(jìn)行,就形成了智能體人工智能。因此,大型語言模型+工具調(diào)用有時也被稱為單一智能體。
這種模式極大地?cái)U(kuò)展了大型語言模型的能力邊界,使其能夠完成諸如數(shù)據(jù)分析、網(wǎng)頁查詢、文件操作等原本無法直接完成的任務(wù),為更復(fù)雜的應(yīng)用場景打開了大門。
智能體人工智能應(yīng)用
智能體人工智能應(yīng)用代表了生成式人工智能發(fā)展的最新階段,它使系統(tǒng)從單純的文本生成走向了真正的行動執(zhí)行。在這一階段,大型語言模型只是更廣泛架構(gòu)的一部分,該架構(gòu)還包括工具、內(nèi)存和決策機(jī)制。
3.0 大型語言模型推理能力的演進(jìn)
大型語言模型推理能力的發(fā)展為智能體的出現(xiàn)奠定了基礎(chǔ)。這一演進(jìn)過程主要包括提示工程的興起、兩種關(guān)鍵的提示工程方法(CoT和ReAct)以及大型推理模型的出現(xiàn)。
提示工程的發(fā)展始于基本的輸入輸出提示,隨著大型語言模型上下文窗口的擴(kuò)大,輸入輸出提示演變?yōu)樯贅颖咎崾?,以獲得更好的結(jié)果。推理提示——思維鏈(CoT)和ReAct提示——在少樣本框架的基礎(chǔ)上,通過向大型語言模型概述“思考步驟”,進(jìn)一步提升了模型的推理能力。
思維鏈提示通過示例向大型語言模型展示逐步思考的過程,引導(dǎo)模型進(jìn)行分步推理;ReAct提示則將推理與行動結(jié)合起來,使模型能夠在思考過程中決定何時以及如何采取行動。這些提示方法的核心在于通過示例教會大型語言模型分步思考和推理,這種“誘使”大型語言模型“推理”的能力在構(gòu)建智能體時發(fā)揮了重要作用。
大型推理模型(LRMs)是另一個重要發(fā)展方向。與傳統(tǒng)大型語言模型不同,大型推理模型在生成輸出之前會進(jìn)行內(nèi)部規(guī)劃。傳統(tǒng)大型語言模型的流程是“輸入→大型語言模型→輸出語句→輸入→……→大型語言模型→輸出”,而大型推理模型則是“輸入→大型推理模型→保留規(guī)劃步驟→最終輸出語句”。
大型推理模型在生成文本時,會像人類一樣“先思考再行動”,因此在推理過程中需要更多的“測試時計(jì)算資源”。例如,OpenAI的o1和DeepSeek R1都是這類模型的代表。在實(shí)際應(yīng)用中,如果任務(wù)需要深度的多步驟邏輯、規(guī)劃或戰(zhàn)略協(xié)調(diào),推理原生的大型語言模型會表現(xiàn)更出色;如果預(yù)算和速度更為重要,通過良好的提示工程,通用大型語言模型也可以通過鏈?zhǔn)秸{(diào)用近似實(shí)現(xiàn)推理功能,盡管它缺乏內(nèi)部的“思考者”。
3.1 什么是智能體?
智能體是在大型語言模型基礎(chǔ)上發(fā)展而來的更高級實(shí)體。如果說大型語言模型的核心是生成文本,那么智能體則不僅能生成文本,還能做出決策(規(guī)劃)和執(zhí)行行動,大型語言模型是智能體的核心組件。
具體來說:
- 聊天機(jī)器人 = 大型語言模型 + 記憶
 - RAG聊天機(jī)器人 = 大型語言模型 + 記憶 + 矢量化數(shù)據(jù)(源文檔)
 - 工具型大型語言模型 = 大型語言模型(大腦) + 函數(shù)調(diào)用(雙手)
 
正如Aishwarya Naresh在其Substack文章中所指出的:“智能體 = 大型語言模型 + 工具 + 記憶 + 規(guī)劃(下一步行動)”,可以說智能體是在大型語言模型周圍構(gòu)建的工程化封裝。
3.2 單一智能體的架構(gòu)
單一智能體的架構(gòu)相對復(fù)雜,它需要具備接收輸入、進(jìn)行規(guī)劃、調(diào)用工具、存儲記憶和生成輸出的完整能力。一個簡化的單一智能體架構(gòu)工作流程如下:
- 接收用戶查詢和提示模板作為輸入;
 - 使用規(guī)劃模塊(如任務(wù)分解、思維鏈等)指導(dǎo)執(zhí)行過程,將用戶輸入、記憶和規(guī)劃結(jié)合成最終提示;
 - 將提示發(fā)送給大型語言模型,由其決定采取何種行動;
 - 大型語言模型選擇工具并基于推理執(zhí)行行動;
 - 工具的響應(yīng)被觀察并反饋給大型語言模型;
 - 與短期和長期記憶進(jìn)行交互,以保持上下文感知;
 - 在經(jīng)過推理、工具使用和記憶查詢的遞歸循環(huán)后,生成最終答案。
 
這種架構(gòu)使單一智能體能夠自主規(guī)劃步驟、調(diào)用工具來完成任務(wù),例如自動生成報(bào)告的AI報(bào)告生成器,它可以連接各種工具、提示和記憶,完成從數(shù)據(jù)收集到報(bào)告撰寫的全流程。
3.3 大型語言模型RAG與智能體RAG
智能體RAG是在傳統(tǒng)大型語言模型RAG基礎(chǔ)上的升級,兩者的核心區(qū)別在于處理流程的靈活性和自主性。
傳統(tǒng)的大型語言模型RAG通常只進(jìn)行一次大型語言模型API調(diào)用,執(zhí)行固定的流程:嵌入→檢索→響應(yīng)。大型語言模型僅使用檢索到的上下文生成一次答案,沒有反饋循環(huán),也不具備決策能力,完全依賴于提示設(shè)計(jì)。
而智能體RAG則不是一次性檢索(即不只是一次大型語言模型API調(diào)用)。智能體在檢索后會反思結(jié)果,如果有必要會重新檢索;如果置信度低,還可以修改或重新執(zhí)行步驟。這種動態(tài)調(diào)整能力使智能體RAG能夠處理更復(fù)雜的查詢,提供更準(zhǔn)確的結(jié)果。
3.4 什么是多智能體系統(tǒng)?
多智能體系統(tǒng)是由多個智能體組成的協(xié)作網(wǎng)絡(luò),其中每個智能體都有各自的職責(zé),能夠并行運(yùn)作。多智能體系統(tǒng)主要有兩種實(shí)現(xiàn)方式:
- 多智能體協(xié)作:智能體之間相互依賴,共享任務(wù)和知識,以解決復(fù)雜或順序性問題。例如,在一個產(chǎn)品設(shè)計(jì)系統(tǒng)中,可能有專門負(fù)責(zé)市場分析的智能體、負(fù)責(zé)結(jié)構(gòu)設(shè)計(jì)的智能體和負(fù)責(zé)材料選擇的智能體,它們相互協(xié)作完成整個設(shè)計(jì)過程。
 - 多智能體編排:一個或多個編排智能體負(fù)責(zé)協(xié)調(diào)智能體選擇、任務(wù)分配和結(jié)果聚合,遵循既定協(xié)議。例如,在一個客戶服務(wù)系統(tǒng)中,可能有一個主智能體負(fù)責(zé)接收客戶請求,然后根據(jù)請求類型分配給不同的專業(yè)智能體(如技術(shù)支持智能體、賬單查詢智能體等),最后匯總結(jié)果反饋給客戶。
 
通常,多智能體編排比多智能體協(xié)作更容易控制,許多系統(tǒng)也會采用兩種方式結(jié)合的混合策略。智能體之間通過共享內(nèi)存和諸如A2A等協(xié)議進(jìn)行跨智能體通信。
3.5 MCP和A2A:這些協(xié)議意味著什么?
在多智能體系統(tǒng)中,協(xié)議起著至關(guān)重要的作用,它們確保了智能體之間以及智能體與外部系統(tǒng)之間的有效通信。MCP和A2A是兩種重要的協(xié)議:
- MCP(模型上下文協(xié)議):由Anthropic推出,是一種標(biāo)準(zhǔn)化協(xié)議,用于向大型語言模型提供結(jié)構(gòu)化的實(shí)時上下文(如工具和數(shù)據(jù))。它允許一個兼容MCP的人工智能應(yīng)用使用多個MCP服務(wù)器,也支持多個兼容MCP的人工智能應(yīng)用使用同一個MCP服務(wù)器,極大地提高了系統(tǒng)的靈活性和互操作性。
 - A2A(智能體到智能體協(xié)議):這是一種開放協(xié)議,為智能體之間的協(xié)作提供了標(biāo)準(zhǔn)方式。A2A和MCP可以結(jié)合使用,構(gòu)建更強(qiáng)大、更靈活的多智能體系統(tǒng)。
 
這些協(xié)議的出現(xiàn)為多智能體系統(tǒng)的發(fā)展提供了技術(shù)基礎(chǔ),使得不同智能體和系統(tǒng)能夠無縫協(xié)作,共同完成復(fù)雜任務(wù)。
專家觀點(diǎn)與關(guān)鍵考慮因素
在生成式人工智能的發(fā)展過程中,專家們的見解為技術(shù)應(yīng)用提供了重要指導(dǎo)。有專家指出:“‘讓我們構(gòu)建一個多智能體系統(tǒng)’——這是錯誤的起點(diǎn)。相反,應(yīng)該問:‘我們要解決什么問題,我們真的需要智能體人工智能嗎?’——這是一種好得多的方法?!?/span>
這一觀點(diǎn)強(qiáng)調(diào)了技術(shù)應(yīng)用的實(shí)用性原則:更簡單的系統(tǒng)往往更好。具體來說:
- RAG大型語言模型聊天機(jī)器人是比智能體RAG更好的起點(diǎn);
 - 大型語言模型+工具調(diào)用通常比單一智能體設(shè)置更簡單;
 - 單一智能體(具有編排模式)在擴(kuò)展到多智能體之前更值得優(yōu)先考慮;
 - 多智能體編排應(yīng)該先于成熟的多智能體協(xié)作。
 
同時,專家們也提醒要謹(jǐn)慎對待大型推理密集型模型,其投資回報(bào)率仍存在爭議。
在構(gòu)建大型語言模型應(yīng)用時,有幾個關(guān)鍵考慮因素:
- 可觀測性:能夠查看大型語言模型或智能體功能的日志是成功的關(guān)鍵;
 - 延遲:復(fù)雜系統(tǒng)通常伴隨著高延遲,需要在性能和復(fù)雜性之間進(jìn)行權(quán)衡;
 - 評估:包括準(zhǔn)確性(需要準(zhǔn)備清晰的測試問題并進(jìn)行測試)和成本(如果使用大型語言模型API,需要有跟蹤令牌使用的機(jī)制)。
 
總結(jié)
如今,通過自然語言與產(chǎn)品交互已成為常態(tài),無論是客戶支持助手還是開發(fā)工具,聊天界面通常是用戶首選的參與方式。但正如本文所探討的,生成式人工智能應(yīng)用遠(yuǎn)不止于簡單的聊天。
我們回顧了批處理大型語言模型應(yīng)用如何通過固定或鏈?zhǔn)教崾玖鞒烫幚頂?shù)據(jù)管道;聊天應(yīng)用如何隨著記憶、檢索(RAG)和工具調(diào)用的發(fā)展變得更具上下文感知和交互性;以及這些發(fā)展如何自然地引領(lǐng)了智能體人工智能的興起——在這一階段,大型語言模型能夠推理、規(guī)劃、調(diào)用工具,并與其他智能體協(xié)作完成任務(wù)。
LangGraph和CrewAI等框架,以及MCP和A2A等協(xié)議,正在幫助開發(fā)者構(gòu)建這些具有智能決策能力的系統(tǒng)。智能體人工智能已不再是一個研究概念,它已經(jīng)在為Replit的Ghostwriter和Perplexity的Comet等系統(tǒng)提供動力,這些系統(tǒng)能夠自主閱讀、推理并代表用戶采取行動。
然而,并非每個用例都適合聊天機(jī)器人界面。正如一位Redditor所說:“想想亞馬遜或Airbnb——當(dāng)用戶界面中的過濾器更清晰時,我們?yōu)槭裁催€要費(fèi)力打字呢?”關(guān)鍵在于知道何時構(gòu)建聊天界面,何時構(gòu)建批處理工作流,以及何時構(gòu)建智能體。















 
 
 















 
 
 
 