真正的AI智能體時代即將到來,我們發(fā)現(xiàn)了幾點(diǎn)「苦澀的教訓(xùn)」
最近一段時間,智能體(Agent)再次成為 AI 領(lǐng)域熱議的焦點(diǎn)。
2025 年 1 月,OpenAI 發(fā)布了名為 DeepResearch 的 o3 模型變種,專門用于網(wǎng)頁和文檔搜索。得益于在瀏覽任務(wù)上的強(qiáng)化學(xué)習(xí)訓(xùn)練,DeepResearch 具備了制定搜索策略、交叉引用信息來源、甚至利用中間反饋來處理深層次知識的能力。無獨(dú)有偶,Claude Sonnet 3.7 也成功地將同樣的強(qiáng)化學(xué)習(xí)方法應(yīng)用于代碼領(lǐng)域,在復(fù)雜的編程任務(wù)中展現(xiàn)出超越了以往模型的組合應(yīng)用效果。
正如摩根斯坦利學(xué)者 William Brown 在演講中所說的:「LLM 智能體已能夠完成長時間、多步驟的任務(wù)了。」
這一進(jìn)展不僅讓智能體的能力邁上了一個新臺階,也引發(fā)了一個更深層的問題:LLM 智能體究竟是什么?
2024 年 12 月,Anthropic 給出了一個全新的定義:「LLM 智能體是能夠動態(tài)指導(dǎo)自身流程和工具使用,并保持對任務(wù)完成方式控制的系統(tǒng)?!?/span>
與之相對,目前更為普遍的智能體實(shí)際上都是工作流系統(tǒng)(workflows),也就是通過預(yù)設(shè)的代碼和規(guī)則來協(xié)調(diào) LLM 和工具的系統(tǒng),例如最近備受關(guān)注的 Manus AI。
對于很多開發(fā)者而言,這些 LLM 智能體形成的工作流系統(tǒng)能否提高生產(chǎn)力、在多大程度上提高,才是關(guān)鍵問題。
在近期的測試中,開發(fā)者 Alexander Doria 發(fā)現(xiàn)了一些顯著的局限性,并寫成博客分享給大家。
博客地址:https://vintagedata.org/blog/posts/designing-llm-agents
「我在周末進(jìn)行的所有測試都顯示出一個結(jié)果,即工作流系統(tǒng)存在著一些根本性局限,這些局限早在 AutoGPT 時代就已顯現(xiàn),而在搜索領(lǐng)域表現(xiàn)得尤為明顯?!?/span>
- 不能有效制定計劃,經(jīng)常中途卡殼;
- 不能記憶內(nèi)容,無法處理超過 5-10 分鐘的任務(wù);
- 無法長期有效執(zhí)行任務(wù),容易因連續(xù)的小錯誤最終徹底失敗。
作者以對大語言模型智能體「LLM 智能體」的定義為出發(fā)點(diǎn)。它基于大型實(shí)驗(yàn)室的有限信息、開放研究生態(tài)系統(tǒng)中不斷涌現(xiàn)的復(fù)現(xiàn)成果,再結(jié)合一些個人推測,盡力對我們目前所了解的內(nèi)容進(jìn)行全面總結(jié)。
博客主要內(nèi)容如下:
LLM 智能體的「苦澀教訓(xùn)」
傳統(tǒng)的智能體與基礎(chǔ)大語言模型(base LLM)完全不同。
在傳統(tǒng)的強(qiáng)化學(xué)習(xí)研究中,智能體被置于受限的環(huán)境中,就像在迷宮里行走,智能體的每個動作都有物理或規(guī)則上的約束。即便如此,智能體仍保留了一定程度的自由,因?yàn)榻鉀Q謎題或游戲的方法往往不止一種。然而,每一步行動都必須以最終獲勝和獲得獎勵為目標(biāo)進(jìn)行計算。隨著時間的推移,高效的智能體會記住過去的行動,并逐步總結(jié)出模式和啟發(fā)式策略來優(yōu)化其行為。
這一過程被稱為「搜索」,智能體在迷宮中的探索行為與用戶在搜索引擎上的點(diǎn)擊模式如出一轍。搜索研究有著長達(dá)數(shù)十年的豐富歷史。例如,據(jù)傳為 OpenAI 新一代模型提供支持的 Q-star 算法,便是源自 1968 年的 A-Star 搜索算法。最近,Pufferlib 進(jìn)行的寶可夢訓(xùn)練實(shí)驗(yàn)便是這一過程的絕佳例證。在實(shí)驗(yàn)中,智能體被觀察到積極尋找最優(yōu)路徑,失敗后不斷嘗試,通過反復(fù)試錯來優(yōu)化策略。
然而,大語言模型的基礎(chǔ)邏輯恰恰相反:
- 智能體能記住環(huán)境,但基礎(chǔ) LLM 不能,它們只能處理當(dāng)前窗口內(nèi)的信息;
- 智能體受現(xiàn)實(shí)條件限制,但基礎(chǔ) LLM 生成的是概率最高的文本,隨時可能「跑題」;
- 智能體能規(guī)劃長期策略,基礎(chǔ) LLM 卻只能做好單步推理,面對多步推理任務(wù)很快就會「超載」。
目前,大部分 LLM 智能體的做法是利用預(yù)定義的提示詞(prompt)和規(guī)則來引導(dǎo)模型。然而,這種方法注定會遇到「苦澀的教訓(xùn)」(Bitter Lesson)。所謂教訓(xùn),是指人們往往傾向于將自己的知識硬編碼到系統(tǒng)中,短期內(nèi)可能效果顯著,但長期來看卻嚴(yán)重限制了系統(tǒng)的發(fā)展?jié)摿?。真正的突破總是來自于搜索與學(xué)習(xí)能力的提升,而非人為規(guī)則的堆砌。這一教訓(xùn)提醒我們,過度依賴規(guī)則設(shè)計可能會阻礙系統(tǒng)的自我優(yōu)化和進(jìn)化。
這就是為什么類似 Manus AI 這類工作流系統(tǒng)無法順利地訂機(jī)票或教你徒手打虎 —— 它們本質(zhì)上是被苦澀教訓(xùn)咬了一口??刻崾驹~和規(guī)則無法持續(xù)擴(kuò)展,你必須從根本上設(shè)計能夠真正搜索、規(guī)劃、行動的系統(tǒng)。
強(qiáng)化學(xué)習(xí) + 推理:LLM 智能體的「成功秘訣」
真正的 LLM 智能體,應(yīng)該是什么樣呢?這是一個復(fù)雜的問題,目前公開的信息很少。Anthropic、OpenAI、DeepMind 等少數(shù)實(shí)驗(yàn)室掌握著關(guān)鍵知識。目前,我們只能從現(xiàn)有的研究中嘗試來推測:
1. 強(qiáng)化學(xué)習(xí) RL:與傳統(tǒng)智能體類似,LLM 智能體也通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。這里的「迷宮」是所有可能的文本組合,而「出口」或「獎勵」則是最終的目標(biāo)。驗(yàn)證是否達(dá)成獎勵的過程被稱為「驗(yàn)證器」——William Brown 新開發(fā)的驗(yàn)證器庫正是為此而生。目前,驗(yàn)證器主要用于形式化結(jié)果,如數(shù)學(xué)方程或編程代碼。但 Kalomaze 的研究表明,通過訓(xùn)練專門分類器,也可為非嚴(yán)格可驗(yàn)證的輸出構(gòu)建驗(yàn)證器。值得注意的是,語言模型在評估方面的表現(xiàn)優(yōu)于生成,因此即使用小型 LLM-as-judge,也能顯著提升性能和獎勵設(shè)計。
2. 草稿模式(Drafts):LLM 智能體的訓(xùn)練依賴于生成草稿并同時評估。這一選擇并非顯而易見,因?yàn)樵缙谘芯恐饕性跀U(kuò)展搜索到整個 token 序列。計算限制和「推理」模型的突破推動了這一轉(zhuǎn)變。典型的訓(xùn)練過程是讓模型生成邏輯序列,假設(shè)能得出正確答案的序列更可能是正確的。這可能導(dǎo)致反直覺的結(jié)果(如 DeepSeek R0 模型偶爾在英語和中文間切換)。然而,正如苦澀的教訓(xùn)所示,強(qiáng)化學(xué)習(xí)只關(guān)注結(jié)果的有效性,甚至允許非正統(tǒng)或計劃外的捷徑。就像智能體在迷宮中尋找出路,語言模型必須通過純粹推理找到路徑 —— 沒有預(yù)定義提示,只有獎勵和獲取獎勵的方式。
3. 結(jié)構(gòu)化輸出(rubric):LLM 草稿通常被預(yù)定義為結(jié)構(gòu)化數(shù)據(jù)部分,以便于獎勵驗(yàn)證,并在一定程度上簡化整體推理過程。這是一種「評分標(biāo)準(zhǔn)工程」,既可以直接作為獎勵函數(shù)進(jìn)行管理,也可以在大型實(shí)驗(yàn)室的訓(xùn)練設(shè)置中通過后訓(xùn)練階段實(shí)現(xiàn)。
4. 多步訓(xùn)練:LLM 智能體的訓(xùn)練需要大量草稿和多步驟迭代。搜索領(lǐng)域的情況尤其如此:我們不會一次性評估搜索結(jié)果,而是評估模型獲取資源、處理結(jié)果、進(jìn)一步獲取資源、調(diào)整計劃、回溯等能力。因此,DeepSeek 的 GRPO 結(jié)合 vllm 的文本生成成為當(dāng)前首選方法。近期,我發(fā)布了一個基于 William Brown 工作的代碼筆記本,成功在 Google Colab 提供的一塊 A100 GPU 上運(yùn)行了 GRPO。計算需求的降低將是未來幾年強(qiáng)化學(xué)習(xí)和智能體設(shè)計普及的關(guān)鍵因素。
如何實(shí)現(xiàn)規(guī)?;??
以上是基礎(chǔ)構(gòu)建模塊,但從這些到 OpenAI 的 DeepResearch 以及其他能夠處理長動作序列的智能體,還有一段距離。請允許我做一些推測。
目前的開放強(qiáng)化學(xué)習(xí) / 推理研究主要集中在數(shù)學(xué)領(lǐng)域,因?yàn)槲覀儞碛写罅繑?shù)學(xué)練習(xí)題,其中一些被 Common Crawl 收錄,并由 HuggingFace 通過分類器提取。然而,對于許多其他領(lǐng)域(尤其是搜索領(lǐng)域),我們?nèi)狈ο嚓P(guān)數(shù)據(jù),因?yàn)槲覀冃枰鎸?shí)的動作序列:日志、點(diǎn)擊記錄、行為模式等。我不久前曾在日志分析領(lǐng)域工作過,模型(雖然仍在使用馬爾可夫鏈,但這個領(lǐng)域變化很快)仍然常在 20 世紀(jì) 90 年代末泄露的 AOL 數(shù)據(jù)上進(jìn)行訓(xùn)練。最近,至少有一個重要的公開數(shù)據(jù)集被引入:Wikipedia Clickstream,這是一組從一篇維基百科文章到另一篇文章的匿名點(diǎn)擊軌跡數(shù)據(jù)。
但讓我問一個簡單的問題:這個數(shù)據(jù)集在 HuggingFace 上嗎?沒有。
事實(shí)上,HuggingFace 上幾乎沒有真正能增強(qiáng)規(guī)劃能力的「智能體數(shù)據(jù)」。整個領(lǐng)域仍然默認(rèn) LLM 模型需要通過自定義的規(guī)則系統(tǒng)進(jìn)行編排。我甚至不確定 OpenAI 或 Anthropic 是否擁有足夠數(shù)量的此類數(shù)據(jù)。這至少是一個傳統(tǒng)科技公司占據(jù)強(qiáng)勢地位的領(lǐng)域,而且沒有簡單的替代方案:你無法購買谷歌龐大的用戶搜索歷史數(shù)據(jù)。
目前能想到的解決方法是:通過模擬直接生成數(shù)據(jù)。傳統(tǒng)的強(qiáng)化學(xué)習(xí)模型并不依賴過往的實(shí)例。它們通過廣泛且反復(fù)的搜索來推斷出約束條件和過度策略。一旦應(yīng)用到搜索領(lǐng)域,典型的強(qiáng)化學(xué)習(xí)方法與博弈中的強(qiáng)化學(xué)習(xí)并無太大差異:讓模型自由探索,每當(dāng)它找到正確答案時就給予獎勵。這可能是一個漫長的探索過程。就好比你要找出一篇 20 世紀(jì) 60 年代被遺忘的蘇聯(lián)論文中記載的某個特定化學(xué)實(shí)驗(yàn)。通過純粹的蠻力,也許強(qiáng)制執(zhí)行一些語言查詢變化,模型最終偶然找到了正確結(jié)果。然后,它可以匯總導(dǎo)致這一結(jié)果的所有因素,從而使這一發(fā)現(xiàn)在未來更有可能實(shí)現(xiàn)。
我們來做一些簡單的計算。在典型的強(qiáng)化學(xué)習(xí)(RL)設(shè)計中,以 GRPO 為例,一次可以同時進(jìn)行 16 個草稿的探索 —— 如果大型實(shí)驗(yàn)室訓(xùn)練的模型采用更高的草稿迭代次數(shù),我也不會感到意外。每個草稿可能會依次瀏覽至少 100 個不同的頁面。這意味著一次就有 2000 個潛在查詢,而這僅僅只是一步。一個復(fù)雜的強(qiáng)化學(xué)習(xí)訓(xùn)練序列可能需要進(jìn)行數(shù)十萬步(這也是我認(rèn)為當(dāng)前訓(xùn)練正處于中期階段的原因之一),并且要處理各種各樣的任務(wù),尤其是針對像通用搜索能力這樣復(fù)雜的任務(wù)。如此算來,一個訓(xùn)練序列就需要數(shù)億次的單獨(dú)連接 —— 在這個過程中,甚至可能會導(dǎo)致一些常用學(xué)術(shù)資源遭受類似分布式拒絕服務(wù)(DDoS)攻擊的情況。這顯然并不理想,此時,網(wǎng)絡(luò)帶寬而非實(shí)際計算能力,成了主要的限制因素。
Game RL 面臨著類似的限制。這就是為什么像 Pufferlib 這樣的 SOTA 方法會「從學(xué)習(xí)庫的角度將環(huán)境包裝成 Atari,而不會失去通用性」:RL 模型只需要看到它們所需使用的信息。當(dāng)這種方法應(yīng)用于搜索領(lǐng)域時,涉及到借助大型的 Common Crawl 數(shù)據(jù)轉(zhuǎn)儲,并將數(shù)據(jù)偽裝成通過 Web 處理的樣子,包含 url、api 調(diào)用和其他典型的 http 工件。而實(shí)際上,這些數(shù)據(jù)早已存儲在本地具有快速查詢能力的數(shù)據(jù)框中。
因此,我推測用于搜索的大語言模型強(qiáng)化學(xué)習(xí)智能體可以通過以下方式進(jìn)行訓(xùn)練:
- 利用固定的數(shù)據(jù)集創(chuàng)建一個大型的網(wǎng)絡(luò)搜索模擬環(huán)境,并持續(xù)將數(shù)據(jù)「轉(zhuǎn)換」后反饋給模型。通過這種方式,讓模型仿佛置身于真實(shí)的網(wǎng)絡(luò)搜索場景中進(jìn)行學(xué)習(xí)。
- 使用某種形式的輕量級 SFT(如 DeepSeek 的 SFT-RL-SFT-RL 步驟)預(yù)冷模型,可能基于可以找到的任何現(xiàn)有搜索模式。其總體思路是預(yù)先規(guī)范模型的推理和輸出方式,從而加快實(shí)際強(qiáng)化學(xué)習(xí)訓(xùn)練的速度,這類似于進(jìn)行某種預(yù)定義的規(guī)則設(shè)計。
- 準(zhǔn)備或多或少復(fù)雜的查詢,并將相關(guān)結(jié)果作為驗(yàn)證器。我唯一的猜測是,它涉及一些復(fù)雜的合成管道,從現(xiàn)有資源進(jìn)行反向翻譯,或者可能只是來自博士級注釋者的非常昂貴的注釋。
- 多步驟 RL 中的實(shí)際訓(xùn)練。模型提交查詢、發(fā)起搜索、發(fā)送結(jié)果、瀏覽頁面或重新表述結(jié)果,所有這些都是多步驟完成的。從模型的角度來看,它就像是在瀏覽網(wǎng)頁,但所有這些數(shù)據(jù)交換都是由搜索模擬器在后臺準(zhǔn)備的。
- 也許一旦模型在搜索方面足夠好,就會重新進(jìn)行另一輪 RL 和 SFT,這次更專注于編寫最終的綜合體。同樣,這可能涉及一個復(fù)雜的合成流程,其中輸出會轉(zhuǎn)變?yōu)檩斎?,例如將原始的長篇報告拆分成小塊,然后通過推理將它們重新組合起來。
告別對智能體進(jìn)行提示
最終,我們得到了一個真正的智能體模型。它在實(shí)踐中會如何改變標(biāo)準(zhǔn)的工作流程或模型編排呢?僅僅是整體質(zhì)量的提升,還是一種全新的范式轉(zhuǎn)變?
讓我們回顧一下 Anthropic 對智能體的定義:LLM 智能體「能夠動態(tài)地引導(dǎo)自身的處理流程和工具使用,自主掌控任務(wù)的完成方式」。我將再次以我較為熟悉的搜索場景為例進(jìn)行說明。
一直以來,有很多人猜測檢索增強(qiáng)生成(RAG)會被具備長上下文處理能力的直接大語言模型應(yīng)用所取代。但這種情況并未發(fā)生,原因有很多:長上下文處理計算成本高昂,在處理相對復(fù)雜的查詢時準(zhǔn)確性欠佳,而且輸入信息的可追溯性較差。真正具備智能體能力的搜索大語言模型并不會取代 RAG。實(shí)際可能發(fā)生的情況是,在很大程度上實(shí)現(xiàn) RAG 的自動化,并整合向量數(shù)據(jù)庫、路由和重排序等復(fù)雜操作。
一個典型的搜索過程可能會按照以下方式進(jìn)行:
- 分析、分解查詢,并對用戶意圖做出一些假設(shè)。
- 如果查詢不清楚,可能會立即提示用戶返回(OpenAI DeepResearch 已經(jīng)這樣做了)。
- 隨后,模型既可以開展通用搜索,也可以在合適的情況下,直接轉(zhuǎn)向更專業(yè)的研究資源。該模型已經(jīng)記住了標(biāo)準(zhǔn)的應(yīng)用程序編程接口(API)方案,能夠直接調(diào)用它們。為節(jié)省推理時間,模型可優(yōu)先借助現(xiàn)有的網(wǎng)絡(luò)「模擬」版本,例如各類 API、網(wǎng)站地圖以及龐大的數(shù)據(jù)網(wǎng)絡(luò)生態(tài)系統(tǒng)。
- 搜索序列經(jīng)過學(xué)習(xí)和訓(xùn)練。該模型可以放棄錯誤的方向。或者它可以像專業(yè)知識工作者那樣走另一條路。我看到 OpenAI DeepResearch 的一些最令人印象深刻的結(jié)果證明了這種能力:通過一系列內(nèi)部推理,可以正確定位索引不良的來源。
- 搜索序列經(jīng)過學(xué)習(xí)和訓(xùn)練。模型能夠及時放棄錯誤的搜索方向,或者像專業(yè)知識工作者那樣另辟蹊徑。我在 OpenAI DeepResearch 中看到的一些令人印象深刻的結(jié)果,就證明了這種能力:通過一系列的內(nèi)部推理,模型能夠準(zhǔn)確找到索引不佳的資源。
- 每一步操作和整個過程都會作為內(nèi)部推理軌跡被記錄下來,從而在一定程度上為搜索結(jié)果提供可解釋性。
簡而言之,搜索過程是直接設(shè)計的。LLM 智能體充分利用現(xiàn)有的搜索基礎(chǔ)設(shè)施,并盡其所能以巧妙的方式開展搜索。目前不需要額外的數(shù)據(jù)準(zhǔn)備。也不需要訓(xùn)練用戶與生成式 AI 系統(tǒng)交互。正如 Tim Berners-Lee 十多年前強(qiáng)調(diào)的那樣,「思考 Agent 的一種方式是,如果用戶明確要求,程序在每個實(shí)例中都會執(zhí)行用戶希望它執(zhí)行的操作?!?/span>
現(xiàn)在,為了更清楚地了解實(shí)際投入生產(chǎn)的 LLM 智能體,你可以開始將這種方法遷移到其他領(lǐng)域。真正的網(wǎng)絡(luò)工程智能體同樣能夠直接與現(xiàn)有基礎(chǔ)設(shè)施交互,根據(jù)需求生成設(shè)備配置(如路由器、交換機(jī)、防火墻),分析網(wǎng)絡(luò)拓?fù)洳⑻岢鰞?yōu)化建議或解析錯誤日志以識別網(wǎng)絡(luò)問題的根本原因。真正的金融智能體將接受培訓(xùn),以提供競爭數(shù)據(jù)標(biāo)準(zhǔn)的無縫和準(zhǔn)確翻譯(如 ISO 20022 到 MT103)。目前,僅靠一系列系統(tǒng)提示是無法完成上述任何一項任務(wù)的。
目前,唯一能夠開發(fā)真正 LLM 智能體的只有大型實(shí)驗(yàn)室。它們掌握著所有優(yōu)勢:專業(yè)技術(shù)、擁有部分?jǐn)?shù)據(jù)(或者至少掌握合成數(shù)據(jù)的方法)以及將它們的模型轉(zhuǎn)化為產(chǎn)品的總體愿景。我不確定這種技術(shù)集中是否是一件好事,盡管資金生態(tài)系統(tǒng)不愿將真正的模型訓(xùn)練視為長期顛覆和價值創(chuàng)造的實(shí)際來源,這在很大程度上助長了這種集中化現(xiàn)象。
我一般不喜歡夸大其詞。然而,鑒于 LLM 智能體具有巨大的顛覆潛力和價值獲取能力,我堅信讓 LLM 智能體的訓(xùn)練和部署走向大眾化已刻不容緩。因此,開放驗(yàn)證器、GRPO 訓(xùn)練樣本,以及可能會很快出現(xiàn)的復(fù)雜合成管道和模擬器。
2025 年會是智能體元年嗎?有可能。讓我們拭目以待。