智能體系統(tǒng)如何「邊做邊學」?斯坦福團隊探索在線優(yōu)化的新范式
如何讓智能體進行復雜推理與工具調用?傳統(tǒng)方法主要有兩類:訓練單一的大語言模型,使其同時承擔思考與工具調用的任務;要么依賴靜態(tài)提示詞驅動的 training-free 智能體系統(tǒng)。
然而,前者在長鏈推理、工具多樣化與動態(tài)環(huán)境反饋下訓練常變得不穩(wěn)定,缺乏可擴展性(scalability);后者則缺少學習與適應能力,難以應對復雜場景。
為此,斯坦福大學聯(lián)合德州農工大學(Texas A&M)、加州大學圣地亞哥分校(UC San Diego)和 Lambda 的研究團隊提出了 AgentFlow 框架,通過多個獨立 Agent 模塊協(xié)作,并且提出 Flow-GRPO 算法用于訓練。在評測中,AgentFlow 在搜索、代理、數(shù)學與科學任務上均取得顯著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

該方法創(chuàng)新性地將智能體協(xié)作推理與強化學習融為一體,提出流中強化學習機制,讓智能體系統(tǒng)在推理流中協(xié)同演化,形成「動態(tài)共振」效應。使其在長期規(guī)劃能力、工具調用效率和動態(tài)推理深度上實現(xiàn)大幅提升,并在搜索、數(shù)學、科學及智能體任務等多個領域展現(xiàn)優(yōu)秀的泛化能力。

- 項目主頁:https://agentflow.stanford.edu/
- 論文鏈接:https://huggingface.co/papers/2510.05592
- 開源代碼:https://github.com/lupantech/AgentFlow
- 開源模型:https://huggingface.co/AgentFlow
- 在線 Demo:https://huggingface.co/spaces/AgentFlow/agentflow
- YouTube 視頻:https://www.youtube.com/watch?v=kIQbCQIH1SI

該工作目前不僅在 X 上收獲了超高的關注度,同時榮登 Huggingface Paper 日榜第二名!

https://x.com/lupantech/status/1976016000345919803

https://huggingface.co/papers/date/2025-10-08
研究動機:
從「單兵作戰(zhàn)」到「團隊協(xié)作」
目前,讓語言模型學會使用工具進行復雜任務推理主要有兩種思路:一種是訓練一個「全能型」模型,讓它既要思考又要調用工具,所有操作都在一個完整的上下文中交織進行;另一種是采用「智能體系統(tǒng)」,將任務分解給多個專門化的智能體模塊協(xié)同完成。

第一種方法在簡單場景中表現(xiàn)良好,但在面對長鏈推理、多樣化工具調用以及動態(tài)環(huán)境反饋時,訓練過程往往不穩(wěn)定,難以實現(xiàn)良好的可擴展性。第二種方法雖然具備更高的靈活性,但多數(shù)系統(tǒng)依賴人工設計的提示詞與邏輯,缺乏從經驗中自我學習與優(yōu)化的能力。
這使得研究團隊思考:能否讓智能體系統(tǒng)也具備「邊做邊學」的能力,使其能夠在交互中不斷進化?
AgentFlow:
在流中學習的智能體系統(tǒng)
為了解決以上挑戰(zhàn),研究團隊提出了 AgentFlow —— 一個可訓練的、工具集成的智能體系統(tǒng),旨在突破現(xiàn)有方法在可擴展性與泛化能力上的限制。AgentFlow 采用了模塊化的智能體結構,由四個具備記憶能力的專門化智能體協(xié)同配合,共同完成復雜推理,從而實現(xiàn)「即時學習」:
- 規(guī)劃器(Action Planner):分析任務、制定策略并選擇最合適的工具
- 執(zhí)行器(Tool Executor):調用工具集并整合工具執(zhí)行結果
- 驗證器(Verifier):基于系統(tǒng)維護的累積記憶評估中間結果是否滿足目標與約束
- 生成器(Generator):整合所有信息與驗證反饋,生成最終答案或行動建議
AgentFlow 的關鍵創(chuàng)新在于:規(guī)劃器(Planner)并非固定不變,而是能夠在智能體交互的「流」(flow)中實時進行 on-policy 優(yōu)化,使決策過程隨著環(huán)境變化及其他智能體的反饋不斷自適應進化。通過這一機制,各模塊在推理流中協(xié)同演化,使整個智能體系統(tǒng)在復雜環(huán)境下實現(xiàn)自適應推理(adaptive reasoning)與魯棒工具調用(robust tool-calling)。

Flow-GRPO:
流中強化學習優(yōu)化算法
實現(xiàn)智能體流中強化學習訓練的核心挑戰(zhàn)在于多輪信用分配(multi-turn credit assignment):即如何在長時跨度(long-horizon)且獎勵稀疏(sparse reward)的條件下,穩(wěn)定且高效地訓練。為此團隊提出動作級別的(Action Level)的多輪推理優(yōu)化目標:

通過將軌跡最終結果的成功或失敗信號(outcome reward)廣播至每一步,將原本復雜的多輪強化學習問題轉化為一系列可處理的單輪策略更新。該方法不僅緩解了獎勵稀疏問題,還顯著提升了訓練效率,為智能體在復雜多輪推理中的穩(wěn)定學習提供了基礎。

實驗結果:
AgentFlow 全面基準測試
為了充分評估 AgentFlow 的泛化能力與高效性,研究團隊在 10 個跨各個領域的基準測試上進行了系統(tǒng)評測,涵蓋知識檢索、智能體任務、數(shù)學推理和科學推理四大類。 以 Qwen-2.5-7B-Instruct 為基座模型的 AgentFlow 在各項基準上均超越現(xiàn)有領先方法:
- 知識檢索(Search):提升 +14.9%
- 智能體推理(Agentic Reasoning):提升 +14.0%
- 數(shù)學推理(Math):提升 +14.5%
- 科學推理(Science):提升 +4.1%
值得注意的是,AgentFlow 的表現(xiàn)甚至超過了大規(guī)模的專有模型,如 GPT-4o(~200B)。


實驗發(fā)現(xiàn):
小模型的「大智慧」
研究團隊在 10 個基準測試上進行了評估,涵蓋知識檢索、智能體任務、數(shù)學推理和科學推理四大類。 一些有趣的發(fā)現(xiàn):
- 模型規(guī)模不是唯一答案
使用 7B 參數(shù)的 AgentFlow 在多個任務上超過了約 200B 參數(shù)的 GPT-4o,Llama3.1-405B,在搜索任務上領先 8.2%,在智能體任務上領先 15.8%。這再一次展現(xiàn)了,合理的系統(tǒng)設計和訓練方法可能比單純堆砌參數(shù)訓練 All in one 的大模型更有效。
- 「在流中學習」至關重要
對比實驗顯示,若采用離線監(jiān)督學習(SFT)方式訓練規(guī)劃器,性能反而顯著下降,平均降低 19%。這表明,智能體在真實交互環(huán)境「流」中進行在線學習是實現(xiàn)高效推理的必要條件。此外,盡管 AgentFlow 的推理流本身能夠利用其強大的任務分解能力帶來顯著性能提升,但仍可能出現(xiàn)循環(huán)錯誤或卡頓問題。通過在真實環(huán)境中的訓練,智能體系統(tǒng)展現(xiàn)出快速修正錯誤的工具調用、更精細的子任務規(guī)劃,以及全局任務解決性能的提升。
這些結果進一步證明了模塊協(xié)作機制以及流中強化學習在提升多輪智能體系統(tǒng)穩(wěn)定性與效率方面的顯著作用。


- 自主發(fā)現(xiàn)新的解決路徑
有意思的是,經過 Flow-GRPO 的強化訓練規(guī)劃器,系統(tǒng)學會了根據(jù)任務特點選擇合適的工具組合;同時,經過訓練的系統(tǒng)會自發(fā)探索出新的工具使用模式,比如組合使用維基百科搜索(Wikipedia Search)和特定網頁增強搜索(Web Search)的連招,通過工具鏈獲得更加深入地信息挖掘,而這些模式幾乎沒有在未訓練的推理流中出現(xiàn)。

- 動態(tài)推理深度與性能提升
對于相同的數(shù)據(jù)集下的不同難度任務:譬如說多跳搜索(Multihop Search),智能體任務中的密集長鏈推理任務,AgentFlow 在經過 Flow-GRPO 訓練后能夠隨著最大限制推理步數(shù)的上升穩(wěn)步提升性能,同時又不會大幅提升平均推理步數(shù)——這表示對于長難任務會增加有效的推理步數(shù)來提升正確率,而不會一味地所有任務都隨著最大輪數(shù)限制而延長推理步數(shù)。

結語
AgentFlow 為智能體訓練提供了一種全新的思路:與其追求一個功能完備的單一大語言模型或「一次性完美」的智能體系統(tǒng),不如讓智能體在系統(tǒng)中自我適應與持續(xù)學習。通過將群體智能與「邊做邊學」的范式相結合,AgentFlow 使智能體系統(tǒng)能夠在協(xié)同演化中不斷優(yōu)化,從而高效應對復雜任務。
盡管從研究探索到實際應用仍有較長的距離,但這樣的工作讓我們看到:Agentic AI 依然蘊藏著巨大的潛力與想象空間。
































