AI在線強(qiáng)化學(xué)習(xí)“邊做邊學(xué)”,斯坦福團(tuán)隊(duì)讓7B小模型性能飆升,甚至超越GPT-4o
斯坦福等新框架,用在線強(qiáng)化學(xué)習(xí)讓智能體系統(tǒng)“以小搏大”,領(lǐng)先GPT-4o——
AgentFlow,是一種能夠在線優(yōu)化智能體系統(tǒng)的新范式,可以持續(xù)提升智能體系統(tǒng)對(duì)于復(fù)雜問題的推理能力。
它由規(guī)劃器、執(zhí)行器、驗(yàn)證器、生成器四個(gè)專業(yè)智能體組成的團(tuán)隊(duì)通過共享內(nèi)存進(jìn)行協(xié)作,利用新方法Flow-GRPO,在系統(tǒng)內(nèi)部直接對(duì)其規(guī)劃器智能體進(jìn)行實(shí)時(shí)優(yōu)化。

以Qwen-2.5-7B-Instruct為基座模型的AgentFlow在10個(gè)基準(zhǔn)測(cè)試中表現(xiàn)突出:
搜索任務(wù)提升14.9%、智能體任務(wù)提升14.0%、數(shù)學(xué)任務(wù)提升14.5%、科學(xué)任務(wù)提升4.1%。
多項(xiàng)任務(wù)表現(xiàn)甚至超越比其大50倍的模型,超越GPT-4o、Llama3.1-405B。

AgentFlow發(fā)布后,受到業(yè)界不少?gòu)V泛關(guān)注與看好。

網(wǎng)友紛紛表示方向很棒:
多智能體流(multi-agent flow)給人的感覺就像“相位耦合推理”(phase-coupled reasoning)。很期待看到“協(xié)同能力”取代“規(guī)模”,成為衡量智能的指標(biāo)。

Flow-GRPO采用共享內(nèi)存的多智能體架構(gòu)設(shè)計(jì)精妙。其中驗(yàn)證智能體對(duì)幻覺化工具調(diào)用的阻斷機(jī)制尤為關(guān)鍵——它能顯著減少智能體工作流中典型的多步推理鏈誤差傳播。

所以,AgentFlow究竟長(zhǎng)啥樣?

工具集成的智能體系統(tǒng)+流中強(qiáng)化學(xué)習(xí)訓(xùn)練
自“AI下半場(chǎng)”開啟以來,智能體(Agent)在垂直領(lǐng)域與通用場(chǎng)景中呈現(xiàn)出井噴式發(fā)展。然而,在復(fù)雜決策與持續(xù)優(yōu)化能力方面,當(dāng)前智能體仍存在一定局限。如何將智能體的推理能力與強(qiáng)化學(xué)習(xí)的自我進(jìn)化機(jī)制深度融合,成為突破這一瓶頸的關(guān)鍵所在。
在今年早些時(shí)候,隨著DeepSeek-R1的發(fā)布,推理模型的訓(xùn)練方式迎來了新的啟發(fā)。不久之后,伊利諾伊大學(xué)香檳分校(UIUC)發(fā)布Search-R1,系統(tǒng)揭示了如何通過強(qiáng)化學(xué)習(xí),訓(xùn)練能夠自主推理并調(diào)用外部工具的推理模型(Tool-Integrated Reasoning Models)。
而在此之前,智能體系統(tǒng)(Agentic System)的發(fā)展也從系統(tǒng)層面推動(dòng)了智能體協(xié)作與可擴(kuò)展性的提升,為后續(xù)相關(guān)研究奠定了堅(jiān)實(shí)基礎(chǔ)。
例如,LangGraph、PydanticAI、OWL等框架在智能體通信、任務(wù)規(guī)劃與工具調(diào)用等方面進(jìn)行了多樣化的探索,為智能體生態(tài)的快速演進(jìn)提供了有力支撐。

而AgentFlow提出了一種新范式,其中由四個(gè)具備記憶能力的專門化智能體協(xié)同配合:
規(guī)劃器負(fù)責(zé)分析任務(wù)并選擇工具,執(zhí)行器調(diào)用工具并整合結(jié)果,驗(yàn)證器基于累積記憶評(píng)估中間結(jié)果,生成器整合信息生成最終答案。

對(duì)于每個(gè)新任務(wù),規(guī)劃器在智能體交互的“流”中根據(jù)環(huán)境變化及其他智能體的反饋實(shí)時(shí)進(jìn)行on-policy優(yōu)化,各模塊在推理流中協(xié)同演化并不斷調(diào)整決策策略。這些優(yōu)化隨后被整合到系統(tǒng)的記憶中,形成一個(gè)閉環(huán)的自適應(yīng)推理過程,使整個(gè)智能體系統(tǒng)在復(fù)雜環(huán)境下實(shí)現(xiàn)魯棒的工具調(diào)用與持續(xù)進(jìn)化。
其中,AgentFlow包含了以下幾個(gè)關(guān)鍵組件:
模塊化智能體結(jié)構(gòu)。
AgentFlow采用了四個(gè)具備記憶能力的專門化智能體協(xié)同配合,共同完成復(fù)雜推理,從而實(shí)現(xiàn)“即時(shí)學(xué)習(xí)”:
(i)規(guī)劃器(Action Planner):分析任務(wù)、制定策略并選擇最合適的工具;
(ii)執(zhí)行器(Tool Executor):調(diào)用工具集并整合工具執(zhí)行結(jié)果;
(iii)驗(yàn)證器(Verifier):基于系統(tǒng)維護(hù)的累積記憶評(píng)估中間結(jié)果是否滿足目標(biāo)與約束;
(iv)生成器(Generator):整合所有信息與驗(yàn)證反饋,生成最終答案或行動(dòng)建議。
AgentFlow流中強(qiáng)化學(xué)習(xí)。
AgentFlow的關(guān)鍵創(chuàng)新在于:規(guī)劃器(Planner)并非固定不變,而是能夠在智能體交互的”流”(flow)中實(shí)時(shí)進(jìn)行on-policy優(yōu)化,使決策過程隨著環(huán)境變化及其他智能體的反饋不斷自適應(yīng)進(jìn)化。集成過程分為三個(gè)步驟:
(i)環(huán)境感知與記憶檢索;
(ii)動(dòng)作規(guī)劃與工具選擇;
(iii)策略優(yōu)化與記憶更新。
Flow-GRPO:流中強(qiáng)化學(xué)習(xí)優(yōu)化算法。
實(shí)現(xiàn)智能體流中強(qiáng)化學(xué)習(xí)訓(xùn)練的核心挑戰(zhàn)在于多輪信用分配(multi-turn credit assignment):即如何在長(zhǎng)時(shí)跨度(long-horizon)且獎(jiǎng)勵(lì)稀疏(sparse reward)的條件下,穩(wěn)定且高效地訓(xùn)練。為此團(tuán)隊(duì)提出動(dòng)作級(jí)別的(Action Level)的多輪推理優(yōu)化目標(biāo)。

如圖2所示,通過將軌跡最終結(jié)果的成功或失敗信號(hào)(outcome reward)廣播至每一步,將原本復(fù)雜的多輪強(qiáng)化學(xué)習(xí)問題轉(zhuǎn)化為一系列可處理的單輪策略更新。該方法不僅緩解了獎(jiǎng)勵(lì)稀疏問題,還顯著提升了訓(xùn)練效率,為智能體在復(fù)雜多輪推理中的穩(wěn)定學(xué)習(xí)提供了基礎(chǔ)。

實(shí)驗(yàn)結(jié)果
為了充分評(píng)估AgentFlow的泛化能力與高效性,研究團(tuán)隊(duì)在10個(gè)跨各個(gè)領(lǐng)域的基準(zhǔn)測(cè)試上進(jìn)行了系統(tǒng)評(píng)測(cè),涵蓋知識(shí)檢索、智能體任務(wù)、數(shù)學(xué)推理和科學(xué)推理四大類。

以Qwen-2.5-7B-Instruct為基座模型的AgentFlow在各項(xiàng)基準(zhǔn)上均超越現(xiàn)有領(lǐng)先方法:
- 知識(shí)檢索(Search):提升14.9%
- 智能體推理(Agentic Reasoning):提升14.0%
- 數(shù)學(xué)推理(Math):提升14.5%
- 科學(xué)推理(Science):提升4.1%
值得注意的是,AgentFlow的表現(xiàn)甚至超過了大規(guī)模的專有模型,如GPT-4o(~200B)。


表1、2展示了AgentFlow在不同類型任務(wù)上的評(píng)估結(jié)果,表明了在有效性(相對(duì)提高高達(dá)14.9%)和效率(平均推理步數(shù)優(yōu)化)上均優(yōu)于基準(zhǔn)方法。
研究團(tuán)隊(duì)在10個(gè)基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估,涵蓋知識(shí)檢索、智能體任務(wù)、數(shù)學(xué)推理和科學(xué)推理四大類。一些有趣的發(fā)現(xiàn):
1、模型規(guī)模不是唯一答案
使用7B參數(shù)的AgentFlow在多個(gè)任務(wù)上超過了約200B參數(shù)的GPT-4o,Llama3.1-405B,在搜索任務(wù)上領(lǐng)先8.2%,在智能體任務(wù)上領(lǐng)先15.8%。這再一次展現(xiàn)了,合理的系統(tǒng)設(shè)計(jì)和訓(xùn)練方法可能比單純堆砌參數(shù)訓(xùn)練All in one的大模型更有效。
2、“在流中學(xué)習(xí)”至關(guān)重要
對(duì)比實(shí)驗(yàn)顯示,若采用離線監(jiān)督學(xué)習(xí)(SFT)方式訓(xùn)練規(guī)劃器,性能反而顯著下降,平均降低19%。
這表明,智能體在真實(shí)交互環(huán)境“流”中進(jìn)行在線學(xué)習(xí)是實(shí)現(xiàn)高效推理的必要條件。
此外,盡管AgentFlow的推理流本身能夠利用其強(qiáng)大的任務(wù)分解能力帶來顯著性能提升,但仍可能出現(xiàn)循環(huán)錯(cuò)誤或卡頓問題。通過在真實(shí)環(huán)境中的訓(xùn)練,智能體系統(tǒng)展現(xiàn)出快速修正錯(cuò)誤的工具調(diào)用、更精細(xì)的子任務(wù)規(guī)劃,以及全局任務(wù)解決性能的提升。
這些結(jié)果進(jìn)一步證明了模塊協(xié)作機(jī)制以及流中強(qiáng)化學(xué)習(xí)在提升多輪智能體系統(tǒng)穩(wěn)定性與效率方面的顯著作用。


3、自主發(fā)現(xiàn)新的解決路徑
有意思的是,經(jīng)過Flow-GRPO的強(qiáng)化訓(xùn)練規(guī)劃器,系統(tǒng)學(xué)會(huì)了根據(jù)任務(wù)特點(diǎn)選擇合適的工具組合;同時(shí),經(jīng)過訓(xùn)練的系統(tǒng)會(huì)自發(fā)探索出新的工具使用模式,比如組合使用維基百科搜索(Wikipedia Search)和特定網(wǎng)頁(yè)增強(qiáng)搜索(Web Search)的連招,通過工具鏈獲得更加深入地信息挖掘,而這些模式幾乎沒有在未訓(xùn)練的推理流中出現(xiàn)。

4、動(dòng)態(tài)推理深度與性能提升
對(duì)于相同的數(shù)據(jù)集下的不同難度任務(wù):譬如說多跳搜索(Multihop Search),智能體任務(wù)中的密集長(zhǎng)鏈推理任務(wù),AgentFlow在經(jīng)過 FlowGRPO訓(xùn)練后能夠隨著最大限制推理步數(shù)的上升穩(wěn)步提升性能,同時(shí)又不會(huì)大幅提升平均推理步數(shù)——這表示對(duì)于長(zhǎng)難任務(wù)會(huì)增加有效的推理步數(shù)來提升正確率,而不會(huì)一味地所有任務(wù)都隨著最大輪數(shù)限制而延長(zhǎng)推理步數(shù)。


總之,AgentFlow為智能體訓(xùn)練提供了一種全新的思路:
與其追求一個(gè)功能完備的單一大語(yǔ)言模型或“一次性完美”的智能體系統(tǒng),不如讓智能體在系統(tǒng)中自我適應(yīng)與持續(xù)學(xué)習(xí)。
通過將群體智能與“邊做邊學(xué)”的范式相結(jié)合,AgentFlow使智能體系統(tǒng)能夠在協(xié)同演化中不斷優(yōu)化,從而高效應(yīng)對(duì)復(fù)雜任務(wù)。
盡管從研究探索到實(shí)際應(yīng)用仍有較長(zhǎng)的距離,但這讓團(tuán)隊(duì)看見Agentic AI依然蘊(yùn)藏著巨大的潛力與想象空間。
論文地址:https://arxiv.org/abs/2510.05592
項(xiàng)目主頁(yè):https://agentflow.stanford.edu/
Github倉(cāng)庫(kù):https://github.com/lupantech/AgentFlow
在線Demo:https://huggingface.co/spaces/AgentFlow/agentflow
YouTube視頻:https://www.youtube.com/watch?v=kIQbCQIH1SI






































