FlowReasoner:自動(dòng)化查詢級(jí) Multi-Agent 系統(tǒng)

大家好,我是肆〇柒。今天,我們要深入探討一個(gè)具有前瞻性的技術(shù) —— FlowReasoner。這個(gè)查詢級(jí) Meta-Agent 對(duì)多智能體系統(tǒng)的自動(dòng)化設(shè)計(jì)版圖提出新思路,下面,讓我們一同了解一下。
背景介紹
大型語言模型(LLM)已經(jīng)滲透到我們生活的方方面面。在聊天機(jī)器人領(lǐng)域,LLM 使機(jī)器能夠理解人類語言的細(xì)微差別,提供貼心的對(duì)話體驗(yàn);在代碼生成方面,它們能夠快速產(chǎn)出高質(zhì)量的代碼片段,極大提升開發(fā)效率;數(shù)學(xué)問題求解時(shí),LLM 展現(xiàn)出強(qiáng)大的邏輯推理能力,為復(fù)雜難題找到解決方案;甚至在機(jī)器人控制領(lǐng)域,它們也能通過精準(zhǔn)指令驅(qū)動(dòng)機(jī)器人完成精細(xì)任務(wù)。
以代碼生成為例,像 GitHub Copilot 這樣的工具利用 LLM 的能力,根據(jù)用戶輸入的注釋或簡單描述,瞬間生成相應(yīng)的代碼框架,節(jié)省了開發(fā)者大量時(shí)間和精力。這些實(shí)際應(yīng)用證明 LLM 已是實(shí)實(shí)在在推動(dòng)行業(yè)發(fā)展的“硬核引擎”。
基于 LLM 的多智能體系統(tǒng)更是將這種能力推向新高度。它們就像是一個(gè)協(xié)同工作的智能團(tuán)隊(duì),每個(gè)智能體都有特定技能,通過規(guī)劃、推理、工具調(diào)用和記憶共享,共同攻克復(fù)雜任務(wù)。例如在深度研究場景中,有的智能體負(fù)責(zé)文獻(xiàn)檢索,有的專注數(shù)據(jù)分析,還有的承擔(dān)報(bào)告撰寫,它們相互協(xié)作,讓研究工作事半功倍。
研究動(dòng)機(jī)
然而,傳統(tǒng)多智能體系統(tǒng)的構(gòu)建方式正面臨嚴(yán)峻挑戰(zhàn)。手動(dòng)設(shè)計(jì)一個(gè)復(fù)雜系統(tǒng)的成本令人咋舌。以一個(gè)中等規(guī)模的代碼生成多智能體系統(tǒng)為例,需要資深工程師花費(fèi)數(shù)周時(shí)間精心設(shè)計(jì)智能體間的交互邏輯、工作流程,還要不斷調(diào)試優(yōu)化。這種高昂的人力投入,讓許多中小企業(yè)和初創(chuàng)團(tuán)隊(duì)望而卻步。
而且,這種手動(dòng)設(shè)計(jì)的系統(tǒng)缺乏靈活性。一旦業(yè)務(wù)場景發(fā)生變化,比如從生成簡單算法代碼轉(zhuǎn)向構(gòu)建復(fù)雜游戲代碼,原本固定的工作流程就徹底“失靈”。企業(yè)不得不再次投入大量資源重新設(shè)計(jì)系統(tǒng),嚴(yán)重制約了業(yè)務(wù)的快速迭代和創(chuàng)新。
早期自動(dòng)化方法試圖緩解這些問題,但它們大多是“頭痛醫(yī)頭腳痛醫(yī)腳”。優(yōu)化提示的方法只能提升智能體對(duì)輸入指令的理解精度,卻無法改變智能體之間“各自為政”的狀況;超參數(shù)優(yōu)化則像是微調(diào)發(fā)動(dòng)機(jī)的轉(zhuǎn)速,對(duì)整體工作流程的“硬傷”無濟(jì)于事。基于圖的方法雖然嘗試用節(jié)點(diǎn)和邊描繪工作流,但復(fù)雜圖結(jié)構(gòu)的維護(hù)成本高,且在面對(duì)動(dòng)態(tài)場景時(shí),節(jié)點(diǎn)連接方式難以快速調(diào)整。
為了更清晰地展示任務(wù)級(jí)與查詢級(jí) Meta-Agent 的區(qū)別,請(qǐng)看下圖:

Task-Level vs. Query-Level Meta-Agents

基于剛才所探討到現(xiàn)狀,所以提出 FlowReasoner 方案,這正是為了解決這些棘手問題。它是一個(gè)真正意義上為每個(gè)用戶查詢量身定制多智能體系統(tǒng)的查詢級(jí) Meta-Agent。
假設(shè)這樣一個(gè)場景:一位開發(fā)者想構(gòu)建一個(gè) 2048 游戲。在傳統(tǒng)模式下,他需要自己搭建代碼生成、界面設(shè)計(jì)、游戲邏輯測(cè)試等多個(gè)智能體,并梳理它們的協(xié)作流程。而 FlowReasoner 接到這個(gè)查詢后,會(huì)迅速開啟推理模式。它先分析游戲開發(fā)的關(guān)鍵需求,包括核心算法實(shí)現(xiàn)、用戶交互界面友好性、游戲邏輯自洽性等。然后,基于這些需求,推理出需要哪些智能體以及它們的最佳協(xié)作方式。
更關(guān)鍵的是,F(xiàn)lowReasoner 的學(xué)習(xí)機(jī)制。它利用外部執(zhí)行反饋,就像人類從經(jīng)驗(yàn)中學(xué)習(xí)一樣。每完成一個(gè)任務(wù),它會(huì)根據(jù)結(jié)果的好壞調(diào)整自己的推理策略。同時(shí),強(qiáng)化學(xué)習(xí)的引入讓這個(gè)過程更加高效。通過多用途獎(jiǎng)勵(lì)機(jī)制,F(xiàn)lowReasoner 在提升任務(wù)性能、降低系統(tǒng)復(fù)雜性和提高執(zhí)行效率之間找到最佳平衡。
相關(guān)工作
基于 LLM 的多智能體系統(tǒng)
基于 LLM 的多智能體系統(tǒng)已經(jīng)在眾多領(lǐng)域?qū)嵺`。在代碼智能領(lǐng)域,SmartCode 系統(tǒng)通過構(gòu)建多個(gè)代碼生成、代碼審查和代碼優(yōu)化智能體,實(shí)現(xiàn)代碼質(zhì)量的全流程把控。例如,當(dāng)開發(fā)者提交一段代碼后,代碼審查智能體可以快速定位潛在的邏輯漏洞和性能瓶頸,給出針對(duì)性修改建議。
在Computer Use方面,像 Claude 3.5 這樣的模型,其內(nèi)部多智能體架構(gòu)讓它能夠理解復(fù)雜的用戶指令,精準(zhǔn)操作各種軟件工具。比如,用戶要求整理一份文檔并提取關(guān)鍵信息,系統(tǒng)內(nèi)的文檔解析智能體和信息提取智能體就會(huì)協(xié)同工作,高效完成任務(wù)。
然而,早期的自動(dòng)化方法存在明顯局限性。以提示優(yōu)化為例,研究發(fā)現(xiàn),即使經(jīng)過精心設(shè)計(jì)的提示,智能體之間的工作流程稍有變動(dòng),性能就會(huì)大幅下降。某實(shí)驗(yàn)顯示,在跨領(lǐng)域任務(wù)遷移時(shí),僅優(yōu)化提示的系統(tǒng)準(zhǔn)確率從 80% 暴跌至 30%。超參數(shù)優(yōu)化也面臨類似困境,它只能在固定工作流程下“小修小補(bǔ)”,無法應(yīng)對(duì)場景的劇烈變化。
工作流自動(dòng)化方法
基于圖的方法嘗試用圖形化方式描繪工作流。例如,GNN(圖神經(jīng)網(wǎng)絡(luò))驅(qū)動(dòng)的工作流優(yōu)化方法,將智能體作為節(jié)點(diǎn),協(xié)作關(guān)系作為邊。通過訓(xùn)練 GNN 模型,它可以預(yù)測(cè)節(jié)點(diǎn)間最佳連接方式。但這種復(fù)雜圖結(jié)構(gòu)在大規(guī)模智能體系統(tǒng)中維護(hù)成本呈指數(shù)級(jí)上升。當(dāng)智能體數(shù)量超過 100 個(gè)時(shí),圖結(jié)構(gòu)的計(jì)算復(fù)雜度讓系統(tǒng)響應(yīng)速度降低數(shù)倍。
最新方法將多智能體系統(tǒng)表示為編程代碼。Aflow 方法采用蒙特卡洛樹搜索(MCTS),在代碼化的工作流空間中尋找最優(yōu)解。它把工作流當(dāng)作一段程序代碼,每個(gè)智能體對(duì)應(yīng)一個(gè)函數(shù)模塊,工作流程對(duì)應(yīng)函數(shù)調(diào)用順序。MCTS 通過不斷采樣可能的代碼結(jié)構(gòu),評(píng)估其優(yōu)劣。但這種基于搜索的方法有個(gè)“致命傷”——它依賴于精心設(shè)計(jì)的搜索集。如果搜索集覆蓋不全,就像在迷宮中少了部分地圖,系統(tǒng)很難找到最優(yōu)路徑。
為了更好地對(duì)比三種多智能體系統(tǒng)的架構(gòu),請(qǐng)看下圖:

三個(gè) Multi-Agent 系統(tǒng)架構(gòu)對(duì)比
如上圖所示,傳統(tǒng)手動(dòng)設(shè)計(jì)的多智能體系統(tǒng)(a)依賴人類專家根據(jù)任務(wù)類型固定智能體和工作流程。搜索基礎(chǔ)自動(dòng)多智能體系統(tǒng)(b)利用 LLM 生成候選設(shè)計(jì),再通過復(fù)雜搜索算法在精心設(shè)計(jì)的搜索集中尋找最優(yōu)系統(tǒng)。而 FlowReasoner 作為推理基礎(chǔ)的自動(dòng)多智能體系統(tǒng)(c),完全摒棄了固定工作流程,通過多輪推理動(dòng)態(tài)生成針對(duì)每個(gè)查詢的個(gè)性化多智能體系統(tǒng)。
LLM 中的推理能力
推理能力是 LLM 的“超級(jí)武器”。早期的“逐步思考”方法,如 Chain-of-Thought Prompting,讓模型像解數(shù)學(xué)題一樣,把推理過程拆解成多個(gè)步驟。實(shí)驗(yàn)表明,這種簡單方法就能讓模型在復(fù)雜推理任務(wù)上的準(zhǔn)確率提升 30% 以上。
自我糾正框架更是將推理推向新高度。例如,ReAct 框架在機(jī)器人導(dǎo)航任務(wù)中,讓模型先規(guī)劃路徑,執(zhí)行一步后觀察環(huán)境反饋,再根據(jù)反饋糾正后續(xù)步驟。這種邊執(zhí)行邊調(diào)整的策略,使機(jī)器人導(dǎo)航成功率從 60% 躍升至 90%。
OpenAI 的 o1 模型家族更是推理能力的集大成者。o1-mini 模型在數(shù)學(xué)推理基準(zhǔn)測(cè)試中,準(zhǔn)確率達(dá)到 85%,遠(yuǎn)超傳統(tǒng)模型。后續(xù)的 QwQ、QvQ 等模型通過引入更復(fù)雜的推理架構(gòu),進(jìn)一步提升性能。然而,過度推理也帶來“過思考”問題。研究發(fā)現(xiàn),當(dāng)模型在簡單算術(shù)題上過度推理時(shí),準(zhǔn)確率反而下降 20%。這就像人類在簡單問題上想太多,反而容易出錯(cuò)。
問題定義
關(guān)鍵概念定義
在 FlowReasoner 中,用戶查詢(q)是觸發(fā)一切的起點(diǎn)。它可能是開發(fā)者的一句簡單指令:“幫我構(gòu)建一個(gè) 2048 游戲”。用戶任務(wù)(t)則是這類查詢的“群體畫像”,它描述了查詢的分布特征。比如,代碼生成任務(wù)(t)涵蓋了從生成排序算法到構(gòu)建游戲代碼的各種查詢(q)。
多智能體系統(tǒng)(S)就像一個(gè)智能“軍團(tuán)”,由智能體集合(A)和工作流程(W)組成。智能體是系統(tǒng)中的“戰(zhàn)士”,每個(gè)都有獨(dú)特技能;工作流程則是“作戰(zhàn)計(jì)劃”,規(guī)定智能體何時(shí)出擊、如何配合。
傳統(tǒng)多智能體系統(tǒng)的局限性
傳統(tǒng)多智能體系統(tǒng)的設(shè)計(jì)就像是“流水線工廠”。以代碼生成任務(wù)為例,企業(yè)通常會(huì)安排一批工程師,根據(jù)任務(wù)類型(如生成游戲代碼或工具代碼),手動(dòng)設(shè)計(jì)一套固定的工作流程。這個(gè)流程可能包括代碼生成智能體、格式化智能體和測(cè)試智能體。
但問題在于,這種固定流程在面對(duì)復(fù)雜的需求環(huán)境時(shí),會(huì)變得極其“脆弱”。當(dāng)需求從生成 2048 游戲代碼轉(zhuǎn)向開發(fā)一個(gè)復(fù)雜辦公軟件代碼時(shí),原本的流程完全失效。企業(yè)不得不再次投入大量人力重新設(shè)計(jì)。而且,這種系統(tǒng)無法動(dòng)態(tài)分配資源。在生成簡單代碼時(shí),可能會(huì)調(diào)用過多智能體,造成資源浪費(fèi);而在處理復(fù)雜代碼時(shí),又可能因智能體不足而性能受限。
搜索結(jié)果基礎(chǔ)自動(dòng)化多智能體系統(tǒng)
為了解決這些問題,研究人員提出基于搜索的自動(dòng)化多智能體系統(tǒng)。以 AutoAgents 為例,它先利用 LLM 生成多個(gè)候選多智能體系統(tǒng)設(shè)計(jì)。這些設(shè)計(jì)就像是多種可能的“作戰(zhàn)方案”。然后,它通過復(fù)雜搜索算法(如遺傳算法),在精心設(shè)計(jì)的搜索集中尋找最優(yōu)方案。
但這種系統(tǒng)存在兩個(gè)致命缺陷。一是它依然是一刀切的通用系統(tǒng)。就像為不同身材的人提供同樣尺寸的服裝,很難滿足個(gè)性化需求。二是搜索算法本身耗時(shí)且依賴搜索集。如果搜索集不完整,就像在黑暗中尋找光明,很難找到最佳方案。研究顯示,當(dāng)搜索集覆蓋度降低 30% 時(shí),系統(tǒng)性能下降幅度可達(dá) 50%。
FlowReasoner Meta-Agent
基于推理的自動(dòng)化多智能體系統(tǒng)架構(gòu)
FlowReasoner 的架構(gòu)是其“智能大腦”。它完全摒棄了傳統(tǒng)系統(tǒng)中固定工作流程的束縛,轉(zhuǎn)而采用動(dòng)態(tài)推理的方式。
當(dāng)接到一個(gè)用戶查詢,比如“設(shè)計(jì)一個(gè)自動(dòng)化股票交易系統(tǒng)”時(shí),F(xiàn)lowReasoner 首先會(huì)快速分析這個(gè)任務(wù)的關(guān)鍵要素:需要實(shí)時(shí)數(shù)據(jù)獲取、復(fù)雜數(shù)據(jù)分析、交易策略生成和風(fēng)險(xiǎn)控制等功能。然后,它根據(jù)這些要素推理出需要哪些智能體(如數(shù)據(jù)采集智能體、數(shù)據(jù)分析智能體、交易執(zhí)行智能體)以及它們之間的最佳協(xié)作方式(數(shù)據(jù)采集智能體先獲取數(shù)據(jù),再傳遞給數(shù)據(jù)分析智能體處理,最后由交易執(zhí)行智能體完成交易)。
與傳統(tǒng)手動(dòng)設(shè)計(jì)系統(tǒng)相比,F(xiàn)lowReasoner 的優(yōu)勢(shì)在于其靈活性和適應(yīng)性。傳統(tǒng)系統(tǒng)需要數(shù)周時(shí)間重新設(shè)計(jì)才能適應(yīng)新任務(wù),而 FlowReasoner 可以在幾分鐘內(nèi)完成推理并生成新的多智能體系統(tǒng)。
學(xué)習(xí)推理過程
推理數(shù)據(jù)合成
推理數(shù)據(jù)合成是 FlowReasoner 的“學(xué)習(xí)起點(diǎn)”。以 R1-671B 模型為例,對(duì)于用戶查詢“設(shè)計(jì)一個(gè)自動(dòng)化股票交易系統(tǒng)”,它會(huì)生成多輪推理數(shù)據(jù)。第一輪可能生成一個(gè)初步的數(shù)據(jù)采集智能體和簡單交易策略生成智能體。然后,它執(zhí)行這個(gè)初步系統(tǒng),收集反饋數(shù)據(jù),比如交易準(zhǔn)確率只有 60%,數(shù)據(jù)更新延遲 5 秒等。
基于這些反饋,第二輪推理會(huì)優(yōu)化數(shù)據(jù)采集智能體,使其能夠處理更高速的數(shù)據(jù)流;同時(shí)引入風(fēng)險(xiǎn)評(píng)估智能體,與交易策略生成智能體協(xié)同工作。經(jīng)過多輪迭代,最終生成一個(gè)包含高效數(shù)據(jù)采集、精準(zhǔn)數(shù)據(jù)分析、智能交易策略和嚴(yán)格風(fēng)險(xiǎn)控制的多智能體系統(tǒng)。
這些多輪推理數(shù)據(jù)與原始查詢和指令配對(duì),形成豐富的訓(xùn)練樣本。例如,最終的訓(xùn)練樣本可能包含這樣的信息:“當(dāng)查詢是設(shè)計(jì)股票交易系統(tǒng)時(shí),最佳系統(tǒng)應(yīng)包含 4 個(gè)智能體,工作流程是先數(shù)據(jù)采集,再分析,然后生成策略,最后執(zhí)行交易并控制風(fēng)險(xiǎn)?!?/span>
推理 SFT 預(yù)熱
推理 SFT 預(yù)熱階段,F(xiàn)lowReasoner 開始“內(nèi)化”推理能力。以 DeepSeek-R1-DistillQwen-7B 模型為例,當(dāng)輸入用戶查詢“設(shè)計(jì)一個(gè)自動(dòng)化股票交易系統(tǒng)”和指令“生成高效多智能體系統(tǒng)”時(shí),模型會(huì)輸出一個(gè)初步的推理過程和多智能體系統(tǒng)。
這個(gè)推理過程可能包含這樣的內(nèi)容:“首先分析股票交易系統(tǒng)的核心需求,包括數(shù)據(jù)實(shí)時(shí)性、策略復(fù)雜性和風(fēng)險(xiǎn)可控性。然后確定需要數(shù)據(jù)采集、分析、交易和風(fēng)險(xiǎn)控制四個(gè)智能體。初步設(shè)定工作流程為數(shù)據(jù)采集 → 分析 → 交易 → 風(fēng)險(xiǎn)控制?!?/span>
模型還會(huì)輸出具體的多智能體系統(tǒng)結(jié)構(gòu),比如:“數(shù)據(jù)采集智能體使用高頻數(shù)據(jù)接口,每秒采集 100 條數(shù)據(jù);分析智能體采用 LSTM 網(wǎng)絡(luò)處理時(shí)間序列數(shù)據(jù);交易智能體基于強(qiáng)化學(xué)習(xí)生成策略;風(fēng)險(xiǎn)控制智能體設(shè)置止損和止盈閾值?!?/span>
通過 SFT,模型逐漸學(xué)會(huì)如何從查詢中提煉需求,并轉(zhuǎn)化為智能體和工作流程的組合。就像一個(gè)學(xué)徒在師傅指導(dǎo)下不斷練習(xí),逐漸掌握工作流生成的“手藝”。
為了更清晰地展示 FlowReasoner 的訓(xùn)練流程,請(qǐng)看下圖:

FLOWREASONER 訓(xùn)練過程
如上圖所示,F(xiàn)lowReasoner 的訓(xùn)練過程包含三個(gè)關(guān)鍵階段:
(1)推理數(shù)據(jù)提煉(Reasoning Data Distillation),利用 R1-671B 模型生成高質(zhì)量推理數(shù)據(jù);
(2)推理 SFT 預(yù)熱(Reasoning SFT Warmup),通過監(jiān)督微調(diào)讓模型初步掌握推理能力;
(3)從外部執(zhí)行反饋強(qiáng)化推理(Reinforce Reasoning from External Execution Feedback),采用強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化推理策略。
利用外部執(zhí)行反饋強(qiáng)化推理
在 SFT 階段后,F(xiàn)lowReasoner 進(jìn)入強(qiáng)化學(xué)習(xí)階段,這是它的“成長加速器”。
假設(shè)在股票交易系統(tǒng)任務(wù)中,模型生成了三個(gè)候選多智能體系統(tǒng)。第一個(gè)系統(tǒng)交易準(zhǔn)確率只有 60%,第二個(gè)達(dá)到 75%,第三個(gè)高達(dá) 85%。通過 GRPO(分組相對(duì)策略優(yōu)化)算法,模型會(huì)計(jì)算每個(gè)系統(tǒng)的優(yōu)勢(shì)。例如,第三個(gè)系統(tǒng)的優(yōu)勢(shì)值可能是 0.8,第二個(gè)是 0.5,第一個(gè)是 0.3。
GRPO 算法的核心在于通過采樣多個(gè)輸出,計(jì)算相對(duì)優(yōu)勢(shì),并更新策略。具體來說,它會(huì)比較不同系統(tǒng)在相同查詢下的表現(xiàn),根據(jù)表現(xiàn)好壞調(diào)整模型參數(shù)。在股票交易系統(tǒng)例子中,模型會(huì)強(qiáng)化生成第三個(gè)系統(tǒng)相關(guān)參數(shù)的概率,抑制生成第一個(gè)系統(tǒng)參數(shù)的概率。
這個(gè)過程就像是在賽馬比賽中,不斷記錄每匹馬(候選系統(tǒng))的表現(xiàn),然后根據(jù)比賽結(jié)果調(diào)整訓(xùn)練策略(模型參數(shù)),讓最快的馬(最優(yōu)系統(tǒng))更有可能被選中。
使用 FlowReasoner 構(gòu)建多智能體系統(tǒng)
構(gòu)建多智能體系統(tǒng)是一個(gè)復(fù)雜的優(yōu)化問題。FlowReasoner 將其拆解為一個(gè)個(gè)小步驟,每一步都經(jīng)過精心推理。
以股票交易系統(tǒng)為例,F(xiàn)lowReasoner 首先利用代碼表示節(jié)點(diǎn)和邊。節(jié)點(diǎn)可能是“數(shù)據(jù)采集智能體”“分析智能體”等,邊則是它們之間的數(shù)據(jù)流動(dòng)或調(diào)用關(guān)系。它采用預(yù)定義操作符(如集成操作符將多個(gè)分析模型組合成一個(gè)強(qiáng)大分析智能體、審查操作符檢查智能體輸出是否符合要求、修訂操作符根據(jù)反饋優(yōu)化智能體)和自定義操作符(如特定交易策略生成操作符)來構(gòu)建系統(tǒng)。
經(jīng)過多輪優(yōu)化,F(xiàn)lowReasoner 最終得到最優(yōu)的多智能體系統(tǒng)。比如,在第 5 輪優(yōu)化后,系統(tǒng)交易準(zhǔn)確率達(dá)到 88%,數(shù)據(jù)處理延遲降低到 1 秒以內(nèi)。這個(gè)過程就像是不斷打磨一件藝術(shù)品,每一刀都讓作品更加完美。
實(shí)驗(yàn)
實(shí)驗(yàn)數(shù)據(jù)集選擇
代碼生成任務(wù)成為 FlowReasoner 實(shí)驗(yàn)的“主戰(zhàn)場”,原因在于其強(qiáng)大的反饋機(jī)制。每個(gè)生成的代碼都可以通過自動(dòng)測(cè)試用例得到明確的執(zhí)行結(jié)果,為模型提供豐富的學(xué)習(xí)信號(hào)。
BigCodeBench 數(shù)據(jù)集是工程任務(wù)的“試金石”。它包含大量復(fù)雜項(xiàng)目,如構(gòu)建數(shù)據(jù)可視化系統(tǒng)、設(shè)計(jì)自動(dòng)化測(cè)試框架等。HumanEval 和 MBPP 數(shù)據(jù)集則是算法任務(wù)的“練兵場”,聚焦于經(jīng)典算法實(shí)現(xiàn)、數(shù)據(jù)結(jié)構(gòu)操作等基礎(chǔ)但關(guān)鍵的編程技能。
例如,在 BigCodeBench 數(shù)據(jù)集中,有一個(gè)任務(wù)是“構(gòu)建一個(gè)實(shí)時(shí)交通數(shù)據(jù)可視化系統(tǒng)”。這個(gè)任務(wù)要求代碼能夠連接交通數(shù)據(jù) API,處理大量實(shí)時(shí)數(shù)據(jù),并以直觀的圖形展示交通流量。在 HumanEval 數(shù)據(jù)集中,任務(wù)可能像“實(shí)現(xiàn)一個(gè)高效的排序算法”,考驗(yàn)代碼的正確性和性能。
基線設(shè)置
實(shí)驗(yàn)的基線設(shè)置涵蓋了從簡單到復(fù)雜的多種方法。單模型直接調(diào)用是最基礎(chǔ)的對(duì)比方法。例如,o1-mini 模型直接根據(jù)用戶查詢生成代碼,沒有任何工作流優(yōu)化。它的優(yōu)勢(shì)在于簡單快速,但面對(duì)復(fù)雜任務(wù)時(shí),性能往往受限。
手動(dòng)設(shè)計(jì)工作流代表了傳統(tǒng)智慧的結(jié)晶。以 Self-Refine 方法為例,在代碼生成任務(wù)中,它采用“生成 → 測(cè)試 → 修復(fù)”的循環(huán)工作流。先生成初步代碼,然后通過測(cè)試用例驗(yàn)證,最后根據(jù)錯(cuò)誤信息手動(dòng)設(shè)計(jì)修復(fù)流程。這種方法在特定領(lǐng)域表現(xiàn)出色,但缺乏靈活性。
自動(dòng)化工作流優(yōu)化方法則是現(xiàn)代技術(shù)的代表。例如,Aflow 方法利用蒙特卡洛樹搜索(MCTS)在代碼化的工作流空間中尋找最優(yōu)方案。它將工作流表示為程序代碼,通過不斷采樣和評(píng)估代碼結(jié)構(gòu),優(yōu)化工作流。然而,它依然存在對(duì)搜索集依賴的問題。
為了更直觀地展示不同 Meta-Agent 和Worker模型的性能,請(qǐng)看下面的圖表:


Meta-agent 和 Workers 的消融研究
如上圖(a)所示,不同 Meta-Agent 搭配 o1-mini Worker模型時(shí)的性能差異顯著。開源模型由于缺乏可靠推理能力,生成的工作流存在大量邏輯漏洞,準(zhǔn)確率僅為 53.85%。而 FlowReasoner-14B 憑借強(qiáng)大的推理性能,準(zhǔn)確率達(dá)到 63.53%。上圖(b)展示了不同Worker模型搭配高性能 Meta-Agent(如 Claude 3.5)時(shí)的性能表現(xiàn),o1-mini Worker模型憑借其代碼生成優(yōu)勢(shì),準(zhǔn)確率最高,達(dá)到 97.26%。
實(shí)施細(xì)節(jié)
在手動(dòng)設(shè)計(jì)工作流基線中,采用 o1-mini 和 GPT-4o-mini 作為Worker模型。例如,在代碼生成任務(wù)中,o1-mini 負(fù)責(zé)生成初步代碼,GPT-4o-mini 用于優(yōu)化代碼結(jié)構(gòu)和注釋。
對(duì)于自動(dòng)化工作流優(yōu)化基線,采用原始配置。例如,在 Aflow 方法中,使用其官方推薦的 MCTS 參數(shù)設(shè)置,包括搜索深度、節(jié)點(diǎn)擴(kuò)展策略等。
在 FlowReasoner 方法中,研究人員訓(xùn)練了 DeepSeek-R1-Distill-Qwen 的兩個(gè)變體(7B 和 14B 參數(shù))。以 14B 模型為例,在代碼生成任務(wù)中,它能夠生成包含復(fù)雜智能體協(xié)作的工作流。固定工作流迭代次數(shù)為 10,這意味著對(duì)于每個(gè)查詢,模型最多嘗試 10 種不同工作流組合。采用標(biāo)準(zhǔn) pass@1 指標(biāo)評(píng)估代碼準(zhǔn)確性,即只要生成的代碼通過測(cè)試用例就算成功。
實(shí)驗(yàn)結(jié)果分析
性能比較
FlowReasoner-14B 在三個(gè)基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)堪稱驚艷。在 BigCodeBench 數(shù)據(jù)集上,它以 63.53% 的準(zhǔn)確率遙遙領(lǐng)先,相比 MaAS 提升了 5 個(gè)百分點(diǎn)。這意味著在復(fù)雜工程任務(wù)中,比如構(gòu)建實(shí)時(shí)數(shù)據(jù)處理系統(tǒng),F(xiàn)lowReasoner 能夠生成更符合需求的代碼。
具體來看,在“構(gòu)建實(shí)時(shí)交通數(shù)據(jù)可視化系統(tǒng)”任務(wù)中,F(xiàn)lowReasoner-14B 生成的代碼能夠高效連接 API,處理每秒 1000 條數(shù)據(jù),并以流暢動(dòng)畫展示交通流量。而 MaAS 生成的代碼在數(shù)據(jù)處理環(huán)節(jié)出現(xiàn)明顯延遲,動(dòng)畫效果也不夠流暢。
在 HumanEval 數(shù)據(jù)集上,F(xiàn)lowReasoner-14B 的準(zhǔn)確率達(dá)到 97.26%,相比其他方法幾乎觸頂。這表明在經(jīng)典算法任務(wù)上,它的推理能力達(dá)到極高水準(zhǔn)。例如,在“實(shí)現(xiàn)快速排序算法”任務(wù)中,它生成的代碼不僅邏輯正確,還針對(duì)不同數(shù)據(jù)規(guī)模進(jìn)行了優(yōu)化,性能比基線方法提升 30%。
在 MBPP 數(shù)據(jù)集上,其準(zhǔn)確率高達(dá) 92.15%,相比最強(qiáng)基線提升 8 個(gè)百分點(diǎn)。對(duì)于“復(fù)雜數(shù)據(jù)結(jié)構(gòu)操作”任務(wù),如構(gòu)建平衡二叉樹,它生成的代碼在插入、刪除和查詢操作上的效率遠(yuǎn)超其他方法。
為了更清晰地展示不同方法的性能對(duì)比,請(qǐng)看下面的表格:
性能評(píng)估
方法  | BigCodeBench  | HumanEval  | MBPP  | 總體  | 
o1-mini  | 57.67  | 95.42  | 74.19  | 71.37  | 
GPT-4o-mini  | 56.33  | 88.55  | 71.73  | 68.60  | 
Self-Refine (o1-mini)  | 56.68  | 94.74  | 73.64  | 70.63  | 
LLM-Debate (o1-mini)  | 57.25  | 95.83  | 74.28  | 71.33  | 
LLM-Blender (o1-mini)  | 59.51  | 96.37  | 78.65  | 74.22  | 
FlowReasoner-14B  | 63.53  | 97.26  | 92.15  | 81.89  | 
模型尺寸和訓(xùn)練階段的消融研究
消融研究揭示了模型尺寸和訓(xùn)練階段的深遠(yuǎn)影響。以 7B 和 14B 模型為例,在 BigCodeBench 數(shù)據(jù)集上,14B 模型的準(zhǔn)確率比 7B 模型高出 0.72 個(gè)百分點(diǎn)。這表明更大模型擁有更強(qiáng)的推理能力,能夠處理更復(fù)雜的任務(wù)。
在同一模型尺寸下,經(jīng)過 SFT 和 RL 訓(xùn)練的版本表現(xiàn)明顯優(yōu)于僅經(jīng)過 SFT 訓(xùn)練的版本。例如,14B 模型經(jīng)過 SFT + RL 訓(xùn)練后,準(zhǔn)確率比僅 SFT 訓(xùn)練高出 1.39 個(gè)百分點(diǎn)。這說明強(qiáng)化學(xué)習(xí)階段通過外部反饋優(yōu)化推理策略,顯著提升了模型性能。
為了更直觀地展示模型尺寸和訓(xùn)練階段的影響,請(qǐng)看下面的表格:
模型大小和訓(xùn)練階段的消融研究
階段  | 尺寸  | BigCodeBench  | HumanEval  | MBPP  | 總體  | 
SFT  | 7B  | 61.79  | 96.38  | 87.22  | 78.89  | 
SFT+RL  | 7B  | 62.78  | 96.95  | 89.86  | 80.53  | 
SFT  | 14B  | 62.83  | 97.18  | 91.91  | 81.50  | 
SFT+RL  | 14B  | 63.53  | 97.26  | 92.15  | 81.89  | 
Meta-Agent 和Worker選擇的消融研究
在 BigCodeBench 數(shù)據(jù)集上,不同 Meta-Agent 和Worker配置的性能差異顯著。開源模型搭配 o1-mini Worker時(shí),準(zhǔn)確率僅為 53.85%。這是因?yàn)殚_源模型在無初始工作流引導(dǎo)下,生成的工作流存在大量邏輯漏洞,比如智能體調(diào)用順序混亂、數(shù)據(jù)傳遞格式不一致等。
而 API 基模型(如 Claude 3.5)搭配 o1-mini Worker時(shí),準(zhǔn)確率提升至 61.12%。這得益于 API 模型更強(qiáng)的指令遵循能力和推理精度,能夠生成更合理的智能體協(xié)作流程。此外,o1-mini 作為Worker模型在高性能量化 Agent 下表現(xiàn)最佳。例如,在 Claude 3.5 作為 Meta-Agent 時(shí),o1-mini Worker生成的代碼質(zhì)量明顯優(yōu)于其他Worker模型,這可能是因?yàn)?o1-mini 的代碼生成風(fēng)格與 Claude 3.5 的推理邏輯高度契合。
為了更直觀地展示不同Worker模型的性能,請(qǐng)看下面的表格:
泛化評(píng)估
工人模型  | Meta-Agent  | BigCodeBench  | HumanEval  | MBPP  | 
Qwen2.5 Coder  | FLOWREASONER-7B  | 50.17  | 92.89  | 80.40  | 
Claude  | FLOWREASONER-7B  | 60.67  | 96.07  | 87.63  | 
GPT-4o-mini  | FLOWREASONER-7B  | 59.18  | 94.24  | 82.19  | 
o1-mini  | FLOWREASONER-7B  | 62.77  | 96.95  | 89.86  | 
泛化能力評(píng)估
FlowReasoner 的泛化能力讓它在不同Worker模型上都能保持穩(wěn)健性能。以 Qwen2.5 Coder 為例,當(dāng)搭配 FLOWREASONER-7B 時(shí),在 BigCodeBench 數(shù)據(jù)集上的準(zhǔn)確率為 50.17%。盡管低于 o1-mini Worker,但依然展現(xiàn)出一定的實(shí)用性。
進(jìn)一步分析發(fā)現(xiàn),F(xiàn)lowReasoner 能夠根據(jù)Worker模型的特點(diǎn)調(diào)整工作流。例如,在使用 Qwen2.5 Coder 時(shí),它會(huì)生成更注重代碼結(jié)構(gòu)清晰性和注釋完整性的智能體;而在使用 GPT-4o-mini 時(shí),會(huì)強(qiáng)化代碼的創(chuàng)新性和復(fù)雜算法實(shí)現(xiàn)能力。這種適應(yīng)性讓 FlowReasoner 成為一個(gè)多面手,能夠在不同執(zhí)行環(huán)境中游刃有余。
為了更直觀地展示 FlowReasoner 生成的工作流示例,請(qǐng)看下圖:

Workflow 示例
如上圖所示,F(xiàn)lowReasoner-14B 為 BigCodeBench 和 HumanEval 中的代表性任務(wù)生成了高效的工作流。例如,在 BigCodeBench 的“生成天氣數(shù)據(jù)可視化系統(tǒng)”任務(wù)中,它生成的工作流包含數(shù)據(jù)采集、清洗、可視化等智能體,能夠處理大量實(shí)時(shí)數(shù)據(jù)并生成直觀圖表。在 HumanEval 的“返回給定整數(shù)的質(zhì)因數(shù)列表”任務(wù)中,它生成的工作流包含算法生成、性能優(yōu)化和測(cè)試驗(yàn)證等智能體,確保代碼的正確性和高效性。
案例研究
FlowReasoner-14B 為 BigCodeBench 和 HumanEval 中的任務(wù)生成的工作流堪稱藝術(shù)品。以 BigCodeBench 的“生成天氣數(shù)據(jù)可視化系統(tǒng)”任務(wù)為例,它生成的工作流包含以下關(guān)鍵步驟:
1. 數(shù)據(jù)采集智能體:使用高效網(wǎng)絡(luò)請(qǐng)求庫,每秒從天氣 API 獲取 1000 條數(shù)據(jù)。
2. 數(shù)據(jù)清洗智能體:過濾無效數(shù)據(jù),補(bǔ)全缺失值,采用并行處理提升效率。
3. 數(shù)據(jù)可視化智能體:利用 Web 技術(shù)生成交互式圖表,支持實(shí)時(shí)更新和用戶交互。
在 HumanEval 的“實(shí)現(xiàn)快速排序算法”任務(wù)中,它生成的工作流包含:
1. 算法生成智能體:輸出標(biāo)準(zhǔn)快速排序代碼。
2. 性能優(yōu)化智能體:針對(duì)不同數(shù)據(jù)分布優(yōu)化排序效率。
3. 測(cè)試智能體:驗(yàn)證代碼在多種測(cè)試用例下的正確性。
為了更直觀地展示 FlowReasoner 生成的具體工作流示例,請(qǐng)看下圖:

天氣數(shù)據(jù) Workflow
上圖所示,F(xiàn)lowReasoner-14B 生成的工作流針對(duì) BigCodeBench 的“生成和繪制指定日期范圍內(nèi)的天氣數(shù)據(jù)”任務(wù),包含數(shù)據(jù)采集、清洗、可視化等智能體。數(shù)據(jù)采集智能體每秒從天氣 API 獲取 1000 條數(shù)據(jù),清洗智能體過濾無效數(shù)據(jù)并補(bǔ)全缺失值,可視化智能體以交互式圖表展示天氣數(shù)據(jù),支持實(shí)時(shí)更新和用戶交互。

反轉(zhuǎn)單詞順序 Workflow
如上圖所示,F(xiàn)lowReasoner-14B 生成的工作流針對(duì) MBPP 的“編寫一個(gè)函數(shù)反轉(zhuǎn)給定字符串中的單詞”任務(wù),包含算法生成、性能優(yōu)化和測(cè)試驗(yàn)證等智能體。算法生成智能體輸出高效的反轉(zhuǎn)算法,性能優(yōu)化智能體針對(duì)不同字符串長度進(jìn)行優(yōu)化,測(cè)試驗(yàn)證智能體確保代碼在多種測(cè)試用例下正確運(yùn)行。

返回給定整數(shù)的質(zhì)因數(shù)列表 Workflow
如上圖所示,F(xiàn)lowReasoner-14B 生成的工作流針對(duì) HumanEval 的“返回給定整數(shù)的質(zhì)因數(shù)列表,按從小到大順序排列”任務(wù),包含算法生成、性能優(yōu)化和測(cè)試驗(yàn)證等智能體。算法生成智能體輸出高效的質(zhì)因數(shù)分解算法,性能優(yōu)化智能體針對(duì)不同整數(shù)規(guī)模進(jìn)行優(yōu)化,測(cè)試驗(yàn)證智能體確保代碼在多種測(cè)試用例下正確運(yùn)行。
總結(jié)與感受
總結(jié)研究成果
FlowReasoner 是一個(gè)多智能體系統(tǒng)設(shè)計(jì)領(lǐng)域的革命性突破。它不再受限于傳統(tǒng)固定工作流程的束縛,為每個(gè)查詢定制個(gè)性化工作流。這種設(shè)計(jì)理念讓系統(tǒng)能夠靈活適應(yīng)千變?nèi)f化的實(shí)際需求。
就像一個(gè)經(jīng)驗(yàn)豐富的編導(dǎo),F(xiàn)lowReasoner 能夠根據(jù)不同的“演出主題”(用戶查詢)迅速調(diào)配“演員”(智能體)和“劇本”(工作流程)。它利用外部執(zhí)行反饋和強(qiáng)化學(xué)習(xí)優(yōu)化推理策略,確保每次生成的系統(tǒng)都是高質(zhì)量的。
突出實(shí)驗(yàn)成果
FlowReasoner-14B 的實(shí)驗(yàn)表現(xiàn)令人矚目。在三個(gè)基準(zhǔn)測(cè)試中,它讓 o1-mini 的性能平均提升 10.52%,這不僅是數(shù)字的勝利,更是設(shè)計(jì)理念的勝利。例如,在 BigCodeBench 的復(fù)雜工程任務(wù)中,它生成的代碼能夠處理更大數(shù)據(jù)量、更復(fù)雜業(yè)務(wù)邏輯;在 HumanEval 的算法任務(wù)中,它展現(xiàn)出近乎完美的代碼正確性和性能優(yōu)化能力。
閱讀后的感想
通過了解 FlowReasoner,我仿佛看到了多智能體系統(tǒng)設(shè)計(jì)的創(chuàng)新性。它不再是一個(gè)個(gè)孤立的智能體,而是成為一個(gè)能夠自我進(jìn)化、自我優(yōu)化的智能生態(tài)系統(tǒng)。FlowReasoner 的推理過程讓我感受到它是一個(gè)能夠理解需求、解決問題的智能伙伴。
在實(shí)驗(yàn)部分,F(xiàn)lowReasoner 的性能提升讓我興奮。每一個(gè)數(shù)字背后都是無數(shù)次的推理、嘗試和優(yōu)化。它讓我意識(shí)到,真正的技術(shù)進(jìn)步不是簡單地堆砌算力,而是像 FlowReasoner 這樣,通過巧妙的設(shè)計(jì)和學(xué)習(xí)機(jī)制,讓系統(tǒng)能夠真正理解任務(wù)、適應(yīng)場景。
而且,F(xiàn)lowReasoner 的泛化能力也讓我深思。它能夠在不同的Worker模型上保持良好性能,這表明它不僅僅是一個(gè)強(qiáng)大的工具,更是一個(gè)能夠適應(yīng)多樣性的智能系統(tǒng)。這種能力讓它在實(shí)際應(yīng)用中更具生命力,能夠在不同環(huán)境、不同任務(wù)中持續(xù)發(fā)揮作用。
FlowReasoner 不僅是一項(xiàng)技術(shù)創(chuàng)新,更是一種設(shè)計(jì)上的新思路。它讓我們看到,未來的技術(shù)是一個(gè)個(gè)能夠理解、推理、進(jìn)化的AI Agent。文章的實(shí)驗(yàn)部分驗(yàn)證了 FlowReasoner 的卓越性能。如果你對(duì)實(shí)現(xiàn)細(xì)節(jié)感興趣,可以訪問其官方 GitHub 倉庫(見參考資料),深入了解其推理運(yùn)行方式。該倉庫提供了完整的代碼實(shí)現(xiàn)和實(shí)驗(yàn)?zāi)_本,方便你快速上手并探索 FlowReasoner 的強(qiáng)大能力。















 
 
 










 
 
 
 