突破多智能體系統(tǒng)邊界,開源方案OWL超越OpenAI Deep Research,獲17k star
港大、camel-ai 等多家機構(gòu)聯(lián)合提出了一種名為新的名為 Workforce 的創(chuàng)新多智能體框架,以及配套的 OWL(Optimized Workforce Learning)訓練方法,在通用 AI Assistant 的標桿基準測試 GAIA 上取得了 69.70% 的準確率,不僅刷新了開源系統(tǒng)的最佳紀錄,更是超越了多家商業(yè)系統(tǒng)以及 OpenAI Deep Research 的開源方案。
該研究成果所有代碼均已開源,目前已經(jīng)在 github 上收獲了 17k 的 star。

- 論文標題:OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation
- 論文地址:https://arxiv.org/abs/2505.23885
- 項目代碼:https://github.com/camel-ai/owl


背景與挑戰(zhàn):多智能體系統(tǒng)的「領(lǐng)域壁壘」
隨著 LLM 的飛速發(fā)展,單一智能體在處理復雜現(xiàn)實任務時逐漸暴露出局限性。為此,多智能體系統(tǒng)(MAS)應運而生,通過讓多個專門化的智能體協(xié)作完成復雜任務,顯著提升了系統(tǒng)的整體性能。然而,當前的多智能體系統(tǒng)普遍面臨一個核心問題:跨領(lǐng)域遷移能力嚴重不足?,F(xiàn)有系統(tǒng)往往針對特定領(lǐng)域深度定制,這種設(shè)計模式帶來了兩大弊端:
- 推理層面的限制:部署到新領(lǐng)域往往需要重新設(shè)計整個系統(tǒng)架構(gòu)。例如,專為軟件工程設(shè)計的 MetaGPT 框架依賴于特定的標準操作程序,難以直接應用到其他領(lǐng)域。
- 訓練層面的挑戰(zhàn):現(xiàn)有方法通常需要對所有智能體進行全量訓練。以 MALT 為例,其固定的生成器 - 驗證器 - 改進器流水線要求對每個組件分別進行訓練,遷移成本極高。
這些局限性制約了多智能體系統(tǒng)的靈活性和可擴展性,迫切需要一種更加通用、模塊化的解決方案。
創(chuàng)新突破:Workforce 架構(gòu)的「解耦設(shè)計」
研究團隊提出的 Workforce 框架通過創(chuàng)新的「解耦設(shè)計」理念,解決了跨領(lǐng)域遷移難題。該框架將系統(tǒng)分解為三個核心組件:
- 領(lǐng)域無關(guān)的規(guī)劃器(Planner Agent),其負責分析輸入任務并將其分解為若干子任務,基于高層目標生成抽象的任務分解策略。這個組件是整個系統(tǒng)的「大腦」,其設(shè)計完全獨立于具體應用領(lǐng)域。
- 智能協(xié)調(diào)器(Coordinator Agent),作為中央?yún)f(xié)調(diào)機制,負責將子任務分配給最適合的工作節(jié)點,同時管理任務依賴關(guān)系并整合中間結(jié)果。協(xié)調(diào)器通過共享的 「任務通道」實現(xiàn)高效的通信管理。
- 專業(yè)工作節(jié)點(Worker Nodes),由一個或多個專門化智能體組成,配備特定的能力和工具包來執(zhí)行分配的子任務。工作節(jié)點可以根據(jù)應用需求靈活替換或添加,無需修改核心規(guī)劃機制。
這種模塊化架構(gòu)的最大優(yōu)勢在于實現(xiàn)了「穩(wěn)定核心,可變外圍」的設(shè)計哲學。當需要適應新領(lǐng)域時,只需更換或添加相應的工作節(jié)點,而規(guī)劃器和協(xié)調(diào)器可以保持不變,大大降低了系統(tǒng)遷移的復雜度和成本。

技術(shù)創(chuàng)新:OWL 訓練方法的「精準優(yōu)化」
在 Workforce 架構(gòu)基礎(chǔ)上,研究團隊進一步提出了 OWL(Optimized Workforce Learning)訓練方法,專注于優(yōu)化核心規(guī)劃器的能力,而非對整個系統(tǒng)進行全量訓練。整體采用兩階段訓練策略:
- 第一階段:監(jiān)督微調(diào)(SFT),使用專家演示數(shù)據(jù)對規(guī)劃器進行初始化訓練,讓其掌握基礎(chǔ)的任務分解技能。研究團隊精心構(gòu)建了包含 1599 個高質(zhì)量軌跡的訓練數(shù)據(jù)集,涵蓋在線信息搜索、推理、多模態(tài)處理等多個能力維度。
- 第二階段:強化學習優(yōu)化,采用直接偏好優(yōu)化(DPO)算法進一步提升規(guī)劃器的決策質(zhì)量,使其能夠發(fā)展出超越簡單模仿的復雜決策能力。
這種精心設(shè)計的課程確保了規(guī)劃器能夠處理現(xiàn)實世界中的各種復雜任務類型。
實驗驗證:全面超越現(xiàn)有基準
研究團隊在 GAIA 基準測試上進行了全面的實驗驗證。GAIA 是評估通用 AI 助手的權(quán)威基準,要求系統(tǒng)具備多模態(tài)理解、網(wǎng)絡(luò)搜索、代碼執(zhí)行和復雜推理等綜合能力。
在多智能體推理方面,Workforce 展現(xiàn)出了顯著優(yōu)勢,在 GAIA 的 validation 集上 pass@1 達到了 69.70% 的準確率,大幅超越此前最好的開源系統(tǒng),并超越了 OpenAI Deep Research(67.36%)等強大的商業(yè)系統(tǒng)。

在 OWL 訓練方法效果驗證方面,OWL 的訓練設(shè)計使 Qwen2.5-32B-Instruct 模型在 GAIA 上的性能從 36.36% 提升到了 52.73%,超越了未訓練的 72B 模型(49.09%),并在 Level 3 任務上達到了與 GPT-4o 相當?shù)男阅埽?6.92%)。

深入的分析實驗揭示了 Workforce 框架的多項優(yōu)勢:
- 跨能力維度維持穩(wěn)定:Workforce 框架在各個能力維度都展現(xiàn)出優(yōu)勢,無論任務需要 1 種、2 種還是 3 種以上的能力,Workforce 都能保持穩(wěn)定的性能表現(xiàn),而單智能體方法在多能力任務上出現(xiàn)顯著性能下降。
- 測試時自我糾錯:通過 Workforce 設(shè)計的任務失敗時觸發(fā)的自我反思與重新規(guī)劃機制,系統(tǒng)能夠在測試時動態(tài)調(diào)整策略,隨著重新規(guī)劃次數(shù)增加,性能持續(xù)提升,展現(xiàn)出強大的自我糾錯和進化能力。
- 模塊化訓練優(yōu)勢:對比實驗顯示,僅訓練規(guī)劃器就能達到與訓練全部組件相近的性能,同時大幅降低計算成本,驗證了「規(guī)劃器優(yōu)先」設(shè)計理念的正確性。


實際應用:真實環(huán)境下的諸多挑戰(zhàn)
由于真實世界任務的復雜性和不穩(wěn)定性,在真實環(huán)境中解決問題會面臨諸多挑戰(zhàn)。對此,研究團隊進行了深入分析,將挑戰(zhàn)主要分為以下幾類:
- 信息源差異:同一查詢在不同信息源可能得到不同答案。
- 信息時效性:網(wǎng)絡(luò)信息的動態(tài)變化可能導致預期答案失效。
- 語言歧義性:用戶查詢中的模糊表達需要系統(tǒng)進行智能推理和消歧。
- 網(wǎng)絡(luò)環(huán)境限制:網(wǎng)絡(luò)不穩(wěn)定、訪問權(quán)限限制等現(xiàn)實問題都需要系統(tǒng)妥善處理。
結(jié)論:通向通用人工智能的新路徑
OWL 的成功為構(gòu)建真正通用的人工智能系統(tǒng)開辟了一種新的路徑。其中,Workforce 的模塊化設(shè)計和跨領(lǐng)域遷移能力,帶來了以下優(yōu)勢:
- 架構(gòu)層面:通過解耦設(shè)計實現(xiàn)系統(tǒng)的高度模塊化,既保證了核心能力的穩(wěn)定性,又提供了外圍功能的靈活性。
- 訓練層面:專注于核心組件的優(yōu)化而非全系統(tǒng)訓練,顯著提高了訓練效率和遷移能力。
- 應用層面:為各種實際應用場景提供了即插即用的解決方案,大大降低了部署門檻。
通過將即插即用的工作節(jié)點與可泛化的規(guī)劃核心相結(jié)合,該方法能夠為通用 AI 助手提供可擴展的基礎(chǔ),加速通用 AI 助手的研究進程。






































