偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

突破多智能體系統(tǒng)邊界,開源方案OWL超越OpenAI Deep Research,獲17k star

人工智能 新聞
研究團(tuán)隊(duì)提出的 Workforce 框架通過創(chuàng)新的「解耦設(shè)計(jì)」理念,解決了跨領(lǐng)域遷移難題。

港大、camel-ai 等多家機(jī)構(gòu)聯(lián)合提出了一種名為新的名為 Workforce 的創(chuàng)新多智能體框架,以及配套的 OWL(Optimized Workforce Learning)訓(xùn)練方法,在通用 AI Assistant 的標(biāo)桿基準(zhǔn)測試 GAIA 上取得了 69.70% 的準(zhǔn)確率,不僅刷新了開源系統(tǒng)的最佳紀(jì)錄,更是超越了多家商業(yè)系統(tǒng)以及 OpenAI Deep Research 的開源方案。

該研究成果所有代碼均已開源,目前已經(jīng)在 github 上收獲了 17k 的 star。

圖片

  • 論文標(biāo)題:OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation
  • 論文地址:https://arxiv.org/abs/2505.23885
  • 項(xiàng)目代碼:https://github.com/camel-ai/owl

圖片

圖片

背景與挑戰(zhàn):多智能體系統(tǒng)的「領(lǐng)域壁壘」

隨著 LLM 的飛速發(fā)展,單一智能體在處理復(fù)雜現(xiàn)實(shí)任務(wù)時(shí)逐漸暴露出局限性。為此,多智能體系統(tǒng)(MAS)應(yīng)運(yùn)而生,通過讓多個(gè)專門化的智能體協(xié)作完成復(fù)雜任務(wù),顯著提升了系統(tǒng)的整體性能。然而,當(dāng)前的多智能體系統(tǒng)普遍面臨一個(gè)核心問題:跨領(lǐng)域遷移能力嚴(yán)重不足?,F(xiàn)有系統(tǒng)往往針對(duì)特定領(lǐng)域深度定制,這種設(shè)計(jì)模式帶來了兩大弊端:

  1. 推理層面的限制:部署到新領(lǐng)域往往需要重新設(shè)計(jì)整個(gè)系統(tǒng)架構(gòu)。例如,專為軟件工程設(shè)計(jì)的 MetaGPT 框架依賴于特定的標(biāo)準(zhǔn)操作程序,難以直接應(yīng)用到其他領(lǐng)域。
  2. 訓(xùn)練層面的挑戰(zhàn):現(xiàn)有方法通常需要對(duì)所有智能體進(jìn)行全量訓(xùn)練。以 MALT 為例,其固定的生成器 - 驗(yàn)證器 - 改進(jìn)器流水線要求對(duì)每個(gè)組件分別進(jìn)行訓(xùn)練,遷移成本極高。

這些局限性制約了多智能體系統(tǒng)的靈活性和可擴(kuò)展性,迫切需要一種更加通用、模塊化的解決方案。

創(chuàng)新突破:Workforce 架構(gòu)的「解耦設(shè)計(jì)」

研究團(tuán)隊(duì)提出的 Workforce 框架通過創(chuàng)新的「解耦設(shè)計(jì)」理念,解決了跨領(lǐng)域遷移難題。該框架將系統(tǒng)分解為三個(gè)核心組件:

  1. 領(lǐng)域無關(guān)的規(guī)劃器(Planner Agent),其負(fù)責(zé)分析輸入任務(wù)并將其分解為若干子任務(wù),基于高層目標(biāo)生成抽象的任務(wù)分解策略。這個(gè)組件是整個(gè)系統(tǒng)的大腦,其設(shè)計(jì)完全獨(dú)立于具體應(yīng)用領(lǐng)域。
  2. 智能協(xié)調(diào)器(Coordinator Agent),作為中央?yún)f(xié)調(diào)機(jī)制,負(fù)責(zé)將子任務(wù)分配給最適合的工作節(jié)點(diǎn),同時(shí)管理任務(wù)依賴關(guān)系并整合中間結(jié)果。協(xié)調(diào)器通過共享的 任務(wù)通道實(shí)現(xiàn)高效的通信管理。
  3. 專業(yè)工作節(jié)點(diǎn)(Worker Nodes),由一個(gè)或多個(gè)專門化智能體組成,配備特定的能力和工具包來執(zhí)行分配的子任務(wù)。工作節(jié)點(diǎn)可以根據(jù)應(yīng)用需求靈活替換或添加,無需修改核心規(guī)劃機(jī)制。

這種模塊化架構(gòu)的最大優(yōu)勢在于實(shí)現(xiàn)了「穩(wěn)定核心,可變外圍」的設(shè)計(jì)哲學(xué)。當(dāng)需要適應(yīng)新領(lǐng)域時(shí),只需更換或添加相應(yīng)的工作節(jié)點(diǎn),而規(guī)劃器和協(xié)調(diào)器可以保持不變,大大降低了系統(tǒng)遷移的復(fù)雜度和成本。

圖片

技術(shù)創(chuàng)新:OWL 訓(xùn)練方法的「精準(zhǔn)優(yōu)化」

在 Workforce 架構(gòu)基礎(chǔ)上,研究團(tuán)隊(duì)進(jìn)一步提出了 OWL(Optimized Workforce Learning)訓(xùn)練方法,專注于優(yōu)化核心規(guī)劃器的能力,而非對(duì)整個(gè)系統(tǒng)進(jìn)行全量訓(xùn)練。整體采用兩階段訓(xùn)練策略:

  1. 第一階段:監(jiān)督微調(diào)(SFT),使用專家演示數(shù)據(jù)對(duì)規(guī)劃器進(jìn)行初始化訓(xùn)練,讓其掌握基礎(chǔ)的任務(wù)分解技能。研究團(tuán)隊(duì)精心構(gòu)建了包含 1599 個(gè)高質(zhì)量軌跡的訓(xùn)練數(shù)據(jù)集,涵蓋在線信息搜索、推理、多模態(tài)處理等多個(gè)能力維度。
  2. 第二階段:強(qiáng)化學(xué)習(xí)優(yōu)化,采用直接偏好優(yōu)化(DPO)算法進(jìn)一步提升規(guī)劃器的決策質(zhì)量,使其能夠發(fā)展出超越簡單模仿的復(fù)雜決策能力。

這種精心設(shè)計(jì)的課程確保了規(guī)劃器能夠處理現(xiàn)實(shí)世界中的各種復(fù)雜任務(wù)類型。

實(shí)驗(yàn)驗(yàn)證:全面超越現(xiàn)有基準(zhǔn)

研究團(tuán)隊(duì)在 GAIA 基準(zhǔn)測試上進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證。GAIA 是評(píng)估通用 AI 助手的權(quán)威基準(zhǔn),要求系統(tǒng)具備多模態(tài)理解、網(wǎng)絡(luò)搜索、代碼執(zhí)行和復(fù)雜推理等綜合能力。

在多智能體推理方面,Workforce 展現(xiàn)出了顯著優(yōu)勢,在 GAIA 的 validation 集上 pass@1 達(dá)到了 69.70% 的準(zhǔn)確率,大幅超越此前最好的開源系統(tǒng),并超越了 OpenAI Deep Research(67.36%)等強(qiáng)大的商業(yè)系統(tǒng)。

圖片

在 OWL 訓(xùn)練方法效果驗(yàn)證方面,OWL 的訓(xùn)練設(shè)計(jì)使 Qwen2.5-32B-Instruct 模型在 GAIA 上的性能從 36.36% 提升到了 52.73%,超越了未訓(xùn)練的 72B 模型(49.09%),并在 Level 3 任務(wù)上達(dá)到了與 GPT-4o 相當(dāng)?shù)男阅埽?6.92%)。

圖片

深入的分析實(shí)驗(yàn)揭示了 Workforce 框架的多項(xiàng)優(yōu)勢:

  1. 跨能力維度維持穩(wěn)定:Workforce 框架在各個(gè)能力維度都展現(xiàn)出優(yōu)勢,無論任務(wù)需要 1 種、2 種還是 3 種以上的能力,Workforce 都能保持穩(wěn)定的性能表現(xiàn),而單智能體方法在多能力任務(wù)上出現(xiàn)顯著性能下降。
  2. 測試時(shí)自我糾錯(cuò):通過 Workforce 設(shè)計(jì)的任務(wù)失敗時(shí)觸發(fā)的自我反思與重新規(guī)劃機(jī)制,系統(tǒng)能夠在測試時(shí)動(dòng)態(tài)調(diào)整策略,隨著重新規(guī)劃次數(shù)增加,性能持續(xù)提升,展現(xiàn)出強(qiáng)大的自我糾錯(cuò)和進(jìn)化能力。
  3. 模塊化訓(xùn)練優(yōu)勢:對(duì)比實(shí)驗(yàn)顯示,僅訓(xùn)練規(guī)劃器就能達(dá)到與訓(xùn)練全部組件相近的性能,同時(shí)大幅降低計(jì)算成本,驗(yàn)證了規(guī)劃器優(yōu)先設(shè)計(jì)理念的正確性。

圖片


圖片

實(shí)際應(yīng)用:真實(shí)環(huán)境下的諸多挑戰(zhàn)

由于真實(shí)世界任務(wù)的復(fù)雜性和不穩(wěn)定性,在真實(shí)環(huán)境中解決問題會(huì)面臨諸多挑戰(zhàn)。對(duì)此,研究團(tuán)隊(duì)進(jìn)行了深入分析,將挑戰(zhàn)主要分為以下幾類:

  1. 信息源差異:同一查詢在不同信息源可能得到不同答案。
  2. 信息時(shí)效性:網(wǎng)絡(luò)信息的動(dòng)態(tài)變化可能導(dǎo)致預(yù)期答案失效。
  3. 語言歧義性:用戶查詢中的模糊表達(dá)需要系統(tǒng)進(jìn)行智能推理和消歧。
  4. 網(wǎng)絡(luò)環(huán)境限制:網(wǎng)絡(luò)不穩(wěn)定、訪問權(quán)限限制等現(xiàn)實(shí)問題都需要系統(tǒng)妥善處理。

結(jié)論:通向通用人工智能的新路徑

 OWL 的成功為構(gòu)建真正通用的人工智能系統(tǒng)開辟了一種新的路徑。其中,Workforce 的模塊化設(shè)計(jì)和跨領(lǐng)域遷移能力,帶來了以下優(yōu)勢:

  1. 架構(gòu)層面:通過解耦設(shè)計(jì)實(shí)現(xiàn)系統(tǒng)的高度模塊化,既保證了核心能力的穩(wěn)定性,又提供了外圍功能的靈活性。
  2. 訓(xùn)練層面:專注于核心組件的優(yōu)化而非全系統(tǒng)訓(xùn)練,顯著提高了訓(xùn)練效率和遷移能力。
  3. 應(yīng)用層面:為各種實(shí)際應(yīng)用場景提供了即插即用的解決方案,大大降低了部署門檻。

通過將即插即用的工作節(jié)點(diǎn)與可泛化的規(guī)劃核心相結(jié)合,該方法能夠?yàn)橥ㄓ?AI 助手提供可擴(kuò)展的基礎(chǔ),加速通用 AI 助手的研究進(jìn)程。


責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-06-06 14:17:11

模型訓(xùn)練AI

2023-12-21 08:02:31

React DnD拖拽庫組件

2025-02-06 15:07:27

2025-02-06 08:12:41

2025-03-10 10:26:16

2025-02-27 09:45:50

2025-04-25 09:09:00

2024-10-15 17:28:05

2022-07-11 09:59:19

GitHub開源

2025-02-03 12:07:52

2025-04-25 10:26:19

2025-05-06 08:40:00

2025-06-17 06:28:08

2024-10-12 12:30:18

2025-02-21 08:17:13

2025-04-17 09:02:00

2025-02-05 08:00:00

2024-09-20 17:05:27

2025-04-09 13:19:29

2024-11-04 08:47:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)