ICML 2025 | 多智能體的ChatGPT時刻?上交MAS-GPT實現工作流一鍵生成
本文第一作者葉銳,上海交通大學博士三年級,研究方向是大模型多智能體,聯邦學習,博士導師陳思衡,上海交通大學人工智能學院副教授。
OpenAI 將 “組織級智能 (Organizational AI)” 設定為通向 AGI 的第五個重要階段 —— 期待 AI 能像一個高效協作的組織那樣,處理復雜任務并協調大規(guī)模運作。多智能體系統(tǒng)(Multi-Agent Systems, MAS)正是實現這一目標的重要探索方向。
然而,構建能夠支撐這種復雜智能的 MAS 并非易事,研究者們常面臨結構繁多、Prompt 調試耗時、難以解決通用任務等挑戰(zhàn)……
如今,一種全新的方法出現了,由上海交通大學人工智能學院、上海人工智能實驗室、牛津大學等機構聯合推出的 MAS-GPT,正式提出:生成式 MAS 設計范式,只需一句 Query,就能 “一鍵生成” 一套可執(zhí)行、組織清晰的 MAS!
這意味著,構建 MAS 變得 “像與 ChatGPT 聊天一樣簡單,一個問題直出完整多智能體系統(tǒng)”!MAS-GPT,正努力讓這條通往 AGI 第五階段的道路,變得更加平坦和高效。
該工作 “MAS-GPT: Training LLMs to Build LLM-based Multi-Agent Systems” 發(fā)表于國際機器學習大會 ICML 2025。
- 論文鏈接:https://arxiv.org/abs/2503.03686
- 代碼鏈接:https://github.com/MASWorks/MAS-GPT
- 模型鏈接:https://huggingface.co/MASWorks/MAS-GPT-32B
生成式 MAS 設計:
一句話輸入,自動生成 MAS
現有 MAS 方法(如 ChatDev、DyLAN、AFlow 等)雖強大,但存在三個根本問題:
- 無適應性:MAS 結構與提示詞高度依賴人工,毫無適應性;
- 成本高昂:依賴多輪 LLM 調用來設計 MAS,成本完全頂不??;
- 泛化性低:依賴于測試集對應的驗證集進行優(yōu)化,泛化性堪憂。
這些問題嚴重阻礙了 MAS 的廣泛應用。以當前處理大規(guī)模并發(fā)用戶請求的類 ChatGPT 交互系統(tǒng)為例,若其底層架構采用現有 MAS 范式,其可擴展性與魯棒性將無法滿足服務需求。

MAS-GPT 如何破局?答案是:
將 “設計 MAS” 徹底轉變?yōu)橐粋€語言生成任務!輸入你的 Query,輸出就是一套可直接運行的多智能體系統(tǒng)!
這套生成的 MAS,完全由 Python 代碼優(yōu)雅呈現:
- Agent 的提示詞:Python 變量,清晰明了
- Agent 產生回應:LLM 調用函數,智能核心
- Agent 間的交互:字符串拼接,簡潔高效
- Agent 工具調用:Python 函數,擴展無限
從此,MAS 不再 “人寫”,而是 “模型寫”!

如何教 LLM “設計 MAS”?
MAS-GPT 的訓練不是靠死記硬背,而是通過設計精巧的數據構造流程,讓模型學會 “針對什么樣的 Query,設計什么樣的 MAS”。
四步構建高質量訓練數據:
1. 數據池構建(Pool Construction):廣泛收集覆蓋數學、代碼、通用問答等多領域的 Query,并匯集 40 + 種基礎 MAS 代碼結構;
2. 數據對評估(Pair Evaluation):對每一個 “Query-MAS” 組合進行細致的自動化評估與標注
3. 數據對選擇(Pair Selection):根據跨組一致性(Inter-consistency)原則,將相似的 Query 統(tǒng)一匹配到表現最好的 MAS;
4. 數據對精修(Pair Refinement):根據組內一致性(Intra-consistency)原則,借助大模型改寫 MAS、添加推理解釋,使其與 Query 邏輯高度貼合。
最終得到了 11K 條高質量數據樣本,通過一次簡單的監(jiān)督微調(SFT)開源模型,便訓練得到了 MAS-GPT。

有了 MAS-GPT,多智能體系統(tǒng)的推理過程變得前所未有地簡單。
用戶拋出一個 Query,MAS-GPT 一次調用生成專屬 MAS;該 MAS 立即執(zhí)行并返回答案給用戶,一步到位。
多項實驗證明:
MAS-GPT 不僅靈巧,還很強!
MAS-GPT 的設計目標非常明確:一輪 LLM 推理即可生成任務適配的 MAS。實驗結果也不負眾望。
研究團隊在 8 個基準任務 × 5 種主流模型上,系統(tǒng)對比了 10 多種現有方法,結果顯示,MAS-GPT:
- 更準:MAS-GPT 平均準確率全面領先,對比當前最強基線提升 3.89%!
- 更泛化:即使在訓練時未見過的任務(如 GPQA、SciBench)上也保持穩(wěn)健表現!

- 更省:在推理過程中,MAS-GPT 可以在幾乎 0.5 倍推理成本下,跑出比 DyLAN、GPTSwarm 等更好的效果!

- 兼容性強:MAS-GPT 生成的 MAS,無論用哪種 LLM 驅動,都能帶來一致的性能提升!這意味著它具有極佳的 “兼容性” 和 “普適性”。

還能進一步拓展推理大模型的能力邊界
MAS-GPT 生成的 MAS 不僅適用于 Chatbot LLM,還能用來輔助更強的 Reasoner LLM 推理。
使用 OpenAI o1 和 DeepSeek-R1 等強推理模型 + MAS-GPT 結構,在 AIME-2024 數學挑戰(zhàn)上:
- o1 + MAS-GPT 提升了 13.3%
- DeepSeek-R1 + MAS-GPT 提升了 10.0%
MAS-GPT 真正具備將強模型 “組織起來干活” 的能力!

MAS-GPT 的訓練階段的延展性和發(fā)展?jié)摿Γ?/span>
除了在性能、適用性和使用友好上具有一定優(yōu)勢外,MAS-GPT 的訓練階段的參數規(guī)模也有很大的探索空間,反應出極大的發(fā)展?jié)摿Γ?/span>

不止會 “套模板”,還能生成新結構!
通過深入的可視化分析,研究團隊發(fā)現 MAS-GPT 遠不止會 “套模板” 那么簡單:
- 能夠自動生成新穎的 MAS
- 面對從未見過的任務,依然能給出合理的 agent 分工與協作方式
- 為每個 MAS 附上推理說明,解釋 “為什么這樣設計”
真正做到了:不是背答案,而是學會設計!

MAS-GPT 未來愿景
MAS-GPT 提出了一個前所未有的思路:“為每個 Query 自動生成一個 MAS”。理論上,領域內所有多智能體系統(tǒng),都有可能被整合進 MAS-GPT 的訓練數據中。這意味著,MAS-GPT 能夠站在巨人的肩膀上,博采眾長,不斷進化,生成越來越精妙、越來越強大的 MAS。
正如 LLM 的發(fā)展路徑所示,隨著基座模型能力的持續(xù)增強和數據質量與多樣性的不斷豐富,MAS-GPT 的未來也將不斷進化。
或許在不久的將來,與你智能交互的不再僅僅是一個 Chatbot,而是一個強大的 MAS-GPT。它會洞悉你的每一個問題,為你量身打造最合適的智能系統(tǒng) —— 無論是簡潔的單 Agent,還是結構精巧的多 Agent 協作網絡。
MASWorks 大模型多智能體開源社區(qū)
MAS-GPT 也是最近剛發(fā)起的大模型多智能體開源社區(qū) MASWorks 的拼圖之一。MASWorks 社區(qū)致力于連接全球研究者,匯聚頂尖智慧,旨在打造一個開放、協作的平臺,共同分享、貢獻知識,推動多智能體系統(tǒng)(MAS)領域的蓬勃發(fā)展。
作為社區(qū)啟動的首個重磅活動,MASWorks 將在 ICML 2025 舉辦聚焦大語言模型多智能體的 Workshop:MAS-2025!
MASWorks 社區(qū)期待全球廣大智能體開發(fā)者和研究人員的貢獻與參與。一方面貢獻您的智慧和代碼,獲得更多曝光機會;另一方面,結識志同道合的伙伴,拓展您的學術網絡,互幫互助,共同探討,碰撞思想,共同塑造 MAS 的未來!
- MASWorks 地址:https://github.com/MASWorks
- MAS-2025 地址:https://mas-2025.github.io/MAS-2025/


































