偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICML 2025 Spotlight | 誰導(dǎo)致了多智能體系統(tǒng)的失敗?首個「自動化失敗歸因」研究出爐

人工智能 新聞
這篇 ICML 2025 Spotlight 論文率先提出并 formalize 了?LLM 多智能體系統(tǒng)的自動化失敗歸因這一新任務(wù)。

想象這樣一個場景:你開發(fā)了一個由多個大型語言模型 Agent 組成的智能團隊,它們協(xié)作完成復(fù)雜任務(wù),比如一個 Agent 負(fù)責(zé)檢索,一個負(fù)責(zé)決策。然而任務(wù)失敗了,結(jié)果不對。

問題來了:到底是哪個 Agent 出了錯?又是在對話流程的哪一環(huán)節(jié)?調(diào)試這樣的多智能體系統(tǒng)如同大海撈針,需要翻閱大量復(fù)雜日志,極其耗時。

這并非虛構(gòu)。在多智能體 LLM 系統(tǒng)中,失敗常見但難以診斷。隨著這類系統(tǒng)愈加普及,我們急需新方法快速定位錯誤。正因如此,ICML 2025 的一篇 Spotlight 論文提出了「自動化失敗歸因(Automated Failure Attribution)」的新研究方向,目標(biāo)是讓 AI 自動回答:是誰、在哪一步導(dǎo)致了失敗。

該工作由 Penn State、Duke、UW、Goolge DeepMind 等機構(gòu)的多位研究人員合作完成。

圖片

  • 論文標(biāo)題:Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems
  • arXiv 地址:https://arxiv.org/pdf/2505.00212
  • 代碼地址:https://github.com/mingyin1/Agents_Failure_Attribution

背景挑戰(zhàn)

LLM 驅(qū)動的多智能體系統(tǒng)在諸多領(lǐng)域展現(xiàn)出巨大潛力,從自動化助手協(xié)同辦公到多 Agent 合作完成 Web 復(fù)雜操作等。然而,這些系統(tǒng)脆弱性也逐漸顯現(xiàn):多個 Agent 之間的誤解、信息傳遞錯誤或決策不當(dāng),都可能導(dǎo)致整體任務(wù)失敗。

圖片

對于開發(fā)者來說,一個失敗案例往往意味著必須手動審閱長長的對話日志,試圖找出哪個 Agent 在哪一步出了差錯。這種調(diào)試過程既費時費力,也需要調(diào)試者對整個任務(wù)邏輯非常熟悉。更大的挑戰(zhàn)在于,缺乏系統(tǒng)化的方法來定位失敗原因 —— 傳統(tǒng)評估只關(guān)注任務(wù)成功與否,但很少深入到「失敗責(zé)任」這一層面上。

結(jié)果就是,多智能體系統(tǒng)一旦出錯,我們往往只能知道「出了問題」卻無法快速知道「問題出在哪、因何而起」。這種局面嚴(yán)重限制了多智能體系統(tǒng)的改進和可信度。如果無法自動歸因失敗,我們就難以針對性地加強某個 Agent 的能力或優(yōu)化協(xié)作策略。換言之,失敗歸因是連接評估與改進的缺失環(huán)節(jié)。

研究內(nèi)容

針對上述挑戰(zhàn),這篇 ICML 2025 Spotlight 論文率先提出并 formalize 了 LLM 多智能體系統(tǒng)的自動化失敗歸因這一新任務(wù)。

研究的核心目標(biāo):給定一個多 Agent 協(xié)作任務(wù)的失敗日志,自動確定導(dǎo)致失敗的罪魁禍?zhǔn)资悄膫€ Agent(「Who」),以及決定性錯誤發(fā)生在交互的哪一步(「When」)。

為推動這一方向,作者構(gòu)建了首個用于失敗歸因研究的基準(zhǔn)數(shù)據(jù)集 ——「Who&When」。該數(shù)據(jù)集精心收集了 127 個多智能體系統(tǒng)的失敗日志,涵蓋了多個公開基準(zhǔn)(如 GAIA、AssistantBench 等)中的復(fù)雜任務(wù),具有相當(dāng)?shù)亩鄻有?。更重要的是,作者為每條失敗日志都提供了細粒度的人工標(biāo)注:

  • 標(biāo)記出導(dǎo)致任務(wù)失敗的責(zé)任 Agent(即「Who」,哪個智能體犯了錯)
  • 標(biāo)記出導(dǎo)致失敗的關(guān)鍵錯誤步驟(即「When」,在整個對話 / 操作序列中的第幾步出了錯)
  • 以及相應(yīng)的自然語言解釋(即「Why」,為什么這個錯誤會導(dǎo)致失?。?/span>

基準(zhǔn)數(shù)據(jù)集地址:https://huggingface.co/datasets/Kevin355/Who_and_When

這種標(biāo)注使得數(shù)據(jù)集既可用于訓(xùn)練模型自動定位「誰」和「何時」出錯,也方便人類分析失敗的原因。數(shù)據(jù)集中「Who」和「When」標(biāo)注的引入填補了以往多智能體評測中對失敗原因關(guān)注的空白??梢哉f,Who&When 數(shù)據(jù)集為自動失敗歸因任務(wù)提供了首個標(biāo)準(zhǔn)測試床,讓研究者能夠在統(tǒng)一語境下探索讓 AI 自動當(dāng)「故障偵探」的可能性。

技術(shù)細節(jié)

有了數(shù)據(jù)集,接下來作者設(shè)計了三種用于自動失敗歸因的初步方法,并對它們進行了系統(tǒng)比較:

  • All-at-Once 方法:將完整的多 Agent 日志一次性交給 LLM,讓其整體判斷 「哪個 Agent 在哪一步出錯」。優(yōu)點是調(diào)用少、成本低,擅長宏觀歸因;缺點是信息量大,易錯過細節(jié)。
  • Step-by-Step 方法:模擬人工調(diào)試,讓 LLM 逐輪分析每一步交互,逐步定位錯誤。優(yōu)點是粒度細、定位準(zhǔn);缺點是調(diào)用頻繁、成本高,且誤判可能累積。
  • Binary Search 方法:對日志進行二分,逐步縮小范圍,最終鎖定出錯步驟。在調(diào)用次數(shù)和定位精度之間取得平衡,適合長日志。缺點是需要多輪交互,復(fù)雜度居中。值得注意的是,每種方法在準(zhǔn)確性、成本和粒度上各有權(quán)衡,沒有一種方法能在所有指標(biāo)上全面勝出。這三種方案共同構(gòu)成了自動失敗歸因任務(wù)的初步解法庫,探索了從「一步到位」到「循序漸進」再到「折中求解」的不同思路。作者在論文中詳細討論了它們各自的優(yōu)劣。

實驗結(jié)果

作者在 Who&When 數(shù)據(jù)集上對上述方法進行了系統(tǒng)評估,帶來了許多發(fā)人深省的發(fā)現(xiàn):

  • 整體表現(xiàn)有限:當(dāng)前方法效果仍較差。最佳模型在識別出錯 Agent 上準(zhǔn)確率僅約 53.5%,而準(zhǔn)確定位錯誤步驟的準(zhǔn)確率更低,僅 14.2%,幾乎接近瞎猜。一些方法甚至表現(xiàn)不如隨機,顯示任務(wù)本身極具挑戰(zhàn)性。
  • 各有所長:不同方法擅長不同子任務(wù)。All-at-Once 更擅長識別「誰」出錯,Step-by-Step 更適合找出「何時」出錯,而 Binary Search 表現(xiàn)居中,平衡調(diào)用成本和定位精度。

圖片

  • 混合策略更優(yōu)但代價高:將多種方法結(jié)合(如先用 All-at-Once 找嫌疑 Agent,再用 Step-by-Step 精查)確實提升了準(zhǔn)確率,驗證了方法間的互補性。但計算成本顯著增加,需在效果與資源之間權(quán)衡。

圖片

  • 現(xiàn)有 SOTA 模型乏力: OpenAI o1 或者 DeepSeek R1,表現(xiàn)仍不理想,遠未達到實用水平??梢?,失敗歸因任務(wù)對 AI 推理與理解能力的要求,遠超當(dāng)前模型在常規(guī)任務(wù)中的表現(xiàn),凸顯了其挑戰(zhàn)性和研究價值。

圖片

結(jié)論

自動化失敗歸因有望成為多智能體 AI 系統(tǒng)開發(fā)中的重要一環(huán),它將幫助我們更深入地理解 AI 代理的失敗模式,將「哪里出錯、誰之過」從令人頭疼的謎題變成可量化分析的問題。因此,我們可以在評估與改進之間架起橋梁,打造更可靠、更智能的多 Agent 協(xié)作系統(tǒng)。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-06-11 13:44:44

自動化模型智能體

2025-06-03 09:08:00

2021-03-03 14:08:48

自動化高管IT投資

2025-05-21 08:47:00

2025-06-30 08:36:00

AI模型強化學(xué)習(xí)

2021-04-19 11:37:20

智能自動化物聯(lián)網(wǎng)IOT

2022-08-15 15:40:32

物聯(lián)網(wǎng)樓宇自控智能建筑

2022-07-18 10:08:17

DevOps運維編排

2025-08-27 01:45:00

多智能LLM系統(tǒng)

2022-02-18 13:12:49

人工智能自動化技術(shù)

2020-04-29 11:28:54

智能自動化機器人流程自動化AI

2025-08-26 03:15:00

MASLLM映射

2022-02-17 17:37:17

超級自動化人工智能AI

2025-05-14 09:17:00

2009-02-16 18:22:55

2018-01-23 08:12:37

數(shù)字化轉(zhuǎn)型CIO企業(yè)轉(zhuǎn)型

2009-02-27 15:13:00

2025-05-07 13:48:48

AIGC生成機器人

2013-07-17 14:13:08

產(chǎn)品產(chǎn)品失敗

2022-06-26 20:37:17

系統(tǒng)性能場景
點贊
收藏

51CTO技術(shù)棧公眾號