偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="hleh1"><fieldset id="hleh1"></fieldset></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI竟會「自己認(rèn)錯」？破解多智能體協(xié)作「羅生門」，斬獲ICML 2025 Spotlight

2025-06-03 09:08:00

人工智能新聞

在多智能體AI系統(tǒng)中，一旦任務(wù)失敗，開發(fā)者常陷入「誰錯了、錯在哪」的謎團(tuán)。PSU、杜克大學(xué)與谷歌DeepMind等機(jī)構(gòu)首次提出「自動化失敗歸因」，發(fā)布Who&When數(shù)據(jù)集，探索三種歸因方法，揭示該問題的復(fù)雜性與挑戰(zhàn)性。

你打造了一支「超級AI戰(zhàn)隊」——戰(zhàn)隊里每個AI都各司其職：有的收集信息、有的負(fù)責(zé)判斷，還有的協(xié)調(diào)執(zhí)行，一起協(xié)作攻克復(fù)雜任務(wù)。

這個愿望看似天衣無縫，結(jié)果卻往往以失敗告終。問題就出在：當(dāng)「問題」出現(xiàn)的時候，如何知道是哪個AI干的？

就像代碼Debug一樣，從堆積如山的模型對話記錄、調(diào)用日志和中間結(jié)果找到哪個AI掉鏈子幾乎不可能，而且AI本身還是個「黑箱」。

這就是今天多智能體AI系統(tǒng)面臨的真實困境：不僅頻繁失敗，而且溯源問題困難。

為了解決這個「AI版羅生門」，賓夕法尼亞州立大學(xué)與杜克大學(xué)聯(lián)合Google DeepMind等機(jī)構(gòu)的研究者們首次提出了：自動化失敗歸因（Automated Failure Attribution）——讓AI自己舉手：我錯了！

目前，這篇論文不僅成功斬獲了頂會ICML 2025 Spotlight，而且配套的首個專用基準(zhǔn)數(shù)據(jù)集Who&When和相關(guān)代碼也已全部開源。

論文地址：https://arxiv.org/pdf/2505.00212

代碼地址：https://github.com/mingyin1/Agents_Failure_Attribution

都說模型即產(chǎn)品，就像現(xiàn)在的OpenAI o3、Gemini 2.5 Pro還有新發(fā)的DeepSeek-R1-0528越來越強(qiáng)大，那為何還需要多智能體的AI系統(tǒng)？

這是因為目前階段依然單個AI能力有限，而LLM驅(qū)動的多智能體系統(tǒng)在很多領(lǐng)域展現(xiàn)出巨大潛力。

然而，這些系統(tǒng)也存在著脆弱性：單個Agent的失誤，Agent之間的誤解，以及信息傳遞錯誤，都可能導(dǎo)致整體任務(wù)失敗。

目前，一旦多智能體的AI系統(tǒng)「翻車」，開發(fā)者往往只能：

手動「考古」：逐條翻閱冗長的交互日志，試圖找出問題所在。
依賴經(jīng)驗：這種調(diào)試過程高度依賴開發(fā)者對系統(tǒng)和任務(wù)的深入理解。

這種「大海撈針」式的排錯方式，不僅效率低下，更嚴(yán)重阻礙了系統(tǒng)的快速迭代和可信賴度的提升。

目前迫切需要一種自動化、系統(tǒng)化的方法來定位失敗原因，將「評估結(jié)果」與「系統(tǒng)改進(jìn)」有效連接起來。

核心貢獻(xiàn)

針對上述挑戰(zhàn)，這篇論文做出了開創(chuàng)性的貢獻(xiàn)：

1. 提出并定義新問題

首次將「自動化失敗歸因」形式化為一個具體的研究任務(wù)，明確了要找出導(dǎo)致失敗的責(zé)任Agent（failure-responsible agent）和決定性錯誤步驟（decisive error step）。

2. 構(gòu)建首個數(shù)據(jù)集——Who&When

該數(shù)據(jù)集包含了從127個LLMMulti-Agent系統(tǒng)中收集的廣泛失敗日志。這些系統(tǒng)既有算法自動生成的，也有人類專家精心打造的，確保了場景的真實性和多樣性。

每條失敗日志都配有細(xì)粒度的人工標(biāo)注：

「誰」（Who）：哪個Agent是「罪魁禍?zhǔn)住埂?/span>
「何時」（When）：決定性錯誤發(fā)生在交互的哪一步。
「為何」（Why）：對失敗原因的自然語言解釋。

標(biāo)注關(guān)鍵錯誤代理以及確定出錯的具體步驟，對普通人和領(lǐng)域?qū)＜襾碚f都是一項挑戰(zhàn)。

注釋者需要解析復(fù)雜的日志，理清每個代理的解決問題邏輯，并判斷每個動作是正確的，還是會誤導(dǎo)整個問題解決過程。

例如，如果某個代理使用網(wǎng)頁瀏覽器獲取解決問題所需的重要信息，注釋者就必須檢查瀏覽器歷史記錄，并訪問每一個網(wǎng)站，以判斷失敗是由于網(wǎng)站上本身沒有相關(guān)信息，還是代理未能成功獲取。

如上圖（a）所示，三位注釋者分別花費(fèi)了30.9小時、30.2小時和23.2小時來完成注釋。這表明注釋過程非常耗時，因此開始考慮開展自動化故障歸因的研究。

此外，在很多數(shù)據(jù)實例中，出錯的并不只是某一個代理，而是多個代理。人們需要識別出這些錯誤，并挑選出其中最嚴(yán)重的錯誤，因為這些錯誤會直接導(dǎo)致問題解決失敗。由于錯誤的嚴(yán)重程度有時較為細(xì)微，甚至帶有一定的主觀性，這一過程就變得更加困難。

如上圖（b）所示，展示了三位注釋者「不確定」標(biāo)注的比例，范圍從15%到30%不等。

圖（c）則可視化了不同注釋者在互相投票判斷彼此「不確定」數(shù)據(jù)時的分歧率。

可以看到，即使在投票環(huán)節(jié)仍存在一定程度的分歧，進(jìn)一步突顯了注釋工作本身的復(fù)雜性與挑戰(zhàn)性。

3. 探索初步的「自動化歸因」方法

基于Who&When數(shù)據(jù)集，論文設(shè)計并評估了三種不同的自動化失敗歸因方法：全局審視法（All-at-Once），逐步偵查法（Step-by-Step），二分定位法（Binary Search）。

實驗結(jié)果表明：這三種方法在準(zhǔn)確性、成本和分析粒度上各有千秋，沒有一種能在所有指標(biāo)上完勝。它們共同構(gòu)成了自動化失敗歸因任務(wù)的初步「解法庫」。

· All-at-Once：一次性完成

向LLM提供用戶查詢和完整的故障日志，要求其一次性識別出故障責(zé)任Agent以及發(fā)生決定性錯誤的具體步驟。

優(yōu)點(diǎn)：一步到位，成本較低，可能擅長宏觀判斷責(zé)任。

缺點(diǎn)：可能面臨「大海撈針」問題，難以從長上下文中精確定位具體錯誤步驟。

· Step-by-Step：逐步

模擬人工調(diào)試，讓LLM從頭開始，一步步檢查交互日志，在每個環(huán)節(jié)判斷當(dāng)前是否出現(xiàn)錯誤，直到揪出「真兇」。

優(yōu)點(diǎn)：如同剝洋蔥般細(xì)致，在定位具體錯誤環(huán)節(jié)上更具優(yōu)勢。

缺點(diǎn)：需要多次詢問模型，調(diào)用成本較高，且局部判斷的累積誤差可能導(dǎo)致「誤判」。

· Binary Search：二分查找

這是一種折中策略，總成本和效果介于前兩者之間。

方法是將日志對半切分，利用LLM判斷錯誤發(fā)生在前半段還是后半段，然后不斷在確定的半段中遞歸「二分」，最終鎖定問題步驟和相關(guān)Agent。

實驗結(jié)果與主要發(fā)現(xiàn)

實驗在兩種設(shè)定下進(jìn)行：LLM知道Multi-Agent系統(tǒng)需要解決的問題的真實答案（With Ground Truth）和不知道真實答案（Without Ground Truth）。

主要使用GPT-4o，但也測試了其他模型（如Llama系列、Qwen系列、GPT系列、OpenAI o1、DeepSeek R1）

通過在Who&When數(shù)據(jù)集上對上述方法進(jìn)行了系統(tǒng)評估，得到了許多重要的發(fā)現(xiàn)：

· 任重道遠(yuǎn)，表現(xiàn)堪憂

目前的方法離完美還差得很遠(yuǎn)。即便是表現(xiàn)最好的單一方法，在識別「背鍋Agent」上的準(zhǔn)確率也僅有約53.5%，而在準(zhǔn)確定位「錯誤步驟」上，準(zhǔn)確率更是低至14.2%！

這意味著，最牛的策略也只能勉強(qiáng)過半猜對誰是「內(nèi)鬼」，至于錯在哪一步，基本靠「蒙」。

有些方法的表現(xiàn)甚至不如隨機(jī)猜測，足見任務(wù)之艱巨。

· 各有所長，難有「全能冠軍」

不同方法在不同子任務(wù)上表現(xiàn)各異，沒有萬能冠軍。

例如，All-at-Once方法對「Who」的判斷相對最好，能夠更準(zhǔn)確地找出哪個Agent應(yīng)該負(fù)責(zé)；而Step-by-Step方法在鎖定具體錯誤步驟（「When」）上效果更勝一籌，細(xì)粒度檢查帶來了優(yōu)勢；Binary Search方法則各方面居中，表現(xiàn)中規(guī)中矩。

由此體現(xiàn)出每種方案的權(quán)衡取舍：要么整體掃描擅長找「人」，要么逐步追查利于找「步驟」。

· 「組合拳」效果更優(yōu)，但代價高昂

研究者嘗試了組合不同方法的策略（例如，先使用「全局法」初步判斷責(zé)任Agent，再運(yùn)用「逐步法」精確定位錯誤步驟）。

結(jié)果表明，這種混合方法確實能夠提升整體的歸因性能，但同時也帶來了顯著的計算成本增加。

· 現(xiàn)有SOTA模型集體「啞火」

最令人驚訝的是，即便是當(dāng)前最先進(jìn)的推理模型（如OpenAI o1和DeepSeek R1），在處理這一任務(wù)時也顯得力不從心。

這進(jìn)一步凸顯了「自動化失敗歸因」任務(wù)本身的固有難度，其對AI推理能力的要求超越了當(dāng)前SOTA模型在常規(guī)任務(wù)上的表現(xiàn)。

明確的推理提示至關(guān)重要：在All-at-Once和Step-by-Step的提示中明確要求LLM給出歸因的理由，能起到提升性能的作用。

上下文長度對性能構(gòu)成制約：實驗還發(fā)現(xiàn)，隨著失敗日志上下文長度的增加，所有歸因方法的性能均呈現(xiàn)下降趨勢，尤其是在錯誤步驟定位的準(zhǔn)確性方面更為敏感。

邁向更智能、更可靠的Multi-Agent系統(tǒng)

「自動化失敗歸因」是Multi-Agent系統(tǒng)開發(fā)流程中不可或缺的一環(huán)。

它將幫助我們更深入地洞察Multi-Agent的失敗模式，將「哪里出錯、誰之過」從令人頭疼的謎題，轉(zhuǎn)變?yōu)榭闪炕治龅膯栴}。

通過架起「評估」與「改進(jìn)」之間的橋梁，未來終將能夠打造出更可靠、更智能、更值得信賴的Multi-Agent協(xié)作系統(tǒng)。

作者介紹

Shaokun Zhang

賓夕法尼亞州立大學(xué)的三年級博士生，導(dǎo)師為Qingyun Wu教授。

近期的研究興趣集中在Agentic AI與強(qiáng)化學(xué)習(xí)的交叉領(lǐng)域。

目前，在NVIDIA實習(xí)，專注于LLM智能體的研究。在此之前，于西安電子科技大學(xué)獲得計算機(jī)科學(xué)學(xué)士學(xué)位。

Ming Yin

杜克大學(xué)的一年級博士生，導(dǎo)師是陳怡然教授。

于2024年20歲時在中國科學(xué)技術(shù)大學(xué)少年班學(xué)院獲得了學(xué)士學(xué)位。

目前對LLM智能體、LLM推理和可信人工智能感興趣。

從2025年5月到8月在位于西雅圖的Zoom擔(dān)任生成式人工智能研究實習(xí)生。

責(zé)任編輯：張燕妮來源：新智元

AI 智能體自動化

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<nobr id="9yrmv"></nobr>