偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從"調用工具"到"思考策略":Chain-of-Agents實現智能體技術的臨界點突破

人工智能
Chain-of-Agents范式實現了智能體技術的創(chuàng)新思考。它通過多智能體蒸餾,將協(xié)作智慧內化于單一模型,不僅性能超越頂尖系統(tǒng),更將推理成本銳減84.6%,為AI的實用化給出了強力支撐。

大家好,我是肆零柒。今天,我們一起來了解一篇由OPPO AI Agent Team研究的論文。這項工作名為Chain-of-Agents(CoA),它不只是一個新的AI框架,更是一次對"智能體"本質的深刻探索。研究團隊通過多智能體蒸餾和智能體強化學習,成功地將一個由多個專家組成的"智囊團"壓縮進了一個單一的、可端到端優(yōu)化的基礎模型中,這究竟是如何做到的?讓我們一起了解一下。

一個看似不可能完成的任務

想象這樣一個任務:你需要找出某位匿名博主的第一篇博客發(fā)布日期,該博客需滿足多個嚴格條件——博主當時是8年級學生、博客發(fā)表于2005-2013年間、內容提及因觀看某部2002-2010年上映的電影而產生焦慮、還提到博主的母親和暗戀對象。想一想,如果你是AI系統(tǒng),會如何解決這個多條件約束問題?是嘗試一次性搜索所有條件,還是分步解決?你會如何驗證找到的信息是否準確?

傳統(tǒng)方法往往直接構建復雜查詢:"anonymous blog first posted 8th grade anxiety attack movie review 2005..2013",期望一次搜索就能找到完美匹配的結果。

然而,這種策略幾乎注定失敗——搜索結果全是關于焦慮障礙和抑郁癥的醫(yī)學文章,而非實際博客內容。這種困境正是Chain-of-Agents(CoA)要解決的核心問題。CoA并不是將多個工具簡單串聯(lián)起來,而是讓單一模型動態(tài)模擬多智能體協(xié)作過程,實現真正的端到-end復雜問題解決。下面我們一起深入理解一下CoA如何巧妙破解這類難題,并揭示其背后的技術內核。

Chain-of-Agents的"啊哈時刻":從失敗到成功的思維轉變

下面,我們跟隨Chain-of-Agents解決這個極具挑戰(zhàn)性的"8年級匿名博客"任務,完整體驗其思維歷程:

初始失?。簭碗s查詢的陷阱

系統(tǒng)首先嘗試使用復雜查詢直接搜索(Step 3):

<web_search>anonymous blog first posted 8th grade anxiety attack movie review 2005..2013</web_search>

結果令人失望——返回的內容全是關于焦慮障礙和抑郁癥的醫(yī)學文章,而非實際博客。系統(tǒng)通過自我評估標記為:

information_conflict: Good
tool_effectiveness: Fair
trajectory_monitoring: Fair

這時不妨想想,當搜索結果完全偏離預期時,你會如何調整策略?是稍微簡化查詢,還是徹底重構搜索思路?

深度反思:發(fā)現問題根源

在Step 4,系統(tǒng)激活了反思智能體進行深度分析:

Reflection: Most authoritative have a one-year delay in their latest data, providing only estimates for 2022 or 2023, whereas I need actual population change data for the past year. Some third-party websites offer more "real-time" 2024 figures, but their sources are unclear. Many sources only provide a single global population figure, lacking multidimensional data. Therefore, I need to restrict the...

這一反思揭示了關鍵問題:復雜查詢導致搜索結果偏離目標,需要分步重構問題。

策略重構:多步推理

基于反思,系統(tǒng)在Step 5激活計劃智能體,制定了清晰的四步策略:

1. 搜索相關電影名稱

2. 識別可能引起焦慮的電影

3. 查找博客內容

4. 驗證發(fā)布日期

在Step 6-15中,系統(tǒng)動態(tài)切換搜索智能體爬取智能體,逐步收集證據:

  • 首先識別出《暮光之城》可能是目標電影
  • 通過LiveJournal平臺找到具體博客
  • 確認博客發(fā)布日期為2011年10月23日
  • 驗證博主當時是8年級學生

最終在Step 16,系統(tǒng)自信地給出答案:

The anonymous person’s first blog post was dated October 23, 2011. The DVD Talk reviewer mentioned in that post is Scott Weinberg.

關鍵收獲:CoA系統(tǒng)不是簡單地執(zhí)行預設流程,而是通過反思-規(guī)劃-執(zhí)行-驗證的閉環(huán),動態(tài)調整策略。當初始方法失敗時,它能識別問題根源,重構解決方案,這正是人類專家的思維方式。

思考一下:為什么系統(tǒng)在Step 15選擇使用suggested_answer工具而非繼續(xù)搜索?這反映了CoA的什么核心能力?答案在于double_check評分機制——當系統(tǒng)確認已收集到所有必要信息(博客日期和影評人姓名),且信息一致性高時,它會果斷停止搜索。這種"知道何時停止"的能力,避免了傳統(tǒng)系統(tǒng)常見的過度搜索問題,也是推理成本降低84.6%的關鍵原因之一。

AFM與傳統(tǒng)多智能體系統(tǒng)(MAS)和工具集成推理(TIR)方法的性能效率對比。AFM在顯著降低推理成本的同時保持了高性能

Chain-of-Agents的臨界點突破:從工程框架到可優(yōu)化模型

Chain-of-Agents的真正突破不在于單個技術點,而在于它解決了智能體系統(tǒng)發(fā)展的"臨界點"問題——如何將多智能體系統(tǒng)的協(xié)作優(yōu)勢內化到單一模型中。

1. 四大范式的對比與CoA的突破

上表:不同智能體范式的對比分析。Chain-of-Agents是唯一同時支持工具集成、端到端執(zhí)行、多智能體協(xié)作和數據驅動優(yōu)化的范式。

通過對比上表中的數據,我們可以清晰看到CoA的突破性優(yōu)勢:它不僅繼承了多智能體系統(tǒng)的協(xié)作優(yōu)勢,還解決了傳統(tǒng)多智能體系統(tǒng)面臨的計算效率低、無法端到端優(yōu)化等問題。

2. TIR與CoA的本質區(qū)別

TIR與CoA范式的對比示意圖。TIR采用靜態(tài)的"思考-行動-觀察"工作流,而CoA支持可由多智能體系統(tǒng)建模的任何工作流,支持更多樣化的角色扮演智能體和工具智能體

在技術內核深度解析部分,我們可以看到Chain-of-Agents的狀態(tài)轉換模型可表示為:

為什么這很重要? 這個看似抽象的數學表達解決了傳統(tǒng)多智能體系統(tǒng)的核心痛點——上下文斷裂。在傳統(tǒng)系統(tǒng)中,每個智能體只能看到有限上下文,導致"工具協(xié)調困境";而CoA通過維護持久推理狀態(tài),使后續(xù)智能體能夠基于完整歷史進行決策,如同人類專家在解決問題時不斷更新自己的"思維筆記"。

在"8年級匿名博客"案例中,當系統(tǒng)從Step 3的失敗中學習后,狀態(tài)記錄了"復雜查詢不可行"的關鍵洞察,這直接影響了Step 4的策略調整。如果沒有這種狀態(tài)持續(xù)性,系統(tǒng)可能會在每次工具調用后"忘記"之前的教訓,重復同樣的錯誤。

實際價值:這正是CoA能夠將推理成本降低84.6%的關鍵技術基礎——避免了傳統(tǒng)多智能體系統(tǒng)中因上下文分割而導致的重復溝通和信息丟失。

技術內核深度解析:讓單一模型學會多智能體協(xié)作

Chain-of-Agents的技術突破在于它讓單一模型能夠模擬多智能體協(xié)作過程,而無需依賴復雜的外部框架。讓我們深入理解其技術內核,并將每個技術點與實際案例關聯(lián)。

多智能體蒸餾框架

提出的多智能體蒸餾框架示意圖,該框架使用最先進的多智能體系統(tǒng)(如OAgents)合成Chain-of-Agents軌跡

多智能體知識蒸餾是CoA的核心技術。研究團隊利用OAgents(最先進的開源多智能體系統(tǒng))來提取Chain-of-Agents軌跡,通過監(jiān)控其執(zhí)行過程,記錄每個智能體的激活、推理狀態(tài)和輸出。這種方法將序列級知識蒸餾原則擴展到多智能體領域,捕獲專家多智能體系統(tǒng)的完整執(zhí)行軌跡,而非僅僅是單詞級分布。

訓練框架概述。(I) SFT階段使用重新格式化的ReAct數據(包含短鏈和長鏈思維)進行冷啟動。(II) RL階段在未使用的QA對上執(zhí)行工具感知rollouts并優(yōu)化策略。 

在"8年級匿名博客"案例中,我們看到:

  • 當初始搜索失敗時,系統(tǒng)自動激活反思智能體進行策略評估
  • 確定新策略后,系統(tǒng)激活計劃智能體生成分步執(zhí)行計劃
  • 執(zhí)行過程中,系統(tǒng)動態(tài)切換搜索智能體爬取智能體

這種動態(tài)角色切換是傳統(tǒng)單智能體系統(tǒng)無法實現的。"Chain-of-Agents中的多智能體協(xié)作并非簡單的平等協(xié)作,而是存在明確的層次結構。思考智能體(Thinking Agent)作為'元控制器',負責整體協(xié)調;計劃智能體(Plan Agent)和反思智能體(Reflection Agent)構成中層決策層;而工具智能體則位于執(zhí)行層。"

觀察掩碼損失:從噪聲中提取關鍵信息

觀察掩碼損失(Observation Masking Loss)是CoA訓練中的關鍵技術,它使模型學會區(qū)分可靠信息與噪聲。在案例中,當系統(tǒng)爬取LiveJournal頁面時,返回了大量無關鏈接(如"[FAQ] (URL)"和"[Site Map] (URL)"),觀察掩碼損失幫助模型忽略這些噪聲,專注于提取"October 23, 2011"這樣的關鍵日期信息。

實際價值:沒有這一機制,系統(tǒng)可能會被環(huán)境噪聲誤導,導致推理路徑偏離。正是這種從噪聲中提取信號的能力,使CoA在真實世界任務中表現出色。

性能優(yōu)勢的直觀解讀:數據背后的真相

Chain-of-Agents的優(yōu)勢不僅體現在理論層面,更在實證研究中得到驗證。讓我們深度理解一下關鍵性能數據,理解CoA為何是智能體技術的重要突破。

GAIA基準測試:復雜任務上的優(yōu)勢

AFM與最先進的工具集成推理(TIR)方法在GAIA、BrowseComp、HLE和AIME25基準測試中的性能對比。AFM在網頁智能體和代碼智能體基準測試中均表現出一致的有效性

上圖展示了Chain-of-Agents的突破性價值。觀察GAIA基準測試中不同難度級別的表現:

  • Level 1任務(基本任務):AFM-RL (7B) 達到53.8%,超過了WebThinker-RL (QwQ-32B)的53.8%(持平),顯著優(yōu)于WebDancer的46.1%
  • Level 2任務(中等難度):AFM-RL (7B) 達到32.7%,雖略低于WebThinker-RL的44.2%,但優(yōu)于WebDancer的30.7%

性能躍遷:AFM 在多項高難度的網頁智能體基準測試中刷新 Pass@1 成績,達到新的 SOTA:GAIA 55.3%,BrowseComp 11.1%,HLE 18.0%。與WebSailor相比,AFM在GAIA測試中高出2.1個百分點(55.3% vs 53.2%),在BrowseComp上高出0.6個百分點(11.1% vs 10.5%),在HLE上高出2.2個百分點(18.0% vs 15.8%)。這些看似微小的差距,實際上代表了智能體技術的重要進步。

從實驗室到實際應用

Chain-of-Agents的出現不僅是技術上的突破,更為智能體技術的發(fā)展開辟了新方向。

1. 多智能體蒸餾的擴展與優(yōu)化

當前的多智能體蒸餾框架主要關注任務執(zhí)行軌跡,未來可能擴展至:

  • 情感與風格蒸餾:不僅學習如何解決問題,還學習專家的表達風格和決策偏好
  • 跨領域蒸餾:將特定領域的專業(yè)知識(如醫(yī)學、法律)更有效地遷移到通用智能體中
  • 人類反饋整合:結合人類專家的實時反饋,進一步優(yōu)化蒸餾過程

研究團隊將所有代碼、數據和模型完全開源的決定,為智能體模型和agentic RL研究提供了堅實起點。 這一開放態(tài)度將加速這些擴展方向的研究。

2. 智能體強化學習的進階

未來的agentic RL可能在以下方向取得突破:

  • 更精細的獎勵設計:針對不同任務類型設計差異化的獎勵函數
  • 長期規(guī)劃能力:增強模型在超長推理鏈中的保持能力
  • 不確定性感知:讓模型能夠識別自身知識的邊界,避免過度自信

研究還提到了RL訓練過程中的關鍵觀察:在代碼智能體的強化學習訓練過程中,研究團隊持續(xù)跟蹤訓練獎勵與回復長度的變化趨勢。隨著訓練步數增加,模型逐步學會更高效的解題策略:既壓縮了冗余的冗長輸出,又顯著提升了任務完成率。

這種優(yōu)化過程表明,agentic RL能夠有效引導模型發(fā)展出更精煉、更有效的推理路徑。

3. 未見智能體的泛化能力

AFM展示了出色的未見智能體泛化能力:盡管在訓練時僅接觸過Python解釋器,但模型能夠正確編排Web搜索等未見過的工具。在GAIA測試集上的零樣本評估中,模型能夠嚴格遵循提示指定的格式,展示了強大的泛化能力。

在"Chain-of-Agents"框架下,研究者評估了模型的零樣本智能體泛化能力。訓練階段,代碼智能體模型僅接觸過由 Python 解釋器執(zhí)行的代碼與數學任務,從未見過網頁搜索、視覺檢測等工具智能體。推理時,將完整的工具描述和調用格式顯式寫進提示,并以 GAIA 測試集作為任務基準。結果顯示,代碼智能體嚴格遵循提示中的格式要求,并能夠正確調用這些從未見過的工具。

這種泛化能力如何應用于實際場景?例如,在企業(yè)環(huán)境中,新工具可能隨時加入系統(tǒng)。AFM的泛化能力意味著:

  • 無需重新訓練即可支持新工具
  • 能夠理解工具之間的邏輯關系
  • 可以根據任務需求智能組合不同工具

這種能力對于構建靈活、可擴展的企業(yè)級智能體系統(tǒng)至關重要。

如何有效應用Chain-of-Agents

對于希望應用Agent Foundation Models(AFM)的開發(fā)者,以下是一些實用建議:

1. 系統(tǒng)環(huán)境配置:確保安全執(zhí)行

研究中使用nsjail提供了細粒度的資源限制,對AFM模型設置了5秒CPU時間上限和5GB內存限制,以確保受控執(zhí)行。這種安全機制對于防止惡意代碼執(zhí)行和資源濫用至關重要。

重要提示:在部署代碼生成智能體時,務必實施嚴格的沙盒環(huán)境,限制執(zhí)行時間和內存使用,避免潛在的安全風險。

2. 推理服務搭建:支持動態(tài)角色切換

API設計應充分考慮Chain-of-Agents的多智能體特性,支持動態(tài)角色切換和工具調用。性能優(yōu)化方面,可以利用AFM顯著降低的token消耗優(yōu)勢,在保持性能的同時大幅減少計算資源需求。

重要提示:設計API時,應允許客戶端指定可用工具集,并提供清晰的錯誤反饋機制,幫助模型在工具調用失敗時進行有效調整。

3. 工具協(xié)調難題解決

通過設計雙向搜索與代碼工具交互機制,提升復雜任務處理能力。例如,在處理需要驗證的數據時,讓搜索工具的結果直接作為代碼工具的輸入,實現工具間的無縫協(xié)作。

注意:當構建需要多工具協(xié)作的任務時,明確設計工具間的輸入輸出接口,確保信息能夠流暢傳遞。例如,搜索結果應以結構化格式提供,便于代碼工具直接處理。

"Chain-of-Agents的自我評估機制是其卓越性能的核心。通過information_conflict、tool_effectivenesstrajectory_monitoring三大評估指標,系統(tǒng)能夠實時監(jiān)控推理過程質量,并據此進行動態(tài)調整。"

隨著研究團隊將所有代碼、數據和模型完全開源,我們可能會看到更多基于CoA范式的創(chuàng)新應用,在深度研究、vibe coding和數學推理等復雜任務中發(fā)揮更大作用??傮w而言,Chain-of-Agents不僅解決了工具協(xié)調困境和多智能體轉移困境,還大幅提升了系統(tǒng)效率和問題解決能力。這一思路可能為未來AI系統(tǒng)的設計提供新的靈感和方向,讓智能體進化的更加高效、靈活和強大。

責任編輯:龐桂玉 來源: 覺察流
相關推薦

2023-04-17 15:02:06

元宇宙工具

2025-10-16 04:00:00

2025-08-25 08:45:00

模型代碼開源

2020-12-11 10:52:58

ERP數字化

2024-03-21 14:16:28

AGI人工智能馬斯克

2024-06-07 12:42:55

2021-09-28 16:12:07

人工智能氣候深度學習

2021-01-27 05:37:33

產品經理臨界點

2021-01-14 12:14:49

人工智能醫(yī)療5G

2024-07-04 14:58:23

2025-03-27 08:10:00

智能體人工智能大模型

2025-08-25 07:40:25

2025-08-13 07:15:00

智能體AI管理挑戰(zhàn)AI編排

2025-08-26 09:06:00

2017-04-11 21:25:54

2020-06-15 10:20:34

5G通信行業(yè)5G行業(yè)

2022-05-24 20:00:56

XR(VR/AR)亞馬遜云科技

2025-04-17 09:12:00

2012-02-29 15:35:45

2023-12-01 15:37:11

點贊
收藏

51CTO技術棧公眾號