偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<table id="hdc6o"></table>

<rt id="hdc6o"></rt>

<ruby id="hdc6o"></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

從"調用工具"到"思考策略"：Chain-of-Agents實現智能體技術的臨界點突破

作者：肆零柒 2025-09-05 09:00:43

Chain-of-Agents范式實現了智能體技術的創(chuàng)新思考。它通過多智能體蒸餾，將協(xié)作智慧內化于單一模型，不僅性能超越頂尖系統(tǒng)，更將推理成本銳減84.6%，為AI的實用化給出了強力支撐。

大家好，我是肆零柒。今天，我們一起來了解一篇由OPPO AI Agent Team研究的論文。這項工作名為Chain-of-Agents（CoA），它不只是一個新的AI框架，更是一次對"智能體"本質的深刻探索。研究團隊通過多智能體蒸餾和智能體強化學習，成功地將一個由多個專家組成的"智囊團"壓縮進了一個單一的、可端到端優(yōu)化的基礎模型中，這究竟是如何做到的？讓我們一起了解一下。

一個看似不可能完成的任務

想象這樣一個任務：你需要找出某位匿名博主的第一篇博客發(fā)布日期，該博客需滿足多個嚴格條件——博主當時是8年級學生、博客發(fā)表于2005-2013年間、內容提及因觀看某部2002-2010年上映的電影而產生焦慮、還提到博主的母親和暗戀對象。想一想，如果你是AI系統(tǒng)，會如何解決這個多條件約束問題？是嘗試一次性搜索所有條件，還是分步解決？你會如何驗證找到的信息是否準確？

傳統(tǒng)方法往往直接構建復雜查詢："anonymous blog first posted 8th grade anxiety attack movie review 2005..2013"，期望一次搜索就能找到完美匹配的結果。

然而，這種策略幾乎注定失敗——搜索結果全是關于焦慮障礙和抑郁癥的醫(yī)學文章，而非實際博客內容。這種困境正是Chain-of-Agents（CoA）要解決的核心問題。CoA并不是將多個工具簡單串聯(lián)起來，而是讓單一模型動態(tài)模擬多智能體協(xié)作過程，實現真正的端到-end復雜問題解決。下面我們一起深入理解一下CoA如何巧妙破解這類難題，并揭示其背后的技術內核。

Chain-of-Agents的"啊哈時刻"：從失敗到成功的思維轉變

下面，我們跟隨Chain-of-Agents解決這個極具挑戰(zhàn)性的"8年級匿名博客"任務，完整體驗其思維歷程：

初始失?。簭碗s查詢的陷阱

系統(tǒng)首先嘗試使用復雜查詢直接搜索（Step 3）：

<web_search>anonymous blog first posted 8th grade anxiety attack movie review 2005..2013</web_search>

結果令人失望——返回的內容全是關于焦慮障礙和抑郁癥的醫(yī)學文章，而非實際博客。系統(tǒng)通過自我評估標記為：

information_conflict: Good
tool_effectiveness: Fair
trajectory_monitoring: Fair

這時不妨想想，當搜索結果完全偏離預期時，你會如何調整策略？是稍微簡化查詢，還是徹底重構搜索思路？

深度反思：發(fā)現問題根源

在Step 4，系統(tǒng)激活了反思智能體進行深度分析：

Reflection: Most authoritative have a one-year delay in their latest data, providing only estimates for 2022 or 2023, whereas I need actual population change data for the past year. Some third-party websites offer more "real-time" 2024 figures, but their sources are unclear. Many sources only provide a single global population figure, lacking multidimensional data. Therefore, I need to restrict the...

這一反思揭示了關鍵問題：復雜查詢導致搜索結果偏離目標，需要分步重構問題。

策略重構：多步推理

基于反思，系統(tǒng)在Step 5激活計劃智能體，制定了清晰的四步策略：

1. 搜索相關電影名稱

2. 識別可能引起焦慮的電影

3. 查找博客內容

4. 驗證發(fā)布日期

在Step 6-15中，系統(tǒng)動態(tài)切換搜索智能體和爬取智能體，逐步收集證據：

首先識別出《暮光之城》可能是目標電影
通過LiveJournal平臺找到具體博客
確認博客發(fā)布日期為2011年10月23日
驗證博主當時是8年級學生

最終在Step 16，系統(tǒng)自信地給出答案：

The anonymous person’s first blog post was dated October 23, 2011. The DVD Talk reviewer mentioned in that post is Scott Weinberg.

關鍵收獲：CoA系統(tǒng)不是簡單地執(zhí)行預設流程，而是通過反思-規(guī)劃-執(zhí)行-驗證的閉環(huán)，動態(tài)調整策略。當初始方法失敗時，它能識別問題根源，重構解決方案，這正是人類專家的思維方式。

思考一下：為什么系統(tǒng)在Step 15選擇使用suggested_answer工具而非繼續(xù)搜索？這反映了CoA的什么核心能力？答案在于double_check評分機制——當系統(tǒng)確認已收集到所有必要信息（博客日期和影評人姓名），且信息一致性高時，它會果斷停止搜索。這種"知道何時停止"的能力，避免了傳統(tǒng)系統(tǒng)常見的過度搜索問題，也是推理成本降低84.6%的關鍵原因之一。

AFM與傳統(tǒng)多智能體系統(tǒng)(MAS)和工具集成推理(TIR)方法的性能效率對比。AFM在顯著降低推理成本的同時保持了高性能

Chain-of-Agents的臨界點突破：從工程框架到可優(yōu)化模型

Chain-of-Agents的真正突破不在于單個技術點，而在于它解決了智能體系統(tǒng)發(fā)展的"臨界點"問題——如何將多智能體系統(tǒng)的協(xié)作優(yōu)勢內化到單一模型中。

1. 四大范式的對比與CoA的突破

上表：不同智能體范式的對比分析。Chain-of-Agents是唯一同時支持工具集成、端到端執(zhí)行、多智能體協(xié)作和數據驅動優(yōu)化的范式。

通過對比上表中的數據，我們可以清晰看到CoA的突破性優(yōu)勢：它不僅繼承了多智能體系統(tǒng)的協(xié)作優(yōu)勢，還解決了傳統(tǒng)多智能體系統(tǒng)面臨的計算效率低、無法端到端優(yōu)化等問題。

2. TIR與CoA的本質區(qū)別

TIR與CoA范式的對比示意圖。TIR采用靜態(tài)的"思考-行動-觀察"工作流，而CoA支持可由多智能體系統(tǒng)建模的任何工作流，支持更多樣化的角色扮演智能體和工具智能體

在技術內核深度解析部分，我們可以看到Chain-of-Agents的狀態(tài)轉換模型可表示為：

為什么這很重要？ 這個看似抽象的數學表達解決了傳統(tǒng)多智能體系統(tǒng)的核心痛點——上下文斷裂。在傳統(tǒng)系統(tǒng)中，每個智能體只能看到有限上下文，導致"工具協(xié)調困境"；而CoA通過維護持久推理狀態(tài)，使后續(xù)智能體能夠基于完整歷史進行決策，如同人類專家在解決問題時不斷更新自己的"思維筆記"。

在"8年級匿名博客"案例中，當系統(tǒng)從Step 3的失敗中學習后，狀態(tài)記錄了"復雜查詢不可行"的關鍵洞察，這直接影響了Step 4的策略調整。如果沒有這種狀態(tài)持續(xù)性，系統(tǒng)可能會在每次工具調用后"忘記"之前的教訓，重復同樣的錯誤。

實際價值：這正是CoA能夠將推理成本降低84.6%的關鍵技術基礎——避免了傳統(tǒng)多智能體系統(tǒng)中因上下文分割而導致的重復溝通和信息丟失。

技術內核深度解析：讓單一模型學會多智能體協(xié)作

Chain-of-Agents的技術突破在于它讓單一模型能夠模擬多智能體協(xié)作過程，而無需依賴復雜的外部框架。讓我們深入理解其技術內核，并將每個技術點與實際案例關聯(lián)。

多智能體蒸餾框架

提出的多智能體蒸餾框架示意圖，該框架使用最先進的多智能體系統(tǒng)（如OAgents）合成Chain-of-Agents軌跡

多智能體知識蒸餾是CoA的核心技術。研究團隊利用OAgents（最先進的開源多智能體系統(tǒng)）來提取Chain-of-Agents軌跡，通過監(jiān)控其執(zhí)行過程，記錄每個智能體的激活、推理狀態(tài)和輸出。這種方法將序列級知識蒸餾原則擴展到多智能體領域，捕獲專家多智能體系統(tǒng)的完整執(zhí)行軌跡，而非僅僅是單詞級分布。

訓練框架概述。(I) SFT階段使用重新格式化的ReAct數據（包含短鏈和長鏈思維）進行冷啟動。(II) RL階段在未使用的QA對上執(zhí)行工具感知rollouts并優(yōu)化策略。

在"8年級匿名博客"案例中，我們看到：

當初始搜索失敗時，系統(tǒng)自動激活反思智能體進行策略評估
確定新策略后，系統(tǒng)激活計劃智能體生成分步執(zhí)行計劃
執(zhí)行過程中，系統(tǒng)動態(tài)切換搜索智能體和爬取智能體

這種動態(tài)角色切換是傳統(tǒng)單智能體系統(tǒng)無法實現的。"Chain-of-Agents中的多智能體協(xié)作并非簡單的平等協(xié)作，而是存在明確的層次結構。思考智能體(Thinking Agent)作為'元控制器'，負責整體協(xié)調；計劃智能體(Plan Agent)和反思智能體(Reflection Agent)構成中層決策層；而工具智能體則位于執(zhí)行層。"

觀察掩碼損失：從噪聲中提取關鍵信息

觀察掩碼損失(Observation Masking Loss)是CoA訓練中的關鍵技術，它使模型學會區(qū)分可靠信息與噪聲。在案例中，當系統(tǒng)爬取LiveJournal頁面時，返回了大量無關鏈接（如"[FAQ] (URL)"和"[Site Map] (URL)"），觀察掩碼損失幫助模型忽略這些噪聲，專注于提取"October 23, 2011"這樣的關鍵日期信息。

實際價值：沒有這一機制，系統(tǒng)可能會被環(huán)境噪聲誤導，導致推理路徑偏離。正是這種從噪聲中提取信號的能力，使CoA在真實世界任務中表現出色。

性能優(yōu)勢的直觀解讀：數據背后的真相

Chain-of-Agents的優(yōu)勢不僅體現在理論層面，更在實證研究中得到驗證。讓我們深度理解一下關鍵性能數據，理解CoA為何是智能體技術的重要突破。

GAIA基準測試：復雜任務上的優(yōu)勢

AFM與最先進的工具集成推理(TIR)方法在GAIA、BrowseComp、HLE和AIME25基準測試中的性能對比。AFM在網頁智能體和代碼智能體基準測試中均表現出一致的有效性

上圖展示了Chain-of-Agents的突破性價值。觀察GAIA基準測試中不同難度級別的表現：

Level 1任務（基本任務）：AFM-RL (7B) 達到53.8%，超過了WebThinker-RL (QwQ-32B)的53.8%（持平），顯著優(yōu)于WebDancer的46.1%
Level 2任務（中等難度）：AFM-RL (7B) 達到32.7%，雖略低于WebThinker-RL的44.2%，但優(yōu)于WebDancer的30.7%

性能躍遷：AFM 在多項高難度的網頁智能體基準測試中刷新 Pass@1 成績，達到新的 SOTA：GAIA 55.3%，BrowseComp 11.1%，HLE 18.0%。與WebSailor相比，AFM在GAIA測試中高出2.1個百分點（55.3% vs 53.2%），在BrowseComp上高出0.6個百分點（11.1% vs 10.5%），在HLE上高出2.2個百分點（18.0% vs 15.8%）。這些看似微小的差距，實際上代表了智能體技術的重要進步。

從實驗室到實際應用

Chain-of-Agents的出現不僅是技術上的突破，更為智能體技術的發(fā)展開辟了新方向。

1. 多智能體蒸餾的擴展與優(yōu)化

當前的多智能體蒸餾框架主要關注任務執(zhí)行軌跡，未來可能擴展至：

情感與風格蒸餾：不僅學習如何解決問題，還學習專家的表達風格和決策偏好
跨領域蒸餾：將特定領域的專業(yè)知識（如醫(yī)學、法律）更有效地遷移到通用智能體中
人類反饋整合：結合人類專家的實時反饋，進一步優(yōu)化蒸餾過程

研究團隊將所有代碼、數據和模型完全開源的決定，為智能體模型和agentic RL研究提供了堅實起點。這一開放態(tài)度將加速這些擴展方向的研究。

2. 智能體強化學習的進階

未來的agentic RL可能在以下方向取得突破：

更精細的獎勵設計：針對不同任務類型設計差異化的獎勵函數
長期規(guī)劃能力：增強模型在超長推理鏈中的保持能力
不確定性感知：讓模型能夠識別自身知識的邊界，避免過度自信

研究還提到了RL訓練過程中的關鍵觀察：在代碼智能體的強化學習訓練過程中，研究團隊持續(xù)跟蹤訓練獎勵與回復長度的變化趨勢。隨著訓練步數增加，模型逐步學會更高效的解題策略：既壓縮了冗余的冗長輸出，又顯著提升了任務完成率。

這種優(yōu)化過程表明，agentic RL能夠有效引導模型發(fā)展出更精煉、更有效的推理路徑。

3. 未見智能體的泛化能力

AFM展示了出色的未見智能體泛化能力：盡管在訓練時僅接觸過Python解釋器，但模型能夠正確編排Web搜索等未見過的工具。在GAIA測試集上的零樣本評估中，模型能夠嚴格遵循提示指定的格式，展示了強大的泛化能力。

在"Chain-of-Agents"框架下，研究者評估了模型的零樣本智能體泛化能力。訓練階段，代碼智能體模型僅接觸過由 Python 解釋器執(zhí)行的代碼與數學任務，從未見過網頁搜索、視覺檢測等工具智能體。推理時，將完整的工具描述和調用格式顯式寫進提示，并以 GAIA 測試集作為任務基準。結果顯示，代碼智能體嚴格遵循提示中的格式要求，并能夠正確調用這些從未見過的工具。

這種泛化能力如何應用于實際場景？例如，在企業(yè)環(huán)境中，新工具可能隨時加入系統(tǒng)。AFM的泛化能力意味著：

無需重新訓練即可支持新工具
能夠理解工具之間的邏輯關系
可以根據任務需求智能組合不同工具

這種能力對于構建靈活、可擴展的企業(yè)級智能體系統(tǒng)至關重要。

如何有效應用Chain-of-Agents

對于希望應用Agent Foundation Models（AFM）的開發(fā)者，以下是一些實用建議：

1. 系統(tǒng)環(huán)境配置：確保安全執(zhí)行

研究中使用nsjail提供了細粒度的資源限制，對AFM模型設置了5秒CPU時間上限和5GB內存限制，以確保受控執(zhí)行。這種安全機制對于防止惡意代碼執(zhí)行和資源濫用至關重要。

重要提示：在部署代碼生成智能體時，務必實施嚴格的沙盒環(huán)境，限制執(zhí)行時間和內存使用，避免潛在的安全風險。

2. 推理服務搭建：支持動態(tài)角色切換

API設計應充分考慮Chain-of-Agents的多智能體特性，支持動態(tài)角色切換和工具調用。性能優(yōu)化方面，可以利用AFM顯著降低的token消耗優(yōu)勢，在保持性能的同時大幅減少計算資源需求。

重要提示：設計API時，應允許客戶端指定可用工具集，并提供清晰的錯誤反饋機制，幫助模型在工具調用失敗時進行有效調整。

3. 工具協(xié)調難題解決

通過設計雙向搜索與代碼工具交互機制，提升復雜任務處理能力。例如，在處理需要驗證的數據時，讓搜索工具的結果直接作為代碼工具的輸入，實現工具間的無縫協(xié)作。

注意：當構建需要多工具協(xié)作的任務時，明確設計工具間的輸入輸出接口，確保信息能夠流暢傳遞。例如，搜索結果應以結構化格式提供，便于代碼工具直接處理。

"Chain-of-Agents的自我評估機制是其卓越性能的核心。通過information_conflict、tool_effectiveness和trajectory_monitoring三大評估指標，系統(tǒng)能夠實時監(jiān)控推理過程質量，并據此進行動態(tài)調整。"

隨著研究團隊將所有代碼、數據和模型完全開源，我們可能會看到更多基于CoA范式的創(chuàng)新應用，在深度研究、vibe coding和數學推理等復雜任務中發(fā)揮更大作用?？傮w而言，Chain-of-Agents不僅解決了工具協(xié)調困境和多智能體轉移困境，還大幅提升了系統(tǒng)效率和問題解決能力。這一思路可能為未來AI系統(tǒng)的設計提供新的靈感和方向，讓智能體進化的更加高效、靈活和強大。

責任編輯：龐桂玉來源：覺察流

智能體 AI框架多智能體蒸餾強化學習

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<nav id="zp9hc"><tt id="zp9hc"></tt></nav>

<meter id="zp9hc"><sub id="zp9hc"></sub></meter>

<ruby id="zp9hc"></ruby>