偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<kbd id="6awqo"></kbd>

<dfn id="6awqo"><strong id="6awqo"></strong></dfn>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Chain-of-Agents: OPPO推出通用智能體模型新范式，多榜單SOTA，模型代碼數(shù)據(jù)全開源

2025-08-25 08:45:00

人工智能新聞

本文提出了一種全新的智能體推理范式——Chain-of-Agents（CoA）。與傳統(tǒng)的 TIR 模型僅支持單一智能體的「思考-行動(dòng)-觀察」模式不同，CoA 框架能夠靈活定義多個(gè)角色和工具的智能體，在單一模型內(nèi)動(dòng)態(tài)激活，實(shí)現(xiàn)端到端的多智能體協(xié)作。

本文通訊作者周王春澍，OPPO個(gè)性化AI實(shí)驗(yàn)室負(fù)責(zé)人，主要研究方向是AI個(gè)性化、智能體的自主進(jìn)化和強(qiáng)化學(xué)習(xí)、以及大模型和智能體的記憶系統(tǒng)等。本文核心貢獻(xiàn)者均來自O(shè)PPO個(gè)性化AI實(shí)驗(yàn)室的AI智能體團(tuán)隊(duì)。

近年來，以多智能體系統(tǒng)（MAS）為代表的研究取得了顯著進(jìn)展，在深度研究、編程輔助等復(fù)雜問題求解任務(wù)中展現(xiàn)出強(qiáng)大的能力。現(xiàn)有的多智能體框架通過多個(gè)角色明確、工具多樣的智能體協(xié)作完成復(fù)雜任務(wù)，展現(xiàn)出明顯的優(yōu)勢(shì)。然而，現(xiàn)階段的 MAS 依然面臨一些關(guān)鍵限制：

計(jì)算開銷高：智能體之間頻繁冗余的通信和復(fù)雜的工作流設(shè)計(jì)導(dǎo)致效率不高。
泛化能力有限：面對(duì)新領(lǐng)域或新任務(wù)時(shí)，需要大量的 prompt 設(shè)計(jì)與工作流配置。
缺乏數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)能力：難以通過智能體任務(wù)數(shù)據(jù)實(shí)現(xiàn)持續(xù)提升性能。
底層的大語言模型（LLMs）未原生支持多輪、多智能體、多工具交互，仍依賴 prompt 工程實(shí)現(xiàn)。

同時(shí)，近期興起的工具融合推理（TIR）模型，通過顯式地將工具使用融入推理過程，顯著提升了單智能體框架（如 ReAct）在信息檢索任務(wù)中的表現(xiàn)。然而，傳統(tǒng)的 TIR 模型，無法直接支持多智能體系統(tǒng)的原生訓(xùn)練與協(xié)作。

針對(duì)上述瓶頸，本文提出了一種全新的智能體推理范式——Chain-of-Agents（CoA）。與傳統(tǒng)的 TIR 模型僅支持單一智能體的「思考-行動(dòng)-觀察」模式不同，CoA 框架能夠靈活定義多個(gè)角色和工具的智能體，在單一模型內(nèi)動(dòng)態(tài)激活，實(shí)現(xiàn)端到端的多智能體協(xié)作。

論文：https://www.arxiv.org/abs/2508.13167
主頁：https://chain-of-agents-afm.github.io/
代碼：https://github.com/OPPO-PersonalAI/Agent_Foundation_Models
模型：https://huggingface.co/collections/PersonalAILab/afm-models-689200e11d0b21a67c015ba8
數(shù)據(jù)：https://huggingface.co/collections/PersonalAILab/afm-datasets-6892140eaad360ea5ccdcde1

與傳統(tǒng)的 MAS 相比，CoA 無需復(fù)雜的 prompt 和工作流設(shè)計(jì)，降低了智能體間的通信開銷，并支持端到端訓(xùn)練，顯著提升了系統(tǒng)的效率和泛化能力。經(jīng)過訓(xùn)練后，具備原生 CoA 問題求解能力的模型稱為 Agent Foundation Model（AFM）。

在實(shí)驗(yàn)上，AFM 展示了卓越的性能和高效的推理能力，在近 20 項(xiàng)復(fù)雜任務(wù)和基準(zhǔn)測(cè)試中全面刷新記錄：在 Agentic 任務(wù)中，其在 GAIA 基準(zhǔn)上以 32B 模型實(shí)現(xiàn)了 55.4% 的 Pass@1 成功率；在代碼推理方面，AFM 在 LiveCodeBench v5 上的 47.9% 準(zhǔn)確率和在 CodeContests 上的 32.7% 成績均顯著超越現(xiàn)有 TIR 方法。同時(shí)，它將推理成本（token 消耗）減少高達(dá) 85.5%，在保持領(lǐng)先性能的同時(shí)大幅提升效率。

CoA 的架構(gòu)范式

CoA 采用了一種層次化的智能體架構(gòu)，包括兩個(gè)核心組成部分：

角色型智能體（Role-playing Agents）：進(jìn)行推理和協(xié)調(diào)的智能體，包括：思考智能體（Thinking Agent）、計(jì)劃智能體（Plan Agent）、反思智能體（Reflection Agent）和驗(yàn)證智能體（Verification Agent）。
工具型智能體（Tool Agents）：執(zhí)行特定任務(wù)的智能體，包括：搜索智能體（Search Agent）、爬取智能體（Crawl Agent）和代碼智能體（Code Agent）。

在 CoA 范式下，模型可以支持更多類型的智能體的推理和調(diào)用。

為了實(shí)現(xiàn) LLMs 的原生多智能體協(xié)作推理能力，本文開發(fā)了一套專門的 CoA 微調(diào)框架，用于構(gòu)建 AFM，該方法具體包括以下流程：

任務(wù)數(shù)據(jù)采集，生成與篩選：從公開數(shù)據(jù)集中采集不同類型的任務(wù)數(shù)據(jù)，以及采用自動(dòng)化的方式（如 TaskCraft）自動(dòng)生成高質(zhì)量智能體任務(wù)，并進(jìn)行有效過濾。
多智能體能力蒸餾：利用先進(jìn)的多智能體框架（如 OAgents）完成任務(wù)，將成功軌跡轉(zhuǎn)換為 CoA 兼容的形式。
監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí)：利用生成的 CoA 軌跡進(jìn)行模型微調(diào)，并通過可驗(yàn)證的智能體任務(wù)進(jìn)行強(qiáng)化學(xué)習(xí)，進(jìn)一步提升性能。

數(shù)據(jù)的構(gòu)建

任務(wù)采集

為了構(gòu)建豐富且多樣的訓(xùn)練數(shù)據(jù)，本文首先從網(wǎng)頁任務(wù)、數(shù)學(xué)和代碼推理兩大方面采樣任務(wù)數(shù)據(jù)，并用于后續(xù)軌跡生成：

網(wǎng)頁：利用開源 QA 數(shù)據(jù)集包括：NQ、TQ、HotpotQA、popqa、musique、2wiki、webdancer 以及利用 TaskCraft 自動(dòng)化生成軌跡。
數(shù)學(xué)和代碼：使用包括 LiveCodeBench v1-v3、CodeForces、ReTool SFT 和 SkyworkOR1 在內(nèi)的編程和數(shù)學(xué)推理數(shù)據(jù)集。

SFT 軌跡生成

為了采集 CoA 適配的數(shù)據(jù)用于 SFT，本方法基于先進(jìn)的多智能體系統(tǒng) OAgents，建立了一套統(tǒng)一的軌跡采集框架，生成結(jié)構(gòu)化的任務(wù)求解軌跡。具體來講，本方法利用 OAgents 執(zhí)行采集到的任務(wù)，并通過設(shè)定的規(guī)則產(chǎn)生反思和驗(yàn)證等行為，例如：按執(zhí)行成功率對(duì)數(shù)據(jù)進(jìn)行難度分級(jí)，對(duì)于難題引入反思機(jī)制，對(duì)于更難的題目基于答案引入規(guī)劃生成的引導(dǎo)等。執(zhí)行軌跡中有效的內(nèi)容將通過規(guī)則轉(zhuǎn)換的方式，以 CoA 要求的軌跡格式保存。最終產(chǎn)生約 87k 條 SFT 軌跡數(shù)據(jù)。

RL 數(shù)據(jù)篩選

為了進(jìn)一步提升智能體的多工具協(xié)作策略，在強(qiáng)化學(xué)習(xí)（RL）階段，本方法進(jìn)一步利用約 85k 條高質(zhì)量的 Agentic 任務(wù)、數(shù)學(xué)問題和代碼任務(wù)數(shù)據(jù)，通過嚴(yán)格的數(shù)據(jù)質(zhì)量篩選與策略抽樣，確保強(qiáng)化學(xué)習(xí)專注于最具挑戰(zhàn)的任務(wù)，防止過擬合。

實(shí)驗(yàn)

為了驗(yàn)證 CoA 范式與微調(diào)框架的有效性，本方法在多跳問答、智能體任務(wù)以及代碼生成和數(shù)學(xué)推理等多個(gè)智能體基準(zhǔn)上開展了全面的實(shí)驗(yàn)評(píng)估。

多跳問答（MHQA）任務(wù)評(píng)估

本文訓(xùn)練的 AFM 模型在 MHQA 基準(zhǔn)任務(wù)的單跳與多跳問答測(cè)試集中展現(xiàn)出穩(wěn)健且優(yōu)異的性能，相較于同規(guī)模模型保持一致的有效性，且整體表現(xiàn)更為突出。具體而言，AFM-SFT 在多個(gè)數(shù)據(jù)集上接近或者超越了先前的 SOTA 方法，有效驗(yàn)證了多智能體蒸餾技術(shù)在協(xié)同智能遷移方面的優(yōu)勢(shì)。經(jīng)過策略優(yōu)化后的 AFM-RL，在七個(gè)數(shù)據(jù)集上達(dá)成了平均性能的新高，樹立了當(dāng)前任務(wù)中的新標(biāo)桿。

在同類型且同規(guī)模的模型對(duì)比中，AFM 在不同的模型設(shè)置下都取得了領(lǐng)先成績（例如以 Qwen-2.5-7B-instruct 為基準(zhǔn)模型，平均準(zhǔn)確率達(dá)到了 45.5%，相較 ZeroSearch 提升 6.4%）。

AFM 在多跳問答任務(wù)中的提升尤為顯著，說明其在任務(wù)分解與工具使用方面具有更強(qiáng)的能力。并且在處理跨領(lǐng)域數(shù)據(jù)集時(shí)，AFM 的性能增益更加明顯，表明通過該框架訓(xùn)練的模型具備更強(qiáng)的泛化能力與適應(yīng)性。

復(fù)雜網(wǎng)頁搜索任務(wù)評(píng)估

AFM 在多個(gè)復(fù)雜知識(shí)密集型任務(wù)中刷新性能紀(jì)錄：

GAIA 基準(zhǔn)：AFM（Qwen-2.5-32B-Instruct）得分 55.4%，領(lǐng)先 WebSailor（+2.2%）與 WebDancer（+3.9%）。
BrowseComp：成功率 11.1%，居 32B 模型首位。
WebWalker：準(zhǔn)確率達(dá) 63.0%，超過 WebThinker-RL（+16.5%）、WebDancer（+24.6%）與 WebShaper（+11.6%）。
HLE 基準(zhǔn)：得分 18.0%，優(yōu)于 GPT-4.1 支持的 OWL（+11.6%）及 Deepseek-R1-671B（+9.4%）等多款主流推理模型。

即使使用更小的 Qwen-2.5-7B-Instruct 主干，AFM 仍在 HLE 任務(wù)中取得 15.6% 的成績，僅略低于采用更大主干的 WebThinker-RL（15.8%），同時(shí)在多個(gè)基準(zhǔn)任務(wù)中超越其他集成工具的 32B 模型。進(jìn)一步驗(yàn)證了 AFM 在智能體問題求解中的高效性，以及多智能體蒸餾策略在跨模型尺度中穩(wěn)定遷移協(xié)作智能的能力。

除此以外，本文還發(fā)現(xiàn)，單獨(dú) SFT 的模型也能取得優(yōu)異的結(jié)果：

GAIA：AFM-SFT 得分 50.5%，優(yōu)于 WebSailor-SFT（46.6%）。
WebWalker：AFM-SFT 達(dá) 61.5%，領(lǐng)先 WebShape-SFT（44.6%）。
BrowseComp：AFM-SFT 得 10.0%，高于 WebSailor-SFT（7.2%）。

這些結(jié)果均驗(yàn)證了 AFM 在工具協(xié)同、推理遷移和跨模型尺度上的卓越表現(xiàn)。

數(shù)學(xué)能力

AFM 在數(shù)學(xué)推理任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì)：

7B 模型：AFM-RL-7B 在五個(gè)數(shù)學(xué)基準(zhǔn)上均表現(xiàn)最佳，平均準(zhǔn)確率達(dá)到 64.3%，較次優(yōu)模型 SimpleTIR-7B-Multi 提高 3.6%。
32B 模型：AFM-RL-32B 平均準(zhǔn)確率為 78.0%，領(lǐng)先現(xiàn)有最優(yōu)模型 ReTool-32B 同樣 3.6%。在 AIME25 和 OlympiadBench 數(shù)據(jù)集上，AFM 分別取得 10.5% 和 5.7% 的絕對(duì)提升，體現(xiàn)了在復(fù)雜數(shù)學(xué)場(chǎng)景下更強(qiáng)的泛化與解題能力。

進(jìn)一步分析訓(xùn)練過程中的階段貢獻(xiàn)：

對(duì)于 7B 模型，SFT 帶來 22.0% 的準(zhǔn)確率提升，RL 在此基礎(chǔ)上再增益 20.8%。
對(duì)于 32B 模型，SFT 和 RL 分別帶來 23.4% 和 18.0% 的性能增幅。

綜合來看，AFM 通過多智能體蒸餾過程在 SFT 階段獲得了鏈?zhǔn)酵评砟芰?，如?guī)劃、反思和工具調(diào)用；RL 階段進(jìn)一步強(qiáng)化了這些能力，造就了其在數(shù)學(xué)推理任務(wù)中的全面優(yōu)勢(shì)。

代碼基準(zhǔn)

AFM 在代碼生成任務(wù)中同樣表現(xiàn)優(yōu)異，顯著超越多個(gè)基線模型：

在三項(xiàng)高難度編程任務(wù)中（LiveCodeBench v5、LiveCodeBench v4 和 CodeContests），與基礎(chǔ)模型相比，AFM 通過強(qiáng)化學(xué)習(xí)優(yōu)化后在 7B 與 32B 模型上平均準(zhǔn)確率分別提升 8.5% 和 13.2%，驗(yàn)證了其在代碼生成能力上的增強(qiáng)效果。
面對(duì)使用代碼解釋器的主流 TIR 模型，包括基于數(shù)學(xué)訓(xùn)練的 ReTool-32B 與專注代碼任務(wù)的 Reveal-32B，AFM 全面領(lǐng)先。即便僅采用 SFT 訓(xùn)練，AFM 在 LiveCodeBench V5 數(shù)據(jù)集上的表現(xiàn)亦優(yōu)于上述模型，證明本文方法能有效提升復(fù)雜編程能力。
在 SFT 的基礎(chǔ)上，經(jīng) RL 精調(diào)后，AFM 在 7B 與 32B 模型上進(jìn)一步獲得 1.8% 和 3.2% 的提升，體現(xiàn)了智能體強(qiáng)化學(xué)習(xí)對(duì)編程能力的持續(xù)增強(qiáng)效果。

效率分析

AFM 在工具調(diào)用效率和推理成本方面展現(xiàn)出顯著優(yōu)勢(shì)，基于 GAIA 數(shù)據(jù)集的 10 個(gè)實(shí)例，對(duì)比 AFM 與三個(gè)主流框架（OAgents、WebThinker 和 AFM）在工具調(diào)用和 token 消耗上的表現(xiàn)。結(jié)果顯示：

在工具效率維度上（單位任務(wù)成功所需調(diào)用次數(shù)），AFM 使用的工具調(diào)用次數(shù)最少。
在 token 效率方面（每個(gè)成功任務(wù)所需的提示工程成本），AFM 的 token 消耗最低，包括整體和工具相關(guān) token。

Test-Time Scaling 分析

此外，AFM 在 Test-Time Scaling 方面表現(xiàn)卓越，并在多項(xiàng)智能體基準(zhǔn)中展現(xiàn)穩(wěn)健性能。通過對(duì) GAIA、WebWalker、BrowseComp 和 HLE 四個(gè)任務(wù)的深入分析，AFM 及其變體：AFM-Bo3 與 AFM-Pass@3，在測(cè)試階段進(jìn)一步驗(yàn)證了模型的泛化與推理效能。AFM-Bo3 采用三選一優(yōu)化策略，通過 Qwen-2.5-72B-Instruct 模型評(píng)估三個(gè)候選答案以選出最優(yōu)路徑；AFM-Pass@3 則采用三次嘗試中至少一次正確的機(jī)制以提升任務(wù)完成率。

在與其他主流智能體模型對(duì)比中，這三種方式均在多項(xiàng)任務(wù)中展現(xiàn)出領(lǐng)先優(yōu)勢(shì)，證明了 AFM 具備優(yōu)越的策略組合能力與穩(wěn)健的跨任務(wù)適應(yīng)性，也體現(xiàn)出該方法在訓(xùn)練后仍可通過推理策略擴(kuò)展進(jìn)一步提升表現(xiàn)。

結(jié)束語

CoA 范式與 AFM 模型的突破，本質(zhì)上是通過層次化智能體架構(gòu)與端到端訓(xùn)練，解決了傳統(tǒng)多智能體系統(tǒng)（MAS）在通信效率、泛化能力與 LLM 原生協(xié)作支持上的核心矛盾。其技術(shù)價(jià)值不僅體現(xiàn)在近 20 項(xiàng)基準(zhǔn)測(cè)試的性能躍升，更在于構(gòu)建了一套可擴(kuò)展的智能體推理框架——角色型智能體（思考、計(jì)劃、反思、驗(yàn)證）與工具型智能體（搜索、爬取、代碼）的動(dòng)態(tài)激活機(jī)制，使 LLM 首次具備無需外部工作流配置即可完成復(fù)雜協(xié)作的能力。

從技術(shù)細(xì)節(jié)看，AFM 的優(yōu)勢(shì)源于兩點(diǎn)：一是多智能體能力蒸餾過程中，將 OAgents 的成功軌跡轉(zhuǎn)化為 CoA 兼容格式，實(shí)現(xiàn)了協(xié)作策略的高效遷移；二是 RL 階段針對(duì)高難度任務(wù)的策略優(yōu)化，顯著增強(qiáng)了工具調(diào)用的精準(zhǔn)性（如數(shù)學(xué)推理中 7B 模型經(jīng) RL 后準(zhǔn)確率提升 20.8%）。這種「蒸餾-微調(diào)-強(qiáng)化」的技術(shù)路徑，為其他智能體框架提供了可復(fù)用的訓(xùn)練范式。

然而，作為一項(xiàng)突破性工作，CoA 與 AFM 仍存在待探索的技術(shù)方向：

動(dòng)態(tài)角色生成能力：當(dāng)前角色型智能體的類型與分工需預(yù)先定義，未來可探索基于任務(wù)特性自主生成新角色的機(jī)制，進(jìn)一步提升對(duì)未知任務(wù)的適應(yīng)性。
跨模態(tài)工具融合：現(xiàn)有工具型智能體以文本（搜索、代碼）為主，如何將圖像、語音等模態(tài)工具納入 CoA 框架，是擴(kuò)展應(yīng)用場(chǎng)景的關(guān)鍵。
長周期任務(wù)記憶機(jī)制：對(duì)于持續(xù)數(shù)天甚至數(shù)月的復(fù)雜任務(wù)（如長期科研跟蹤），需設(shè)計(jì)更高效的智能體狀態(tài)記憶與歷史軌跡復(fù)用策略，避免重復(fù)推理開銷。

這些待解問題，既是 CoA 范式向更通用智能體系統(tǒng)進(jìn)化的必經(jīng)之路，也為研究者提供了明確的技術(shù)探索方向。隨著開源模型、數(shù)據(jù)集與代碼的開放，AFM 有望成為智能體協(xié)作領(lǐng)域的重要基線，推動(dòng)多智能體技術(shù)從「任務(wù)適配」走向「通用協(xié)作」。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型代碼開源

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營