偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Chain-of-Agents: OPPO推出通用智能體模型新范式,多榜單SOTA,模型代碼數(shù)據(jù)全開源

人工智能 新聞
本文提出了一種全新的智能體推理范式——Chain-of-Agents(CoA)。與傳統(tǒng)的 TIR 模型僅支持單一智能體的「思考-行動(dòng)-觀察」模式不同,CoA 框架能夠靈活定義多個(gè)角色和工具的智能體,在單一模型內(nèi)動(dòng)態(tài)激活,實(shí)現(xiàn)端到端的多智能體協(xié)作。

本文通訊作者周王春澍,OPPO個(gè)性化AI實(shí)驗(yàn)室負(fù)責(zé)人,主要研究方向是AI個(gè)性化、智能體的自主進(jìn)化和強(qiáng)化學(xué)習(xí)、以及大模型和智能體的記憶系統(tǒng)等。本文核心貢獻(xiàn)者均來自O(shè)PPO個(gè)性化AI實(shí)驗(yàn)室的AI智能體團(tuán)隊(duì)。

近年來,以多智能體系統(tǒng)(MAS)為代表的研究取得了顯著進(jìn)展,在深度研究、編程輔助等復(fù)雜問題求解任務(wù)中展現(xiàn)出強(qiáng)大的能力。現(xiàn)有的多智能體框架通過多個(gè)角色明確、工具多樣的智能體協(xié)作完成復(fù)雜任務(wù),展現(xiàn)出明顯的優(yōu)勢(shì)。然而,現(xiàn)階段的 MAS 依然面臨一些關(guān)鍵限制:

  • 計(jì)算開銷高:智能體之間頻繁冗余的通信和復(fù)雜的工作流設(shè)計(jì)導(dǎo)致效率不高。
  • 泛化能力有限:面對(duì)新領(lǐng)域或新任務(wù)時(shí),需要大量的 prompt 設(shè)計(jì)與工作流配置。
  • 缺乏數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)能力:難以通過智能體任務(wù)數(shù)據(jù)實(shí)現(xiàn)持續(xù)提升性能。
  • 底層的大語言模型(LLMs)未原生支持多輪、多智能體、多工具交互,仍依賴 prompt 工程實(shí)現(xiàn)。

同時(shí),近期興起的工具融合推理(TIR)模型,通過顯式地將工具使用融入推理過程,顯著提升了單智能體框架(如 ReAct)在信息檢索任務(wù)中的表現(xiàn)。然而,傳統(tǒng)的 TIR 模型,無法直接支持多智能體系統(tǒng)的原生訓(xùn)練與協(xié)作。

針對(duì)上述瓶頸,本文提出了一種全新的智能體推理范式——Chain-of-Agents(CoA)。與傳統(tǒng)的 TIR 模型僅支持單一智能體的「思考-行動(dòng)-觀察」模式不同,CoA 框架能夠靈活定義多個(gè)角色和工具的智能體,在單一模型內(nèi)動(dòng)態(tài)激活,實(shí)現(xiàn)端到端的多智能體協(xié)作。

圖片

  • 論文:https://www.arxiv.org/abs/2508.13167
  • 主頁:https://chain-of-agents-afm.github.io/
  • 代碼:https://github.com/OPPO-PersonalAI/Agent_Foundation_Models
  • 模型:https://huggingface.co/collections/PersonalAILab/afm-models-689200e11d0b21a67c015ba8
  • 數(shù)據(jù):https://huggingface.co/collections/PersonalAILab/afm-datasets-6892140eaad360ea5ccdcde1

與傳統(tǒng)的 MAS 相比,CoA 無需復(fù)雜的 prompt 和工作流設(shè)計(jì),降低了智能體間的通信開銷,并支持端到端訓(xùn)練,顯著提升了系統(tǒng)的效率和泛化能力。經(jīng)過訓(xùn)練后,具備原生 CoA 問題求解能力的模型稱為 Agent Foundation Model(AFM)。

在實(shí)驗(yàn)上,AFM 展示了卓越的性能和高效的推理能力,在近 20 項(xiàng)復(fù)雜任務(wù)和基準(zhǔn)測(cè)試中全面刷新記錄:在 Agentic 任務(wù)中,其在 GAIA 基準(zhǔn)上以 32B 模型實(shí)現(xiàn)了 55.4% 的 Pass@1 成功率;在代碼推理方面,AFM 在 LiveCodeBench v5 上的 47.9% 準(zhǔn)確率和在 CodeContests 上的 32.7% 成績均顯著超越現(xiàn)有 TIR 方法。同時(shí),它將推理成本(token 消耗)減少高達(dá) 85.5%,在保持領(lǐng)先性能的同時(shí)大幅提升效率。

圖片

CoA 的架構(gòu)范式

圖片

CoA 采用了一種層次化的智能體架構(gòu),包括兩個(gè)核心組成部分:

  • 角色型智能體(Role-playing Agents):進(jìn)行推理和協(xié)調(diào)的智能體,包括:思考智能體(Thinking Agent)、計(jì)劃智能體(Plan Agent)、反思智能體(Reflection Agent)和驗(yàn)證智能體(Verification Agent)。
  • 工具型智能體(Tool Agents):執(zhí)行特定任務(wù)的智能體,包括:搜索智能體(Search Agent)、爬取智能體(Crawl Agent)和代碼智能體(Code Agent)。

在 CoA 范式下,模型可以支持更多類型的智能體的推理和調(diào)用。

為了實(shí)現(xiàn) LLMs 的原生多智能體協(xié)作推理能力,本文開發(fā)了一套專門的 CoA 微調(diào)框架,用于構(gòu)建 AFM,該方法具體包括以下流程:

圖片

  • 任務(wù)數(shù)據(jù)采集,生成與篩選:從公開數(shù)據(jù)集中采集不同類型的任務(wù)數(shù)據(jù),以及采用自動(dòng)化的方式(如 TaskCraft)自動(dòng)生成高質(zhì)量智能體任務(wù),并進(jìn)行有效過濾。
  • 多智能體能力蒸餾:利用先進(jìn)的多智能體框架(如 OAgents)完成任務(wù),將成功軌跡轉(zhuǎn)換為 CoA 兼容的形式。
  • 監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí):利用生成的 CoA 軌跡進(jìn)行模型微調(diào),并通過可驗(yàn)證的智能體任務(wù)進(jìn)行強(qiáng)化學(xué)習(xí),進(jìn)一步提升性能。

數(shù)據(jù)的構(gòu)建

任務(wù)采集

為了構(gòu)建豐富且多樣的訓(xùn)練數(shù)據(jù),本文首先從網(wǎng)頁任務(wù)、數(shù)學(xué)和代碼推理兩大方面采樣任務(wù)數(shù)據(jù),并用于后續(xù)軌跡生成:

  • 網(wǎng)頁:利用開源 QA 數(shù)據(jù)集包括:NQ、TQ、HotpotQA、popqa、musique、2wiki、webdancer 以及利用 TaskCraft 自動(dòng)化生成軌跡。
  • 數(shù)學(xué)和代碼:使用包括 LiveCodeBench v1-v3、CodeForces、ReTool SFT 和 SkyworkOR1 在內(nèi)的編程和數(shù)學(xué)推理數(shù)據(jù)集。

SFT 軌跡生成

為了采集 CoA 適配的數(shù)據(jù)用于 SFT,本方法基于先進(jìn)的多智能體系統(tǒng) OAgents,建立了一套統(tǒng)一的軌跡采集框架,生成結(jié)構(gòu)化的任務(wù)求解軌跡。具體來講,本方法利用 OAgents 執(zhí)行采集到的任務(wù),并通過設(shè)定的規(guī)則產(chǎn)生反思和驗(yàn)證等行為,例如:按執(zhí)行成功率對(duì)數(shù)據(jù)進(jìn)行難度分級(jí),對(duì)于難題引入反思機(jī)制,對(duì)于更難的題目基于答案引入規(guī)劃生成的引導(dǎo)等。執(zhí)行軌跡中有效的內(nèi)容將通過規(guī)則轉(zhuǎn)換的方式,以 CoA 要求的軌跡格式保存。最終產(chǎn)生約 87k 條 SFT 軌跡數(shù)據(jù)。

RL 數(shù)據(jù)篩選

為了進(jìn)一步提升智能體的多工具協(xié)作策略,在強(qiáng)化學(xué)習(xí)(RL)階段,本方法進(jìn)一步利用約 85k 條高質(zhì)量的 Agentic 任務(wù)、數(shù)學(xué)問題和代碼任務(wù)數(shù)據(jù),通過嚴(yán)格的數(shù)據(jù)質(zhì)量篩選與策略抽樣,確保強(qiáng)化學(xué)習(xí)專注于最具挑戰(zhàn)的任務(wù),防止過擬合。

實(shí)驗(yàn)

為了驗(yàn)證 CoA 范式與微調(diào)框架的有效性,本方法在多跳問答、智能體任務(wù)以及代碼生成和數(shù)學(xué)推理等多個(gè)智能體基準(zhǔn)上開展了全面的實(shí)驗(yàn)評(píng)估。

多跳問答(MHQA)任務(wù)評(píng)估

本文訓(xùn)練的 AFM 模型在 MHQA 基準(zhǔn)任務(wù)的單跳與多跳問答測(cè)試集中展現(xiàn)出穩(wěn)健且優(yōu)異的性能,相較于同規(guī)模模型保持一致的有效性,且整體表現(xiàn)更為突出。具體而言,AFM-SFT 在多個(gè)數(shù)據(jù)集上接近或者超越了先前的 SOTA 方法,有效驗(yàn)證了多智能體蒸餾技術(shù)在協(xié)同智能遷移方面的優(yōu)勢(shì)。經(jīng)過策略優(yōu)化后的 AFM-RL,在七個(gè)數(shù)據(jù)集上達(dá)成了平均性能的新高,樹立了當(dāng)前任務(wù)中的新標(biāo)桿。

在同類型且同規(guī)模的模型對(duì)比中,AFM 在不同的模型設(shè)置下都取得了領(lǐng)先成績(例如以 Qwen-2.5-7B-instruct 為基準(zhǔn)模型,平均準(zhǔn)確率達(dá)到了 45.5%,相較 ZeroSearch 提升 6.4%)。

AFM 在多跳問答任務(wù)中的提升尤為顯著,說明其在任務(wù)分解與工具使用方面具有更強(qiáng)的能力。并且在處理跨領(lǐng)域數(shù)據(jù)集時(shí),AFM 的性能增益更加明顯,表明通過該框架訓(xùn)練的模型具備更強(qiáng)的泛化能力與適應(yīng)性。

圖片

復(fù)雜網(wǎng)頁搜索任務(wù)評(píng)估

AFM 在多個(gè)復(fù)雜知識(shí)密集型任務(wù)中刷新性能紀(jì)錄:

  • GAIA 基準(zhǔn):AFM(Qwen-2.5-32B-Instruct)得分 55.4%,領(lǐng)先 WebSailor(+2.2%)與 WebDancer(+3.9%)。
  • BrowseComp:成功率 11.1%,居 32B 模型首位。
  • WebWalker:準(zhǔn)確率達(dá) 63.0%,超過 WebThinker-RL(+16.5%)、WebDancer(+24.6%)與 WebShaper(+11.6%)。
  • HLE 基準(zhǔn):得分 18.0%,優(yōu)于 GPT-4.1 支持的 OWL(+11.6%)及 Deepseek-R1-671B(+9.4%)等多款主流推理模型。

即使使用更小的 Qwen-2.5-7B-Instruct 主干,AFM 仍在 HLE 任務(wù)中取得 15.6% 的成績,僅略低于采用更大主干的 WebThinker-RL(15.8%),同時(shí)在多個(gè)基準(zhǔn)任務(wù)中超越其他集成工具的 32B 模型。進(jìn)一步驗(yàn)證了 AFM 在智能體問題求解中的高效性,以及多智能體蒸餾策略在跨模型尺度中穩(wěn)定遷移協(xié)作智能的能力。

除此以外,本文還發(fā)現(xiàn),單獨(dú) SFT 的模型也能取得優(yōu)異的結(jié)果:

  • GAIA:AFM-SFT 得分 50.5%,優(yōu)于 WebSailor-SFT(46.6%)。
  • WebWalker:AFM-SFT 達(dá) 61.5%,領(lǐng)先 WebShape-SFT(44.6%)。
  • BrowseComp:AFM-SFT 得 10.0%,高于 WebSailor-SFT(7.2%)。

這些結(jié)果均驗(yàn)證了 AFM 在工具協(xié)同、推理遷移和跨模型尺度上的卓越表現(xiàn)。

圖片

數(shù)學(xué)能力

AFM 在數(shù)學(xué)推理任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì):

  • 7B 模型:AFM-RL-7B 在五個(gè)數(shù)學(xué)基準(zhǔn)上均表現(xiàn)最佳,平均準(zhǔn)確率達(dá)到 64.3%,較次優(yōu)模型 SimpleTIR-7B-Multi 提高 3.6%。
  • 32B 模型:AFM-RL-32B 平均準(zhǔn)確率為 78.0%,領(lǐng)先現(xiàn)有最優(yōu)模型 ReTool-32B 同樣 3.6%。在 AIME25 和 OlympiadBench 數(shù)據(jù)集上,AFM 分別取得 10.5% 和 5.7% 的絕對(duì)提升,體現(xiàn)了在復(fù)雜數(shù)學(xué)場(chǎng)景下更強(qiáng)的泛化與解題能力。

進(jìn)一步分析訓(xùn)練過程中的階段貢獻(xiàn):

  • 對(duì)于 7B 模型,SFT 帶來 22.0% 的準(zhǔn)確率提升,RL 在此基礎(chǔ)上再增益 20.8%。
  • 對(duì)于 32B 模型,SFT 和 RL 分別帶來 23.4% 和 18.0% 的性能增幅。

綜合來看,AFM 通過多智能體蒸餾過程在 SFT 階段獲得了鏈?zhǔn)酵评砟芰?,如?guī)劃、反思和工具調(diào)用;RL 階段進(jìn)一步強(qiáng)化了這些能力,造就了其在數(shù)學(xué)推理任務(wù)中的全面優(yōu)勢(shì)。

圖片

代碼基準(zhǔn)

AFM 在代碼生成任務(wù)中同樣表現(xiàn)優(yōu)異,顯著超越多個(gè)基線模型:

  • 在三項(xiàng)高難度編程任務(wù)中(LiveCodeBench v5、LiveCodeBench v4 和 CodeContests),與基礎(chǔ)模型相比,AFM 通過強(qiáng)化學(xué)習(xí)優(yōu)化后在 7B 與 32B 模型上平均準(zhǔn)確率分別提升 8.5% 和 13.2%,驗(yàn)證了其在代碼生成能力上的增強(qiáng)效果。
  • 面對(duì)使用代碼解釋器的主流 TIR 模型,包括基于數(shù)學(xué)訓(xùn)練的 ReTool-32B 與專注代碼任務(wù)的 Reveal-32B,AFM 全面領(lǐng)先。即便僅采用 SFT 訓(xùn)練,AFM 在 LiveCodeBench V5 數(shù)據(jù)集上的表現(xiàn)亦優(yōu)于上述模型,證明本文方法能有效提升復(fù)雜編程能力。
  • 在 SFT 的基礎(chǔ)上,經(jīng) RL 精調(diào)后,AFM 在 7B 與 32B 模型上進(jìn)一步獲得 1.8% 和 3.2% 的提升,體現(xiàn)了智能體強(qiáng)化學(xué)習(xí)對(duì)編程能力的持續(xù)增強(qiáng)效果。

圖片

效率分析

圖片

AFM 在工具調(diào)用效率和推理成本方面展現(xiàn)出顯著優(yōu)勢(shì),基于 GAIA 數(shù)據(jù)集的 10 個(gè)實(shí)例,對(duì)比 AFM 與三個(gè)主流框架(OAgents、WebThinker 和 AFM)在工具調(diào)用和 token 消耗上的表現(xiàn)。結(jié)果顯示:

  • 在工具效率維度上(單位任務(wù)成功所需調(diào)用次數(shù)),AFM 使用的工具調(diào)用次數(shù)最少。
  • 在 token 效率方面(每個(gè)成功任務(wù)所需的提示工程成本),AFM 的 token 消耗最低,包括整體和工具相關(guān) token。

Test-Time Scaling 分析

此外,AFM 在 Test-Time Scaling 方面表現(xiàn)卓越,并在多項(xiàng)智能體基準(zhǔn)中展現(xiàn)穩(wěn)健性能。通過對(duì) GAIA、WebWalker、BrowseComp 和 HLE 四個(gè)任務(wù)的深入分析,AFM 及其變體:AFM-Bo3 與 AFM-Pass@3,在測(cè)試階段進(jìn)一步驗(yàn)證了模型的泛化與推理效能。AFM-Bo3 采用三選一優(yōu)化策略,通過 Qwen-2.5-72B-Instruct 模型評(píng)估三個(gè)候選答案以選出最優(yōu)路徑;AFM-Pass@3 則采用三次嘗試中至少一次正確的機(jī)制以提升任務(wù)完成率。

圖片

在與其他主流智能體模型對(duì)比中,這三種方式均在多項(xiàng)任務(wù)中展現(xiàn)出領(lǐng)先優(yōu)勢(shì),證明了 AFM 具備優(yōu)越的策略組合能力與穩(wěn)健的跨任務(wù)適應(yīng)性,也體現(xiàn)出該方法在訓(xùn)練后仍可通過推理策略擴(kuò)展進(jìn)一步提升表現(xiàn)。

結(jié)束語

CoA 范式與 AFM 模型的突破,本質(zhì)上是通過層次化智能體架構(gòu)與端到端訓(xùn)練,解決了傳統(tǒng)多智能體系統(tǒng)(MAS)在通信效率、泛化能力與 LLM 原生協(xié)作支持上的核心矛盾。其技術(shù)價(jià)值不僅體現(xiàn)在近 20 項(xiàng)基準(zhǔn)測(cè)試的性能躍升,更在于構(gòu)建了一套可擴(kuò)展的智能體推理框架——角色型智能體(思考、計(jì)劃、反思、驗(yàn)證)與工具型智能體(搜索、爬取、代碼)的動(dòng)態(tài)激活機(jī)制,使 LLM 首次具備無需外部工作流配置即可完成復(fù)雜協(xié)作的能力。

從技術(shù)細(xì)節(jié)看,AFM 的優(yōu)勢(shì)源于兩點(diǎn):一是多智能體能力蒸餾過程中,將 OAgents 的成功軌跡轉(zhuǎn)化為 CoA 兼容格式,實(shí)現(xiàn)了協(xié)作策略的高效遷移;二是 RL 階段針對(duì)高難度任務(wù)的策略優(yōu)化,顯著增強(qiáng)了工具調(diào)用的精準(zhǔn)性(如數(shù)學(xué)推理中 7B 模型經(jīng) RL 后準(zhǔn)確率提升 20.8%)。這種「蒸餾-微調(diào)-強(qiáng)化」的技術(shù)路徑,為其他智能體框架提供了可復(fù)用的訓(xùn)練范式。

然而,作為一項(xiàng)突破性工作,CoA 與 AFM 仍存在待探索的技術(shù)方向:

  • 動(dòng)態(tài)角色生成能力:當(dāng)前角色型智能體的類型與分工需預(yù)先定義,未來可探索基于任務(wù)特性自主生成新角色的機(jī)制,進(jìn)一步提升對(duì)未知任務(wù)的適應(yīng)性。
  • 跨模態(tài)工具融合:現(xiàn)有工具型智能體以文本(搜索、代碼)為主,如何將圖像、語音等模態(tài)工具納入 CoA 框架,是擴(kuò)展應(yīng)用場(chǎng)景的關(guān)鍵。
  • 長周期任務(wù)記憶機(jī)制:對(duì)于持續(xù)數(shù)天甚至數(shù)月的復(fù)雜任務(wù)(如長期科研跟蹤),需設(shè)計(jì)更高效的智能體狀態(tài)記憶與歷史軌跡復(fù)用策略,避免重復(fù)推理開銷。

這些待解問題,既是 CoA 范式向更通用智能體系統(tǒng)進(jìn)化的必經(jīng)之路,也為研究者提供了明確的技術(shù)探索方向。隨著開源模型、數(shù)據(jù)集與代碼的開放,AFM 有望成為智能體協(xié)作領(lǐng)域的重要基線,推動(dòng)多智能體技術(shù)從「任務(wù)適配」走向「通用協(xié)作」。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-03-25 12:40:19

訓(xùn)練模型

2025-09-05 09:00:43

2023-12-27 14:06:00

模型訓(xùn)練

2025-06-13 08:45:00

數(shù)據(jù)模型可視化

2025-05-12 09:00:00

2025-02-10 14:30:00

模型數(shù)據(jù)開源

2025-04-14 09:27:00

2025-05-14 08:51:00

2025-06-17 09:07:24

2025-05-22 06:59:53

2024-08-19 08:45:00

開源模型

2025-09-15 09:07:00

2023-08-28 06:52:29

2025-04-10 16:23:02

2025-09-23 03:00:00

2025-08-05 09:02:00

2025-09-24 09:02:42

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)