偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

基于獎(jiǎng)勵(lì)驅(qū)動(dòng)和自組織演化機(jī)制,全新框架ReSo重塑復(fù)雜推理任務(wù)中的智能協(xié)作

人工智能 新聞
作者提出了?ReSo—— 一個(gè)基于獎(jiǎng)勵(lì)驅(qū)動(dòng)、自組織演化機(jī)制的多智能體系統(tǒng)架構(gòu)。該方法通過(guò)引入?yún)f(xié)同獎(jiǎng)勵(lì)模型(Collaborative Reward Model, CRM)。

本文由上海人工智能實(shí)驗(yàn)室,悉尼大學(xué),牛津大學(xué)聯(lián)合完成。第一作者周恒為上海 ailab 實(shí)習(xí)生和 Independent Researcher 耿鶴嘉。通訊作者為上海人工智能實(shí)驗(yàn)室青年科學(xué)家白磊和牛津大學(xué)訪問(wèn)學(xué)者,悉尼大學(xué)博士生尹榛菲,團(tuán)隊(duì)其他成員還有 ailab 實(shí)習(xí)生薛翔元。

ReSo 框架(Reward-driven & Self-organizing)為復(fù)雜推理任務(wù)中的多智能體系統(tǒng)(MAS)提供了全新解法,在處理復(fù)雜任務(wù)時(shí),先分解生成任務(wù)圖,再為每個(gè)子任務(wù)匹配最佳 agent。將任務(wù)圖生成與獎(jiǎng)勵(lì)驅(qū)動(dòng)的兩階段智能體選擇過(guò)程相結(jié)合,該方法不僅提升了多智能體協(xié)作的效率,還為增強(qiáng)多智能體的推理能力開(kāi)辟了新路徑。

圖片

  • 論文標(biāo)題:ReSo: A Reward-driven Self-organizing LLM-based Multi-Agent System for Reasoning Tasks
  • 論文鏈接:https://arxiv.org/abs/2503.02390
  • 代碼地址:https://github.com/hengzzzhou/ReSo

研究背景:LLM 推理能力的掣肘與突破口

近年來(lái),增加推理時(shí)間(Inference Time Scaling)被廣泛認(rèn)為是提升大語(yǔ)言模型(Large Language Models, LLMs)推理能力的重要途徑之一。一方面,通過(guò)在訓(xùn)練后階段引入強(qiáng)化學(xué)習(xí)與獎(jiǎng)勵(lì)模型,可優(yōu)化單一模型的推理路徑,使其在回答前生成中間步驟,表現(xiàn)出更強(qiáng)的邏輯鏈構(gòu)建能力;另一方面,也有研究嘗試構(gòu)建多智能體系統(tǒng)(Multi-Agent Systems, MAS),借助多個(gè)基座模型或智能體的協(xié)同工作來(lái)解決單次推理難以完成的復(fù)雜任務(wù)。

相較于單模型的推理時(shí)間擴(kuò)展,多智能體方法在理論上更具靈活性與可擴(kuò)展性,但在實(shí)際應(yīng)用中仍面臨諸多挑戰(zhàn):

(1)多數(shù) MAS 依賴人工設(shè)計(jì)與配置,缺乏自動(dòng)擴(kuò)展與適應(yīng)性的能力;

(2)通常假設(shè)所有智能體能力已知,然而 LLM 作為 “黑箱式” 的通用模型,在實(shí)際任務(wù)中往往難以預(yù)先評(píng)估其能力邊界;

(3)現(xiàn)有 MAS 中的獎(jiǎng)勵(lì)信號(hào)設(shè)計(jì)較為粗糙,僅依賴結(jié)果反饋或自我評(píng)估,難以有效驅(qū)動(dòng)優(yōu)化過(guò)程;

(4)缺乏基于數(shù)據(jù)反饋的動(dòng)態(tài)演化機(jī)制,限制了 MAS 系統(tǒng)在大規(guī)模任務(wù)中的表現(xiàn)與泛化能力。

上述限制提出了一個(gè)核心問(wèn)題:能否構(gòu)建一種具備自組織能力的多智能體系統(tǒng),使其能夠通過(guò)獎(jiǎng)勵(lì)信號(hào)直接從數(shù)據(jù)中學(xué)習(xí)協(xié)作策略,而無(wú)需大量人工干預(yù)?

為應(yīng)對(duì)這一挑戰(zhàn),作者提出了 ReSo—— 一個(gè)基于獎(jiǎng)勵(lì)驅(qū)動(dòng)、自組織演化機(jī)制的多智能體系統(tǒng)架構(gòu)。該方法通過(guò)引入?yún)f(xié)同獎(jiǎng)勵(lì)模型(Collaborative Reward Model, CRM),在任務(wù)圖生成與智能體圖構(gòu)建之間建立反饋閉環(huán),從而實(shí)現(xiàn)基于細(xì)粒度獎(jiǎng)勵(lì)的智能體動(dòng)態(tài)優(yōu)化與協(xié)作演化。與現(xiàn)有多智能體方案相比,ReSo 在可擴(kuò)展性與優(yōu)化能力上均具優(yōu)勢(shì),并在多項(xiàng)復(fù)雜推理任務(wù)上達(dá)到了領(lǐng)先性能。

圖片

ReSo 框架流程圖

ReSo 框架:Task Graph + Agent Graph,重塑 MAS 推理能力

具體來(lái)說(shuō),作者提出了兩項(xiàng)核心創(chuàng)新:(1) ReSo,一個(gè)獎(jiǎng)勵(lì)驅(qū)動(dòng)的自組織 MAS,能夠自主適應(yīng)復(fù)雜任務(wù)和靈活數(shù)量的智能體候選,無(wú)需手動(dòng)設(shè)計(jì)合作解決方案。(2) 引入?yún)f(xié)作獎(jiǎng)勵(lì)模型 (CRM),專門(mén)用于優(yōu)化 MAS 性能。CRM 可以在多智能體協(xié)作中提供細(xì)粒度的獎(jiǎng)勵(lì)信號(hào),從而實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的 MAS 性能優(yōu)化。

1. 問(wèn)題定義

對(duì)于一個(gè)解決任意問(wèn)題 Q 的多智能體任務(wù),作者將其定義為如下算法:

圖片

其中 圖片負(fù)責(zé)根據(jù)輸入問(wèn)題構(gòu)建任務(wù)分解圖,確保將問(wèn)題結(jié)構(gòu)化地分解為子任務(wù)及其依賴關(guān)系。圖片則動(dòng)態(tài)地選擇并分配合適的代理來(lái)解決已識(shí)別的子任務(wù)。這種模塊化設(shè)計(jì)使得每個(gè)組件能夠獨(dú)立優(yōu)化,從而實(shí)現(xiàn)更高的靈活性和可擴(kuò)展性。

2. 任務(wù)圖生成:明確子任務(wù)和依賴關(guān)系

ReSo 首先使用一個(gè)大語(yǔ)言模型將復(fù)雜問(wèn)題分解,轉(zhuǎn)化為分步驟的有向無(wú)環(huán)任務(wù)圖 (DAG Task Graph),為后續(xù)智能體分配提供基礎(chǔ)。

圖片

在實(shí)踐中,對(duì)于任務(wù)分解,作者既測(cè)試了了已有的閉源模型(如 gpt4o),也在開(kāi)源 LLM (如 Qwen-7b) 上進(jìn)行監(jiān)督微調(diào) (SFT) 來(lái)執(zhí)行更專業(yè)的任務(wù)分解。為了微調(diào)開(kāi)源 LLM,作者構(gòu)建了合成數(shù)據(jù)(見(jiàn)后文數(shù)據(jù)貢獻(xiàn)章節(jié)),明確要求 LLM 將 Q 分解為邏輯子問(wèn)題,指定它們的執(zhí)行順序和依賴關(guān)系,并以 DAG 格式輸出。

圖片

3. 兩階段智能體選擇:從粗到細(xì),精挑細(xì)選

一旦獲得任務(wù)圖,作者就需要將每個(gè)子任務(wù)分配給最合適的代理。作者將此代理分配過(guò)程表示為 圖片。從概念上講,圖片會(huì)根據(jù)大型代理池 A 中最合適的代理對(duì)任務(wù)圖中的每個(gè)節(jié)點(diǎn)進(jìn)行分類(lèi),從而構(gòu)建一個(gè)代理圖,將每個(gè)節(jié)點(diǎn)映射到一個(gè)或多個(gè)選定的代理。

圖片

具體來(lái)說(shuō),作者提出了動(dòng)態(tài)智能體數(shù)據(jù)庫(kù)(DADB)作為 Agent 選擇的代理池:通過(guò)構(gòu)建一個(gè)動(dòng)態(tài)數(shù)據(jù)庫(kù),存儲(chǔ)智能體的基本信息、歷史性能及計(jì)算成本,以供未來(lái)生成初步質(zhì)量評(píng)分。

在 DADB 的基礎(chǔ)上,對(duì)于使智能體選擇算法具有可擴(kuò)展性、可優(yōu)化性,作者提出了兩階段的搜索算法:

  • 粗粒度搜索(UCB 算法):利用上置信界(UCB)算法篩選候選智能體。

圖片

給定 DADB A 和一個(gè)子任務(wù) vj,作者希望首先從所有智能體中篩選出一批有潛力的候選智能體(數(shù)量為 k)。

為此,作者采用了經(jīng)典的上置信界(UCB)策略,該策略兼顧 “探索” 和 “利用” 的平衡:

圖片

其中:Q (圖片):DADB 給出的預(yù)評(píng)分,N:系統(tǒng)到目前為止分配過(guò)的智能體總數(shù),n (圖片):智能體圖片被選中的次數(shù),ε?1:防止除以 0 的微小常數(shù),c:超參數(shù),控制探索(少被用過(guò)的智能體)與利用(高評(píng)分智能體)之間的平衡。

最后,作者按 UCB 分?jǐn)?shù)對(duì)所有智能體排序,選擇前 k 個(gè)作為當(dāng)前子任務(wù)的候選集:圖片

  • 細(xì)粒度篩選(協(xié)作獎(jiǎng)勵(lì)模型 CRM):通過(guò)協(xié)作獎(jiǎng)勵(lì)模型對(duì)候選智能體進(jìn)行細(xì)粒度評(píng)估,最終選擇最優(yōu)智能體。

在完成粗粒度篩選、選出了候選智能體集合之后,作者需要進(jìn)一步評(píng)估這些智能體在當(dāng)前子任務(wù)圖片上的實(shí)際表現(xiàn)。這一步是通過(guò)一個(gè)協(xié)同獎(jiǎng)勵(lì)模型(Collaborative Reward Model, CRM) 來(lái)完成的。

這個(gè)評(píng)估過(guò)程很直接:

每個(gè)候選智能體 ai 對(duì)子任務(wù)圖片生成一個(gè)答案,記作 圖片 (圖片);

然后作者通過(guò)獎(jiǎng)勵(lì)模型來(lái)評(píng)估這個(gè)答案的質(zhì)量,得到獎(jiǎng)勵(lì)值 r (圖片圖片):

圖片

其中 RewardModel 會(huì)綜合考慮以下因素來(lái)打分:

A. 當(dāng)前智能體圖片的角色與設(shè)定(即其 static profile);

B. 子任務(wù)圖片的目標(biāo);

C. 以及該智能體在先前的推理過(guò)程中的上下文。

在所有候選智能體被評(píng)估后,作者將獎(jiǎng)勵(lì)值最高的智能體 a 分配給子任務(wù)圖片,并將其生成的答案作為該子任務(wù)的最終解。這個(gè)評(píng)估與分配過(guò)程會(huì)對(duì)任務(wù)圖中的每一個(gè)子任務(wù)節(jié)點(diǎn)重復(fù)進(jìn)行,直到整張圖完成分配。

1. 從訓(xùn)練到推理:動(dòng)態(tài)優(yōu)化與高效推理

  • 訓(xùn)練階段:利用 CRM 獎(jiǎng)勵(lì)信號(hào)動(dòng)態(tài)更新 DADB,實(shí)現(xiàn)自適應(yīng)優(yōu)化。

圖片

其中:R (圖片) 表示當(dāng)前該智能體的平均獎(jiǎng)勵(lì);n (圖片) 是它至今參與的任務(wù)次數(shù);r (圖片,圖片 ) 是它在當(dāng)前子任務(wù)中的獎(jiǎng)勵(lì)。

類(lèi)似地,作者也可以用同樣的方式更新該智能體的執(zhí)行開(kāi)銷(xiāo)(例如運(yùn)行時(shí)間、資源消耗等),記作 c (圖片圖片)。

通過(guò)不斷迭代地學(xué)習(xí)和更新,DADB 能夠動(dòng)態(tài)地根據(jù)歷史數(shù)據(jù)評(píng)估各個(gè)智能體,從而實(shí)現(xiàn)自適應(yīng)的智能體選擇機(jī)制,提升系統(tǒng)的整體性能和效率。

  • 推理階段:在測(cè)試階段,作者不再需要獎(jiǎng)勵(lì)模型。此時(shí),作者直接使用已經(jīng)訓(xùn)練好的 DADB,從中選擇最優(yōu)的智能體候選者,并為每個(gè)子任務(wù)挑選最優(yōu)解。

2. 從 MCTS 視角看 ReSo:降低復(fù)雜度,提升擴(kuò)展性

任務(wù)圖經(jīng)過(guò)拓?fù)渑判蚝?,形成一棵決策樹(shù),其中每個(gè)節(jié)點(diǎn)代表一個(gè)子任務(wù),邊表示依賴關(guān)系。在每一層,作者使用 UCB 修剪樹(shù)并選擇一組有潛力的智能體,然后模擬每個(gè)智能體并使用 CRM 評(píng)估其性能。由此產(chǎn)生的獎(jiǎng)勵(lì)會(huì)更新智能體的動(dòng)態(tài)配置文件,從而優(yōu)化選擇策略。MAS 的構(gòu)建本質(zhì)上是尋找從根到葉的最佳路徑,最大化 UCB 獎(jiǎng)勵(lì)以獲得最佳性能。

數(shù)據(jù)集生成:Mas-Dataset

由于缺乏高質(zhì)量的 MAS 數(shù)據(jù)集,作者提出了一種自動(dòng)化方法來(lái)生成多智能體任務(wù)數(shù)據(jù)。這個(gè)過(guò)程包括隨機(jī)生成任務(wù)圖、填充子任務(wù)以及構(gòu)建自然語(yǔ)言依賴關(guān)系。提出了一個(gè)單個(gè) sample 就具有多學(xué)科任務(wù)的數(shù)據(jù)集。開(kāi)源了數(shù)據(jù)合成腳本論文合成了 MATH-MAS 和 Scibench-MAS 數(shù)據(jù)集,復(fù)雜度有3,5,7。復(fù)雜度為 7 的意思為,單個(gè)題目中由7個(gè)子問(wèn)題組成,他們來(lái)自不同的領(lǐng)域(數(shù)學(xué),物理,化學(xué))。子問(wèn)題之間有依賴關(guān)系,評(píng)測(cè)模型處理復(fù)雜問(wèn)題的能力。下圖是個(gè) Scibench-MAS 復(fù)雜度為 3 的例子:

圖片

實(shí)驗(yàn)結(jié)果

主要結(jié)果

表 1 的實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)表明,ReSo 在效果上匹敵或超越現(xiàn)有方法。ReSo 在 Math-MAS-Hard 和 SciBench-MAS-Hard 上的準(zhǔn)確率分別達(dá)到 33.7% 和 32.3% ,而其他方法則完全失效。圖 3 顯示,在復(fù)雜推理任務(wù)中,ReSo 的表現(xiàn)全面優(yōu)于現(xiàn)有 MAS 方法,展現(xiàn)了其卓越的性能和強(qiáng)大的適應(yīng)性。

圖片

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2022-03-25 16:42:19

自組織網(wǎng)絡(luò)zigbeeWi-Fi

2022-07-25 08:00:00

機(jī)器學(xué)習(xí)SOM算法

2015-08-19 16:22:48

環(huán)信

2010-03-18 12:18:36

無(wú)線傳感器網(wǎng)絡(luò)自組織方

2018-11-15 15:45:39

2025-06-06 08:57:42

2024-04-19 09:00:01

映射算法大型語(yǔ)言模型LLM

2013-05-06 14:13:54

自組織網(wǎng)絡(luò)SON

2024-07-08 13:02:06

2018-07-04 09:44:09

TalkingData數(shù)據(jù)智能

2025-06-10 02:30:00

智能體ARTIST強(qiáng)化學(xué)習(xí)

2024-03-11 00:40:00

AI研究

2013-07-08 16:03:39

LTECDMA3GPP

2025-05-30 02:00:00

獎(jiǎng)勵(lì)模型RRMAI

2024-11-14 10:40:00

智能體模型

2018-08-06 16:04:14

國(guó)雙

2024-11-26 08:50:20

2020-09-08 14:53:58

人機(jī)協(xié)作智能

2025-04-07 09:00:00

AI趨勢(shì)智能體Agent

2010-08-16 10:42:18

自組織網(wǎng)絡(luò)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)