偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

基于獎勵驅(qū)動和自組織演化機(jī)制,全新框架ReSo重塑復(fù)雜推理任務(wù)中的智能協(xié)作

人工智能 新聞
作者提出了?ReSo—— 一個基于獎勵驅(qū)動、自組織演化機(jī)制的多智能體系統(tǒng)架構(gòu)。該方法通過引入?yún)f(xié)同獎勵模型(Collaborative Reward Model, CRM)。

本文由上海人工智能實驗室,悉尼大學(xué),牛津大學(xué)聯(lián)合完成。第一作者周恒為上海 ailab 實習(xí)生和 Independent Researcher 耿鶴嘉。通訊作者為上海人工智能實驗室青年科學(xué)家白磊和牛津大學(xué)訪問學(xué)者,悉尼大學(xué)博士生尹榛菲,團(tuán)隊其他成員還有 ailab 實習(xí)生薛翔元。

ReSo 框架(Reward-driven & Self-organizing)為復(fù)雜推理任務(wù)中的多智能體系統(tǒng)(MAS)提供了全新解法,在處理復(fù)雜任務(wù)時,先分解生成任務(wù)圖,再為每個子任務(wù)匹配最佳 agent。將任務(wù)圖生成與獎勵驅(qū)動的兩階段智能體選擇過程相結(jié)合,該方法不僅提升了多智能體協(xié)作的效率,還為增強(qiáng)多智能體的推理能力開辟了新路徑。

圖片

  • 論文標(biāo)題:ReSo: A Reward-driven Self-organizing LLM-based Multi-Agent System for Reasoning Tasks
  • 論文鏈接:https://arxiv.org/abs/2503.02390
  • 代碼地址:https://github.com/hengzzzhou/ReSo

研究背景:LLM 推理能力的掣肘與突破口

近年來,增加推理時間(Inference Time Scaling)被廣泛認(rèn)為是提升大語言模型(Large Language Models, LLMs)推理能力的重要途徑之一。一方面,通過在訓(xùn)練后階段引入強(qiáng)化學(xué)習(xí)與獎勵模型,可優(yōu)化單一模型的推理路徑,使其在回答前生成中間步驟,表現(xiàn)出更強(qiáng)的邏輯鏈構(gòu)建能力;另一方面,也有研究嘗試構(gòu)建多智能體系統(tǒng)(Multi-Agent Systems, MAS),借助多個基座模型或智能體的協(xié)同工作來解決單次推理難以完成的復(fù)雜任務(wù)。

相較于單模型的推理時間擴(kuò)展,多智能體方法在理論上更具靈活性與可擴(kuò)展性,但在實際應(yīng)用中仍面臨諸多挑戰(zhàn):

(1)多數(shù) MAS 依賴人工設(shè)計與配置,缺乏自動擴(kuò)展與適應(yīng)性的能力;

(2)通常假設(shè)所有智能體能力已知,然而 LLM 作為 “黑箱式” 的通用模型,在實際任務(wù)中往往難以預(yù)先評估其能力邊界;

(3)現(xiàn)有 MAS 中的獎勵信號設(shè)計較為粗糙,僅依賴結(jié)果反饋或自我評估,難以有效驅(qū)動優(yōu)化過程;

(4)缺乏基于數(shù)據(jù)反饋的動態(tài)演化機(jī)制,限制了 MAS 系統(tǒng)在大規(guī)模任務(wù)中的表現(xiàn)與泛化能力。

上述限制提出了一個核心問題:能否構(gòu)建一種具備自組織能力的多智能體系統(tǒng),使其能夠通過獎勵信號直接從數(shù)據(jù)中學(xué)習(xí)協(xié)作策略,而無需大量人工干預(yù)?

為應(yīng)對這一挑戰(zhàn),作者提出了 ReSo—— 一個基于獎勵驅(qū)動、自組織演化機(jī)制的多智能體系統(tǒng)架構(gòu)。該方法通過引入?yún)f(xié)同獎勵模型(Collaborative Reward Model, CRM),在任務(wù)圖生成與智能體圖構(gòu)建之間建立反饋閉環(huán),從而實現(xiàn)基于細(xì)粒度獎勵的智能體動態(tài)優(yōu)化與協(xié)作演化。與現(xiàn)有多智能體方案相比,ReSo 在可擴(kuò)展性與優(yōu)化能力上均具優(yōu)勢,并在多項復(fù)雜推理任務(wù)上達(dá)到了領(lǐng)先性能。

圖片

ReSo 框架流程圖

ReSo 框架:Task Graph + Agent Graph,重塑 MAS 推理能力

具體來說,作者提出了兩項核心創(chuàng)新:(1) ReSo,一個獎勵驅(qū)動的自組織 MAS,能夠自主適應(yīng)復(fù)雜任務(wù)和靈活數(shù)量的智能體候選,無需手動設(shè)計合作解決方案。(2) 引入?yún)f(xié)作獎勵模型 (CRM),專門用于優(yōu)化 MAS 性能。CRM 可以在多智能體協(xié)作中提供細(xì)粒度的獎勵信號,從而實現(xiàn)數(shù)據(jù)驅(qū)動的 MAS 性能優(yōu)化。

1. 問題定義

對于一個解決任意問題 Q 的多智能體任務(wù),作者將其定義為如下算法:

圖片

其中 圖片負(fù)責(zé)根據(jù)輸入問題構(gòu)建任務(wù)分解圖,確保將問題結(jié)構(gòu)化地分解為子任務(wù)及其依賴關(guān)系。圖片則動態(tài)地選擇并分配合適的代理來解決已識別的子任務(wù)。這種模塊化設(shè)計使得每個組件能夠獨立優(yōu)化,從而實現(xiàn)更高的靈活性和可擴(kuò)展性。

2. 任務(wù)圖生成:明確子任務(wù)和依賴關(guān)系

ReSo 首先使用一個大語言模型將復(fù)雜問題分解,轉(zhuǎn)化為分步驟的有向無環(huán)任務(wù)圖 (DAG Task Graph),為后續(xù)智能體分配提供基礎(chǔ)。

圖片

在實踐中,對于任務(wù)分解,作者既測試了了已有的閉源模型(如 gpt4o),也在開源 LLM (如 Qwen-7b) 上進(jìn)行監(jiān)督微調(diào) (SFT) 來執(zhí)行更專業(yè)的任務(wù)分解。為了微調(diào)開源 LLM,作者構(gòu)建了合成數(shù)據(jù)(見后文數(shù)據(jù)貢獻(xiàn)章節(jié)),明確要求 LLM 將 Q 分解為邏輯子問題,指定它們的執(zhí)行順序和依賴關(guān)系,并以 DAG 格式輸出。

圖片

3. 兩階段智能體選擇:從粗到細(xì),精挑細(xì)選

一旦獲得任務(wù)圖,作者就需要將每個子任務(wù)分配給最合適的代理。作者將此代理分配過程表示為 圖片。從概念上講,圖片會根據(jù)大型代理池 A 中最合適的代理對任務(wù)圖中的每個節(jié)點進(jìn)行分類,從而構(gòu)建一個代理圖,將每個節(jié)點映射到一個或多個選定的代理。

圖片

具體來說,作者提出了動態(tài)智能體數(shù)據(jù)庫(DADB)作為 Agent 選擇的代理池:通過構(gòu)建一個動態(tài)數(shù)據(jù)庫,存儲智能體的基本信息、歷史性能及計算成本,以供未來生成初步質(zhì)量評分。

在 DADB 的基礎(chǔ)上,對于使智能體選擇算法具有可擴(kuò)展性、可優(yōu)化性,作者提出了兩階段的搜索算法:

  • 粗粒度搜索(UCB 算法):利用上置信界(UCB)算法篩選候選智能體。

圖片

給定 DADB A 和一個子任務(wù) vj,作者希望首先從所有智能體中篩選出一批有潛力的候選智能體(數(shù)量為 k)。

為此,作者采用了經(jīng)典的上置信界(UCB)策略,該策略兼顧 “探索” 和 “利用” 的平衡:

圖片

其中:Q (圖片):DADB 給出的預(yù)評分,N:系統(tǒng)到目前為止分配過的智能體總數(shù),n (圖片):智能體圖片被選中的次數(shù),ε?1:防止除以 0 的微小常數(shù),c:超參數(shù),控制探索(少被用過的智能體)與利用(高評分智能體)之間的平衡。

最后,作者按 UCB 分?jǐn)?shù)對所有智能體排序,選擇前 k 個作為當(dāng)前子任務(wù)的候選集:圖片

  • 細(xì)粒度篩選(協(xié)作獎勵模型 CRM):通過協(xié)作獎勵模型對候選智能體進(jìn)行細(xì)粒度評估,最終選擇最優(yōu)智能體。

在完成粗粒度篩選、選出了候選智能體集合之后,作者需要進(jìn)一步評估這些智能體在當(dāng)前子任務(wù)圖片上的實際表現(xiàn)。這一步是通過一個協(xié)同獎勵模型(Collaborative Reward Model, CRM) 來完成的。

這個評估過程很直接:

每個候選智能體 ai 對子任務(wù)圖片生成一個答案,記作 圖片 (圖片);

然后作者通過獎勵模型來評估這個答案的質(zhì)量,得到獎勵值 r (圖片圖片):

圖片

其中 RewardModel 會綜合考慮以下因素來打分:

A. 當(dāng)前智能體圖片的角色與設(shè)定(即其 static profile);

B. 子任務(wù)圖片的目標(biāo);

C. 以及該智能體在先前的推理過程中的上下文。

在所有候選智能體被評估后,作者將獎勵值最高的智能體 a 分配給子任務(wù)圖片,并將其生成的答案作為該子任務(wù)的最終解。這個評估與分配過程會對任務(wù)圖中的每一個子任務(wù)節(jié)點重復(fù)進(jìn)行,直到整張圖完成分配。

1. 從訓(xùn)練到推理:動態(tài)優(yōu)化與高效推理

  • 訓(xùn)練階段:利用 CRM 獎勵信號動態(tài)更新 DADB,實現(xiàn)自適應(yīng)優(yōu)化。

圖片

其中:R (圖片) 表示當(dāng)前該智能體的平均獎勵;n (圖片) 是它至今參與的任務(wù)次數(shù);r (圖片,圖片 ) 是它在當(dāng)前子任務(wù)中的獎勵。

類似地,作者也可以用同樣的方式更新該智能體的執(zhí)行開銷(例如運行時間、資源消耗等),記作 c (圖片圖片)。

通過不斷迭代地學(xué)習(xí)和更新,DADB 能夠動態(tài)地根據(jù)歷史數(shù)據(jù)評估各個智能體,從而實現(xiàn)自適應(yīng)的智能體選擇機(jī)制,提升系統(tǒng)的整體性能和效率。

  • 推理階段:在測試階段,作者不再需要獎勵模型。此時,作者直接使用已經(jīng)訓(xùn)練好的 DADB,從中選擇最優(yōu)的智能體候選者,并為每個子任務(wù)挑選最優(yōu)解。

2. 從 MCTS 視角看 ReSo:降低復(fù)雜度,提升擴(kuò)展性

任務(wù)圖經(jīng)過拓?fù)渑判蚝螅纬梢豢脹Q策樹,其中每個節(jié)點代表一個子任務(wù),邊表示依賴關(guān)系。在每一層,作者使用 UCB 修剪樹并選擇一組有潛力的智能體,然后模擬每個智能體并使用 CRM 評估其性能。由此產(chǎn)生的獎勵會更新智能體的動態(tài)配置文件,從而優(yōu)化選擇策略。MAS 的構(gòu)建本質(zhì)上是尋找從根到葉的最佳路徑,最大化 UCB 獎勵以獲得最佳性能。

數(shù)據(jù)集生成:Mas-Dataset

由于缺乏高質(zhì)量的 MAS 數(shù)據(jù)集,作者提出了一種自動化方法來生成多智能體任務(wù)數(shù)據(jù)。這個過程包括隨機(jī)生成任務(wù)圖、填充子任務(wù)以及構(gòu)建自然語言依賴關(guān)系。提出了一個單個 sample 就具有多學(xué)科任務(wù)的數(shù)據(jù)集。開源了數(shù)據(jù)合成腳本論文合成了 MATH-MAS 和 Scibench-MAS 數(shù)據(jù)集,復(fù)雜度有3,5,7。復(fù)雜度為 7 的意思為,單個題目中由7個子問題組成,他們來自不同的領(lǐng)域(數(shù)學(xué),物理,化學(xué))。子問題之間有依賴關(guān)系,評測模型處理復(fù)雜問題的能力。下圖是個 Scibench-MAS 復(fù)雜度為 3 的例子:

圖片

實驗結(jié)果

主要結(jié)果

表 1 的實驗結(jié)果實驗表明,ReSo 在效果上匹敵或超越現(xiàn)有方法。ReSo 在 Math-MAS-Hard 和 SciBench-MAS-Hard 上的準(zhǔn)確率分別達(dá)到 33.7% 和 32.3% ,而其他方法則完全失效。圖 3 顯示,在復(fù)雜推理任務(wù)中,ReSo 的表現(xiàn)全面優(yōu)于現(xiàn)有 MAS 方法,展現(xiàn)了其卓越的性能和強(qiáng)大的適應(yīng)性。

圖片

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-03-25 16:42:19

自組織網(wǎng)絡(luò)zigbeeWi-Fi

2022-07-25 08:00:00

機(jī)器學(xué)習(xí)SOM算法

2015-08-19 16:22:48

環(huán)信

2010-03-18 12:18:36

無線傳感器網(wǎng)絡(luò)自組織方

2018-11-15 15:45:39

2025-06-06 08:57:42

2024-04-19 09:00:01

映射算法大型語言模型LLM

2013-05-06 14:13:54

自組織網(wǎng)絡(luò)SON

2024-07-08 13:02:06

2018-07-04 09:44:09

TalkingData數(shù)據(jù)智能

2025-06-10 02:30:00

智能體ARTIST強(qiáng)化學(xué)習(xí)

2024-03-11 00:40:00

AI研究

2013-07-08 16:03:39

LTECDMA3GPP

2025-05-30 02:00:00

獎勵模型RRMAI

2024-11-14 10:40:00

智能體模型

2018-08-06 16:04:14

國雙

2024-11-26 08:50:20

2020-09-08 14:53:58

人機(jī)協(xié)作智能

2025-04-07 09:00:00

AI趨勢智能體Agent

2010-08-16 10:42:18

自組織網(wǎng)絡(luò)
點贊
收藏

51CTO技術(shù)棧公眾號