偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多代理強(qiáng)化學(xué)習(xí)綜述:原理、算法與挑戰(zhàn)

人工智能
多代理強(qiáng)化學(xué)習(xí)(Multi-Agent Reinforcement Learning, MARL)是強(qiáng)化學(xué)習(xí)的一個(gè)重要分支,它將傳統(tǒng)的單代理強(qiáng)化學(xué)習(xí)概念擴(kuò)展到多代理環(huán)境中。在MARL中,多個(gè)代理通過(guò)與環(huán)境和其他代理的交互來(lái)學(xué)習(xí)最優(yōu)策略,以在協(xié)作或競(jìng)爭(zhēng)場(chǎng)景中最大化累積獎(jiǎng)勵(lì)。

1. 引言

多代理強(qiáng)化學(xué)習(xí)(Multi-Agent Reinforcement Learning, MARL)是強(qiáng)化學(xué)習(xí)的一個(gè)重要分支,它將傳統(tǒng)的單代理強(qiáng)化學(xué)習(xí)概念擴(kuò)展到多代理環(huán)境中。在MARL中,多個(gè)代理通過(guò)與環(huán)境和其他代理的交互來(lái)學(xué)習(xí)最優(yōu)策略,以在協(xié)作或競(jìng)爭(zhēng)場(chǎng)景中最大化累積獎(jiǎng)勵(lì)。

MAgent中代理之間的對(duì)抗(混合MARL示例)MAgent中代理之間的對(duì)抗(混合MARL示例)

MARL的正式定義如下:多代理強(qiáng)化學(xué)習(xí)是強(qiáng)化學(xué)習(xí)的一個(gè)子領(lǐng)域,專注于研究在共享環(huán)境中共存的多個(gè)學(xué)習(xí)代理的行為。每個(gè)代理都受其個(gè)體獎(jiǎng)勵(lì)驅(qū)動(dòng),采取行動(dòng)以推進(jìn)自身利益;在某些環(huán)境中,這些利益可能與其他代理的利益相沖突,從而產(chǎn)生復(fù)雜的群體動(dòng)態(tài)。

2. 單代理強(qiáng)化學(xué)習(xí)回顧

在深入MARL之前,有必要回顧單代理強(qiáng)化學(xué)習(xí)的基本概念。

經(jīng)典馬爾可夫決策過(guò)程圖示經(jīng)典馬爾可夫決策過(guò)程圖示

2.1 核心概念

  • 代理:代理是與環(huán)境交互的實(shí)體,基于觀察或狀態(tài)采取行動(dòng),目標(biāo)是最大化累積獎(jiǎng)勵(lì)。
  • 狀態(tài)和環(huán)境:環(huán)境是代理操作的外部系統(tǒng)。它向代理提供狀態(tài)信息,接收代理的行動(dòng),并返回新的狀態(tài)和獎(jiǎng)勵(lì)。狀態(tài)是代理可觀察到的環(huán)境當(dāng)前情況的表示。
  • 馬爾可夫決策過(guò)程(MDPs):強(qiáng)化學(xué)習(xí)問(wèn)題通常被formulated formulated表述為馬爾可夫決策過(guò)程,用元組<S, A, P, R, γ>表示。其中S和A分別是狀態(tài)空間和行動(dòng)空間,P(s' | s, a)是給定行動(dòng)a時(shí)從狀態(tài)s轉(zhuǎn)移到s'的概率,R是獎(jiǎng)勵(lì)函數(shù),γ是折扣因子。

2.2 策略

代理的行為由其策略π指導(dǎo):給定一個(gè)狀態(tài),策略輸出一個(gè)行動(dòng)或行動(dòng)的概率分布。強(qiáng)化學(xué)習(xí)的目標(biāo)是找到最優(yōu)策略π*,以最大化長(zhǎng)期累積獎(jiǎng)勵(lì)。

3. 單代理MDP求解方法

解決MDP的核心目標(biāo)是隨時(shí)間最大化累積獎(jiǎng)勵(lì)。主要的強(qiáng)化學(xué)習(xí)方法可分為兩類:

3.1 基于價(jià)值的方法

價(jià)值函數(shù)和學(xué)習(xí)方法概覽價(jià)值函數(shù)和學(xué)習(xí)方法概覽

在基于價(jià)值的方法中,代理學(xué)習(xí)價(jià)值函數(shù),以評(píng)估狀態(tài)或狀態(tài)-行動(dòng)對(duì)的價(jià)值,并基于這些價(jià)值選擇行動(dòng)。典型的基于價(jià)值的算法包括Q學(xué)習(xí)、SARSA和時(shí)序差分(TD)學(xué)習(xí)。

3.2 基于策略的方法

策略梯度方法和更新規(guī)則概覽策略梯度方法和更新規(guī)則概覽

基于策略的方法直接學(xué)習(xí)最優(yōu)策略,將狀態(tài)映射到行動(dòng)以最大化長(zhǎng)期獎(jiǎng)勵(lì)。常見(jiàn)的基于策略的算法包括策略梯度和演員-評(píng)論家方法。

4. 多代理強(qiáng)化學(xué)習(xí)的特點(diǎn)與挑戰(zhàn)

將單代理強(qiáng)化學(xué)習(xí)擴(kuò)展到多代理環(huán)境中,需要重新考慮系統(tǒng)建模方法。多代理環(huán)境通常被建模為馬爾可夫博弈,其中多個(gè)代理同時(shí)交互,每個(gè)代理都影響狀態(tài)轉(zhuǎn)移和獎(jiǎng)勵(lì)分配。

4.1 馬爾可夫博弈

馬爾可夫博弈由元組(N, S, A, P, R, γ)定義:

  • N:代理數(shù)量
  • S:狀態(tài)空間
  • A = A? × A? × … × A?:聯(lián)合行動(dòng)空間
  • P:狀態(tài)轉(zhuǎn)移概率函數(shù)
  • R = (R?, R?, …, R?):每個(gè)代理的獎(jiǎng)勵(lì)函數(shù)集
  • γ:折扣因子

4.2 MARL的類別

多代理強(qiáng)化學(xué)習(xí)可以根據(jù)代理之間的交互方式分為以下幾類:

  1. 合作型MARL:代理學(xué)習(xí)共同完成任務(wù),最大化共享獎(jiǎng)勵(lì)。適用于多機(jī)器人系統(tǒng)等場(chǎng)景。
  2. 競(jìng)爭(zhēng)型MARL:代理在對(duì)抗性或零和博弈中最大化自身獎(jiǎng)勵(lì)。例如棋類游戲或?qū)剐詧?chǎng)景。
  3. 混合利益型MARL:代理既有合作也有競(jìng)爭(zhēng)關(guān)系,目標(biāo)部分一致,部分沖突。常見(jiàn)于貿(mào)易、交通和多人視頻游戲等復(fù)雜場(chǎng)景。

4.3 MARL面臨的主要挑戰(zhàn)

MARL中的主要挑戰(zhàn)MARL中的主要挑戰(zhàn)

4.3.1 非平穩(wěn)性

在多代理環(huán)境中,每個(gè)代理面臨的環(huán)境是動(dòng)態(tài)變化的,因?yàn)槠渌硪苍诓粩鄬W(xué)習(xí)和調(diào)整策略。這違反了馬爾可夫性質(zhì),使得傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法難以直接應(yīng)用。

  • 影響:狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)勵(lì)函數(shù)不再是靜態(tài)的。
  • 后果:代理的最優(yōu)策略可能隨著其他代理行為的變化而改變,導(dǎo)致學(xué)習(xí)過(guò)程的不穩(wěn)定性。

4.3.2 部分可觀察性

在大多數(shù)多代理場(chǎng)景中,單個(gè)代理無(wú)法獲得完整的環(huán)境狀態(tài)信息或其他代理的行動(dòng)。

  • 建模:?jiǎn)栴}轉(zhuǎn)化為部分可觀察馬爾可夫決策過(guò)程(POMDP)。
  • 挑戰(zhàn):代理需要在不完整信息的基礎(chǔ)上推斷隱藏狀態(tài),增加了策略學(xué)習(xí)的復(fù)雜性。

4.3.3 可擴(kuò)展性和聯(lián)合行動(dòng)空間

隨著代理數(shù)量的增加,系統(tǒng)的復(fù)雜度呈指數(shù)級(jí)增長(zhǎng)。

  • 聯(lián)合行動(dòng)空間:對(duì)于n個(gè)代理,聯(lián)合行動(dòng)空間為A? × A? × … × A?。
  • 計(jì)算挑戰(zhàn):狀態(tài)-行動(dòng)空間的急劇擴(kuò)大導(dǎo)致計(jì)算復(fù)雜性顯著增加,傳統(tǒng)RL方法效率降低。
  • 可擴(kuò)展性需求:需要開(kāi)發(fā)能夠處理大規(guī)模多代理系統(tǒng)的算法。

4.3.4 信用分配問(wèn)題

在合作場(chǎng)景中,準(zhǔn)確評(píng)估每個(gè)代理對(duì)團(tuán)隊(duì)目標(biāo)的貢獻(xiàn)變得尤為復(fù)雜。

  • 挑戰(zhàn):難以確定哪些代理的行動(dòng)對(duì)實(shí)現(xiàn)共同目標(biāo)起到了關(guān)鍵作用。
  • 局限性:傳統(tǒng)方法往往無(wú)法提供清晰的個(gè)體貢獻(xiàn)洞察,影響?yīng)剟?lì)分配的公平性和有效性。

這些挑戰(zhàn)共同構(gòu)成了MARL研究的核心問(wèn)題,推動(dòng)了該領(lǐng)域算法和理論的不斷發(fā)展。在接下來(lái)的章節(jié)中,我們將探討應(yīng)對(duì)這些挑戰(zhàn)的一些主要方法和算法。

5. MARL中的決策制定與學(xué)習(xí)范式

多代理強(qiáng)化學(xué)習(xí)(MARL)在現(xiàn)實(shí)世界的多個(gè)領(lǐng)域都有重要應(yīng)用,尤其是在機(jī)器人領(lǐng)域。MARL算法旨在使每個(gè)代理學(xué)習(xí)如何在最大化自身獎(jiǎng)勵(lì)的同時(shí),維持其對(duì)全局獎(jiǎng)勵(lì)最大化的貢獻(xiàn)。

5.1 MARL的主要學(xué)習(xí)范式

5.1.1 集中訓(xùn)練與分散執(zhí)行(CTDE)

CTDE是MARL中一種廣泛使用的范式,它在訓(xùn)練和執(zhí)行階段采用不同的信息訪問(wèn)策略:

  • 訓(xùn)練階段:代理可以訪問(wèn)全局信息。
  • 執(zhí)行階段:代理僅基于局部觀察進(jìn)行決策。

這種方法平衡了學(xué)習(xí)效率和實(shí)際部署的需求。

5.1.2 完全分散學(xué)習(xí)

在這種范式下,代理在訓(xùn)練和執(zhí)行過(guò)程中都無(wú)法獲取其他代理的信息:

  • 每個(gè)代理獨(dú)立更新自己的策略。
  • 目標(biāo)是最大化所有代理的獎(jiǎng)勵(lì)總和。

這種方法面臨的主要挑戰(zhàn)是環(huán)境的非平穩(wěn)性,因?yàn)閺拿總€(gè)代理的角度來(lái)看,其他代理的行為變化會(huì)導(dǎo)致環(huán)境動(dòng)態(tài)的變化。

5.2 核心算法

5.2.1 值分解網(wǎng)絡(luò)(VDN)

VDN是一種在CTDE框架下使用的方法,其核心思想是將全局Q值分解為各個(gè)代理的Q值之和。

Q-tot作為各個(gè)代理Q值的總和Q-tot作為各個(gè)代理Q值的總和

VDN的基本假設(shè)是聯(lián)合Q函數(shù)可以加性分解為個(gè)體代理Q函數(shù):

Q_tot = ∑ Q_i

優(yōu)點(diǎn)

  • 允許分散執(zhí)行
  • 每個(gè)代理可以獨(dú)立優(yōu)化自身策略

局限性

  • 簡(jiǎn)單的加和可能導(dǎo)致策略多樣性降低
  • 容易陷入局部最優(yōu),特別是當(dāng)Q網(wǎng)絡(luò)在代理間共享時(shí)

5.2.2 QMIX

QMIX是對(duì)VDN的改進(jìn),引入了一個(gè)混合網(wǎng)絡(luò)來(lái)組合個(gè)體代理值到聯(lián)合Q值。

QMIX架構(gòu)QMIX架構(gòu)

核心特點(diǎn)

  • 使用混合網(wǎng)絡(luò)表示個(gè)體代理值和聯(lián)合Q值之間的非線性關(guān)系
  • 保持單調(diào)性約束,確保行動(dòng)選擇的一致性

Q-tot作為混合網(wǎng)絡(luò)輸出Q-tot作為混合網(wǎng)絡(luò)輸出

QMIX遵循標(biāo)準(zhǔn)的Q學(xué)習(xí)范式,使用時(shí)序差分(TD)誤差更新全局Q值:

TD_error = r + γ * max_a' Q(s', a') - Q(s, a)

5.2.3 獨(dú)立近端策略優(yōu)化(IPPO)

IPPO是一種簡(jiǎn)單而有效的MARL算法,其中每個(gè)代理在訓(xùn)練和執(zhí)行過(guò)程中都獨(dú)立運(yùn)作。

關(guān)鍵特點(diǎn)

  • 每個(gè)代理?yè)碛歇?dú)立的策略和評(píng)論家網(wǎng)絡(luò)
  • 使用PPO算法進(jìn)行策略更新

IPPO使用PPO的裁剪目標(biāo)函數(shù)來(lái)防止過(guò)大的策略更新:

IPPO中使用的PPO裁剪目標(biāo)IPPO中使用的PPO裁剪目標(biāo)

優(yōu)勢(shì)

  • 簡(jiǎn)單,易于實(shí)現(xiàn)
  • 良好的可擴(kuò)展性

局限性

  • 可能難以實(shí)現(xiàn)全局最優(yōu),特別是在需要高度協(xié)調(diào)的任務(wù)中

5.2.4 多代理近端策略優(yōu)化(MAPPO)

MAPPO是PPO算法在多代理場(chǎng)景中的擴(kuò)展,采用CTDE方法。

核心思想

  • 使用中心化評(píng)論家來(lái)解決非平穩(wěn)性問(wèn)題
  • 評(píng)論家可以訪問(wèn)聯(lián)合狀態(tài),學(xué)習(xí)更穩(wěn)定的值函數(shù)

MAPPO的策略更新通過(guò)最大化以下PPO目標(biāo)來(lái)執(zhí)行:

其中L_i_PPO是代理i的PPO目標(biāo)。

中心化評(píng)論家通過(guò)最小化以下誤差來(lái)更新:

MAPPO通過(guò)結(jié)合中心化訓(xùn)練和分散執(zhí)行,在處理非平穩(wěn)環(huán)境方面表現(xiàn)出色。

在下一部分中,我們將繼續(xù)探討更多高級(jí)MARL算法,以及多代理系統(tǒng)中的通信策略。

6. 高級(jí)MARL算法與通信策略

6.1 多代理深度確定性策略梯度(MADDPG)

MADDPG是深度確定性策略梯度(DDPG)算法在多代理環(huán)境中的擴(kuò)展。它采用集中訓(xùn)練分散執(zhí)行(CTDE)的策略,引入了中心化的Q函數(shù)來(lái)處理所有代理的聯(lián)合行動(dòng)。

MADDPG算法流程MADDPG算法流程

核心特點(diǎn)如下

  • 每個(gè)代理?yè)碛凶约旱难輪T網(wǎng)絡(luò)(策略)和評(píng)論家網(wǎng)絡(luò)
  • 評(píng)論家網(wǎng)絡(luò)在訓(xùn)練時(shí)可訪問(wèn)所有代理的觀察和行動(dòng)
  • 使用目標(biāo)網(wǎng)絡(luò)來(lái)穩(wěn)定學(xué)習(xí)過(guò)程

MADDPG的評(píng)論家網(wǎng)絡(luò)更新遵循標(biāo)準(zhǔn)的Q學(xué)習(xí)范式:

其中Q函數(shù)是中心化的動(dòng)作-值函數(shù),接受所有代理的行動(dòng)作為輸入。

策略更新通過(guò)最大化預(yù)期Q值來(lái)實(shí)現(xiàn):

MADDPG通過(guò)允許代理學(xué)習(xí)其他代理的策略,有效地處理了非平穩(wěn)環(huán)境的挑戰(zhàn)。

6.2 MARL中的通信策略

在多代理系統(tǒng)中,有效的通信對(duì)于協(xié)調(diào)和決策至關(guān)重要。然而,通信也面臨諸如帶寬限制、不可靠信道等挑戰(zhàn)。

代理間的三種不同通信策略代理間的三種不同通信策略

6.2.1 可微分和強(qiáng)化的代理間學(xué)習(xí)(RIAL/DIAL)

RIAL和DIAL是探索代理間高效通信的重要方法:

  • RIAL:結(jié)合DRQN和獨(dú)立Q學(xué)習(xí),分別用于行動(dòng)選擇和通信
  • DIAL:引入可微分通信通道,支持端到端學(xué)習(xí)

6.2.2 SchedNet

SchedNet引入了學(xué)習(xí)型調(diào)度機(jī)制,代理學(xué)習(xí)決定哪些代理應(yīng)該被允許廣播消息。

SchedNet架構(gòu)SchedNet架構(gòu)

主要組件:

  1. 調(diào)度機(jī)制
  2. 消息編碼
  3. 基于有限通信和局部觀察的行動(dòng)選擇

6.2.3 TarMAC:目標(biāo)多代理通信

TarMAC專注于提高代理間通信的效率和有效性。

TarMAC架構(gòu)TarMAC架構(gòu)

核心思想

  • 使用目標(biāo)通信策略,允許代理選擇性地與特定同伴通信
  • 采用基于簽名的軟注意力機(jī)制來(lái)實(shí)現(xiàn)消息定向

使用簽名和值構(gòu)建的消息使用簽名和值構(gòu)建的消息

跨代理計(jì)算的注意力跨代理計(jì)算的注意力

6.2.4 基于自編碼器的通信方法

這種方法旨在開(kāi)發(fā)多代理系統(tǒng)中的通信語(yǔ)言,重點(diǎn)關(guān)注如何使用自編碼器在環(huán)境中建立語(yǔ)言基礎(chǔ)。

基于自編碼器的通信架構(gòu)基于自編碼器的通信架構(gòu)

主要組件:

  • 圖像編碼器:將原始像素觀察嵌入到低維特征空間
  • 通信自編碼器:學(xué)習(xí)從特征空間到通信符號(hào)的映射
  • 接收器模塊:使用GRU策略處理編碼的圖像特征和消息特征

7. 結(jié)論和未來(lái)方向

多代理強(qiáng)化學(xué)習(xí)(MARL)通過(guò)引入多個(gè)代理在共享環(huán)境中交互的復(fù)雜性,極大地?cái)U(kuò)展了傳統(tǒng)強(qiáng)化學(xué)習(xí)的邊界。MARL在處理非平穩(wěn)性、部分可觀察性、可擴(kuò)展性和信用分配等方面的挑戰(zhàn)推動(dòng)了該領(lǐng)域的快速發(fā)展。

未來(lái)研究方向

  1. 可擴(kuò)展性:開(kāi)發(fā)能夠有效處理大規(guī)模多代理系統(tǒng)的算法仍然是一個(gè)關(guān)鍵挑戰(zhàn)。
  2. 分散訓(xùn)練分散執(zhí)行(DTDE):探索完全分散的訓(xùn)練和執(zhí)行方法,以應(yīng)對(duì)更復(fù)雜的實(shí)際場(chǎng)景。
  3. 通信策略:進(jìn)一步研究高效、魯棒的代理間通信機(jī)制,特別是在有限帶寬和不可靠通道的情況下。
  4. 遷移學(xué)習(xí):研究如何將學(xué)到的策略從一個(gè)多代理環(huán)境遷移到另一個(gè)環(huán)境。
  5. 模型化MARL:結(jié)合模型學(xué)習(xí)與MARL,提高樣本效率和泛化能力。
  6. 公平性和倫理:探討MARL系統(tǒng)中的公平性問(wèn)題,以及如何在多代理決策中納入道德和倫理考慮。

隨著研究的深入和技術(shù)的進(jìn)步,MARL有望在更多復(fù)雜的實(shí)際問(wèn)題中發(fā)揮關(guān)鍵作用,推動(dòng)人工智能在多代理系統(tǒng)中的應(yīng)用不斷向前發(fā)展。

責(zé)任編輯:華軒 來(lái)源: DeepHub IMBA
相關(guān)推薦

2024-08-28 13:53:42

多代理強(qiáng)化學(xué)習(xí)機(jī)器人

2021-11-10 15:03:17

深度學(xué)習(xí)算法人工智能

2025-10-11 04:00:00

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習(xí)

2020-11-04 10:28:48

機(jī)器人人工智能系統(tǒng)

2023-08-28 06:52:29

2024-09-10 15:10:00

智能強(qiáng)化學(xué)習(xí)框架

2024-04-03 07:56:50

推薦系統(tǒng)多任務(wù)推薦

2023-06-25 11:30:47

可視化

2025-03-28 10:16:15

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2025-06-03 06:12:03

2025-01-03 11:46:31

2023-01-16 14:55:00

強(qiáng)化學(xué)習(xí)

2025-07-25 09:03:24

2025-09-09 09:09:00

2025-06-20 08:40:32

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2025-05-28 02:25:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)