偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

為什么策略梯度法在協(xié)作性MARL中如此高效?

譯文 精選
開發(fā) 架構(gòu)
為什么PG方法可以如此有效?在本文中,我們將展開具體的分析以表明在某些場景中,例如在具有高度多模式獎勵景觀的環(huán)境中,虛擬現(xiàn)實(shí)可能存在的問題并導(dǎo)致不期望的結(jié)果。

?譯者 | 朱先忠

審校 | 孫淑娟

在協(xié)作性多智能體強(qiáng)化學(xué)習(xí)(multi-agentreinforcement learning:MARL)中,由于其基于策略的性質(zhì),通常認(rèn)為策略梯度(policy gradient:PG)方法的樣本效率低于非策略的值分解(value decomposition:VD)方法。然而,最近的一些實(shí)證研究表明,與非策略值分解方法相比,通過適當(dāng)?shù)妮斎氡硎竞统瑓?shù)調(diào)整,多智能體策略梯度(PG)方法可以實(shí)現(xiàn)驚人的性能。

為什么PG方法可以如此有效?在本文中,我們將展開具體的分析以表明在某些場景中,例如在具有高度多模式獎勵景觀的環(huán)境中,虛擬現(xiàn)實(shí)可能存在的問題并導(dǎo)致不期望的結(jié)果。相反,在這些情況下,使用單個策略的PG方法可以收斂到最優(yōu)策略。此外,具有自回歸(auto-regressive:AR)策略的PG方法可以進(jìn)行多模式策略學(xué)習(xí)。

圖1:4人置換博弈的不同策略表示

協(xié)作性MARL中的集中訓(xùn)練和分散執(zhí)行:VD與PG方法

集中訓(xùn)練和分散執(zhí)行(Centralizedtraining and decentralized execution:CTDE)是合作MARL中一種流行的框架。它利用全局信息進(jìn)行更有效的訓(xùn)練,同時保留用于測試的單個策略的表示。CTDE可以通過值分解(VD)或策略梯度(PG)方法來實(shí)現(xiàn),從而產(chǎn)生兩種不同類型的算法。

其中,VD方法能夠?qū)W習(xí)局部Q網(wǎng)絡(luò)并將局部Q網(wǎng)絡(luò)混合到全局Q函數(shù)中的混合函數(shù)。通常,強(qiáng)制執(zhí)行混合函數(shù)以滿足單個全局最大值(Individual-Global-Max:IGM)原則;該原則確??梢酝ㄟ^貪婪地為每個智能體局部選擇最優(yōu)動作來計(jì)算最優(yōu)聯(lián)合動作。

相反,PG方法直接應(yīng)用策略梯度來學(xué)習(xí)單個策略和每個智能體的集中值函數(shù)。其中,值函數(shù)將全局狀態(tài)(如MAPPO)或所有局部觀測值的串聯(lián)(如MADDPG)作為其輸入,以獲得準(zhǔn)確的全局值估計(jì)。

置換博弈:VD失敗的一個簡單反例

我們首先考慮一個無狀態(tài)合作博弈(即置換博弈)的情形。在N個人的置換博弈中,每個智能體可以輸出N個動作1,…,N。如果智能體的行為相互不同,即聯(lián)合行為是1,…,N上的排列,那么智能體將收到+1獎勵;否則,他們將獲得0獎勵。注意,在該博弈中存在N!種對稱的最優(yōu)策略。

圖2:4人排列游戲

現(xiàn)在,不妨讓我們集中討論一下兩人之間的置換博弈。在此設(shè)置中,如果我們將前面的值分解(VD)方法應(yīng)用于游戲。這樣一來,全局Q值將分解為:

其中,Q1和Q2是局部Q函數(shù),Qtot是全局Q函數(shù),fmix是混合函數(shù),根據(jù)VD方法的要求,滿足IGM原理。

圖3:2人排列游戲中VD失敗原因的高級直觀展示

目前,我們已經(jīng)正式證明了值分解VD方法不能矛盾地描述二人置換博弈的結(jié)局。因?yàn)?,如果值分解方法能夠描述博弈結(jié)局,我們將有:

然而,如果這兩種智能體中的任何一種具有不同的局部Q值,例如Q1(1)>Q1(2),那么根據(jù)單個全局最大值(IGM)原理,我們必須具有:

否則,如果Q1(1)=Q1(2)和Q2(1)=Q2(2),則有:

因此,值分解方案不能表示二人置換博弈的結(jié)局矩陣。

那么,PG方法如何呢?單個策略確實(shí)可以表示置換博弈的最優(yōu)策略。此外,隨機(jī)梯度下降可以保證PG在溫和的假設(shè)下收斂到這些最優(yōu)值之一。這表明,盡管與值分解方法相比,策略梯度方法在MARL中不太流行,但在現(xiàn)實(shí)應(yīng)用中常見的某些情況下,例如具有多種策略模式的游戲中,它們可能更適合使用。

我們還指出,在置換博弈中,為了表示最優(yōu)聯(lián)合策略,每個智能體必須選擇不同的動作。因此,PG的成功實(shí)施必須確保策略是特定于智能體的。這可以通過使用具有非共享參數(shù)的單個策略(在本文中稱為PG-Ind)或智能體ID條件策略(PG-ID)來實(shí)現(xiàn)。

在流行的MARL測試平臺上PG優(yōu)于最佳VD方法

除了排列游戲的簡單示例之外,我們還將我們的研究擴(kuò)展到了目前流行的和更現(xiàn)實(shí)的MARL基準(zhǔn)測試環(huán)境中。除了星際爭霸多智能體挑戰(zhàn)(StarCraft Multi-Agent Challenge:SMAC)已經(jīng)驗(yàn)證了PG和智能體條件策略輸入的有效性外,我們還展示了谷歌足球研究(Google Research Football:GRF)和多玩家Hanabi挑戰(zhàn)方面的新成果。

圖4:(左)GRF上PG方法的獲勝率;(右)Hanabi-Full的最佳和平均評估分?jǐn)?shù)

在GRF中,PG方法在5種場景中優(yōu)于最先進(jìn)的VD基礎(chǔ)數(shù)據(jù)(CDS)。有趣的是,我們還注意到,在所有5種場景中,與特定于智能體的策略(PG-ID)相比,沒有參數(shù)共享的單個策略(PG-Ind)實(shí)現(xiàn)了可比的有時甚至出現(xiàn)更高的獲勝率。我們評估了具有不同玩家數(shù)量(2-5名玩家)的全規(guī)模Hanabi游戲中的PG-ID,并將其與SAD——Hanabi游戲中一種強(qiáng)大的非策略Q學(xué)習(xí)變體和值分解網(wǎng)絡(luò)(VDN),進(jìn)行了比較。如上表所示,在不同數(shù)量的玩家使用相同數(shù)量的環(huán)境步驟時,PG-ID能夠產(chǎn)生與SAD和VDN獲得的最佳和平均獎勵相當(dāng)或更好的結(jié)果。

超越高回報(bào):通過自回歸策略建模學(xué)習(xí)多模式行為

除了學(xué)習(xí)更高的回報(bào)外,我們還研究了如何學(xué)習(xí)合作MARL中的多模式策略。讓我們再次切換回排列游戲主題。其中,雖然我們已經(jīng)證明了PG可以有效地學(xué)習(xí)最優(yōu)策略,但它最終達(dá)到的策略模式在很大程度上取決于策略初始化。因此,出現(xiàn)了一個自然的問題:

我們可以學(xué)習(xí)一個可以覆蓋所有最優(yōu)模式的策略嗎?

在分散式的PG公式中,聯(lián)合策略的因子表示只能表示一種特定模式。因此,我們提出了一種增強(qiáng)的方法來參數(shù)化策略以獲得更強(qiáng)的表達(dá)能力——自回歸(auto-regressive:AR)策略。

圖5:4人置換博弈中個體策略(PG)和自回歸策略(AR)之間的比較

從形式上,我們可以將n個智能體的聯(lián)合策略分解為如下形式:

其中,智能體i產(chǎn)生的動作取決于其自身的觀察oi和來自先前智能體1,…,i?1的所有動作。自回歸因子分解可以表示集中式MDP中的任何聯(lián)合策略。對每個智能體策略的唯一修改是輸入維度,通過包含以前的操作,輸入維度略有擴(kuò)大;每個智能體策略的輸出維度保持不變。

在這樣最小的參數(shù)化開銷下,AR策略大大提高了PG方法的表示能力。我們注意到,帶AR策略的PG-AR可以同時表示置換博弈中的所有最優(yōu)策略模式。

圖6:PG Ind(左)和PG-AR(中)學(xué)習(xí)的策略行為熱圖和結(jié)局熱圖(右)。雖然PG-Ind在4人置換博弈中僅收斂到特定模式,但PG-AR成功地發(fā)現(xiàn)了所有最優(yōu)模式

在包括SMAC和GRF等更復(fù)雜的環(huán)境中,PG-AR可以學(xué)習(xí)有趣的緊急行為,這些行為需要強(qiáng)大的智能體內(nèi)協(xié)調(diào),而PG-Ind可能永遠(yuǎn)無法學(xué)習(xí)這樣的行為。

圖7:(左)在SMAC和GRF中由PG-AR誘導(dǎo)的緊急行為。在SMAC的2m_vs_1z地圖上,海軍陸戰(zhàn)隊(duì)保持站立并交替攻擊,同時確保每個時間步只有一名攻擊海軍陸戰(zhàn)隊(duì);(右)在GRF的academy_3_vs_1_with_keeper場景中,智能體學(xué)習(xí)“TikiTaka”風(fēng)格的行為:每個球員都不停地將球傳給隊(duì)友。

討論和收獲

在本文中,我們具體分析了合作性MARL中的VD和PG方法。首先,我們揭示了流行的VD方法表達(dá)能力的局限性,展示了即使在簡單的置換博弈中,它們也不能表示最優(yōu)策略。相比之下,我們證明了PG方法更具表現(xiàn)力。我們通過實(shí)驗(yàn)驗(yàn)證了PG在流行的MARL試驗(yàn)環(huán)境(包括SMAC、GRF和Hanabi Challenge等游戲環(huán)境)中的表達(dá)優(yōu)勢。最后,我們真誠希望從這項(xiàng)工作中獲得的見解能夠幫助社區(qū)在未來實(shí)現(xiàn)更通用和更強(qiáng)大的協(xié)作MARL算法。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。早期專注各種微軟技術(shù)(編著成ASP.NET AJX、Cocos 2d-X相關(guān)三本技術(shù)圖書),近十多年投身于開源世界(熟悉流行全棧Web開發(fā)技術(shù)),了解基于OneNet/AliOS+Arduino/ESP32/樹莓派等物聯(lián)網(wǎng)開發(fā)技術(shù)與Scala+Hadoop+Spark+Flink等大數(shù)據(jù)開發(fā)技術(shù)。

原文標(biāo)題:??Why doPolicy Gradient Methods work so well in Cooperative MARL? Evidence from PolicyRepresentation???,作者:Wei Fu, Chao Yu, Jiaqi Yang,Yi Wu

責(zé)任編輯:武曉燕 來源: 51CTO
相關(guān)推薦

2020-05-06 22:20:48

Kubernetes邊緣計(jì)算

2021-04-16 17:37:28

數(shù)據(jù)智能照明物聯(lián)網(wǎng)

2024-05-07 06:36:59

2019-12-13 17:36:00

機(jī)器學(xué)習(xí)設(shè)計(jì)數(shù)學(xué)

2021-08-30 17:14:22

物聯(lián)網(wǎng)IOT

2012-04-09 13:35:10

Instagram

2022-06-01 23:27:38

區(qū)塊鏈加密貨幣數(shù)字資產(chǎn)

2020-06-02 19:14:59

Kubernetes容器開發(fā)

2020-11-05 10:50:09

物聯(lián)網(wǎng)數(shù)據(jù)技術(shù)

2017-07-26 10:21:46

DockerLinux容器

2016-05-19 10:31:35

數(shù)據(jù)處理CassandraSpark

2020-06-04 21:49:20

物聯(lián)網(wǎng)用戶體驗(yàn)IOT

2022-11-28 09:00:03

編程bug開發(fā)

2024-09-05 11:46:08

2018-04-24 15:53:52

2013-07-27 21:10:02

2021-05-31 07:44:08

Kafka分布式系統(tǒng)

2019-01-15 17:50:18

存儲技術(shù)容器

2021-09-30 10:19:29

物聯(lián)網(wǎng)安全物聯(lián)網(wǎng)IOT

2013-04-19 13:59:00

Apache Hado
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號