偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rt id="7ffwx"><strike id="7ffwx"></strike></rt>

<kbd id="7ffwx"></kbd>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

為什么策略梯度法在協(xié)作性MARL中如此高效？

作者：朱先忠 2022-08-05 11:01:18

開發(fā) 架構(gòu)

為什么PG方法可以如此有效？在本文中，我們將展開具體的分析以表明在某些場景中，例如在具有高度多模式獎勵景觀的環(huán)境中，虛擬現(xiàn)實(shí)可能存在的問題并導(dǎo)致不期望的結(jié)果。

?譯者 | 朱先忠

審校 | 孫淑娟

在協(xié)作性多智能體強(qiáng)化學(xué)習(xí)（multi-agentreinforcement learning：MARL）中，由于其基于策略的性質(zhì)，通常認(rèn)為策略梯度（policy gradient：PG）方法的樣本效率低于非策略的值分解（value decomposition：VD）方法。然而，最近的一些實(shí)證研究表明，與非策略值分解方法相比，通過適當(dāng)?shù)妮斎氡硎竞统瑓?shù)調(diào)整，多智能體策略梯度（PG）方法可以實(shí)現(xiàn)驚人的性能。

為什么PG方法可以如此有效？在本文中，我們將展開具體的分析以表明在某些場景中，例如在具有高度多模式獎勵景觀的環(huán)境中，虛擬現(xiàn)實(shí)可能存在的問題并導(dǎo)致不期望的結(jié)果。相反，在這些情況下，使用單個策略的PG方法可以收斂到最優(yōu)策略。此外，具有自回歸（auto-regressive：AR）策略的PG方法可以進(jìn)行多模式策略學(xué)習(xí)。

圖1：4人置換博弈的不同策略表示

協(xié)作性MARL中的集中訓(xùn)練和分散執(zhí)行：VD與PG方法

集中訓(xùn)練和分散執(zhí)行（Centralizedtraining and decentralized execution：CTDE）是合作MARL中一種流行的框架。它利用全局信息進(jìn)行更有效的訓(xùn)練，同時保留用于測試的單個策略的表示。CTDE可以通過值分解（VD）或策略梯度（PG）方法來實(shí)現(xiàn)，從而產(chǎn)生兩種不同類型的算法。

其中，VD方法能夠?qū)W習(xí)局部Q網(wǎng)絡(luò)并將局部Q網(wǎng)絡(luò)混合到全局Q函數(shù)中的混合函數(shù)。通常，強(qiáng)制執(zhí)行混合函數(shù)以滿足單個全局最大值（Individual-Global-Max：IGM）原則；該原則確?？梢酝ㄟ^貪婪地為每個智能體局部選擇最優(yōu)動作來計(jì)算最優(yōu)聯(lián)合動作。

相反，PG方法直接應(yīng)用策略梯度來學(xué)習(xí)單個策略和每個智能體的集中值函數(shù)。其中，值函數(shù)將全局狀態(tài)（如MAPPO）或所有局部觀測值的串聯(lián)（如MADDPG）作為其輸入，以獲得準(zhǔn)確的全局值估計(jì)。

置換博弈：VD失敗的一個簡單反例

我們首先考慮一個無狀態(tài)合作博弈（即置換博弈）的情形。在N個人的置換博弈中，每個智能體可以輸出N個動作1，…，N。如果智能體的行為相互不同，即聯(lián)合行為是1，…，N上的排列，那么智能體將收到+1獎勵；否則，他們將獲得0獎勵。注意，在該博弈中存在N！種對稱的最優(yōu)策略。

圖2：4人排列游戲

現(xiàn)在，不妨讓我們集中討論一下兩人之間的置換博弈。在此設(shè)置中，如果我們將前面的值分解（VD）方法應(yīng)用于游戲。這樣一來，全局Q值將分解為：

其中，Q1和Q2是局部Q函數(shù)，Qtot是全局Q函數(shù)，fmix是混合函數(shù)，根據(jù)VD方法的要求，滿足IGM原理。

圖3：2人排列游戲中VD失敗原因的高級直觀展示

目前，我們已經(jīng)正式證明了值分解VD方法不能矛盾地描述二人置換博弈的結(jié)局。因?yàn)?，如果值分解方法能夠描述博弈結(jié)局，我們將有：

然而，如果這兩種智能體中的任何一種具有不同的局部Q值，例如Q1（1）>Q1（2），那么根據(jù)單個全局最大值（IGM）原理，我們必須具有：

否則，如果Q1（1）=Q1（2）和Q2（1）=Q2（2），則有：

因此，值分解方案不能表示二人置換博弈的結(jié)局矩陣。

那么，PG方法如何呢？單個策略確實(shí)可以表示置換博弈的最優(yōu)策略。此外，隨機(jī)梯度下降可以保證PG在溫和的假設(shè)下收斂到這些最優(yōu)值之一。這表明，盡管與值分解方法相比，策略梯度方法在MARL中不太流行，但在現(xiàn)實(shí)應(yīng)用中常見的某些情況下，例如具有多種策略模式的游戲中，它們可能更適合使用。

我們還指出，在置換博弈中，為了表示最優(yōu)聯(lián)合策略，每個智能體必須選擇不同的動作。因此，PG的成功實(shí)施必須確保策略是特定于智能體的。這可以通過使用具有非共享參數(shù)的單個策略（在本文中稱為PG-Ind）或智能體ID條件策略（PG-ID）來實(shí)現(xiàn)。

在流行的MARL測試平臺上PG優(yōu)于最佳VD方法

除了排列游戲的簡單示例之外，我們還將我們的研究擴(kuò)展到了目前流行的和更現(xiàn)實(shí)的MARL基準(zhǔn)測試環(huán)境中。除了星際爭霸多智能體挑戰(zhàn)（StarCraft Multi-Agent Challenge：SMAC）已經(jīng)驗(yàn)證了PG和智能體條件策略輸入的有效性外，我們還展示了谷歌足球研究（Google Research Football：GRF）和多玩家Hanabi挑戰(zhàn)方面的新成果。

圖4：（左）GRF上PG方法的獲勝率；（右）Hanabi-Full的最佳和平均評估分?jǐn)?shù)

在GRF中，PG方法在5種場景中優(yōu)于最先進(jìn)的VD基礎(chǔ)數(shù)據(jù)（CDS）。有趣的是，我們還注意到，在所有5種場景中，與特定于智能體的策略（PG-ID）相比，沒有參數(shù)共享的單個策略（PG-Ind）實(shí)現(xiàn)了可比的有時甚至出現(xiàn)更高的獲勝率。我們評估了具有不同玩家數(shù)量（2-5名玩家）的全規(guī)模Hanabi游戲中的PG-ID，并將其與SAD——Hanabi游戲中一種強(qiáng)大的非策略Q學(xué)習(xí)變體和值分解網(wǎng)絡(luò)（VDN），進(jìn)行了比較。如上表所示，在不同數(shù)量的玩家使用相同數(shù)量的環(huán)境步驟時，PG-ID能夠產(chǎn)生與SAD和VDN獲得的最佳和平均獎勵相當(dāng)或更好的結(jié)果。

超越高回報(bào)：通過自回歸策略建模學(xué)習(xí)多模式行為

除了學(xué)習(xí)更高的回報(bào)外，我們還研究了如何學(xué)習(xí)合作MARL中的多模式策略。讓我們再次切換回排列游戲主題。其中，雖然我們已經(jīng)證明了PG可以有效地學(xué)習(xí)最優(yōu)策略，但它最終達(dá)到的策略模式在很大程度上取決于策略初始化。因此，出現(xiàn)了一個自然的問題：

我們可以學(xué)習(xí)一個可以覆蓋所有最優(yōu)模式的策略嗎？

在分散式的PG公式中，聯(lián)合策略的因子表示只能表示一種特定模式。因此，我們提出了一種增強(qiáng)的方法來參數(shù)化策略以獲得更強(qiáng)的表達(dá)能力——自回歸（auto-regressive：AR）策略。

圖5：4人置換博弈中個體策略（PG）和自回歸策略（AR）之間的比較

從形式上，我們可以將n個智能體的聯(lián)合策略分解為如下形式：

其中，智能體i產(chǎn)生的動作取決于其自身的觀察oi和來自先前智能體1，…，i?1的所有動作。自回歸因子分解可以表示集中式MDP中的任何聯(lián)合策略。對每個智能體策略的唯一修改是輸入維度，通過包含以前的操作，輸入維度略有擴(kuò)大；每個智能體策略的輸出維度保持不變。

在這樣最小的參數(shù)化開銷下，AR策略大大提高了PG方法的表示能力。我們注意到，帶AR策略的PG-AR可以同時表示置換博弈中的所有最優(yōu)策略模式。

圖6：PG Ind（左）和PG-AR（中）學(xué)習(xí)的策略行為熱圖和結(jié)局熱圖（右）。雖然PG-Ind在4人置換博弈中僅收斂到特定模式，但PG-AR成功地發(fā)現(xiàn)了所有最優(yōu)模式

在包括SMAC和GRF等更復(fù)雜的環(huán)境中，PG-AR可以學(xué)習(xí)有趣的緊急行為，這些行為需要強(qiáng)大的智能體內(nèi)協(xié)調(diào)，而PG-Ind可能永遠(yuǎn)無法學(xué)習(xí)這樣的行為。

圖7：（左）在SMAC和GRF中由PG-AR誘導(dǎo)的緊急行為。在SMAC的2m_vs_1z地圖上，海軍陸戰(zhàn)隊(duì)保持站立并交替攻擊，同時確保每個時間步只有一名攻擊海軍陸戰(zhàn)隊(duì)；（右）在GRF的academy_3_vs_1_with_keeper場景中，智能體學(xué)習(xí)“TikiTaka”風(fēng)格的行為：每個球員都不停地將球傳給隊(duì)友。

討論和收獲

在本文中，我們具體分析了合作性MARL中的VD和PG方法。首先，我們揭示了流行的VD方法表達(dá)能力的局限性，展示了即使在簡單的置換博弈中，它們也不能表示最優(yōu)策略。相比之下，我們證明了PG方法更具表現(xiàn)力。我們通過實(shí)驗(yàn)驗(yàn)證了PG在流行的MARL試驗(yàn)環(huán)境（包括SMAC、GRF和Hanabi Challenge等游戲環(huán)境）中的表達(dá)優(yōu)勢。最后，我們真誠希望從這項(xiàng)工作中獲得的見解能夠幫助社區(qū)在未來實(shí)現(xiàn)更通用和更強(qiáng)大的協(xié)作MARL算法。

譯者介紹

朱先忠，51CTO社區(qū)編輯，51CTO專家博客、講師，濰坊一所高校計(jì)算機(jī)教師，自由編程界老兵一枚。早期專注各種微軟技術(shù)（編著成ASP.NET AJX、Cocos 2d-X相關(guān)三本技術(shù)圖書），近十多年投身于開源世界（熟悉流行全棧Web開發(fā)技術(shù)），了解基于OneNet/AliOS+Arduino/ESP32/樹莓派等物聯(lián)網(wǎng)開發(fā)技術(shù)與Scala+Hadoop+Spark+Flink等大數(shù)據(jù)開發(fā)技術(shù)。

原文標(biāo)題：??Why doPolicy Gradient Methods work so well in Cooperative MARL? Evidence from PolicyRepresentation???，作者：Wei Fu, Chao Yu, Jiaqi Yang,Yi Wu

責(zé)任編輯：武曉燕來源： 51CTO

梯度法 MARL PG

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<li id="cxa2v"></li>