OpenAI提出強(qiáng)化學(xué)習(xí)新方法:讓智能體學(xué)習(xí)合作、競(jìng)爭(zhēng)與交流
讓智能體(agent)學(xué)會(huì)合作一直以來(lái)都是人工智能領(lǐng)域內(nèi)的一項(xiàng)重要研究課題,一些研究者也認(rèn)為合作能力是實(shí)現(xiàn)通用人工智能(AGI)的必要條件。而除了合作,讓智能體學(xué)會(huì)競(jìng)爭(zhēng)可能也是實(shí)現(xiàn)這一目標(biāo)的一大關(guān)鍵。近日,OpenAI、麥吉爾大學(xué)和加州大學(xué)伯克利分校的幾位研究者提出了一種「用于合作-競(jìng)爭(zhēng)混合環(huán)境的多智能體 actor-critic」。之后,OpenAI 發(fā)布博客對(duì)這項(xiàng)研究進(jìn)行了解讀,機(jī)器之心對(duì)該解讀文章進(jìn)行了編譯介紹。
讓智能體能在其中為資源進(jìn)行競(jìng)爭(zhēng)的多智能體環(huán)境是實(shí)現(xiàn)通用人工智能之路的墊腳石。
多智能體環(huán)境(multi-agent environment)有兩個(gè)實(shí)用的屬性:***,存在一個(gè)自然的全套考驗(yàn)——環(huán)境的難度取決于你的競(jìng)爭(zhēng)者的能力(而且如果你正在和你的克隆體進(jìn)行對(duì)抗的話,環(huán)境就可以精確地匹配出你的技術(shù)水平)。第二點(diǎn),多智能體環(huán)境沒(méi)有穩(wěn)定的平衡態(tài)(equilibrium):無(wú)論一個(gè)智能體多么聰明,總會(huì)有讓它變得更智能的壓力。這些環(huán)境和傳統(tǒng)環(huán)境相比有很大的不同,并且要想掌控它們我們還需要大量的研究。
我們已經(jīng)設(shè)計(jì)了一個(gè)新算法 MADDPG(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments),可用于多智能體環(huán)境中的中心化學(xué)習(xí)(centralized learning)和去中心化執(zhí)行(decentralized execution),讓智能體可以學(xué)習(xí)彼此合作和競(jìng)爭(zhēng)。
用來(lái)訓(xùn)練 4 個(gè)紅色智能體追逐 2 個(gè)綠色智能體的 MADDPG。紅色智能體已經(jīng)學(xué)會(huì)和「同伴」進(jìn)行團(tuán)隊(duì)合作來(lái)追逐單個(gè)綠色智能體,以獲得更高的獎(jiǎng)勵(lì)。同時(shí),綠色智能體學(xué)會(huì)了彼此分散,并且當(dāng)它們中的一個(gè)正在被追逐時(shí),另一個(gè)就會(huì)嘗試接近水源(藍(lán)色圓圈)以躲避紅色智能體。
MADDPG 對(duì) DDPG(https://arxiv.org/abs/1509.02971)這種強(qiáng)化學(xué)習(xí)算法進(jìn)行了延伸,并從 actor-critic 強(qiáng)化學(xué)習(xí)技術(shù)上獲得了靈感;也有其他研究團(tuán)隊(duì)正在探索這些思路的變體和并行實(shí)現(xiàn)的方法,參閱以下論文:
- Learning Multiagent Communication with Backpropagation:https://arxiv.org/abs/1605.07736
- Learning to Communicate with Deep Multi-Agent Reinforcement Learning:https://arxiv.org/abs/1605.06676
- Counterfactual Multi-Agent Policy Gradients:https://arxiv.org/abs/1705.08926
我們把仿真實(shí)驗(yàn)中的每一個(gè)智能體都當(dāng)作「演員(actor)」,并且每個(gè)演員都從「批評(píng)家(critic)」那里獲得建議,從而來(lái)幫助 actor 去決策哪些動(dòng)作在訓(xùn)練過(guò)程中應(yīng)該被強(qiáng)化。傳統(tǒng)上,critic 會(huì)設(shè)法去預(yù)測(cè)在一個(gè)特定狀態(tài)中一個(gè)動(dòng)作的價(jià)值(value,即將來(lái)期望得到的獎(jiǎng)勵(lì)),這個(gè)獎(jiǎng)勵(lì)會(huì)被智能體(actor)用來(lái)更新它自己的策略(policy)。和直接使用獎(jiǎng)勵(lì)(reward)相比,這無(wú)疑是更加可靠的,因?yàn)樗梢愿鶕?jù)具體情況來(lái)進(jìn)行調(diào)整。為了讓這種方法適用于多智能體全局協(xié)同(globally-coordinated)的情況,我們改進(jìn)了我們的 critic,使它們可以獲得所有智能體的觀察結(jié)果和動(dòng)作,如下圖所示。

我們的智能體無(wú)需在測(cè)試的時(shí)候有一個(gè)中心 critic;它們可以基于它們的觀察以及它們對(duì)其它智能體的行為的預(yù)測(cè)來(lái)采取行動(dòng)。因?yàn)橐粋€(gè)中心化的 critic 是為每個(gè)智能體獨(dú)立學(xué)習(xí)到的,所以我們的方法也可以在多智能體之間構(gòu)造任意的獎(jiǎng)勵(lì)結(jié)構(gòu),包括擁有相反獎(jiǎng)勵(lì)的對(duì)抗案例。



我們?cè)谠S多不同的任務(wù)上對(duì)我們的方法進(jìn)行了測(cè)試,其在所有任務(wù)上的表現(xiàn)都優(yōu)于 DDPG。在上面的動(dòng)畫(huà)中你可以看到,從上到下:兩個(gè) AI 智能體試圖到達(dá)特定地點(diǎn),學(xué)會(huì)了分開(kāi)行動(dòng)以向其對(duì)手智能體隱藏其目標(biāo)位置;一個(gè)智能體與另一個(gè)智能體溝通目標(biāo)的名稱(chēng);三個(gè)智能體協(xié)調(diào),在不碰撞彼此的情況下到達(dá)目標(biāo)。


使用 MADDPG(上)訓(xùn)練的紅色智能體表現(xiàn)出了比那些使用 DDPG(下)訓(xùn)練的智能體更復(fù)雜的行為。其中,紅色智能體試圖通過(guò)綠色的森林來(lái)追逐綠色的智能體,同時(shí)繞過(guò)黑色的障礙。我們的智能體可以捕捉到更多智能體,而且也看得出來(lái),我們的智能體比 DDPG 方法訓(xùn)練的智能體合作能力更強(qiáng)。
傳統(tǒng)強(qiáng)化學(xué)習(xí)不給力的地方
傳統(tǒng)的去中心化強(qiáng)化學(xué)習(xí)方法(DDPG、actor-critic 學(xué)習(xí)和深度 Q 學(xué)習(xí)等等)難以在多智能體環(huán)境中學(xué)習(xí),因?yàn)樵诿恳粋€(gè)時(shí)間步,每個(gè)智能體都會(huì)嘗試學(xué)習(xí)預(yù)測(cè)其它智能體的動(dòng)作,同時(shí)還要采取自己的行動(dòng)。有競(jìng)爭(zhēng)的情形中,尤其如此。MADDPG 使用了一種中心化的 critic 來(lái)為智能體提供補(bǔ)充,這些補(bǔ)充信息包括它們同伴的觀察和潛在動(dòng)作,從而可以將一個(gè)不可預(yù)測(cè)的環(huán)境轉(zhuǎn)換成可預(yù)測(cè)的。
使用策略梯度方法會(huì)帶來(lái)進(jìn)一步的難題:因?yàn)檫@會(huì)帶來(lái)很高的方差,當(dāng)獎(jiǎng)勵(lì)不一致時(shí)很難學(xué)習(xí)到正確的策略。我們還發(fā)現(xiàn)添加 critic 雖然可以提高穩(wěn)定性,但是仍然不能應(yīng)對(duì)我們的部分環(huán)境,比如合作交流(cooperative communication)。似乎在訓(xùn)練中考慮其它智能體的動(dòng)作對(duì)學(xué)習(xí)合作策略來(lái)說(shuō)非常重要。
初步研究
在我們開(kāi)發(fā) MADDPG 之前,在使用去中心化技術(shù)時(shí),我們注意到如果說(shuō)話者在表達(dá)自己的去處時(shí)不一致,那么聽(tīng)話者智能體(listener agent)就常常會(huì)學(xué)會(huì)忽略說(shuō)話者。然后該智能體會(huì)將所有與該說(shuō)話者的信息關(guān)聯(lián)的權(quán)重設(shè)置為 0,從而有效地「靜音」。一旦這種情況發(fā)生,就很難通過(guò)訓(xùn)練恢復(fù)了;因?yàn)槿狈θ魏畏答?,所以該說(shuō)話者將永遠(yuǎn)無(wú)法知道它說(shuō)的是否正確。為了解決這個(gè)問(wèn)題,我們研究了最近一個(gè)分層強(qiáng)化學(xué)習(xí)項(xiàng)目
(https://arxiv.org/abs/1703.01161)中提出的技術(shù),這可以讓我們迫使聽(tīng)話者在其決策過(guò)程中整合該說(shuō)話人的表述。但這個(gè)解決方案沒(méi)有作用,因?yàn)楸M管其強(qiáng)迫聽(tīng)話者關(guān)注說(shuō)話者,但對(duì)說(shuō)話者了解應(yīng)該說(shuō)什么相關(guān)內(nèi)容卻毫無(wú)助益。我們的中心化 critic 方法有助于解決這些難題,可以幫助說(shuō)話者了解哪些表述可能與其它智能體的動(dòng)作相關(guān)。
下一步
在人工智能研究領(lǐng)域,智能體建模(agent modeling)可謂歷史悠久,很多場(chǎng)景都已經(jīng)得到過(guò)了研究。過(guò)去的很多研究都只考慮了少量時(shí)間步驟和很小的狀態(tài)空間。深度學(xué)習(xí)讓我們可以處理復(fù)雜的視覺(jué)輸入,而強(qiáng)化學(xué)習(xí)可以給我們帶來(lái)學(xué)習(xí)長(zhǎng)時(shí)間行為的工具?,F(xiàn)在,我們可以使用這些能力來(lái)一次性訓(xùn)練多個(gè)智能體,而無(wú)需它們都了解環(huán)境的動(dòng)態(tài)(環(huán)境會(huì)在每個(gè)時(shí)間步驟如何變化),我們可以解決大量涉及到交流和語(yǔ)言的問(wèn)題,同時(shí)學(xué)習(xí)環(huán)境的高維信息。以下為原論文的摘要:
論文:用于合作-競(jìng)爭(zhēng)混合環(huán)境的多智能體 Actor-Critic(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments)
論文地址:https://arxiv.org/pdf/1706.02275.pdf
我們探索了用于多智能體域(multi-agent domains)的深度強(qiáng)化學(xué)習(xí)方法。我們開(kāi)始分析了傳統(tǒng)算法在多智能體案例中的困難:Q 學(xué)習(xí)(Q-learning)因?yàn)榄h(huán)境固有的非平穩(wěn)性(non-stationarity)而受到了挑戰(zhàn),而策略梯度(policy gradient)則飽受隨智能體數(shù)量增長(zhǎng)而增大的方差之苦。然后我們提出了對(duì) actor-critic 方法的一種調(diào)整,其考慮了其它智能體的動(dòng)作策略(action policy),能夠成功學(xué)習(xí)到需要復(fù)雜多智能體協(xié)調(diào)的策略。此外,我們還引入了一種為每個(gè)智能體使用策略集成(ensemble of policies)的訓(xùn)練方案,可以得到更加穩(wěn)健的多智能體策略。我們表明了我們的方法相對(duì)于已有的方法在合作和競(jìng)爭(zhēng)場(chǎng)景中的能力,其中智能體群(agent populations)能夠發(fā)現(xiàn)各種物理和信息的協(xié)調(diào)策略。
原文:https://blog.openai.com/learning-to-cooperate-compete-and-communicate/
【本文是51CTO專(zhuān)欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】






































