OpenAI詳解進(jìn)化策略方法：可替代強(qiáng)化學(xué)習(xí)

作者：機(jī)器之心編譯 2017-03-28 10:15:07

進(jìn)化策略（ES：evolution strategy）是一種已存在了數(shù)十年的優(yōu)化技術(shù)，其在現(xiàn)代強(qiáng)化學(xué)習(xí)基準(zhǔn)（如 Atari/MuJoCo）上的表現(xiàn)可以比肩標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)技術(shù)，同時(shí)還能克服強(qiáng)化學(xué)習(xí)的許多不便。

進(jìn)化策略(ES：evolution strategy)是一種已存在了數(shù)十年的優(yōu)化技術(shù)，其在現(xiàn)代強(qiáng)化學(xué)習(xí)基準(zhǔn)(如 Atari/MuJoCo)上的表現(xiàn)可以比肩標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)技術(shù)，同時(shí)還能克服強(qiáng)化學(xué)習(xí)的許多不便。

特別的幾點(diǎn)包括：進(jìn)化策略的實(shí)現(xiàn)更加簡(jiǎn)單(不需要反向傳播)，更容易在分布式環(huán)境中擴(kuò)展，不會(huì)受到獎(jiǎng)勵(lì)稀疏的影響，有更少的超參數(shù)。這個(gè)結(jié)果令人吃驚，因?yàn)檫M(jìn)化策略就好像是在一個(gè)高維空間中簡(jiǎn)單地爬山，每一步都沿著一些隨機(jī)的方向?qū)崿F(xiàn)一些有限的差異。

我們的發(fā)現(xiàn)是這種已有數(shù)十年之久思想強(qiáng)大結(jié)果的現(xiàn)代延續(xù)。比如說(shuō)，在 2012 年，AlexNet 論文表明可以如何設(shè)計(jì)、擴(kuò)展和訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)以在圖像識(shí)別任務(wù)上實(shí)現(xiàn)極其優(yōu)秀的結(jié)果，而那時(shí)候大多數(shù)研究者還認(rèn)為 CNN 并不是一種有希望的計(jì)算機(jī)視覺技術(shù)。類似地，在 2013 年，深度 Q 學(xué)習(xí)(Deep Q-Learning)論文表明可以將 Q 學(xué)習(xí)與 CNN 結(jié)合起來(lái)以成功地解決 Atari 游戲，從而使強(qiáng)化學(xué)習(xí)(RL)發(fā)展成為了一個(gè)有激動(dòng)人心的實(shí)驗(yàn)結(jié)果的研究領(lǐng)域，而不再只是理論構(gòu)想了。同樣，我們的研究也表明進(jìn)化策略可以在強(qiáng)化學(xué)習(xí)基準(zhǔn)上實(shí)現(xiàn)優(yōu)秀的表現(xiàn)，從而消除了人們之前普遍認(rèn)為的進(jìn)化策略方法不能用于高維問(wèn)題的觀點(diǎn)。

進(jìn)化策略易于實(shí)現(xiàn)和擴(kuò)展。我們的實(shí)現(xiàn)運(yùn)行在一個(gè)包含了 80 臺(tái)機(jī)器和 1440 個(gè) CPU 內(nèi)核的計(jì)算集群上，其可以僅在 10 分鐘內(nèi)就訓(xùn)練出一個(gè) 3D MuJoCo 人形步行者(在 32 核上，A3C 需要大約 10 小時(shí))。使用 720 核，我們也能在 Atari 上實(shí)現(xiàn)可與 A3C 媲美的表現(xiàn)，同時(shí)還能將訓(xùn)練時(shí)間從 1 天降低至 1 小時(shí)。

下面，我們將首次簡(jiǎn)要描述傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法與我們的進(jìn)化策略方法的對(duì)比，還會(huì)討論進(jìn)化策略和強(qiáng)化學(xué)習(xí)之間的權(quán)衡，最后還會(huì)突出介紹我們的一些實(shí)驗(yàn)。

一、強(qiáng)化學(xué)習(xí)

首先讓我們簡(jiǎn)單看看強(qiáng)化學(xué)習(xí)的工作方式。假設(shè)我們有一些環(huán)境(比如游戲)，我們想要在其中訓(xùn)練一個(gè)代理。為了描述該代理的行為，我們要定義一個(gè)策略函數(shù)(policy function)，這是該代理的大腦，用于計(jì)算該代理如何在一個(gè)給定的情形中采取行動(dòng)。在實(shí)踐中，這個(gè)策略通常是一個(gè)神經(jīng)網(wǎng)絡(luò)，其輸入是該游戲的當(dāng)前狀態(tài)，然后計(jì)算可用的所有允許動(dòng)作的概率。一個(gè)典型的策略函數(shù)可能有大約 1,000,000 個(gè)參數(shù)，所以我們的任務(wù)就是找到這些參數(shù)的確切配置，以使得該策略能夠?qū)崿F(xiàn)良好的表現(xiàn)(即在很多游戲中獲勝)。

上圖：在 Pong 游戲中，策略根據(jù)輸入的屏幕像素來(lái)計(jì)算移動(dòng)玩家拍子的概率(右邊綠色的拍子)：上、下或不動(dòng)。

該策略的訓(xùn)練過(guò)程如下所示。首先是一個(gè)隨機(jī)初始化，我們讓該代理與環(huán)境進(jìn)行一陣交互，然后收集交互的「劇情(episode)」(比如，每個(gè) episode 就是一局 Pong 游戲)。由此我們就能得到情況的完整記錄：遇到了什么樣的狀態(tài)序列、在每個(gè)狀態(tài)采取了什么動(dòng)作、每一步的獎(jiǎng)勵(lì)如何。下圖給出了一個(gè)例子，這三個(gè) episode 每個(gè)都表示在一個(gè)假想環(huán)境中的 10 個(gè)時(shí)間步驟。其中每個(gè)矩形都是一個(gè)狀態(tài)，如果獎(jiǎng)勵(lì)是正面的(比如把球擊回給了對(duì)方)，那么矩形就是綠色;如果獎(jiǎng)勵(lì)是負(fù)面的(比如沒有接到球)，那么矩形則為紅色：

這幅圖給出了改善策略的一個(gè)方法;導(dǎo)致綠色狀態(tài)的行為是好的行為，導(dǎo)致紅色的行為則很糟糕。然后我們可以使用反向傳播來(lái)計(jì)算該網(wǎng)絡(luò)參數(shù)的一次小的更新，該更新將使得未來(lái)的狀態(tài)更有可能是綠色、更少可能是紅色。我們預(yù)計(jì)更新后的策略會(huì)更好一點(diǎn)。然后我們迭代這一過(guò)程：收集另一批 episode，進(jìn)行另一次更新……

通過(guò)在這些動(dòng)作中注入噪聲來(lái)進(jìn)行探索。我們?cè)趶?qiáng)化學(xué)習(xí)中通常使用的策略是隨機(jī)的，它們僅計(jì)算采取任何動(dòng)作的概率。通過(guò)這種方法，代理可能會(huì)在訓(xùn)練過(guò)程中發(fā)現(xiàn)自己在不同時(shí)間處在同一個(gè)特定狀態(tài)，而且由于采樣的情況，它也將在不同的時(shí)間采取不同的動(dòng)作。這能提供學(xué)習(xí)所需的信號(hào)：這些動(dòng)作中有一些會(huì)導(dǎo)致好的結(jié)果，這些動(dòng)作就會(huì)得到鼓勵(lì);另一些則不會(huì)奏效，就會(huì)被抑制。因此我們可以說(shuō)，我們通過(guò)向代理的動(dòng)作注入噪聲而為其學(xué)習(xí)過(guò)程引入了探索(exploration)——我們可以通過(guò)在每個(gè)時(shí)間步驟從動(dòng)作分布中采樣來(lái)做到這一點(diǎn)。這與進(jìn)化策略不同。

二、進(jìn)化策略

關(guān)于「進(jìn)化(Evolution)」。在我們探討進(jìn)化策略(ES)之前，有必要強(qiáng)調(diào)一下盡管這種方法名字中有「進(jìn)化」這個(gè)詞，但進(jìn)化策略和生物進(jìn)化關(guān)系不大。也許這項(xiàng)技術(shù)的早期版本從生物進(jìn)化上獲得了一些啟發(fā)——在一定的抽象程度上，這種方法可被視為這樣一個(gè)過(guò)程：從個(gè)體構(gòu)成的群體中采樣并讓其中成功的個(gè)體引導(dǎo)未來(lái)后代的分布。但是，其數(shù)學(xué)細(xì)節(jié)在生物進(jìn)化方法的基礎(chǔ)上實(shí)現(xiàn)了很大的抽象，我們最好將進(jìn)化策略看作是一類黑箱的隨機(jī)優(yōu)化技術(shù)。

黑箱優(yōu)化。在進(jìn)化策略中，讓我們完全忘記代理、環(huán)境、涉及的神經(jīng)網(wǎng)絡(luò)和其中的交互吧。進(jìn)化策略的整個(gè)設(shè)置就是一大堆數(shù)字輸入(假設(shè)和前面提到的策略網(wǎng)絡(luò)的參數(shù)數(shù)量一樣，有 1,000,000 個(gè)數(shù)字)，然后輸出 1 個(gè)數(shù)字(對(duì)應(yīng)總獎(jiǎng)勵(lì))，我們需要找到這 1,000,000 個(gè)數(shù)字的最好配置。在數(shù)學(xué)上，我們可以說(shuō)是根據(jù)輸入向量 w(該網(wǎng)絡(luò)的參數(shù)/權(quán)重)來(lái)優(yōu)化一個(gè)函數(shù) f(w)，但我們不對(duì) f 的結(jié)構(gòu)做出任何假設(shè)，我們只能對(duì)其進(jìn)行評(píng)估(因此被稱為「黑箱」)。

進(jìn)化策略算法。直觀上來(lái)講，這種優(yōu)化就是一種「猜測(cè)然后檢測(cè)」的過(guò)程，即我們從一些隨機(jī)參數(shù)開始，然后重復(fù)執(zhí)行以下過(guò)程：1)隨機(jī)對(duì)該猜測(cè)進(jìn)行一點(diǎn)調(diào)整，2)讓我們的猜測(cè)向效果更好的方向移動(dòng)一點(diǎn)。具體而言，就是在每個(gè)步驟輸入一個(gè)參數(shù)向量 w，然后通過(guò)高斯噪聲對(duì) w 進(jìn)行抖動(dòng)來(lái)生成一群(比如 100 個(gè))有稍微改變的參數(shù)向量 w1, w2……w100。然后我們?cè)诃h(huán)境中分別運(yùn)行這 100 個(gè)候選項(xiàng)所對(duì)應(yīng)的策略網(wǎng)絡(luò)，從而獨(dú)立地對(duì)這 100 候選項(xiàng)分別進(jìn)行評(píng)估，然后將每個(gè)案例中的獎(jiǎng)勵(lì)加起來(lái)。然后其更新后的參數(shù)就變成了這 100 個(gè)向量的加權(quán)和，其中每個(gè)權(quán)重都正比于其總獎(jiǎng)勵(lì)。(即，我們想讓更成功的候選項(xiàng)有更高的權(quán)重。)在數(shù)學(xué)上，你也會(huì)注意到這就相當(dāng)于使用有限差分法(finite difference)來(lái)估計(jì)參數(shù)空間中預(yù)期獎(jiǎng)勵(lì)的梯度，只是我們是沿著 100 個(gè)隨機(jī)方向來(lái)做的。

我們要看的另一種方法是仍然使用強(qiáng)化學(xué)習(xí)(策略梯度，具體來(lái)說(shuō)是 REINFORCE)，其中的代理的動(dòng)作是使用高斯策略得出整個(gè)參數(shù)向量。

上圖：進(jìn)化策略優(yōu)化過(guò)程，這個(gè)環(huán)境中只有兩個(gè)參數(shù)和一個(gè)獎(jiǎng)勵(lì)函數(shù)(紅色=高、藍(lán)色=低)。在每次迭代，我們都會(huì)展示當(dāng)前參數(shù)值(白色)、一群經(jīng)過(guò)抖動(dòng)的樣本(黑色)和估計(jì)的梯度(白色箭頭)。我們不斷將該參數(shù)移動(dòng)到該箭頭的頂點(diǎn)，直到我們收斂到了一個(gè)局部最優(yōu)值。你可以使用本文的代碼重現(xiàn)這些圖。

代碼示例。為了得到具體的核心算法并突出其簡(jiǎn)潔性，這里給出了一段使用進(jìn)化策略優(yōu)化二次函數(shù)的短代碼實(shí)例(更長(zhǎng)的版本見文末鏈接)。

# simple example: minimize a quadratic around some solution point 
import numpy as np   
solution = np.array([0.5, 0.1, -0.3])   
def f(w): return -np.sum((w - solution)**2) 
 
npop = 50      # population size   
sigma = 0.1    # noise standard deviation   
alpha = 0.001  # learning rate   
w = np.random.randn(3) # initial guess   
for i in range(300):   
  N = np.random.randn(npop, 3) 
  R = np.zeros(npop) 
  for j in range(npop): 
    ww_try = w + sigma*N[j] 
    R[j] = f(w_try) 
  A = (R - np.mean(R)) / np.std(R) 
  ww = w + alpha/(npop*sigma) * np.dot(N.T, A)

向參數(shù)中注入噪聲。注意這里的目標(biāo)與強(qiáng)化學(xué)習(xí)優(yōu)化的目標(biāo)是一樣的：預(yù)期的獎(jiǎng)勵(lì)。但是，強(qiáng)化學(xué)習(xí)是將噪聲注入動(dòng)作空間并使用反向傳播來(lái)計(jì)算參數(shù)更新，而進(jìn)化策略則是直接向參數(shù)空間注入噪聲。換個(gè)說(shuō)話，強(qiáng)化學(xué)習(xí)是在「猜測(cè)然后檢驗(yàn)」動(dòng)作，而進(jìn)化策略則是在「猜測(cè)然后檢驗(yàn)」參數(shù)。因?yàn)槲覀兪窃谙騾?shù)注入噪聲，所以就有可能使用確定性的策略(而且我們?cè)趯?shí)驗(yàn)中也確實(shí)是這么做的)。也有可能同時(shí)將噪聲注入到動(dòng)作和參數(shù)中，這樣就有可能實(shí)現(xiàn)兩種方法的結(jié)合。

三、進(jìn)化策略和強(qiáng)化學(xué)習(xí)間的權(quán)衡

相比于強(qiáng)化學(xué)習(xí)算法，進(jìn)化策略有多個(gè)優(yōu)勢(shì)(一些優(yōu)勢(shì)有些技術(shù)性)：

1. 不需要反向傳播。進(jìn)化策略只需要策略的前向通過(guò)，不需要反向傳播(或價(jià)值函數(shù)評(píng)估)，這使得代碼更短、在實(shí)踐中速度快了 2-3 倍。在內(nèi)存有限的系統(tǒng)中，也不需要保留 episode 的記錄從而進(jìn)行后續(xù)的更新。我們也不需要擔(dān)心 RNN 中的梯度爆炸問(wèn)題。最后，我們能夠探索更大類別的策略函數(shù)，包括不可微分的網(wǎng)絡(luò)(比如二值網(wǎng)絡(luò))，或者包括復(fù)雜模塊的網(wǎng)絡(luò)(例如包括 pathfinding 或多種優(yōu)化層)。

2. 高度可并行。進(jìn)化策略只需要工作器彼此之間進(jìn)行少量純數(shù)量的通信，然而在強(qiáng)化學(xué)習(xí)中需要同步整個(gè)參數(shù)向量(可能會(huì)是百萬(wàn)數(shù)值的)。直觀來(lái)看，這是因?yàn)槲覀冊(cè)诿總€(gè)工作器(worker)上控制隨機(jī) seeds，所以每個(gè)工作器能夠本地重建其他工作器的微擾(perturbations)。結(jié)果是，在實(shí)驗(yàn)中我們觀察到，隨著我們以千為單位增加 CPU 進(jìn)行優(yōu)化時(shí)，有線性的加速。

3. 高度穩(wěn)健。在強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)中難以設(shè)置的數(shù)個(gè)超參數(shù)在進(jìn)化策略中被回避掉了。例如，強(qiáng)化學(xué)習(xí)不是「無(wú)標(biāo)度(scale-free)的」，所以在 Atari 游戲中設(shè)置不同的跳幀(frame-skip)超參數(shù)會(huì)得到非常不同的學(xué)習(xí)輸出。就像我們所展現(xiàn)的，進(jìn)化策略在任何跳幀上有同樣的結(jié)果。

4. 架構(gòu)探索。一些強(qiáng)化學(xué)習(xí)算法(特別是策略梯度)用隨機(jī)策略進(jìn)行初始化，這總是表現(xiàn)為在一個(gè)位置有長(zhǎng)時(shí)間的隨機(jī)跳躍。這種影響在 Q 學(xué)習(xí)方法中因?yàn)? epsilon-greedy 策略而有所緩和，其中的 max 運(yùn)算能造成代理暫時(shí)表現(xiàn)出一些一致的動(dòng)作(例如，維持一個(gè)向左的箭頭)。如果代理在原地跳動(dòng)，在游戲中做一些事情是更有可能的，就像策略梯度的例子一樣。類似于 Q 學(xué)習(xí)，進(jìn)化策略也不會(huì)受這些問(wèn)題的影響，因?yàn)槲覀兛梢允褂么_定性策略來(lái)實(shí)現(xiàn)一致的探索。通過(guò)研究進(jìn)化策略和強(qiáng)化學(xué)習(xí)梯度評(píng)估器，我們能看到進(jìn)化策略是一個(gè)有吸引力的選擇，特別是在 episode 中的時(shí)間步驟量很長(zhǎng)的時(shí)候，也就是動(dòng)作會(huì)有長(zhǎng)時(shí)間的影響?；蛘呤窃跊]有好的價(jià)值函數(shù)評(píng)估的時(shí)候進(jìn)化策略也是好的選擇。

對(duì)應(yīng)地，在實(shí)踐中我們也發(fā)現(xiàn)了應(yīng)用進(jìn)化策略的一些挑戰(zhàn)。一個(gè)核心問(wèn)題是為了讓進(jìn)化策略工作，在參數(shù)中加入噪聲必然會(huì)導(dǎo)致不同的輸出，從而獲得一些梯度信號(hào)。就像我們?cè)谡撐闹性敿?xì)說(shuō)明的，我們發(fā)現(xiàn)使用虛擬 batchnorm 能幫助緩和這一問(wèn)題，但在有效地參數(shù)化神經(jīng)網(wǎng)絡(luò)上還有進(jìn)一步的工作要做，從而有不同的行為作為噪聲的功能。還有一個(gè)相關(guān)的困難，我們發(fā)現(xiàn)在 Montezuma’s Revenge 游戲中，用隨機(jī)網(wǎng)絡(luò)很難在一級(jí)的時(shí)候得到鑰匙，然而用隨機(jī)動(dòng)作能偶爾獲得鑰匙。

四、進(jìn)化策略可媲美于強(qiáng)化學(xué)習(xí)

在兩個(gè)強(qiáng)化學(xué)習(xí)基準(zhǔn)上我們對(duì)比了進(jìn)化策略和強(qiáng)化學(xué)習(xí)的表現(xiàn)：MuJoCo 控制任務(wù)和 Atari 游戲。每個(gè) MuJoCo 任務(wù)(看以下示例)包含一個(gè)模擬身體的鉸接式人物，策略網(wǎng)絡(luò)獲得所有關(guān)節(jié)的位置信息，需要輸出每個(gè)關(guān)節(jié)的力矩(torques)從而前行。以下是在三個(gè) MuJoCo 控制任務(wù)上訓(xùn)練的代理示例，任務(wù)目標(biāo)是前行。

我們通常觀察學(xué)習(xí)數(shù)據(jù)的效率來(lái)對(duì)比算法的表現(xiàn)。作為我們觀察到的多少狀態(tài)的函數(shù)，什么是我們的平均獎(jiǎng)勵(lì)?以下是我們獲得的學(xué)習(xí)曲線，與強(qiáng)化學(xué)習(xí)進(jìn)行了對(duì)比(在此案例中用的是 TRPO 強(qiáng)化學(xué)習(xí)算法，參考 https://arxiv.org/abs/1502.05477):

數(shù)據(jù)學(xué)習(xí)效率對(duì)比。以上對(duì)比表明進(jìn)化策略(橘黃)有著與 TRPO 算法(藍(lán)色)相媲美的表現(xiàn)，盡管在所有情況下它不完全匹配或超越 TRPO 算法。此外，通過(guò)水平掃描我們可看到進(jìn)化策略效率略低，但不低于 1/10(注意橫坐標(biāo)是指數(shù)標(biāo)度)。

時(shí)間對(duì)比。取代觀察看到的狀態(tài)原數(shù)量，我們可以認(rèn)為要觀察的最重要的標(biāo)準(zhǔn)是時(shí)間：解決一個(gè)問(wèn)題需要多久(以秒為計(jì))?這一數(shù)值最終指示了一個(gè)研究人員可完成的迭代速度。因?yàn)檫M(jìn)化策略算法需要的工作器(worker)之間的通信幾乎可以忽略，我們能夠使用 80 臺(tái)機(jī)器上的 1440 個(gè) CPU，10 分鐘就解決最難的 MuJoCo 任務(wù)(3D 人形)。作為對(duì)比，在典型的一臺(tái)機(jī)器上 32 個(gè) A3C 工作器配置中，解決該任務(wù)需要 10 小時(shí)左右。用算法與工程上的努力，當(dāng)然也能改進(jìn)強(qiáng)化學(xué)習(xí)的表現(xiàn)，但我們發(fā)現(xiàn)在標(biāo)準(zhǔn)的云 CPU 環(huán)境中單純延展 A3C 非常難，因?yàn)樾枰咄ㄐ艓挕?/p>

以下是用進(jìn)化策略訓(xùn)練的 3D 人形任務(wù)行走的動(dòng)圖。就像我們所看到的，根據(jù)優(yōu)化最終收斂到的局部最優(yōu)值，結(jié)果挺多樣的。

在 Atari 游戲中，用 1 小時(shí)在 720 核上訓(xùn)練進(jìn)化策略取得了的表現(xiàn)可媲美于在 32 核上訓(xùn)練一天的 A3C。下面是在 Pong、Seaquest 和 Beamrider 游戲中的結(jié)果片段。這些片段顯示了預(yù)處理的畫面，也就是代理在玩游戲時(shí)所看到的：

特別要注意 Seaquest 游戲中的潛水艇在氧氣值低的時(shí)候?qū)W習(xí)準(zhǔn)確率會(huì)上升。

五、相關(guān)研究

進(jìn)化策略是源自神經(jīng)進(jìn)化系的算法。神經(jīng)進(jìn)化在人工智能中有著很長(zhǎng)的歷史，完整文獻(xiàn)原因超出本文所覆蓋的范圍。我們鼓勵(lì)感興趣的讀者查閱 Wikipedia、Scholarpedia 的相關(guān)文獻(xiàn)，以及 Jurgen Schmidhuber 的回顧文章(Section 6.6)。最影響我們研究的一項(xiàng)工作是 Wierstra 等人在 2014 年作出的自然進(jìn)化策略(Natural Evolution Strategies)。相比于該工作以及它所啟發(fā)出的其他工作，我們專注于將這些算法延展到大規(guī)模的、分布式環(huán)境中，尋找讓這些算法能與深度神經(jīng)網(wǎng)絡(luò)很好結(jié)合的組件，并在現(xiàn)在的強(qiáng)化學(xué)習(xí)基準(zhǔn)上評(píng)估這些算法。

還值得注意的是神經(jīng)進(jìn)化相關(guān)的方法最近在機(jī)器學(xué)習(xí)研究中有所復(fù)蘇(resurgence)，例如 HyperNetworks、Large-Scale Evolution of Image Classifiers 和 Convolution by Evolution。HyperNetworks,「Large-Scale Evolution of Image Classifiers」和「Convolution by Evolution」.

六、結(jié)論

我們的研究表明神經(jīng)進(jìn)化方法在現(xiàn)在的代理-環(huán)境基準(zhǔn)上，可與強(qiáng)化學(xué)習(xí)的方法相媲美，同時(shí)在代碼復(fù)雜性上也有重大收益、易于延展到大規(guī)模分布式環(huán)境。我們也期望通過(guò)重新回顧這條線上的其他觀點(diǎn)從而作出更多激動(dòng)人心的工作，比如間接編碼方法，或者除了參數(shù)以外用其他方法進(jìn)化網(wǎng)絡(luò)架構(gòu)。

注意監(jiān)督學(xué)習(xí)：要注意的一點(diǎn)是監(jiān)督學(xué)習(xí)問(wèn)題(例如圖像分類、語(yǔ)音識(shí)別或者產(chǎn)業(yè)中的大部分其他任務(wù))并不受這些成果的直接影響。監(jiān)督學(xué)習(xí)可以用反向傳播方法直接計(jì)算損失函數(shù)的確切梯度。例如，在初步試驗(yàn)中我們使用進(jìn)化策略在 MNIST 數(shù)字識(shí)別任務(wù)上評(píng)估梯度，發(fā)現(xiàn)它要比使用反向傳播的方法慢 1000 倍。只有在強(qiáng)化學(xué)習(xí)環(huán)境中，也就是必須要用采樣評(píng)估預(yù)期獎(jiǎng)勵(lì)(expected reward)的梯度，進(jìn)化策略才具有可比性。

代碼發(fā)布：最后，如果你想要嘗試運(yùn)行下進(jìn)化策略，你可以閱讀以下論文，或了解 GitHub repo 的詳細(xì)細(xì)節(jié)。

論文：

https://arxiv.org/abs/1703.03864

Github：

https://github.com/openai/evolution-strategies-starter

【本文是51CTO專欄機(jī)構(gòu)機(jī)器之心的原創(chuàng)譯文，微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里，看該作者更多好文

責(zé)任編輯：趙寧寧來(lái)源： 51CTO專欄