偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI詳解進(jìn)化策略方法:可替代強(qiáng)化學(xué)習(xí)

開發(fā) 開發(fā)工具
進(jìn)化策略(ES:evolution strategy)是一種已存在了數(shù)十年的優(yōu)化技術(shù),其在現(xiàn)代強(qiáng)化學(xué)習(xí)基準(zhǔn)(如 Atari/MuJoCo)上的表現(xiàn)可以比肩標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)技術(shù),同時(shí)還能克服強(qiáng)化學(xué)習(xí)的許多不便。

進(jìn)化策略(ES:evolution strategy)是一種已存在了數(shù)十年的優(yōu)化技術(shù),其在現(xiàn)代強(qiáng)化學(xué)習(xí)基準(zhǔn)(如 Atari/MuJoCo)上的表現(xiàn)可以比肩標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)技術(shù),同時(shí)還能克服強(qiáng)化學(xué)習(xí)的許多不便。

特別的幾點(diǎn)包括:進(jìn)化策略的實(shí)現(xiàn)更加簡(jiǎn)單(不需要反向傳播),更容易在分布式環(huán)境中擴(kuò)展,不會(huì)受到獎(jiǎng)勵(lì)稀疏的影響,有更少的超參數(shù)。這個(gè)結(jié)果令人吃驚,因?yàn)檫M(jìn)化策略就好像是在一個(gè)高維空間中簡(jiǎn)單地爬山,每一步都沿著一些隨機(jī)的方向?qū)崿F(xiàn)一些有限的差異。

我們的發(fā)現(xiàn)是這種已有數(shù)十年之久思想強(qiáng)大結(jié)果的現(xiàn)代延續(xù)。比如說(shuō),在 2012 年,AlexNet 論文表明可以如何設(shè)計(jì)、擴(kuò)展和訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)以在圖像識(shí)別任務(wù)上實(shí)現(xiàn)極其優(yōu)秀的結(jié)果,而那時(shí)候大多數(shù)研究者還認(rèn)為 CNN 并不是一種有希望的計(jì)算機(jī)視覺技術(shù)。類似地,在 2013 年,深度 Q 學(xué)習(xí)(Deep Q-Learning)論文表明可以將 Q 學(xué)習(xí)與 CNN 結(jié)合起來(lái)以成功地解決 Atari 游戲,從而使強(qiáng)化學(xué)習(xí)(RL)發(fā)展成為了一個(gè)有激動(dòng)人心的實(shí)驗(yàn)結(jié)果的研究領(lǐng)域,而不再只是理論構(gòu)想了。同樣,我們的研究也表明進(jìn)化策略可以在強(qiáng)化學(xué)習(xí)基準(zhǔn)上實(shí)現(xiàn)優(yōu)秀的表現(xiàn),從而消除了人們之前普遍認(rèn)為的進(jìn)化策略方法不能用于高維問(wèn)題的觀點(diǎn)。

進(jìn)化策略易于實(shí)現(xiàn)和擴(kuò)展。我們的實(shí)現(xiàn)運(yùn)行在一個(gè)包含了 80 臺(tái)機(jī)器和 1440 個(gè) CPU 內(nèi)核的計(jì)算集群上,其可以僅在 10 分鐘內(nèi)就訓(xùn)練出一個(gè) 3D MuJoCo 人形步行者(在 32 核上,A3C 需要大約 10 小時(shí))。使用 720 核,我們也能在 Atari 上實(shí)現(xiàn)可與 A3C 媲美的表現(xiàn),同時(shí)還能將訓(xùn)練時(shí)間從 1 天降低至 1 小時(shí)。

下面,我們將首次簡(jiǎn)要描述傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法與我們的進(jìn)化策略方法的對(duì)比,還會(huì)討論進(jìn)化策略和強(qiáng)化學(xué)習(xí)之間的權(quán)衡,最后還會(huì)突出介紹我們的一些實(shí)驗(yàn)。

一、強(qiáng)化學(xué)習(xí)

首先讓我們簡(jiǎn)單看看強(qiáng)化學(xué)習(xí)的工作方式。假設(shè)我們有一些環(huán)境(比如游戲),我們想要在其中訓(xùn)練一個(gè)代理。為了描述該代理的行為,我們要定義一個(gè)策略函數(shù)(policy function),這是該代理的大腦,用于計(jì)算該代理如何在一個(gè)給定的情形中采取行動(dòng)。在實(shí)踐中,這個(gè)策略通常是一個(gè)神經(jīng)網(wǎng)絡(luò),其輸入是該游戲的當(dāng)前狀態(tài),然后計(jì)算可用的所有允許動(dòng)作的概率。一個(gè)典型的策略函數(shù)可能有大約 1,000,000 個(gè)參數(shù),所以我們的任務(wù)就是找到這些參數(shù)的確切配置,以使得該策略能夠?qū)崿F(xiàn)良好的表現(xiàn)(即在很多游戲中獲勝)。

Pong 游戲

上圖:在 Pong 游戲中,策略根據(jù)輸入的屏幕像素來(lái)計(jì)算移動(dòng)玩家拍子的概率(右邊綠色的拍子):上、下或不動(dòng)。

該策略的訓(xùn)練過(guò)程如下所示。首先是一個(gè)隨機(jī)初始化,我們讓該代理與環(huán)境進(jìn)行一陣交互,然后收集交互的「劇情(episode)」(比如,每個(gè) episode 就是一局 Pong 游戲)。由此我們就能得到情況的完整記錄:遇到了什么樣的狀態(tài)序列、在每個(gè)狀態(tài)采取了什么動(dòng)作、每一步的獎(jiǎng)勵(lì)如何。下圖給出了一個(gè)例子,這三個(gè) episode 每個(gè)都表示在一個(gè)假想環(huán)境中的 10 個(gè)時(shí)間步驟。其中每個(gè)矩形都是一個(gè)狀態(tài),如果獎(jiǎng)勵(lì)是正面的(比如把球擊回給了對(duì)方),那么矩形就是綠色;如果獎(jiǎng)勵(lì)是負(fù)面的(比如沒有接到球),那么矩形則為紅色:

Pong 游戲 強(qiáng)化學(xué)習(xí)策略

這幅圖給出了改善策略的一個(gè)方法;導(dǎo)致綠色狀態(tài)的行為是好的行為,導(dǎo)致紅色的行為則很糟糕。然后我們可以使用反向傳播來(lái)計(jì)算該網(wǎng)絡(luò)參數(shù)的一次小的更新,該更新將使得未來(lái)的狀態(tài)更有可能是綠色、更少可能是紅色。我們預(yù)計(jì)更新后的策略會(huì)更好一點(diǎn)。然后我們迭代這一過(guò)程:收集另一批 episode,進(jìn)行另一次更新……

通過(guò)在這些動(dòng)作中注入噪聲來(lái)進(jìn)行探索。我們?cè)趶?qiáng)化學(xué)習(xí)中通常使用的策略是隨機(jī)的,它們僅計(jì)算采取任何動(dòng)作的概率。通過(guò)這種方法,代理可能會(huì)在訓(xùn)練過(guò)程中發(fā)現(xiàn)自己在不同時(shí)間處在同一個(gè)特定狀態(tài),而且由于采樣的情況,它也將在不同的時(shí)間采取不同的動(dòng)作。這能提供學(xué)習(xí)所需的信號(hào):這些動(dòng)作中有一些會(huì)導(dǎo)致好的結(jié)果,這些動(dòng)作就會(huì)得到鼓勵(lì);另一些則不會(huì)奏效,就會(huì)被抑制。因此我們可以說(shuō),我們通過(guò)向代理的動(dòng)作注入噪聲而為其學(xué)習(xí)過(guò)程引入了探索(exploration)——我們可以通過(guò)在每個(gè)時(shí)間步驟從動(dòng)作分布中采樣來(lái)做到這一點(diǎn)。這與進(jìn)化策略不同。

二、進(jìn)化策略

關(guān)于「進(jìn)化(Evolution)」。在我們探討進(jìn)化策略(ES)之前,有必要強(qiáng)調(diào)一下盡管這種方法名字中有「進(jìn)化」這個(gè)詞,但進(jìn)化策略和生物進(jìn)化關(guān)系不大。也許這項(xiàng)技術(shù)的早期版本從生物進(jìn)化上獲得了一些啟發(fā)——在一定的抽象程度上,這種方法可被視為這樣一個(gè)過(guò)程:從個(gè)體構(gòu)成的群體中采樣并讓其中成功的個(gè)體引導(dǎo)未來(lái)后代的分布。但是,其數(shù)學(xué)細(xì)節(jié)在生物進(jìn)化方法的基礎(chǔ)上實(shí)現(xiàn)了很大的抽象,我們最好將進(jìn)化策略看作是一類黑箱的隨機(jī)優(yōu)化技術(shù)。

黑箱優(yōu)化。在進(jìn)化策略中,讓我們完全忘記代理、環(huán)境、涉及的神經(jīng)網(wǎng)絡(luò)和其中的交互吧。進(jìn)化策略的整個(gè)設(shè)置就是一大堆數(shù)字輸入(假設(shè)和前面提到的策略網(wǎng)絡(luò)的參數(shù)數(shù)量一樣,有 1,000,000 個(gè)數(shù)字),然后輸出 1 個(gè)數(shù)字(對(duì)應(yīng)總獎(jiǎng)勵(lì)),我們需要找到這 1,000,000 個(gè)數(shù)字的最好配置。在數(shù)學(xué)上,我們可以說(shuō)是根據(jù)輸入向量 w(該網(wǎng)絡(luò)的參數(shù)/權(quán)重)來(lái)優(yōu)化一個(gè)函數(shù) f(w),但我們不對(duì) f 的結(jié)構(gòu)做出任何假設(shè),我們只能對(duì)其進(jìn)行評(píng)估(因此被稱為「黑箱」)。

進(jìn)化策略算法。直觀上來(lái)講,這種優(yōu)化就是一種「猜測(cè)然后檢測(cè)」的過(guò)程,即我們從一些隨機(jī)參數(shù)開始,然后重復(fù)執(zhí)行以下過(guò)程:1)隨機(jī)對(duì)該猜測(cè)進(jìn)行一點(diǎn)調(diào)整,2)讓我們的猜測(cè)向效果更好的方向移動(dòng)一點(diǎn)。具體而言,就是在每個(gè)步驟輸入一個(gè)參數(shù)向量 w,然后通過(guò)高斯噪聲對(duì) w 進(jìn)行抖動(dòng)來(lái)生成一群(比如 100 個(gè))有稍微改變的參數(shù)向量 w1, w2……w100。然后我們?cè)诃h(huán)境中分別運(yùn)行這 100 個(gè)候選項(xiàng)所對(duì)應(yīng)的策略網(wǎng)絡(luò),從而獨(dú)立地對(duì)這 100 候選項(xiàng)分別進(jìn)行評(píng)估,然后將每個(gè)案例中的獎(jiǎng)勵(lì)加起來(lái)。然后其更新后的參數(shù)就變成了這 100 個(gè)向量的加權(quán)和,其中每個(gè)權(quán)重都正比于其總獎(jiǎng)勵(lì)。(即,我們想讓更成功的候選項(xiàng)有更高的權(quán)重。)在數(shù)學(xué)上,你也會(huì)注意到這就相當(dāng)于使用有限差分法(finite difference)來(lái)估計(jì)參數(shù)空間中預(yù)期獎(jiǎng)勵(lì)的梯度,只是我們是沿著 100 個(gè)隨機(jī)方向來(lái)做的。

我們要看的另一種方法是仍然使用強(qiáng)化學(xué)習(xí)(策略梯度,具體來(lái)說(shuō)是 REINFORCE),其中的代理的動(dòng)作是使用高斯策略得出整個(gè)參數(shù)向量。

強(qiáng)化學(xué)習(xí)(策略梯度,具體來(lái)說(shuō)是 REINFORCE)

上圖:進(jìn)化策略優(yōu)化過(guò)程,這個(gè)環(huán)境中只有兩個(gè)參數(shù)和一個(gè)獎(jiǎng)勵(lì)函數(shù)(紅色=高、藍(lán)色=低)。在每次迭代,我們都會(huì)展示當(dāng)前參數(shù)值(白色)、一群經(jīng)過(guò)抖動(dòng)的樣本(黑色)和估計(jì)的梯度(白色箭頭)。我們不斷將該參數(shù)移動(dòng)到該箭頭的頂點(diǎn),直到我們收斂到了一個(gè)局部最優(yōu)值。你可以使用本文的代碼重現(xiàn)這些圖。

代碼示例。為了得到具體的核心算法并突出其簡(jiǎn)潔性,這里給出了一段使用進(jìn)化策略優(yōu)化二次函數(shù)的短代碼實(shí)例(更長(zhǎng)的版本見文末鏈接)。

  1. # simple example: minimize a quadratic around some solution point 
  2. import numpy as np   
  3. solution = np.array([0.5, 0.1, -0.3])   
  4. def f(w): return -np.sum((w - solution)**2) 
  5.  
  6. npop = 50      # population size   
  7. sigma = 0.1    # noise standard deviation   
  8. alpha = 0.001  # learning rate   
  9. w = np.random.randn(3) # initial guess   
  10. for i in range(300):   
  11.   N = np.random.randn(npop, 3) 
  12.   R = np.zeros(npop) 
  13.   for j in range(npop): 
  14.     ww_try = w + sigma*N[j] 
  15.     R[j] = f(w_try) 
  16.   A = (R - np.mean(R)) / np.std(R) 
  17.   ww = w + alpha/(npop*sigma) * np.dot(N.T, A) 

向參數(shù)中注入噪聲。注意這里的目標(biāo)與強(qiáng)化學(xué)習(xí)優(yōu)化的目標(biāo)是一樣的:預(yù)期的獎(jiǎng)勵(lì)。但是,強(qiáng)化學(xué)習(xí)是將噪聲注入動(dòng)作空間并使用反向傳播來(lái)計(jì)算參數(shù)更新,而進(jìn)化策略則是直接向參數(shù)空間注入噪聲。換個(gè)說(shuō)話,強(qiáng)化學(xué)習(xí)是在「猜測(cè)然后檢驗(yàn)」動(dòng)作,而進(jìn)化策略則是在「猜測(cè)然后檢驗(yàn)」參數(shù)。因?yàn)槲覀兪窃谙騾?shù)注入噪聲,所以就有可能使用確定性的策略(而且我們?cè)趯?shí)驗(yàn)中也確實(shí)是這么做的)。也有可能同時(shí)將噪聲注入到動(dòng)作和參數(shù)中,這樣就有可能實(shí)現(xiàn)兩種方法的結(jié)合。

三、進(jìn)化策略和強(qiáng)化學(xué)習(xí)間的權(quán)衡

相比于強(qiáng)化學(xué)習(xí)算法,進(jìn)化策略有多個(gè)優(yōu)勢(shì)(一些優(yōu)勢(shì)有些技術(shù)性):

1. 不需要反向傳播。進(jìn)化策略只需要策略的前向通過(guò),不需要反向傳播(或價(jià)值函數(shù)評(píng)估),這使得代碼更短、在實(shí)踐中速度快了 2-3 倍。在內(nèi)存有限的系統(tǒng)中,也不需要保留 episode 的記錄從而進(jìn)行后續(xù)的更新。我們也不需要擔(dān)心 RNN 中的梯度爆炸問(wèn)題。最后,我們能夠探索更大類別的策略函數(shù),包括不可微分的網(wǎng)絡(luò)(比如二值網(wǎng)絡(luò)),或者包括復(fù)雜模塊的網(wǎng)絡(luò)(例如包括 pathfinding 或多種優(yōu)化層)。

2. 高度可并行。進(jìn)化策略只需要工作器彼此之間進(jìn)行少量純數(shù)量的通信,然而在強(qiáng)化學(xué)習(xí)中需要同步整個(gè)參數(shù)向量(可能會(huì)是百萬(wàn)數(shù)值的)。直觀來(lái)看,這是因?yàn)槲覀冊(cè)诿總€(gè)工作器(worker)上控制隨機(jī) seeds,所以每個(gè)工作器能夠本地重建其他工作器的微擾(perturbations)。結(jié)果是,在實(shí)驗(yàn)中我們觀察到,隨著我們以千為單位增加 CPU 進(jìn)行優(yōu)化時(shí),有線性的加速。

3. 高度穩(wěn)健。在強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)中難以設(shè)置的數(shù)個(gè)超參數(shù)在進(jìn)化策略中被回避掉了。例如,強(qiáng)化學(xué)習(xí)不是「無(wú)標(biāo)度(scale-free)的」,所以在 Atari 游戲中設(shè)置不同的跳幀(frame-skip)超參數(shù)會(huì)得到非常不同的學(xué)習(xí)輸出。就像我們所展現(xiàn)的,進(jìn)化策略在任何跳幀上有同樣的結(jié)果。

4. 架構(gòu)探索。一些強(qiáng)化學(xué)習(xí)算法(特別是策略梯度)用隨機(jī)策略進(jìn)行初始化,這總是表現(xiàn)為在一個(gè)位置有長(zhǎng)時(shí)間的隨機(jī)跳躍。這種影響在 Q 學(xué)習(xí)方法中因?yàn)? epsilon-greedy 策略而有所緩和,其中的 max 運(yùn)算能造成代理暫時(shí)表現(xiàn)出一些一致的動(dòng)作(例如,維持一個(gè)向左的箭頭)。如果代理在原地跳動(dòng),在游戲中做一些事情是更有可能的,就像策略梯度的例子一樣。類似于 Q 學(xué)習(xí),進(jìn)化策略也不會(huì)受這些問(wèn)題的影響,因?yàn)槲覀兛梢允褂么_定性策略來(lái)實(shí)現(xiàn)一致的探索。通過(guò)研究進(jìn)化策略和強(qiáng)化學(xué)習(xí)梯度評(píng)估器,我們能看到進(jìn)化策略是一個(gè)有吸引力的選擇,特別是在 episode 中的時(shí)間步驟量很長(zhǎng)的時(shí)候,也就是動(dòng)作會(huì)有長(zhǎng)時(shí)間的影響?;蛘呤窃跊]有好的價(jià)值函數(shù)評(píng)估的時(shí)候進(jìn)化策略也是好的選擇。

對(duì)應(yīng)地,在實(shí)踐中我們也發(fā)現(xiàn)了應(yīng)用進(jìn)化策略的一些挑戰(zhàn)。一個(gè)核心問(wèn)題是為了讓進(jìn)化策略工作,在參數(shù)中加入噪聲必然會(huì)導(dǎo)致不同的輸出,從而獲得一些梯度信號(hào)。就像我們?cè)谡撐闹性敿?xì)說(shuō)明的,我們發(fā)現(xiàn)使用虛擬 batchnorm 能幫助緩和這一問(wèn)題,但在有效地參數(shù)化神經(jīng)網(wǎng)絡(luò)上還有進(jìn)一步的工作要做,從而有不同的行為作為噪聲的功能。還有一個(gè)相關(guān)的困難,我們發(fā)現(xiàn)在 Montezuma’s Revenge 游戲中,用隨機(jī)網(wǎng)絡(luò)很難在一級(jí)的時(shí)候得到鑰匙,然而用隨機(jī)動(dòng)作能偶爾獲得鑰匙。

四、進(jìn)化策略可媲美于強(qiáng)化學(xué)習(xí)

在兩個(gè)強(qiáng)化學(xué)習(xí)基準(zhǔn)上我們對(duì)比了進(jìn)化策略和強(qiáng)化學(xué)習(xí)的表現(xiàn):MuJoCo 控制任務(wù)和 Atari 游戲。每個(gè) MuJoCo 任務(wù)(看以下示例)包含一個(gè)模擬身體的鉸接式人物,策略網(wǎng)絡(luò)獲得所有關(guān)節(jié)的位置信息,需要輸出每個(gè)關(guān)節(jié)的力矩(torques)從而前行。以下是在三個(gè) MuJoCo 控制任務(wù)上訓(xùn)練的代理示例,任務(wù)目標(biāo)是前行。

我們通常觀察學(xué)習(xí)數(shù)據(jù)的效率來(lái)對(duì)比算法的表現(xiàn)。作為我們觀察到的多少狀態(tài)的函數(shù),什么是我們的平均獎(jiǎng)勵(lì)?以下是我們獲得的學(xué)習(xí)曲線,與強(qiáng)化學(xué)習(xí)進(jìn)行了對(duì)比(在此案例中用的是 TRPO 強(qiáng)化學(xué)習(xí)算法,參考 https://arxiv.org/abs/1502.05477):

進(jìn)化策略(橘黃)有著與 TRPO 算法(藍(lán)色)相媲美的表現(xiàn)

數(shù)據(jù)學(xué)習(xí)效率對(duì)比。以上對(duì)比表明進(jìn)化策略(橘黃)有著與 TRPO 算法(藍(lán)色)相媲美的表現(xiàn),盡管在所有情況下它不完全匹配或超越 TRPO 算法。此外,通過(guò)水平掃描我們可看到進(jìn)化策略效率略低,但不低于 1/10(注意橫坐標(biāo)是指數(shù)標(biāo)度)。

時(shí)間對(duì)比。取代觀察看到的狀態(tài)原數(shù)量,我們可以認(rèn)為要觀察的最重要的標(biāo)準(zhǔn)是時(shí)間:解決一個(gè)問(wèn)題需要多久(以秒為計(jì))?這一數(shù)值最終指示了一個(gè)研究人員可完成的迭代速度。因?yàn)檫M(jìn)化策略算法需要的工作器(worker)之間的通信幾乎可以忽略,我們能夠使用 80 臺(tái)機(jī)器上的 1440 個(gè) CPU,10 分鐘就解決最難的 MuJoCo 任務(wù)(3D 人形)。作為對(duì)比,在典型的一臺(tái)機(jī)器上 32 個(gè) A3C 工作器配置中,解決該任務(wù)需要 10 小時(shí)左右。用算法與工程上的努力,當(dāng)然也能改進(jìn)強(qiáng)化學(xué)習(xí)的表現(xiàn),但我們發(fā)現(xiàn)在標(biāo)準(zhǔn)的云 CPU 環(huán)境中單純延展 A3C 非常難,因?yàn)樾枰咄ㄐ艓挕?/p>

以下是用進(jìn)化策略訓(xùn)練的 3D 人形任務(wù)行走的動(dòng)圖。就像我們所看到的,根據(jù)優(yōu)化最終收斂到的局部最優(yōu)值,結(jié)果挺多樣的。

用進(jìn)化策略訓(xùn)練的 3D 人形任務(wù)行走的動(dòng)圖

在 Atari 游戲中,用 1 小時(shí)在 720 核上訓(xùn)練進(jìn)化策略取得了的表現(xiàn)可媲美于在 32 核上訓(xùn)練一天的 A3C。下面是在 Pong、Seaquest 和 Beamrider 游戲中的結(jié)果片段。這些片段顯示了預(yù)處理的畫面,也就是代理在玩游戲時(shí)所看到的:

特別要注意 Seaquest 游戲中的潛水艇在氧氣值低的時(shí)候?qū)W習(xí)準(zhǔn)確率會(huì)上升。

五、相關(guān)研究

進(jìn)化策略是源自神經(jīng)進(jìn)化系的算法。神經(jīng)進(jìn)化在人工智能中有著很長(zhǎng)的歷史,完整文獻(xiàn)原因超出本文所覆蓋的范圍。我們鼓勵(lì)感興趣的讀者查閱 Wikipedia、Scholarpedia 的相關(guān)文獻(xiàn),以及 Jurgen Schmidhuber 的回顧文章(Section 6.6)。最影響我們研究的一項(xiàng)工作是 Wierstra 等人在 2014 年作出的自然進(jìn)化策略(Natural Evolution Strategies)。相比于該工作以及它所啟發(fā)出的其他工作,我們專注于將這些算法延展到大規(guī)模的、分布式環(huán)境中,尋找讓這些算法能與深度神經(jīng)網(wǎng)絡(luò)很好結(jié)合的組件,并在現(xiàn)在的強(qiáng)化學(xué)習(xí)基準(zhǔn)上評(píng)估這些算法。

還值得注意的是神經(jīng)進(jìn)化相關(guān)的方法最近在機(jī)器學(xué)習(xí)研究中有所復(fù)蘇(resurgence),例如 HyperNetworks、Large-Scale Evolution of Image Classifiers 和 Convolution by Evolution。HyperNetworks,「Large-Scale Evolution of Image Classifiers」和「Convolution by Evolution」.

六、結(jié)論

我們的研究表明神經(jīng)進(jìn)化方法在現(xiàn)在的代理-環(huán)境基準(zhǔn)上,可與強(qiáng)化學(xué)習(xí)的方法相媲美,同時(shí)在代碼復(fù)雜性上也有重大收益、易于延展到大規(guī)模分布式環(huán)境。我們也期望通過(guò)重新回顧這條線上的其他觀點(diǎn)從而作出更多激動(dòng)人心的工作,比如間接編碼方法,或者除了參數(shù)以外用其他方法進(jìn)化網(wǎng)絡(luò)架構(gòu)。

注意監(jiān)督學(xué)習(xí):要注意的一點(diǎn)是監(jiān)督學(xué)習(xí)問(wèn)題(例如圖像分類、語(yǔ)音識(shí)別或者產(chǎn)業(yè)中的大部分其他任務(wù))并不受這些成果的直接影響。監(jiān)督學(xué)習(xí)可以用反向傳播方法直接計(jì)算損失函數(shù)的確切梯度。例如,在初步試驗(yàn)中我們使用進(jìn)化策略在 MNIST 數(shù)字識(shí)別任務(wù)上評(píng)估梯度,發(fā)現(xiàn)它要比使用反向傳播的方法慢 1000 倍。只有在強(qiáng)化學(xué)習(xí)環(huán)境中,也就是必須要用采樣評(píng)估預(yù)期獎(jiǎng)勵(lì)(expected reward)的梯度,進(jìn)化策略才具有可比性。

代碼發(fā)布:最后,如果你想要嘗試運(yùn)行下進(jìn)化策略,你可以閱讀以下論文,或了解 GitHub repo 的詳細(xì)細(xì)節(jié)。

 

論文:

https://arxiv.org/abs/1703.03864

Github:

 

https://github.com/openai/evolution-strategies-starter

【本文是51CTO專欄機(jī)構(gòu)機(jī)器之心的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來(lái)源: 51CTO專欄
相關(guān)推薦

2017-08-22 15:56:49

神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)DQN

2017-08-17 09:15:23

強(qiáng)化學(xué)習(xí)KerasOpenAI

2024-05-30 16:37:29

2023-06-25 11:30:47

可視化

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2017-06-10 16:19:22

人工智能智能體強(qiáng)化學(xué)習(xí)

2021-04-13 16:18:30

人工智能強(qiáng)化學(xué)習(xí)人臉識(shí)別

2024-12-09 08:45:00

模型AI

2018-11-14 10:28:38

AI數(shù)據(jù)科技

2018-06-21 08:51:29

強(qiáng)化學(xué)習(xí)算法人工智能

2020-05-06 16:07:05

百度飛槳

2025-06-03 06:12:03

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2025-04-01 09:10:00

2025-03-25 09:12:00

LIMAI模型

2019-05-28 11:11:27

強(qiáng)化學(xué)習(xí)AI深度學(xué)習(xí)

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習(xí)

2021-09-26 13:50:52

AI 數(shù)據(jù)強(qiáng)化學(xué)習(xí)

2024-09-13 06:32:25

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)