從認(rèn)知學(xué)到進(jìn)化論,詳述強(qiáng)化學(xué)習(xí)兩大最新突破
大數(shù)據(jù)文摘出品
編譯:李雷、錢(qián)天培
深層強(qiáng)化學(xué)習(xí)(deep RL)近年來(lái)在人工智能方面取得了令人矚目的進(jìn)步,在Atari游戲、圍棋及***制撲克等領(lǐng)域戰(zhàn)勝了人類(lèi)。
通過(guò)將表征學(xué)習(xí)與獎(jiǎng)勵(lì)驅(qū)動(dòng)行為相結(jié)合,深層強(qiáng)化學(xué)習(xí)又引發(fā)了心理學(xué)和神經(jīng)科學(xué)領(lǐng)域的諸多討論。
不過(guò),深度強(qiáng)化學(xué)習(xí)過(guò)程往往需要大量的訓(xùn)練數(shù)據(jù)。正因如此,多數(shù)人認(rèn)為這些算法可能與人類(lèi)學(xué)習(xí)有著本質(zhì)的區(qū)別。
事實(shí)上,這種擔(dān)憂(yōu)只出現(xiàn)在深度強(qiáng)化學(xué)習(xí)技術(shù)的早期階段。隨后的AI研究工作已使deep RL系統(tǒng)能更快速有效地學(xué)習(xí)。
這些AI研究中有兩個(gè)特別有趣又有前景的技術(shù),分別是情景記憶(對(duì)特定事件的記憶,episodic memory)和元學(xué)習(xí)(學(xué)會(huì)如何學(xué)習(xí),meta-learning)。
今天,我們就會(huì)著重介紹這兩種新技術(shù)——它們或?qū)閺?qiáng)化學(xué)習(xí)帶來(lái)重要變革。
作為AI技術(shù),利用了情景記憶和元學(xué)習(xí)的deep RL方法也可以應(yīng)用于心理學(xué)和神經(jīng)科學(xué),尤其是這些技術(shù)隱含的關(guān)于快速和慢速學(xué)習(xí)模式之間基本聯(lián)系。
強(qiáng)大但低效:***波深度強(qiáng)化學(xué)習(xí)浪潮
在過(guò)去的幾年里,人工智能(AI)研究取得了革命性的進(jìn)展,神經(jīng)網(wǎng)絡(luò)或“深度學(xué)習(xí)”方法的再次興起使圖像識(shí)別、自然語(yǔ)言處理以及許多其他領(lǐng)域產(chǎn)生突破。這些發(fā)展引起了心理學(xué)家、心理語(yǔ)言學(xué)家和神經(jīng)科學(xué)家的興趣,他們對(duì)人工智能的發(fā)展是否會(huì)帶來(lái)有關(guān)人類(lèi)認(rèn)知和腦功能的新假說(shuō)感到好奇。
從這個(gè)角度來(lái)看,人工智能研究的一個(gè)特別吸引人的地方就是深度強(qiáng)化學(xué)習(xí)(deep RL)。deep RL將神經(jīng)網(wǎng)絡(luò)建模與強(qiáng)化學(xué)習(xí)結(jié)合起來(lái),這是一套以獎(jiǎng)懲而非明確指令驅(qū)動(dòng)學(xué)習(xí)的方法。經(jīng)過(guò)數(shù)十年的空想之后,deep RL在過(guò)去的5年里已經(jīng)成為人工智能研究競(jìng)爭(zhēng)最激烈的領(lǐng)域之一,在視頻游戲、撲克、多人賽和復(fù)雜的棋盤(pán)游戲(包括圍棋和國(guó)際象棋)等方面的表現(xiàn)都超越了人類(lèi)。
深度強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)(RL)的焦點(diǎn)集中在學(xué)習(xí)行為策略的問(wèn)題上,即從狀態(tài)或情境到行為的映射,這使得長(zhǎng)期獎(jiǎng)勵(lì)的累積***化。簡(jiǎn)單情況下,這種策略可以表示為列舉了狀態(tài)和行為的查找表。而在復(fù)雜情況下,則需要用參數(shù)化函數(shù)來(lái)間接地表達(dá)策略。早期(上世紀(jì)90年代)使用多層(或深層)神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn),但在整合深層神經(jīng)網(wǎng)絡(luò)和RL上遇到了困難。直到2015年,deep RL在復(fù)雜領(lǐng)域(如Atari視頻游戲)的突破,以及隨之而來(lái)在改進(jìn)和擴(kuò)展deep RL方面的快速發(fā)展,使其可以應(yīng)用于復(fù)雜任務(wù)中,比如圍棋。
作為AI技術(shù),deep RL似乎與心理學(xué)和神經(jīng)科學(xué)有著特別的淵源。deep RL的學(xué)習(xí)驅(qū)動(dòng)機(jī)制最初是受到動(dòng)物訓(xùn)練研究的啟發(fā),并且這種機(jī)制被認(rèn)為與基于獎(jiǎng)勵(lì)(產(chǎn)生多巴胺)的學(xué)習(xí)神經(jīng)機(jī)制密切相關(guān)。同時(shí),deep RL利用神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)支持泛化和轉(zhuǎn)移的強(qiáng)大表征,這一點(diǎn)與生物大腦的關(guān)鍵能力極為相似。有鑒于此,deep RL似乎為研究人類(lèi)/動(dòng)物學(xué)習(xí)的人員在行為和神經(jīng)科學(xué)上提供了豐富的想法和假設(shè)。事實(shí)上,研究人員已開(kāi)始注意到這一點(diǎn)。
不過(guò),***波deep RL研究也引發(fā)了某些警示。首先,deep RL系統(tǒng)的學(xué)習(xí)方式人類(lèi)完全不同。有人認(rèn)為,這種差異表現(xiàn)為人類(lèi)學(xué)習(xí)與deep RL的采樣效率不同。
采樣效率是指學(xué)習(xí)系統(tǒng)達(dá)到任何選定目標(biāo)性能水平所需的數(shù)據(jù)量。在這一指標(biāo)上,***波deep RL系統(tǒng)確實(shí)與人類(lèi)學(xué)習(xí)者有著本質(zhì)區(qū)別。例如,為了在Atari視頻游戲或國(guó)際象棋等任務(wù)中獲得專(zhuān)業(yè)級(jí)別的表現(xiàn),deep RL系統(tǒng)的訓(xùn)練數(shù)據(jù)需要比人類(lèi)專(zhuān)業(yè)選手多幾個(gè)數(shù)量級(jí)。簡(jiǎn)而言之,至少在最初的系統(tǒng)中,deep RL訓(xùn)練速度太慢,無(wú)法生成人類(lèi)學(xué)習(xí)的合理模型。
但很快,deep RL研究中發(fā)生了重大創(chuàng)新,這些創(chuàng)新減少了對(duì)訓(xùn)練數(shù)據(jù)量的要求,使得deep RL的采樣效率得到了顯著提升,因此可以生成人類(lèi)學(xué)習(xí)模型,這為心理學(xué)和神經(jīng)科學(xué)的研究找到新的出發(fā)點(diǎn)。
本文中,我們主要考慮兩種提升樣本效率的關(guān)鍵方法:episodic deep RL(情景式deep RL)和meta-RL(元強(qiáng)化學(xué)習(xí))。我們研究了這些技術(shù)如何實(shí)現(xiàn)快速deep RL,及其對(duì)心理學(xué)和神經(jīng)科學(xué)的潛在影響。
deep RL慢的原因
快速RL技術(shù)關(guān)鍵出發(fā)點(diǎn)是搞清楚為什么初始的deep RL方法速度如此慢,樣本效率如此低下。在這里,我們講兩個(gè)主要原因。在本文的***,我們將回過(guò)頭來(lái)研究這兩個(gè)原因之間的聯(lián)系。
***個(gè)原因是增量參數(shù)調(diào)整,也可以被理解為梯度下降算法所帶來(lái)的局限性。早期deep RL方法(在人工智能研究中仍然被廣泛使用)采用梯度下降來(lái)描述從感知輸入到動(dòng)作輸出的深度神經(jīng)網(wǎng)絡(luò)曲線(xiàn)。這種形式的學(xué)習(xí)過(guò)程中所做的調(diào)整必須很小,以便***限度地泛化并避免覆蓋之前的學(xué)習(xí)效果(有時(shí)被稱(chēng)為“災(zāi)難性干擾”)。這種對(duì)小步長(zhǎng)調(diào)整的需求是早期deep RL方法速度慢的原因之一。
第二個(gè)原因是弱感應(yīng)偏差。學(xué)習(xí)理論的一個(gè)基本信條是“偏差-方差權(quán)衡”,這在任何學(xué)習(xí)過(guò)程中都存在。歸納偏置(inductive bias)是指機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中對(duì)某種類(lèi)型假設(shè)的偏好。學(xué)習(xí)過(guò)程對(duì)學(xué)習(xí)模式的初始假設(shè)越強(qiáng)(即學(xué)習(xí)過(guò)程的初始?xì)w納偏置越強(qiáng)),完成學(xué)習(xí)所需的數(shù)據(jù)就越少(假設(shè)初始?xì)w納偏置與數(shù)據(jù)中的相符)。弱歸納偏置的學(xué)習(xí)過(guò)程可以掌握更廣泛的模式(更大的方差),但樣本效率通常會(huì)降低。實(shí)際上,強(qiáng)歸納偏置(對(duì)輸入數(shù)據(jù)僅考慮范圍窄的假設(shè))才是可以快速學(xué)習(xí)的原因。更重要的是,通用神經(jīng)網(wǎng)絡(luò)是極低偏置的學(xué)習(xí)系統(tǒng):它們有許多參數(shù)(不同權(quán)重),需要適應(yīng)各種類(lèi)型的數(shù)據(jù)。這意味著早期deep RL模型中采用的通用神經(jīng)網(wǎng)絡(luò)往往是樣本效率奇低的,需要大量數(shù)據(jù)來(lái)學(xué)習(xí)。
以上兩個(gè)因素 - 增量參數(shù)調(diào)整和弱感應(yīng)偏差 - 共同造成了早期deep RL模型速度慢的事實(shí)。然而,隨后的研究表明,這兩個(gè)因素都可以減輕,從而允許deep RL以更加樣本有效的方式進(jìn)行學(xué)習(xí)。在下文中,我們考慮兩種特定技術(shù),一種解決增量參數(shù)調(diào)整問(wèn)題,另一種解決弱感應(yīng)偏差問(wèn)題。除了它們?cè)贏I領(lǐng)域的影響之外,這兩種AI技術(shù)都與心理學(xué)和神經(jīng)科學(xué)有著明顯的聯(lián)系,我們將詳細(xì)說(shuō)明。
Episodic Deep RL:通過(guò)情景記憶快速學(xué)習(xí)
如果增量參數(shù)調(diào)整是deep RL速度慢的一個(gè)原因,那么一種解決方法可能是避免這種增量更新。單純靠控制梯度下降來(lái)優(yōu)化學(xué)習(xí)率會(huì)導(dǎo)致災(zāi)難性干擾問(wèn)題。
最近的研究表明,另一種方法也可以實(shí)現(xiàn)相同的目標(biāo),即保留過(guò)去事件的明確記錄,并直接將此記錄用作制定新決策的參考點(diǎn)。這種方法稱(chēng)為episodic RL,與機(jī)器學(xué)習(xí)中的“非參數(shù)”(不對(duì)目標(biāo)函數(shù)的形式作出強(qiáng)烈假設(shè))方法相似,如K近鄰算法,也類(lèi)似于心理學(xué)中學(xué)習(xí)理論的“實(shí)例”或“范例”教學(xué)。
當(dāng)遇到新情況且必須決定采取何種行動(dòng)時(shí),程序?qū)?dāng)前情況的內(nèi)部表示與過(guò)去情況的存儲(chǔ)表示進(jìn)行比較。根據(jù)與當(dāng)前最相似的過(guò)去情況,選擇相關(guān)聯(lián)的動(dòng)作。當(dāng)使用多層神經(jīng)網(wǎng)絡(luò)計(jì)算內(nèi)部狀態(tài)表示時(shí),我們將得到的算法稱(chēng)為“episodic deep RL”。
episodic RL的成功取決于用于計(jì)算狀態(tài)相似度的狀態(tài)表示。后來(lái)的研究表明,通過(guò)使用梯度下降學(xué)習(xí)來(lái)形成這些狀態(tài)表示可以改善性能。這些結(jié)果解釋了episodic RL在Atari學(xué)習(xí)環(huán)境57項(xiàng)游戲中的強(qiáng)大性能和高數(shù)據(jù)效率,展示了結(jié)合慢(表示)學(xué)習(xí)和快速(估算)學(xué)習(xí)的好處。
在episodic deep RL中,與標(biāo)準(zhǔn)增量方法不同,可以立即利用每個(gè)經(jīng)驗(yàn)事件獲得的信息來(lái)指導(dǎo)行為。然而,episodic deep RL能夠消除早期deep RL慢的因素,進(jìn)行快速學(xué)習(xí),主要取決于其減緩了增量學(xué)習(xí)。這種增量學(xué)習(xí)是對(duì)連接權(quán)重的漸進(jìn)學(xué)習(xí),允許系統(tǒng)對(duì)每個(gè)新觀察到的情況形成有用的內(nèi)部表示或嵌入(embeddings)。這些表示的格式通過(guò)經(jīng)驗(yàn)學(xué)習(xí)獲得,使用相同類(lèi)型的增量參數(shù)更新(即標(biāo)準(zhǔn)deep RL的根基)。最終,通過(guò)這種較慢的學(xué)習(xí)形式提升了episodic deep RL的速度。也就是說(shuō),通過(guò)慢學(xué)習(xí)實(shí)現(xiàn)了快速學(xué)習(xí)。
快速學(xué)習(xí)對(duì)慢學(xué)習(xí)的依賴(lài)并非巧合。正如我們將在下面論述的那樣,它是一個(gè)基本原則,不僅適用于AI,也適用于心理學(xué)和神經(jīng)科學(xué)。然而,在考慮這個(gè)一般性觀點(diǎn)之前,我們將研究它在第二個(gè)用于快速deep RL技術(shù) - meta-RL中的作用。
Meta-RL:通過(guò)學(xué)習(xí)如何學(xué)習(xí)來(lái)加速deep RL
如前所述,標(biāo)準(zhǔn)deep RL速度慢,除了增量更新,還有弱感應(yīng)偏差。正如在偏差 - 方差權(quán)衡的概念中所描述的,快速學(xué)習(xí)要求對(duì)需要學(xué)習(xí)的模式結(jié)構(gòu)要有一組合理數(shù)量的假設(shè)。假設(shè)設(shè)置得越細(xì)(窄),學(xué)習(xí)速度就越快。然而,正如前面所提到的,有一個(gè)問(wèn)題:一個(gè)狹義的假設(shè)集只有在它包含正確的假設(shè)時(shí)才會(huì)提高學(xué)習(xí)速度。雖然強(qiáng)歸納偏置可以加速學(xué)習(xí),但只有學(xué)習(xí)者采用的特定偏置恰好與學(xué)習(xí)材料相符合時(shí)才行。因此,這里出現(xiàn)了一個(gè)新的學(xué)習(xí)問(wèn)題:學(xué)習(xí)者如何知道采用什么歸納偏置?
看到這個(gè)問(wèn)題,很容易想到的答案是借鑒過(guò)去的經(jīng)驗(yàn)。顯然,這就是我們?nèi)粘I钪械那樾巍@?,學(xué)習(xí)使用新的智能手機(jī)。在這種情況下,一個(gè)人過(guò)去使用智能手機(jī)和其他相關(guān)設(shè)備的經(jīng)驗(yàn)可以用來(lái)假設(shè)新手機(jī)應(yīng)該如何工作,也可以用來(lái)指導(dǎo)摸索手機(jī)操作。這些初始假設(shè)對(duì)應(yīng)于偏差 - 方差權(quán)衡中的“偏差”,它們會(huì)影響快速學(xué)習(xí)能力。沒(méi)有這些初始偏置的學(xué)習(xí)者(即具有更高的“方差”)會(huì)考慮更廣泛的關(guān)于手機(jī)操作的假設(shè),但這樣就會(huì)犧牲學(xué)習(xí)速度。
利用過(guò)去的經(jīng)驗(yàn)來(lái)加速新學(xué)習(xí)在機(jī)器學(xué)習(xí)中被稱(chēng)為元學(xué)習(xí)(meta-learning)。其實(shí)這個(gè)想法源于心理學(xué),被稱(chēng)為“學(xué)習(xí)如何學(xué)習(xí)”。這個(gè)術(shù)語(yǔ)***出現(xiàn)在一篇心理學(xué)研究過(guò)論文中,作者Harlow給出了一個(gè)可以很好體現(xiàn)這個(gè)術(shù)語(yǔ)的實(shí)驗(yàn)。在實(shí)驗(yàn)里,一群猴子面前放著兩個(gè)它們不熟悉的物體,并允許它們拿起其中一個(gè)。
物體下面可能是食物獎(jiǎng)勵(lì),也可能是空的。然后將兩個(gè)物體再次放在猴子面前,但是位置可能左右顛倒,重復(fù)該過(guò)程6輪。然后用兩個(gè)新的,猴子不熟悉的物體,并重復(fù)之前的試驗(yàn)6次。重復(fù)更換物體,依此類(lèi)推。隨著測(cè)試次數(shù)增加,猴子們能發(fā)現(xiàn)一個(gè)簡(jiǎn)單規(guī)則:總是有一種物體下面有食物而另一種物體沒(méi)有,不管這種物體放左還是放右。因此當(dāng)給它們一對(duì)新物體時(shí),猴子只要試一次就知道應(yīng)該選哪個(gè)了。這是一個(gè)關(guān)于學(xué)習(xí)如何學(xué)習(xí)的簡(jiǎn)單生動(dòng)的例子。
現(xiàn)在回到機(jī)器學(xué)習(xí),新的研究工作表明怎樣利用元學(xué)習(xí)來(lái)加速深度學(xué)習(xí),已經(jīng)有很多方法可以實(shí)現(xiàn)這個(gè)思路。其中一種方法與神經(jīng)科學(xué)和心理學(xué)有著特殊的聯(lián)系。在這個(gè)方法里,循環(huán)神經(jīng)網(wǎng)絡(luò)在一系列相互關(guān)聯(lián)的RL任務(wù)上進(jìn)行訓(xùn)練。
網(wǎng)絡(luò)中的權(quán)重調(diào)整非常緩慢,因此可以反應(yīng)出任務(wù)中共性的內(nèi)容,但不能快速更改以用于任何單個(gè)任務(wù)的解決方案。在這種情況下,循環(huán)網(wǎng)絡(luò)的活動(dòng)狀態(tài)可以實(shí)現(xiàn)自己的RL算法,該算法基于過(guò)去任務(wù)產(chǎn)生的知識(shí)來(lái)快速解決每個(gè)新任務(wù)。也就是說(shuō),一個(gè)RL算法產(chǎn)生另一個(gè),因此被命名為'meta-RL'。
與episodic deep RL一樣,meta-RL也與快速和慢速學(xué)習(xí)之間的密切聯(lián)系有關(guān)。循環(huán)網(wǎng)絡(luò)的權(quán)重在任務(wù)之間緩慢更新,允許任務(wù)間的共性信息“內(nèi)置”到循環(huán)網(wǎng)絡(luò)的狀態(tài)中。由此產(chǎn)生的網(wǎng)絡(luò)狀態(tài)變化實(shí)現(xiàn)了一種新的學(xué)習(xí)算法,可以快速解決新問(wèn)題,因?yàn)槁賹W(xué)習(xí)的基礎(chǔ)過(guò)程給了它們有用的歸納偏置。這又是一次快速學(xué)習(xí)源于慢學(xué)習(xí),并且通過(guò)慢學(xué)習(xí)實(shí)現(xiàn)提速。
Episodic Meta-RL
注意!我們上面討論的兩種技術(shù)并不相互排斥。實(shí)際上,最近的研究表明可以元學(xué)習(xí)(meta-learning)和情景控制(episodic control)整合起來(lái),實(shí)現(xiàn)互補(bǔ)。在Episodic Meta-RL中,如前所述,元學(xué)習(xí)發(fā)生在循環(huán)神經(jīng)網(wǎng)絡(luò)中。疊加在其上的是情景記憶系統(tǒng),其作用是恢復(fù)循環(huán)神經(jīng)網(wǎng)絡(luò)的活動(dòng)模式。與episodic deep RL一樣,情景記憶對(duì)一組過(guò)去事件進(jìn)行編目,可以根據(jù)當(dāng)前上下文查詢(xún)這些事件。然而,Episodic Meta-RL不是將上下文與估值聯(lián)系起來(lái),而是將它們與來(lái)自循環(huán)網(wǎng)絡(luò)的內(nèi)部或隱藏單元的存儲(chǔ)活動(dòng)模式連接起來(lái)。這些模式很重要,因?yàn)橥ㄟ^(guò)meta-RL,它們總結(jié)了agent從與單個(gè)任務(wù)交互中學(xué)到的東西。在episodic meta-RL中,當(dāng)agent遇到與過(guò)去類(lèi)似的情況時(shí),它會(huì)允許先前學(xué)習(xí)的信息影響當(dāng)前策略。實(shí)際上,情景記憶允許系統(tǒng)識(shí)別先前遇到的任務(wù),并檢索存儲(chǔ)的解決方案。
通過(guò)模擬“強(qiáng)盜決策”任務(wù)和導(dǎo)航任務(wù),Ritter 等人發(fā)現(xiàn)episodic meta-RL,就像普通的meta-RL一樣,學(xué)習(xí)強(qiáng)歸納偏置,從而使其能夠快速解決新任務(wù)。更重要的是,當(dāng)遇到過(guò)去類(lèi)似的任務(wù)時(shí),episodic meta-RL會(huì)立即檢索并恢復(fù)之前生成的解決方案,從而無(wú)需重新學(xué)習(xí)。在***次遇到新任務(wù)時(shí),系統(tǒng)速度受益于meta-RL的快速性; 在其后遇到新任務(wù)時(shí),系統(tǒng)速度受益于情景控制所賦予的一次性學(xué)習(xí)能力。
對(duì)神經(jīng)科學(xué)和心理學(xué)的啟示
正如我們?cè)谖恼麻_(kāi)始時(shí)所看到的那樣,人們因?yàn)椴蓸有实拖碌膯?wèn)題而質(zhì)疑deep RL與人類(lèi)或其他動(dòng)物學(xué)習(xí)的相似性。從心理學(xué)和神經(jīng)科學(xué)的角度來(lái)看,episodic deep RL和meta-RL的一個(gè)重要含義是它們通過(guò)展示deep RL實(shí)際上速度不慢,從而消除了這種質(zhì)疑。本文在一定程度上認(rèn)為,deep RL是可以作為人類(lèi)和動(dòng)物學(xué)習(xí)的候選模型的。然而,除了這一點(diǎn)之外,episodic deep RL和meta-RL的細(xì)節(jié)也指向了心理學(xué)和神經(jīng)科學(xué)中一些有趣的新假說(shuō)。
首先是episodic deep RL。我們已經(jīng)注意到它與經(jīng)典的基于實(shí)例學(xué)習(xí)的人類(lèi)記憶模型之間的有趣聯(lián)系。Episodic RL為基于實(shí)例的處理如何促進(jìn)獎(jiǎng)勵(lì)驅(qū)動(dòng)學(xué)習(xí)提供了一個(gè)可能的解釋。有趣的是,最近關(guān)于動(dòng)物和人類(lèi)增強(qiáng)學(xué)習(xí)的研究越來(lái)越認(rèn)可情景記憶的潛在貢獻(xiàn),有證據(jù)表明狀態(tài)和行動(dòng)價(jià)值的估計(jì)是基于對(duì)特定的過(guò)去行動(dòng) - 結(jié)果觀察的檢索記憶。
再說(shuō)meta-RL,它對(duì)心理學(xué)和神經(jīng)科學(xué)也有值得注意的潛在影響。有研究提出了從meta-RL的元素到神經(jīng)結(jié)構(gòu)和功能的直接映射。一系列計(jì)算機(jī)模擬表明, meta-RL可以解釋行為和神經(jīng)生理學(xué)中的各種實(shí)證研究結(jié)果。
快速和慢速RL:更廣泛的意義
在討論episodic RL和meta-RL時(shí),我們強(qiáng)調(diào)了“慢速”學(xué)習(xí)在實(shí)現(xiàn)快速、高采樣效率的學(xué)習(xí)方面的作用。在meta-RL中,正如我們所看到的,緩慢且基于權(quán)重學(xué)習(xí)的作用是建立歸納偏置,這可以用于指導(dǎo)推理,從而快速適應(yīng)新任務(wù)。而episodic RL的緩慢增量學(xué)習(xí)也是類(lèi)似的。Episodic RL本質(zhì)上依賴(lài)于對(duì)情景或狀態(tài)之間相似性的判斷。緩慢的學(xué)習(xí)形成了狀態(tài)的內(nèi)部表示方式,從而產(chǎn)生了一系列關(guān)于哪些狀態(tài)最密切相關(guān)的歸納偏置。
如果更仔細(xì)地觀察episodic RL,可以看出歸納偏置是學(xué)習(xí)架構(gòu)的一部分。episodic RL有一種平滑原則的假設(shè):類(lèi)似的狀態(tài)通常會(huì)產(chǎn)生類(lèi)似的動(dòng)作。這種歸納偏置不是用于學(xué)習(xí),而是連接到定義episodic RL的學(xué)習(xí)系統(tǒng)結(jié)構(gòu)中。在當(dāng)前的AI術(shù)語(yǔ)中,這屬于“架構(gòu)”或“算法偏置”等情況,與meta-RL 中的“學(xué)習(xí)偏置”不同。
無(wú)論是通過(guò)學(xué)習(xí)還是通過(guò)直接手工設(shè)計(jì)架構(gòu)或算法偏置來(lái)實(shí)現(xiàn),目前的人工智能研究主要集中在尋找有用的歸納偏置以加快學(xué)習(xí)速度。實(shí)際上,后一種方法本身就是當(dāng)前人工智能神經(jīng)網(wǎng)絡(luò)理論復(fù)蘇的主要原因。卷積神經(jīng)網(wǎng)絡(luò)引發(fā)了這種復(fù)蘇,它構(gòu)建了一種與圖像識(shí)別中的平移不變性相關(guān)的非常特定的結(jié)構(gòu)偏置。然而,在過(guò)去幾年中,越來(lái)越多的人工智能研究或多或少地集中在歸納偏置問(wèn)題上。
站在更高的層次來(lái)看,這些技術(shù)的發(fā)展與心理學(xué)中一些長(zhǎng)期存在的問(wèn)題極為相似。正如我們已經(jīng)指出的那樣,歸納偏置可能通過(guò)學(xué)習(xí)獲得的想法最初源于心理學(xué),并且不時(shí)在心理學(xué)研究中被人們提到。然而,神經(jīng)網(wǎng)絡(luò)中的元學(xué)習(xí)可以提供新的應(yīng)用場(chǎng)景來(lái)探索這種學(xué)習(xí)如何學(xué)習(xí)過(guò)程的機(jī)制和原因,尤其是在RL環(huán)境中。
心理學(xué),特別是發(fā)展心理學(xué),長(zhǎng)期以來(lái)也一直認(rèn)為人類(lèi)存在某種內(nèi)在固有的歸納偏置。然而,架構(gòu)偏置的概念以及神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的內(nèi)置偏置的概念還未得到廣泛認(rèn)同。目前深度學(xué)習(xí)和深度增強(qiáng)學(xué)習(xí)的方法都提供了一個(gè)研究工具,可能有助于心理學(xué)領(lǐng)域的進(jìn)一步探索。
值得注意的是,雖然人工智能將通過(guò)學(xué)習(xí)獲得的歸納偏置和手工“加入”的偏置做了明確區(qū)分,但在生物學(xué)背景下,兩者也有更一般的共性。具體而言,人們可以將架構(gòu)和算法偏置視為由進(jìn)化驅(qū)動(dòng)的不同學(xué)習(xí)過(guò)程產(chǎn)生的。在這里,進(jìn)化是一種“緩慢”的學(xué)習(xí)過(guò)程,逐漸形成架構(gòu)和算法偏置,從而加快終身學(xué)習(xí)速度。因此,元學(xué)習(xí)不僅在一個(gè)生命周期內(nèi)發(fā)揮作用,而且在進(jìn)化中也發(fā)揮作用。有趣的是,這種觀點(diǎn)意味著進(jìn)化不會(huì)選擇真正的“通用”學(xué)習(xí)算法,而是選擇那些利用大腦進(jìn)化的特定環(huán)境中的規(guī)律性的算法。最近的機(jī)器學(xué)習(xí)更多地深入研究構(gòu)建agent體系結(jié)構(gòu)的方法,以及通過(guò)自然選擇的進(jìn)化算法構(gòu)建獎(jiǎng)勵(lì)函數(shù),這些新發(fā)展再次證明其在探索神經(jīng)科學(xué)和心理學(xué)方面的意義。
結(jié)束語(yǔ)
deep RL研究領(lǐng)域的快速發(fā)展對(duì)心理學(xué)和神經(jīng)科學(xué)具有極大的意義,因?yàn)樗嘘P(guān)注代表性學(xué)習(xí)和目標(biāo)導(dǎo)向行為。在本文中,我們描述了***的deep RL形式,它克服了采樣效率低下的明顯問(wèn)題,允許deep RL “快速”工作。這些技術(shù)不僅強(qiáng)化了deep RL對(duì)心理學(xué)和神經(jīng)科學(xué)的潛在聯(lián)系,而且它們通過(guò)情景記憶和元學(xué)習(xí)等使這些潛在聯(lián)系更加豐富多樣。此外,deep RL的研究越來(lái)越多地為心理學(xué)和神經(jīng)科學(xué)的新研究給出具體詳細(xì)的指導(dǎo)。
正如我們所強(qiáng)調(diào)的那樣,有關(guān)高效采樣deep RL***研究的關(guān)鍵意義在于,要快速學(xué)習(xí),就必然依賴(lài)于慢速學(xué)習(xí),這種慢速學(xué)習(xí)建立了快速學(xué)習(xí)的表征和歸納偏置。這樣的計(jì)算辯證法為研究大腦中多個(gè)記憶系統(tǒng)及其進(jìn)化起源提供了理論框架。然而,除了本文中討論的那些,人類(lèi)學(xué)習(xí)可能涉及多個(gè)交互過(guò)程,因此我們認(rèn)為任何deep RL模型都需要整合所有這些才能更接近真實(shí)的人類(lèi)學(xué)習(xí)。在更廣泛的層面上,理解RL中快速和慢速之間的關(guān)系為心理學(xué)和神經(jīng)科學(xué)提供了令人信服的依據(jù)。實(shí)際上,這可能是人工智能、神經(jīng)科學(xué)和心理學(xué)協(xié)同作用的關(guān)鍵領(lǐng)域,一直以來(lái)都是認(rèn)知科學(xué)所追求的。
一些值得討論的問(wèn)題
可以通過(guò)AI方法將高效采樣的deep RL擴(kuò)展到人類(lèi)實(shí)際生活的各種場(chǎng)景中嗎?這些方法能否產(chǎn)生對(duì)各種人類(lèi)智慧的抽象本質(zhì)?為此可能需要什么樣的訓(xùn)練環(huán)境?
靈活且高效采樣的人類(lèi)學(xué)習(xí)的機(jī)制是否與人工智能中目前正在探索的機(jī)制相關(guān)?如果是這樣,它們的神經(jīng)實(shí)現(xiàn)是什么?當(dāng)前的人工智能技術(shù)中的重點(diǎn) - 梯度下降學(xué)習(xí),是否會(huì)在大腦中發(fā)生,或者在某些其他機(jī)制起相同的作用?
在人類(lèi)學(xué)習(xí)者所處的環(huán)境中最重要的學(xué)習(xí)歸納偏置是什么?這些偏置在多大程度上是通過(guò)進(jìn)化遺傳或成長(zhǎng)過(guò)程獲得的,在多大程度上是通過(guò)學(xué)習(xí)獲得的?
讓人類(lèi)學(xué)習(xí)者如此高效的一個(gè)原因是人類(lèi)是積極主動(dòng)、有策略的信息搜集者。那么構(gòu)建和激勵(lì)人類(lèi)探索的原則是什么?我們?nèi)绾卧贏I系統(tǒng)中復(fù)制這些原則?
相關(guān)報(bào)道:
https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(19)30061-0
【本文是51CTO專(zhuān)欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)文章,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】