偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

從認(rèn)知學(xué)到進(jìn)化論，詳述強(qiáng)化學(xué)習(xí)兩大最新突破

作者：大數(shù)據(jù)文摘 2019-05-28 11:11:27

開發(fā) 開發(fā)工具深度學(xué)習(xí)

作為AI技術(shù)，利用了情景記憶和元學(xué)習(xí)的deep RL方法也可以應(yīng)用于心理學(xué)和神經(jīng)科學(xué)，尤其是這些技術(shù)隱含的關(guān)于快速和慢速學(xué)習(xí)模式之間基本聯(lián)系。

大數(shù)據(jù)文摘出品

編譯：李雷、錢天培

深層強(qiáng)化學(xué)習(xí)(deep RL)近年來在人工智能方面取得了令人矚目的進(jìn)步，在Atari游戲、圍棋及***制撲克等領(lǐng)域戰(zhàn)勝了人類。

通過將表征學(xué)習(xí)與獎(jiǎng)勵(lì)驅(qū)動(dòng)行為相結(jié)合，深層強(qiáng)化學(xué)習(xí)又引發(fā)了心理學(xué)和神經(jīng)科學(xué)領(lǐng)域的諸多討論。

不過，深度強(qiáng)化學(xué)習(xí)過程往往需要大量的訓(xùn)練數(shù)據(jù)。正因如此，多數(shù)人認(rèn)為這些算法可能與人類學(xué)習(xí)有著本質(zhì)的區(qū)別。

事實(shí)上，這種擔(dān)憂只出現(xiàn)在深度強(qiáng)化學(xué)習(xí)技術(shù)的早期階段。隨后的AI研究工作已使deep RL系統(tǒng)能更快速有效地學(xué)習(xí)。

這些AI研究中有兩個(gè)特別有趣又有前景的技術(shù)，分別是情景記憶(對(duì)特定事件的記憶，episodic memory)和元學(xué)習(xí)(學(xué)會(huì)如何學(xué)習(xí)，meta-learning)。

今天，我們就會(huì)著重介紹這兩種新技術(shù)——它們或?qū)閺?qiáng)化學(xué)習(xí)帶來重要變革。

作為AI技術(shù)，利用了情景記憶和元學(xué)習(xí)的deep RL方法也可以應(yīng)用于心理學(xué)和神經(jīng)科學(xué)，尤其是這些技術(shù)隱含的關(guān)于快速和慢速學(xué)習(xí)模式之間基本聯(lián)系。

強(qiáng)大但低效：***波深度強(qiáng)化學(xué)習(xí)浪潮

在過去的幾年里，人工智能(AI)研究取得了革命性的進(jìn)展，神經(jīng)網(wǎng)絡(luò)或“深度學(xué)習(xí)”方法的再次興起使圖像識(shí)別、自然語言處理以及許多其他領(lǐng)域產(chǎn)生突破。這些發(fā)展引起了心理學(xué)家、心理語言學(xué)家和神經(jīng)科學(xué)家的興趣，他們對(duì)人工智能的發(fā)展是否會(huì)帶來有關(guān)人類認(rèn)知和腦功能的新假說感到好奇。

從這個(gè)角度來看，人工智能研究的一個(gè)特別吸引人的地方就是深度強(qiáng)化學(xué)習(xí)(deep RL)。deep RL將神經(jīng)網(wǎng)絡(luò)建模與強(qiáng)化學(xué)習(xí)結(jié)合起來，這是一套以獎(jiǎng)懲而非明確指令驅(qū)動(dòng)學(xué)習(xí)的方法。經(jīng)過數(shù)十年的空想之后，deep RL在過去的5年里已經(jīng)成為人工智能研究競爭最激烈的領(lǐng)域之一，在視頻游戲、撲克、多人賽和復(fù)雜的棋盤游戲(包括圍棋和國際象棋)等方面的表現(xiàn)都超越了人類。

深度強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)(RL)的焦點(diǎn)集中在學(xué)習(xí)行為策略的問題上，即從狀態(tài)或情境到行為的映射，這使得長期獎(jiǎng)勵(lì)的累積***化。簡單情況下，這種策略可以表示為列舉了狀態(tài)和行為的查找表。而在復(fù)雜情況下，則需要用參數(shù)化函數(shù)來間接地表達(dá)策略。早期(上世紀(jì)90年代)使用多層(或深層)神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)，但在整合深層神經(jīng)網(wǎng)絡(luò)和RL上遇到了困難。直到2015年，deep RL在復(fù)雜領(lǐng)域(如Atari視頻游戲)的突破，以及隨之而來在改進(jìn)和擴(kuò)展deep RL方面的快速發(fā)展，使其可以應(yīng)用于復(fù)雜任務(wù)中，比如圍棋。

作為AI技術(shù)，deep RL似乎與心理學(xué)和神經(jīng)科學(xué)有著特別的淵源。deep RL的學(xué)習(xí)驅(qū)動(dòng)機(jī)制最初是受到動(dòng)物訓(xùn)練研究的啟發(fā)，并且這種機(jī)制被認(rèn)為與基于獎(jiǎng)勵(lì)(產(chǎn)生多巴胺)的學(xué)習(xí)神經(jīng)機(jī)制密切相關(guān)。同時(shí)，deep RL利用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)支持泛化和轉(zhuǎn)移的強(qiáng)大表征，這一點(diǎn)與生物大腦的關(guān)鍵能力極為相似。有鑒于此，deep RL似乎為研究人類/動(dòng)物學(xué)習(xí)的人員在行為和神經(jīng)科學(xué)上提供了豐富的想法和假設(shè)。事實(shí)上，研究人員已開始注意到這一點(diǎn)。

不過，***波deep RL研究也引發(fā)了某些警示。首先，deep RL系統(tǒng)的學(xué)習(xí)方式人類完全不同。有人認(rèn)為，這種差異表現(xiàn)為人類學(xué)習(xí)與deep RL的采樣效率不同。

采樣效率是指學(xué)習(xí)系統(tǒng)達(dá)到任何選定目標(biāo)性能水平所需的數(shù)據(jù)量。在這一指標(biāo)上，***波deep RL系統(tǒng)確實(shí)與人類學(xué)習(xí)者有著本質(zhì)區(qū)別。例如，為了在Atari視頻游戲或國際象棋等任務(wù)中獲得專業(yè)級(jí)別的表現(xiàn)，deep RL系統(tǒng)的訓(xùn)練數(shù)據(jù)需要比人類專業(yè)選手多幾個(gè)數(shù)量級(jí)。簡而言之，至少在最初的系統(tǒng)中，deep RL訓(xùn)練速度太慢，無法生成人類學(xué)習(xí)的合理模型。

但很快，deep RL研究中發(fā)生了重大創(chuàng)新，這些創(chuàng)新減少了對(duì)訓(xùn)練數(shù)據(jù)量的要求，使得deep RL的采樣效率得到了顯著提升，因此可以生成人類學(xué)習(xí)模型，這為心理學(xué)和神經(jīng)科學(xué)的研究找到新的出發(fā)點(diǎn)。

本文中，我們主要考慮兩種提升樣本效率的關(guān)鍵方法：episodic deep RL(情景式deep RL)和meta-RL(元強(qiáng)化學(xué)習(xí))。我們研究了這些技術(shù)如何實(shí)現(xiàn)快速deep RL，及其對(duì)心理學(xué)和神經(jīng)科學(xué)的潛在影響。

deep RL慢的原因

快速RL技術(shù)關(guān)鍵出發(fā)點(diǎn)是搞清楚為什么初始的deep RL方法速度如此慢，樣本效率如此低下。在這里，我們講兩個(gè)主要原因。在本文的***，我們將回過頭來研究這兩個(gè)原因之間的聯(lián)系。

***個(gè)原因是增量參數(shù)調(diào)整，也可以被理解為梯度下降算法所帶來的局限性。早期deep RL方法(在人工智能研究中仍然被廣泛使用)采用梯度下降來描述從感知輸入到動(dòng)作輸出的深度神經(jīng)網(wǎng)絡(luò)曲線。這種形式的學(xué)習(xí)過程中所做的調(diào)整必須很小，以便***限度地泛化并避免覆蓋之前的學(xué)習(xí)效果(有時(shí)被稱為“災(zāi)難性干擾”)。這種對(duì)小步長調(diào)整的需求是早期deep RL方法速度慢的原因之一。

第二個(gè)原因是弱感應(yīng)偏差。學(xué)習(xí)理論的一個(gè)基本信條是“偏差-方差權(quán)衡”，這在任何學(xué)習(xí)過程中都存在。歸納偏置(inductive bias)是指機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中對(duì)某種類型假設(shè)的偏好。學(xué)習(xí)過程對(duì)學(xué)習(xí)模式的初始假設(shè)越強(qiáng)(即學(xué)習(xí)過程的初始?xì)w納偏置越強(qiáng))，完成學(xué)習(xí)所需的數(shù)據(jù)就越少(假設(shè)初始?xì)w納偏置與數(shù)據(jù)中的相符)。弱歸納偏置的學(xué)習(xí)過程可以掌握更廣泛的模式(更大的方差)，但樣本效率通常會(huì)降低。實(shí)際上，強(qiáng)歸納偏置(對(duì)輸入數(shù)據(jù)僅考慮范圍窄的假設(shè))才是可以快速學(xué)習(xí)的原因。更重要的是，通用神經(jīng)網(wǎng)絡(luò)是極低偏置的學(xué)習(xí)系統(tǒng)：它們有許多參數(shù)(不同權(quán)重)，需要適應(yīng)各種類型的數(shù)據(jù)。這意味著早期deep RL模型中采用的通用神經(jīng)網(wǎng)絡(luò)往往是樣本效率奇低的，需要大量數(shù)據(jù)來學(xué)習(xí)。

以上兩個(gè)因素 - 增量參數(shù)調(diào)整和弱感應(yīng)偏差 - 共同造成了早期deep RL模型速度慢的事實(shí)。然而，隨后的研究表明，這兩個(gè)因素都可以減輕，從而允許deep RL以更加樣本有效的方式進(jìn)行學(xué)習(xí)。在下文中，我們考慮兩種特定技術(shù)，一種解決增量參數(shù)調(diào)整問題，另一種解決弱感應(yīng)偏差問題。除了它們?cè)贏I領(lǐng)域的影響之外，這兩種AI技術(shù)都與心理學(xué)和神經(jīng)科學(xué)有著明顯的聯(lián)系，我們將詳細(xì)說明。

Episodic Deep RL：通過情景記憶快速學(xué)習(xí)

如果增量參數(shù)調(diào)整是deep RL速度慢的一個(gè)原因，那么一種解決方法可能是避免這種增量更新。單純靠控制梯度下降來優(yōu)化學(xué)習(xí)率會(huì)導(dǎo)致災(zāi)難性干擾問題。

最近的研究表明，另一種方法也可以實(shí)現(xiàn)相同的目標(biāo)，即保留過去事件的明確記錄，并直接將此記錄用作制定新決策的參考點(diǎn)。這種方法稱為episodic RL，與機(jī)器學(xué)習(xí)中的“非參數(shù)”(不對(duì)目標(biāo)函數(shù)的形式作出強(qiáng)烈假設(shè))方法相似，如K近鄰算法，也類似于心理學(xué)中學(xué)習(xí)理論的“實(shí)例”或“范例”教學(xué)。

當(dāng)遇到新情況且必須決定采取何種行動(dòng)時(shí)，程序?qū)?dāng)前情況的內(nèi)部表示與過去情況的存儲(chǔ)表示進(jìn)行比較。根據(jù)與當(dāng)前最相似的過去情況，選擇相關(guān)聯(lián)的動(dòng)作。當(dāng)使用多層神經(jīng)網(wǎng)絡(luò)計(jì)算內(nèi)部狀態(tài)表示時(shí)，我們將得到的算法稱為“episodic deep RL”。

episodic RL的成功取決于用于計(jì)算狀態(tài)相似度的狀態(tài)表示。后來的研究表明，通過使用梯度下降學(xué)習(xí)來形成這些狀態(tài)表示可以改善性能。這些結(jié)果解釋了episodic RL在Atari學(xué)習(xí)環(huán)境57項(xiàng)游戲中的強(qiáng)大性能和高數(shù)據(jù)效率，展示了結(jié)合慢(表示)學(xué)習(xí)和快速(估算)學(xué)習(xí)的好處。

在episodic deep RL中，與標(biāo)準(zhǔn)增量方法不同，可以立即利用每個(gè)經(jīng)驗(yàn)事件獲得的信息來指導(dǎo)行為。然而，episodic deep RL能夠消除早期deep RL慢的因素，進(jìn)行快速學(xué)習(xí)，主要取決于其減緩了增量學(xué)習(xí)。這種增量學(xué)習(xí)是對(duì)連接權(quán)重的漸進(jìn)學(xué)習(xí)，允許系統(tǒng)對(duì)每個(gè)新觀察到的情況形成有用的內(nèi)部表示或嵌入(embeddings)。這些表示的格式通過經(jīng)驗(yàn)學(xué)習(xí)獲得，使用相同類型的增量參數(shù)更新(即標(biāo)準(zhǔn)deep RL的根基)。最終，通過這種較慢的學(xué)習(xí)形式提升了episodic deep RL的速度。也就是說，通過慢學(xué)習(xí)實(shí)現(xiàn)了快速學(xué)習(xí)。

快速學(xué)習(xí)對(duì)慢學(xué)習(xí)的依賴并非巧合。正如我們將在下面論述的那樣，它是一個(gè)基本原則，不僅適用于AI，也適用于心理學(xué)和神經(jīng)科學(xué)。然而，在考慮這個(gè)一般性觀點(diǎn)之前，我們將研究它在第二個(gè)用于快速deep RL技術(shù) - meta-RL中的作用。

Meta-RL：通過學(xué)習(xí)如何學(xué)習(xí)來加速deep RL

如前所述，標(biāo)準(zhǔn)deep RL速度慢，除了增量更新，還有弱感應(yīng)偏差。正如在偏差 - 方差權(quán)衡的概念中所描述的，快速學(xué)習(xí)要求對(duì)需要學(xué)習(xí)的模式結(jié)構(gòu)要有一組合理數(shù)量的假設(shè)。假設(shè)設(shè)置得越細(xì)(窄)，學(xué)習(xí)速度就越快。然而，正如前面所提到的，有一個(gè)問題：一個(gè)狹義的假設(shè)集只有在它包含正確的假設(shè)時(shí)才會(huì)提高學(xué)習(xí)速度。雖然強(qiáng)歸納偏置可以加速學(xué)習(xí)，但只有學(xué)習(xí)者采用的特定偏置恰好與學(xué)習(xí)材料相符合時(shí)才行。因此，這里出現(xiàn)了一個(gè)新的學(xué)習(xí)問題：學(xué)習(xí)者如何知道采用什么歸納偏置?

看到這個(gè)問題，很容易想到的答案是借鑒過去的經(jīng)驗(yàn)。顯然，這就是我們?nèi)粘Ｉ钪械那樾?。例如，學(xué)習(xí)使用新的智能手機(jī)。在這種情況下，一個(gè)人過去使用智能手機(jī)和其他相關(guān)設(shè)備的經(jīng)驗(yàn)可以用來假設(shè)新手機(jī)應(yīng)該如何工作，也可以用來指導(dǎo)摸索手機(jī)操作。這些初始假設(shè)對(duì)應(yīng)于偏差 - 方差權(quán)衡中的“偏差”，它們會(huì)影響快速學(xué)習(xí)能力。沒有這些初始偏置的學(xué)習(xí)者(即具有更高的“方差”)會(huì)考慮更廣泛的關(guān)于手機(jī)操作的假設(shè)，但這樣就會(huì)犧牲學(xué)習(xí)速度。

利用過去的經(jīng)驗(yàn)來加速新學(xué)習(xí)在機(jī)器學(xué)習(xí)中被稱為元學(xué)習(xí)(meta-learning)。其實(shí)這個(gè)想法源于心理學(xué)，被稱為“學(xué)習(xí)如何學(xué)習(xí)”。這個(gè)術(shù)語***出現(xiàn)在一篇心理學(xué)研究過論文中，作者Harlow給出了一個(gè)可以很好體現(xiàn)這個(gè)術(shù)語的實(shí)驗(yàn)。在實(shí)驗(yàn)里，一群猴子面前放著兩個(gè)它們不熟悉的物體，并允許它們拿起其中一個(gè)。

物體下面可能是食物獎(jiǎng)勵(lì)，也可能是空的。然后將兩個(gè)物體再次放在猴子面前，但是位置可能左右顛倒，重復(fù)該過程6輪。然后用兩個(gè)新的，猴子不熟悉的物體，并重復(fù)之前的試驗(yàn)6次。重復(fù)更換物體，依此類推。隨著測(cè)試次數(shù)增加，猴子們能發(fā)現(xiàn)一個(gè)簡單規(guī)則：總是有一種物體下面有食物而另一種物體沒有，不管這種物體放左還是放右。因此當(dāng)給它們一對(duì)新物體時(shí)，猴子只要試一次就知道應(yīng)該選哪個(gè)了。這是一個(gè)關(guān)于學(xué)習(xí)如何學(xué)習(xí)的簡單生動(dòng)的例子。

現(xiàn)在回到機(jī)器學(xué)習(xí)，新的研究工作表明怎樣利用元學(xué)習(xí)來加速深度學(xué)習(xí)，已經(jīng)有很多方法可以實(shí)現(xiàn)這個(gè)思路。其中一種方法與神經(jīng)科學(xué)和心理學(xué)有著特殊的聯(lián)系。在這個(gè)方法里，循環(huán)神經(jīng)網(wǎng)絡(luò)在一系列相互關(guān)聯(lián)的RL任務(wù)上進(jìn)行訓(xùn)練。

網(wǎng)絡(luò)中的權(quán)重調(diào)整非常緩慢，因此可以反應(yīng)出任務(wù)中共性的內(nèi)容，但不能快速更改以用于任何單個(gè)任務(wù)的解決方案。在這種情況下，循環(huán)網(wǎng)絡(luò)的活動(dòng)狀態(tài)可以實(shí)現(xiàn)自己的RL算法，該算法基于過去任務(wù)產(chǎn)生的知識(shí)來快速解決每個(gè)新任務(wù)。也就是說，一個(gè)RL算法產(chǎn)生另一個(gè)，因此被命名為'meta-RL'。

與episodic deep RL一樣，meta-RL也與快速和慢速學(xué)習(xí)之間的密切聯(lián)系有關(guān)。循環(huán)網(wǎng)絡(luò)的權(quán)重在任務(wù)之間緩慢更新，允許任務(wù)間的共性信息“內(nèi)置”到循環(huán)網(wǎng)絡(luò)的狀態(tài)中。由此產(chǎn)生的網(wǎng)絡(luò)狀態(tài)變化實(shí)現(xiàn)了一種新的學(xué)習(xí)算法，可以快速解決新問題，因?yàn)槁賹W(xué)習(xí)的基礎(chǔ)過程給了它們有用的歸納偏置。這又是一次快速學(xué)習(xí)源于慢學(xué)習(xí)，并且通過慢學(xué)習(xí)實(shí)現(xiàn)提速。

Episodic Meta-RL

注意!我們上面討論的兩種技術(shù)并不相互排斥。實(shí)際上，最近的研究表明可以元學(xué)習(xí)(meta-learning)和情景控制(episodic control)整合起來，實(shí)現(xiàn)互補(bǔ)。在Episodic Meta-RL中，如前所述，元學(xué)習(xí)發(fā)生在循環(huán)神經(jīng)網(wǎng)絡(luò)中。疊加在其上的是情景記憶系統(tǒng)，其作用是恢復(fù)循環(huán)神經(jīng)網(wǎng)絡(luò)的活動(dòng)模式。與episodic deep RL一樣，情景記憶對(duì)一組過去事件進(jìn)行編目，可以根據(jù)當(dāng)前上下文查詢這些事件。然而，Episodic Meta-RL不是將上下文與估值聯(lián)系起來，而是將它們與來自循環(huán)網(wǎng)絡(luò)的內(nèi)部或隱藏單元的存儲(chǔ)活動(dòng)模式連接起來。這些模式很重要，因?yàn)橥ㄟ^meta-RL，它們總結(jié)了agent從與單個(gè)任務(wù)交互中學(xué)到的東西。在episodic meta-RL中，當(dāng)agent遇到與過去類似的情況時(shí)，它會(huì)允許先前學(xué)習(xí)的信息影響當(dāng)前策略。實(shí)際上，情景記憶允許系統(tǒng)識(shí)別先前遇到的任務(wù)，并檢索存儲(chǔ)的解決方案。

通過模擬“強(qiáng)盜決策”任務(wù)和導(dǎo)航任務(wù)，Ritter 等人發(fā)現(xiàn)episodic meta-RL，就像普通的meta-RL一樣，學(xué)習(xí)強(qiáng)歸納偏置，從而使其能夠快速解決新任務(wù)。更重要的是，當(dāng)遇到過去類似的任務(wù)時(shí)，episodic meta-RL會(huì)立即檢索并恢復(fù)之前生成的解決方案，從而無需重新學(xué)習(xí)。在***次遇到新任務(wù)時(shí)，系統(tǒng)速度受益于meta-RL的快速性; 在其后遇到新任務(wù)時(shí)，系統(tǒng)速度受益于情景控制所賦予的一次性學(xué)習(xí)能力。

對(duì)神經(jīng)科學(xué)和心理學(xué)的啟示

正如我們?cè)谖恼麻_始時(shí)所看到的那樣，人們因?yàn)椴蓸有实拖碌膯栴}而質(zhì)疑deep RL與人類或其他動(dòng)物學(xué)習(xí)的相似性。從心理學(xué)和神經(jīng)科學(xué)的角度來看，episodic deep RL和meta-RL的一個(gè)重要含義是它們通過展示deep RL實(shí)際上速度不慢，從而消除了這種質(zhì)疑。本文在一定程度上認(rèn)為，deep RL是可以作為人類和動(dòng)物學(xué)習(xí)的候選模型的。然而，除了這一點(diǎn)之外，episodic deep RL和meta-RL的細(xì)節(jié)也指向了心理學(xué)和神經(jīng)科學(xué)中一些有趣的新假說。

首先是episodic deep RL。我們已經(jīng)注意到它與經(jīng)典的基于實(shí)例學(xué)習(xí)的人類記憶模型之間的有趣聯(lián)系。Episodic RL為基于實(shí)例的處理如何促進(jìn)獎(jiǎng)勵(lì)驅(qū)動(dòng)學(xué)習(xí)提供了一個(gè)可能的解釋。有趣的是，最近關(guān)于動(dòng)物和人類增強(qiáng)學(xué)習(xí)的研究越來越認(rèn)可情景記憶的潛在貢獻(xiàn)，有證據(jù)表明狀態(tài)和行動(dòng)價(jià)值的估計(jì)是基于對(duì)特定的過去行動(dòng) - 結(jié)果觀察的檢索記憶。

再說meta-RL，它對(duì)心理學(xué)和神經(jīng)科學(xué)也有值得注意的潛在影響。有研究提出了從meta-RL的元素到神經(jīng)結(jié)構(gòu)和功能的直接映射。一系列計(jì)算機(jī)模擬表明， meta-RL可以解釋行為和神經(jīng)生理學(xué)中的各種實(shí)證研究結(jié)果。

快速和慢速RL：更廣泛的意義

在討論episodic RL和meta-RL時(shí)，我們強(qiáng)調(diào)了“慢速”學(xué)習(xí)在實(shí)現(xiàn)快速、高采樣效率的學(xué)習(xí)方面的作用。在meta-RL中，正如我們所看到的，緩慢且基于權(quán)重學(xué)習(xí)的作用是建立歸納偏置，這可以用于指導(dǎo)推理，從而快速適應(yīng)新任務(wù)。而episodic RL的緩慢增量學(xué)習(xí)也是類似的。Episodic RL本質(zhì)上依賴于對(duì)情景或狀態(tài)之間相似性的判斷。緩慢的學(xué)習(xí)形成了狀態(tài)的內(nèi)部表示方式，從而產(chǎn)生了一系列關(guān)于哪些狀態(tài)最密切相關(guān)的歸納偏置。

如果更仔細(xì)地觀察episodic RL，可以看出歸納偏置是學(xué)習(xí)架構(gòu)的一部分。episodic RL有一種平滑原則的假設(shè)：類似的狀態(tài)通常會(huì)產(chǎn)生類似的動(dòng)作。這種歸納偏置不是用于學(xué)習(xí)，而是連接到定義episodic RL的學(xué)習(xí)系統(tǒng)結(jié)構(gòu)中。在當(dāng)前的AI術(shù)語中，這屬于“架構(gòu)”或“算法偏置”等情況，與meta-RL 中的“學(xué)習(xí)偏置”不同。

無論是通過學(xué)習(xí)還是通過直接手工設(shè)計(jì)架構(gòu)或算法偏置來實(shí)現(xiàn)，目前的人工智能研究主要集中在尋找有用的歸納偏置以加快學(xué)習(xí)速度。實(shí)際上，后一種方法本身就是當(dāng)前人工智能神經(jīng)網(wǎng)絡(luò)理論復(fù)蘇的主要原因。卷積神經(jīng)網(wǎng)絡(luò)引發(fā)了這種復(fù)蘇，它構(gòu)建了一種與圖像識(shí)別中的平移不變性相關(guān)的非常特定的結(jié)構(gòu)偏置。然而，在過去幾年中，越來越多的人工智能研究或多或少地集中在歸納偏置問題上。

站在更高的層次來看，這些技術(shù)的發(fā)展與心理學(xué)中一些長期存在的問題極為相似。正如我們已經(jīng)指出的那樣，歸納偏置可能通過學(xué)習(xí)獲得的想法最初源于心理學(xué)，并且不時(shí)在心理學(xué)研究中被人們提到。然而，神經(jīng)網(wǎng)絡(luò)中的元學(xué)習(xí)可以提供新的應(yīng)用場(chǎng)景來探索這種學(xué)習(xí)如何學(xué)習(xí)過程的機(jī)制和原因，尤其是在RL環(huán)境中。

心理學(xué)，特別是發(fā)展心理學(xué)，長期以來也一直認(rèn)為人類存在某種內(nèi)在固有的歸納偏置。然而，架構(gòu)偏置的概念以及神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的內(nèi)置偏置的概念還未得到廣泛認(rèn)同。目前深度學(xué)習(xí)和深度增強(qiáng)學(xué)習(xí)的方法都提供了一個(gè)研究工具，可能有助于心理學(xué)領(lǐng)域的進(jìn)一步探索。

值得注意的是，雖然人工智能將通過學(xué)習(xí)獲得的歸納偏置和手工“加入”的偏置做了明確區(qū)分，但在生物學(xué)背景下，兩者也有更一般的共性。具體而言，人們可以將架構(gòu)和算法偏置視為由進(jìn)化驅(qū)動(dòng)的不同學(xué)習(xí)過程產(chǎn)生的。在這里，進(jìn)化是一種“緩慢”的學(xué)習(xí)過程，逐漸形成架構(gòu)和算法偏置，從而加快終身學(xué)習(xí)速度。因此，元學(xué)習(xí)不僅在一個(gè)生命周期內(nèi)發(fā)揮作用，而且在進(jìn)化中也發(fā)揮作用。有趣的是，這種觀點(diǎn)意味著進(jìn)化不會(huì)選擇真正的“通用”學(xué)習(xí)算法，而是選擇那些利用大腦進(jìn)化的特定環(huán)境中的規(guī)律性的算法。最近的機(jī)器學(xué)習(xí)更多地深入研究構(gòu)建agent體系結(jié)構(gòu)的方法，以及通過自然選擇的進(jìn)化算法構(gòu)建獎(jiǎng)勵(lì)函數(shù)，這些新發(fā)展再次證明其在探索神經(jīng)科學(xué)和心理學(xué)方面的意義。

結(jié)束語

deep RL研究領(lǐng)域的快速發(fā)展對(duì)心理學(xué)和神經(jīng)科學(xué)具有極大的意義，因?yàn)樗嘘P(guān)注代表性學(xué)習(xí)和目標(biāo)導(dǎo)向行為。在本文中，我們描述了***的deep RL形式，它克服了采樣效率低下的明顯問題，允許deep RL “快速”工作。這些技術(shù)不僅強(qiáng)化了deep RL對(duì)心理學(xué)和神經(jīng)科學(xué)的潛在聯(lián)系，而且它們通過情景記憶和元學(xué)習(xí)等使這些潛在聯(lián)系更加豐富多樣。此外，deep RL的研究越來越多地為心理學(xué)和神經(jīng)科學(xué)的新研究給出具體詳細(xì)的指導(dǎo)。

正如我們所強(qiáng)調(diào)的那樣，有關(guān)高效采樣deep RL***研究的關(guān)鍵意義在于，要快速學(xué)習(xí)，就必然依賴于慢速學(xué)習(xí)，這種慢速學(xué)習(xí)建立了快速學(xué)習(xí)的表征和歸納偏置。這樣的計(jì)算辯證法為研究大腦中多個(gè)記憶系統(tǒng)及其進(jìn)化起源提供了理論框架。然而，除了本文中討論的那些，人類學(xué)習(xí)可能涉及多個(gè)交互過程，因此我們認(rèn)為任何deep RL模型都需要整合所有這些才能更接近真實(shí)的人類學(xué)習(xí)。在更廣泛的層面上，理解RL中快速和慢速之間的關(guān)系為心理學(xué)和神經(jīng)科學(xué)提供了令人信服的依據(jù)。實(shí)際上，這可能是人工智能、神經(jīng)科學(xué)和心理學(xué)協(xié)同作用的關(guān)鍵領(lǐng)域，一直以來都是認(rèn)知科學(xué)所追求的。

一些值得討論的問題

可以通過AI方法將高效采樣的deep RL擴(kuò)展到人類實(shí)際生活的各種場(chǎng)景中嗎?這些方法能否產(chǎn)生對(duì)各種人類智慧的抽象本質(zhì)?為此可能需要什么樣的訓(xùn)練環(huán)境?

靈活且高效采樣的人類學(xué)習(xí)的機(jī)制是否與人工智能中目前正在探索的機(jī)制相關(guān)?如果是這樣，它們的神經(jīng)實(shí)現(xiàn)是什么?當(dāng)前的人工智能技術(shù)中的重點(diǎn) - 梯度下降學(xué)習(xí)，是否會(huì)在大腦中發(fā)生，或者在某些其他機(jī)制起相同的作用?

在人類學(xué)習(xí)者所處的環(huán)境中最重要的學(xué)習(xí)歸納偏置是什么?這些偏置在多大程度上是通過進(jìn)化遺傳或成長過程獲得的，在多大程度上是通過學(xué)習(xí)獲得的?

讓人類學(xué)習(xí)者如此高效的一個(gè)原因是人類是積極主動(dòng)、有策略的信息搜集者。那么構(gòu)建和激勵(lì)人類探索的原則是什么?我們?nèi)绾卧贏I系統(tǒng)中復(fù)制這些原則?

相關(guān)報(bào)道：

https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(19)30061-0

【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)文章，微信公眾號(hào)“大數(shù)據(jù)文摘（ id: BigDataDigest）”】

戳這里，看該作者更多好文

責(zé)任編輯：趙寧寧來源： 51CTO專欄

強(qiáng)化學(xué)習(xí)AI 深度學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<center id="hp8vg"></center>