搞強(qiáng)化學(xué)習(xí)還不了解AutoRL,牛津大學(xué)、谷歌等十余位學(xué)者撰文綜述
強(qiáng)化學(xué)習(xí) (RL) 與深度學(xué)習(xí)的結(jié)合帶來了一系列令人印象深刻的成果,許多人認(rèn)為(深度)強(qiáng)化學(xué)習(xí)提供了通向通用智能體的途徑。然而,RL 智能體的成功通常對訓(xùn)練過程中的設(shè)計選擇高度敏感,可能需要繁瑣且容易出錯的手動調(diào)整。這使得將 RL 用于新問題具有挑戰(zhàn)性,同時也限制了 RL 的全部潛力。
在機(jī)器學(xué)習(xí)的許多其他領(lǐng)域,AutoML 已經(jīng)表明可以自動化此類設(shè)計選擇,并且在應(yīng)用于 RL 時也產(chǎn)生了有希望的初步結(jié)果。然而,自動強(qiáng)化學(xué)習(xí) (AutoRL) 不僅涉及 AutoML 的標(biāo)準(zhǔn)應(yīng)用,還包括 RL 獨(dú)有的額外挑戰(zhàn),這使得研究者自然而然地產(chǎn)生了一些不同的方法。
AutoRL 已成為 RL 研究的一個重要領(lǐng)域,為從 RNA 設(shè)計到圍棋等游戲的各種應(yīng)用提供了希望。由于 RL 中考慮的方法和環(huán)境具有多樣性,因此許多研究都是在不同的子領(lǐng)域進(jìn)行的。來自牛津大學(xué)、弗萊堡大學(xué)、谷歌研究院等機(jī)構(gòu)的十余位研究者撰文試圖統(tǒng)一 AutoRL 領(lǐng)域,并提供了通用分類法,該研究詳細(xì)討論了每個領(lǐng)域并提出未來研究人員可能感興趣的問題。

論文地址:https://arxiv.org/pdf/2201.03916.pdf
AutoRL 方法
強(qiáng)化學(xué)習(xí)理論上可以用于任何任務(wù),包括世界模型未知的環(huán)境。然而,這種通用性也是有代價的,其最大的缺點(diǎn)就是智能體往往不能獲得環(huán)境的真實(shí)模型。如果智能體想在一個場景下使用模型,那它必須完全從經(jīng)驗(yàn)中學(xué)習(xí),這會帶來很多挑戰(zhàn)。智能體探索出來的模型和真實(shí)模型之間存在誤差,而這種誤差會導(dǎo)致智能體在學(xué)習(xí)到的模型中表現(xiàn)很好,但在真實(shí)的環(huán)境中表現(xiàn)得不好(甚至很差)。
該研究調(diào)查的目的是介紹 AutoRL 領(lǐng)域,AutoRL 可以應(yīng)對各種挑戰(zhàn):一方面,RL 算法的脆弱性阻礙了其在新領(lǐng)域的應(yīng)用,尤其是那些從業(yè)者缺乏大量資源來搜索最佳配置的領(lǐng)域。在許多情況下,對于完全不可見的問題,手動找到一組中等強(qiáng)度的超參數(shù)可能會非常昂貴。AutoRL 已被證明可以在這種情況下幫助解決重要問題,例如設(shè)計 RNA。另一方面,對于那些受益于更多計算的人來說,顯然增加算法的靈活性可以提高性能。著名的 AlphaGo 智能體已經(jīng)展示了這一點(diǎn),該智能體通過使用貝葉斯優(yōu)化得到了顯著改進(jìn)。
早在 1980 年代,AutoRL 算法就被證明是有效的。然而,最近 AutoML 的流行導(dǎo)致了更先進(jìn)技術(shù)的新生應(yīng)用。與此同時,最近元學(xué)習(xí)的流行導(dǎo)致了一系列旨在自動化 RL 過程的工作。
該論文試圖提供這些方法的分類,他們希望通過思想的交叉融合來開辟一系列未來的工作,同時也向 RL 研究人員介紹一套技術(shù)來提高他們的算法性能。該研究相信 AutoRL 在提高強(qiáng)化學(xué)習(xí)潛在影響方面發(fā)揮著重要作用,無論是在開放式研究和還是在現(xiàn)實(shí)應(yīng)用中。
此外,該研究希望將對 AutoML 感興趣的研究人員吸引到 AutoRL 社區(qū),特別地,RL 具有非平穩(wěn)性(non-stationarity),因?yàn)橹悄荏w正在訓(xùn)練的數(shù)據(jù)是當(dāng)前策略的函數(shù)。此外,該研究還介紹了 AutoRL 針對特定 RL 問題的環(huán)境和算法設(shè)計。

該研究調(diào)查了 AutoRL 社區(qū)以及技術(shù)等內(nèi)容。一般來說,AutoRL 方法大多數(shù)都可以通過組合內(nèi)部循環(huán)和外部循環(huán)組織起來。每個循環(huán)都可以通過黑箱或基于梯度的方法進(jìn)行優(yōu)化,然而外部循環(huán)的梯度和內(nèi)部循環(huán)的黑箱不能組合在一起,因?yàn)閮?nèi)部循環(huán)黑箱設(shè)置將使梯度不可用,如表 2 和圖 2 所示:


如下表 3 所示,該研究按照大類總結(jié)了 AutoRL 方法的分類,方法分類將體現(xiàn)在第四章的每一小節(jié)

隨機(jī) / 網(wǎng)格搜索驅(qū)動方法
該研究首先討論了最簡單的方法:隨機(jī)搜索和網(wǎng)格搜索。隨機(jī)搜索從搜索空間中隨機(jī)采樣超參數(shù)配置,而網(wǎng)格搜索將搜索空間劃分為固定的網(wǎng)格點(diǎn),并對其進(jìn)行評估。由于其簡單性,隨機(jī)搜索和網(wǎng)格搜索可用于選擇超參數(shù)列表,評估超參數(shù)并選擇最佳配置。事實(shí)上,網(wǎng)格搜索仍然是 RL 中最常用的方法,網(wǎng)格搜索在絕大多數(shù)情況下都會調(diào)整超參數(shù),但不應(yīng)將其視為最有效的方法。但是這些經(jīng)典方法沒有考慮優(yōu)化問題的潛在非平穩(wěn)性,下圖 3 描述了這個問題:

提高隨機(jī)搜索性能的一種常見方法是使用 Hyperband,這是一種用于超參數(shù)優(yōu)化的配置評估。它專注于通過自適應(yīng)資源分配和早停(early-stopping)來加速隨機(jī)搜索。特別的,Hyperband 使用「Successive Halving」將預(yù)算分配給一組超參數(shù)配置。Zhang 等人使用隨機(jī)搜索和 Hyperband 來調(diào)整其 MBRL 算法的超參數(shù)。
貝葉斯優(yōu)化
貝葉斯優(yōu)化(Bayesian Optimization ,BO)是迄今為止最流行的方法之一,主要用于工業(yè)應(yīng)用和各種科學(xué)實(shí)驗(yàn)。對于 RL 應(yīng)用程序,BO 最突出的用途之一是調(diào)整 AlphaGo 超參數(shù),其中包括蒙特卡洛樹搜索 (MCTS) 超參數(shù)和時間控制設(shè)置。這導(dǎo)致 AlphaGo 在自我對弈中的勝率從 50% 提高到 66.5%。圖 4 展示了 RL 案例中貝葉斯優(yōu)化的一般概念:

演化算法
演化算法被廣泛應(yīng)用于各種優(yōu)化任務(wù),其機(jī)制如圖 5 所示:

演化算法經(jīng)常被用于搜索 RL 算法的超參數(shù)。Eriksson 等人使用實(shí)數(shù)遺傳算法 (GA),通過種群中每個個體的基因編碼 RL 算法的超參數(shù),以調(diào)整 SARSA 超參數(shù),研究者將該方法應(yīng)用于控制移動機(jī)器人。Cardenoso Fernandez 和 Caarls 使用 GA 在簡單設(shè)置中調(diào)整 RL 算法的超參數(shù),并通過結(jié)合自動重啟策略以擺脫局部最小值,取得了良好的性能。Ashraf 等人使用 Whale 優(yōu)化算法(WOA),其靈感來自座頭鯨的狩獵策略,在各種 RL 任務(wù)中優(yōu)化 DDPG 超參數(shù)以提高性能。
用于在線調(diào)優(yōu)的元梯度
元梯度提供了一種替代方法來處理 RL 超參數(shù)的非平穩(wěn)性。元梯度公式的靈感來自元學(xué)習(xí)方法,例如 MAML,它使用梯度優(yōu)化了內(nèi)部和外部循環(huán)。特別是,元梯度方法將其(可微分)超參數(shù)的子集指定為元參數(shù) η。在內(nèi)部循環(huán)中,智能體使用固定的 η 進(jìn)行優(yōu)化,采用梯度 step 來最小化(通常是固定的)損失函數(shù)。在外部循環(huán)中,通過采取梯度 step 來優(yōu)化 η,以最小化外部損失函數(shù)。內(nèi)部和外部損失函數(shù)的每個特定選擇都定義了一個新的元梯度算法。
黑盒在線調(diào)優(yōu)
PBT 和元梯度的優(yōu)勢在于動態(tài)調(diào)整超參數(shù)的能力,然而,這并不是唯一的方法。事實(shí)上,研究者已經(jīng)考慮了各種其他方法,從黑盒方法到在線學(xué)習(xí)啟發(fā)方法。本節(jié)重點(diǎn)介紹在超參數(shù)不是可微的設(shè)置中動態(tài)適應(yīng)的單智能體方法。
自適應(yīng)選擇超參數(shù)的方法自 20 世紀(jì) 90 年代以來一直很重要。Sutton 和 Singh (1994) 提出了 TD 算法中自適應(yīng)加權(quán)方案的三種替代方法,Kearns 和 Singh (2000) 推導(dǎo)出時序差分算法誤差上限,并使用這些邊界推導(dǎo)出 λ 的時間表。Downey 和 Sanner (2010) 使用貝葉斯模型平均來為 TD 方法選擇 λ bootstrapping 超參數(shù)。最近, White (2016) 提出了 λ-greedy 來適應(yīng) λ 作為狀態(tài)的函數(shù),并實(shí)現(xiàn)近似最優(yōu)的偏差 - 方差權(quán)衡,Paul 等人 (2019) 提出了 HOOF,它使用帶有非策略數(shù)據(jù)的隨機(jī)搜索來周期性地為策略梯度算法選擇新的超參數(shù)。
環(huán)境設(shè)計
環(huán)境設(shè)計是強(qiáng)化學(xué)習(xí)智能體自動學(xué)習(xí)的重要組成部分。從課程學(xué)習(xí)到合成環(huán)境學(xué)習(xí)和生成,到將課程學(xué)習(xí)與環(huán)境生成相結(jié)合,這里的目標(biāo)是加快機(jī)器學(xué)習(xí)智能體通過環(huán)境設(shè)計的學(xué)習(xí)速度。如圖 7 所示:

混合方法
不可避免的是,一些方法不屬于單一類別。事實(shí)上,許多方法都試圖利用不同方法的優(yōu)勢,可稱之為混合方法。在該研究中,這些混合方法被定義為使用表 3 中不止一類技術(shù)的方法,例如 BOHB、DEHB 等。















 
 
 










 
 
 
 