AlphaGo之父找到創(chuàng)造強(qiáng)化學(xué)習(xí)算法新方法:讓AI自己設(shè)計
強(qiáng)化學(xué)習(xí)是近來 AI 領(lǐng)域最熱門的話題之一,新算法也在不斷涌現(xiàn)。
那么,問題來了:AI 能不能自己發(fā)現(xiàn)強(qiáng)大的強(qiáng)化學(xué)習(xí)算法呢?
近日,谷歌 DeepMind 團(tuán)隊(duì)在 Nature 上發(fā)表的一篇論文探索了這一可能性。并且,他們得到了非常積極的結(jié)果:機(jī)器確實(shí)能夠自主發(fā)現(xiàn)性能達(dá)到 SOTA 的強(qiáng)化學(xué)習(xí)規(guī)則,并且其表現(xiàn)優(yōu)于人工設(shè)計的規(guī)則。

標(biāo)題:Discovering state-of-the-art reinforcement learning algorithms
地址:https://www.nature.com/articles/s41586-025-09761-x
值得注意的是,該團(tuán)隊(duì)的負(fù)責(zé)人、通訊作者是強(qiáng)化學(xué)習(xí)領(lǐng)域的引領(lǐng)研究者 David Silver,他也曾領(lǐng)導(dǎo)了著名的 AlphaGo 項(xiàng)目,常被稱為「AlphaGo 之父」。截至目前,David Silver 的引用量已接近 27 萬。本研究共有四位共同一作:Junhyuk Oh、Greg Farquhar、Iurii Kemaev、Dan A. Calian。

具體到方法上,該團(tuán)隊(duì)的思路是:在大量復(fù)雜環(huán)境中,基于大量智能體的經(jīng)驗(yàn)積累,進(jìn)行元學(xué)習(xí)(meta-learning)。這個方法能夠發(fā)現(xiàn)智能體在更新策略與預(yù)測時所遵循的強(qiáng)化學(xué)習(xí)規(guī)則。
該團(tuán)隊(duì)還進(jìn)行了大規(guī)模實(shí)驗(yàn),結(jié)果發(fā)現(xiàn)這一「自動發(fā)現(xiàn)的規(guī)則」在經(jīng)典的 Atari 基準(zhǔn)測試上超越了所有現(xiàn)有方法,并且在若干它從未見過的高難度基準(zhǔn)測試上也優(yōu)于多種 SOTA 強(qiáng)化學(xué)習(xí)算法。
這一研究結(jié)果可謂意義重大。它意味著,未來實(shí)現(xiàn)高級 AI 所需的強(qiáng)化學(xué)習(xí)算法或許將不再依賴人工設(shè)計,而是能夠從智能體自身的經(jīng)驗(yàn)中自動涌現(xiàn)與進(jìn)化。
發(fā)現(xiàn)方法
該團(tuán)隊(duì)的發(fā)現(xiàn)方法涉及兩種類型的優(yōu)化:智能體優(yōu)化和元優(yōu)化。智能體參數(shù)通過將其策略和預(yù)測更新至強(qiáng)化學(xué)習(xí)規(guī)則所產(chǎn)生的目標(biāo)來進(jìn)行優(yōu)化。與此同時,強(qiáng)化學(xué)習(xí)規(guī)則的元參數(shù)則通過更新其目標(biāo)來進(jìn)行優(yōu)化,以最大化智能體的累積獎勵。

智能體網(wǎng)絡(luò)
許多強(qiáng)化學(xué)習(xí)研究考慮的是智能體應(yīng)該做出什么預(yù)測(例如,價值),以及應(yīng)該使用什么損失函數(shù)來學(xué)習(xí)這些預(yù)測(例如,TD 學(xué)習(xí))和改進(jìn)策略(例如,策略梯度)。
該團(tuán)隊(duì)沒有采用手工設(shè)計的方式,而是定義了一個沒有預(yù)定義語義、富有表現(xiàn)力的預(yù)測空間,并通過使用元網(wǎng)絡(luò)進(jìn)行元學(xué)習(xí),來找出智能體需要優(yōu)化的內(nèi)容。他們希望在保留表征現(xiàn)有強(qiáng)化學(xué)習(xí)算法中核心思想能力的同時,也支持廣闊的新穎算法可能性空間。
為此,該團(tuán)隊(duì)讓由 θ 參數(shù)化的智能體除了輸出策略 π 之外,還輸出兩種類型的預(yù)測:一個基于觀測的向量預(yù)測 y (s) 和一個基于動作的向量預(yù)測 z (s,a) ,其中 s 和 a 分別是觀測和動作 (見下圖)。

這些預(yù)測的形式源于「預(yù)測」與「控制」之間的根本區(qū)別。例如,價值函數(shù)通常被分為狀態(tài)函數(shù) v (s) (用于預(yù)測) 和動作函數(shù) q (s,a) (用于控制)。強(qiáng)化學(xué)習(xí)中的許多其他概念,例如獎勵和后繼特征,也同樣具有一個基于觀測的版本 s??^m 和一個基于動作的版本 s,a??^m. 因此,這對預(yù)測 (y,z) 的函數(shù)形式足夠通用,可以用來表示 RL 中的許多現(xiàn)有基本概念,但又不僅限于此。
除了這些有待發(fā)現(xiàn)的預(yù)測之外,在我們的大多數(shù)實(shí)驗(yàn)中,智能體還會做出具有預(yù)定義語義的預(yù)測。具體來說,智能體會產(chǎn)生一個動作價值函數(shù) q (s,a) 和一個基于動作的輔助策略預(yù)測 p (s,a)。這樣做是為了鼓勵發(fā)現(xiàn)過程能更專注于通過 y 和 z 來發(fā)現(xiàn)新概念。
元網(wǎng)絡(luò)
很大一部分現(xiàn)代強(qiáng)化學(xué)習(xí)規(guī)則采用了 RL 的「前向視圖」。在這種視圖下,RL 規(guī)則接收一個從時間步 t 到 t+n 的軌跡,并利用這些信息來更新智能體的預(yù)測或策略。它們通常會將預(yù)測或策略朝著「引導(dǎo)目標(biāo)」更新,即朝著未來的預(yù)測值更新。
相應(yīng)地,該團(tuán)隊(duì)的 RL 規(guī)則使用一個元網(wǎng)絡(luò)(圖 1c)作為函數(shù),來決定智能體應(yīng)將其預(yù)測和策略更新至的目標(biāo)。為了在時間步 t 產(chǎn)生目標(biāo),該元網(wǎng)絡(luò)會接收從時間步 t 到 t+n 的一段軌跡作為輸入,這段軌跡包含了智能體的預(yù)測、策略、獎勵以及回合是否終止的信息。它使用一個標(biāo)準(zhǔn)的 LSTM 來處理這些輸入,當(dāng)然也可以使用其他架構(gòu)。

元網(wǎng)絡(luò)的輸入和輸出選擇保留了手工設(shè)計的 RL 規(guī)則所具備的一些理想特性:
首先,元網(wǎng)絡(luò)可以處理任何觀測信息,以及任何大小的離散動作空間。這是因?yàn)樗恢苯咏邮沼^測作為輸入,而是通過智能體的預(yù)測間接獲取信息。此外,它通過在不同動作維度間共享權(quán)重來處理特定于動作的輸入和輸出。因此,它可以泛化到截然不同的環(huán)境中。
其次,元網(wǎng)絡(luò)與智能體網(wǎng)絡(luò)的設(shè)計無關(guān),因?yàn)樗唤邮罩悄荏w網(wǎng)絡(luò)的輸出。只要智能體網(wǎng)絡(luò)能產(chǎn)生所需形式的輸出 (π, y, z),被發(fā)現(xiàn)的 RL 規(guī)則就可以泛化到任意的智能體架構(gòu)或規(guī)模。
第三,由元網(wǎng)絡(luò)定義的搜索空間包含了「引導(dǎo)」這一重要的算法思想。
第四,由于元網(wǎng)絡(luò)同時處理策略和預(yù)測,它不僅可以元學(xué)習(xí)輔助任務(wù),還可以直接使用預(yù)測來更新策略(例如,為減少方差) 提供一個基線。
最后,輸出目標(biāo)這種方式比輸出一個標(biāo)量損失函數(shù)具有更強(qiáng)的表達(dá)能力,因?yàn)樗鼘?Q 學(xué)習(xí)這樣的半梯度方法也納入了搜索空間。
在繼承標(biāo)準(zhǔn) RL 算法這些特性的基礎(chǔ)上,這個參數(shù)豐富的神經(jīng)網(wǎng)絡(luò)使得被發(fā)現(xiàn)的規(guī)則能夠以可能高得多的效率和更精細(xì)的上下文感知方式來實(shí)現(xiàn)算法。
智能體優(yōu)化
智能體的參數(shù) (θ) 會被更新,以最小化其預(yù)測和策略與來自元網(wǎng)絡(luò)的目標(biāo)之間的距離。智能體的損失函數(shù)可以表示為:

其中 D (p,q) 是 p 和 q 之間的一種距離函數(shù)。團(tuán)隊(duì)選擇 KL 散度作為距離函數(shù),因?yàn)樗銐蛲ㄓ?,并且先前已被發(fā)現(xiàn)在元優(yōu)化中有助于簡化問題。這里的 π_θ,y_θ,z_θ 是智能體網(wǎng)絡(luò)的輸出,而 ?π, ?y,? 是元網(wǎng)絡(luò)的輸出,每個向量都應(yīng)用了 softmax 函數(shù)進(jìn)行歸一化。
輔助損失 L_aux 用于那些具有預(yù)定義語義的預(yù)測,即動作價值 (q) 和輔助策略預(yù)測 (p) ,具體如下:

其中 ?q 是來自 Retrace 算法的動作價值目標(biāo),并被投影到一個 two-hot 向量 2; 而 p?=π_θ(s′) 是下一步的策略。為了與其他損失保持一致,團(tuán)隊(duì)同樣使用 KL 散度作為距離函數(shù) D。
元優(yōu)化
該團(tuán)隊(duì)的目標(biāo)是發(fā)現(xiàn)一個 RL 規(guī)則(由元參數(shù) η 表示的元網(wǎng)絡(luò)來代表),它能讓智能體在各種訓(xùn)練環(huán)境中最大化獎勵。這個發(fā)現(xiàn)目標(biāo) J (η) 及其元梯度
可以表示為:

其中
表示從一個分布中采樣的環(huán)境,θ 表示由初始參數(shù)分布誘導(dǎo)、并在使用 RL 規(guī)則學(xué)習(xí)過程中不斷演變的智能體參數(shù)。
是期望折扣獎勵總和,即典型的 RL 目標(biāo)。元參數(shù) η 遵循上述方程,使用梯度上升進(jìn)行優(yōu)化。
為了估計元梯度,團(tuán)隊(duì)在一套采樣的環(huán)境中實(shí)例化一個智能體集群,它們根據(jù)元網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。為了確保這種近似接近團(tuán)隊(duì)感興趣的真實(shí)分布,團(tuán)隊(duì)使用了大量來自挑戰(zhàn)性基準(zhǔn)的復(fù)雜環(huán)境。這與先前的工作集中在少數(shù)簡單環(huán)境上形成對比。因此,這個發(fā)現(xiàn)過程會面臨多種多樣的 RL 挑戰(zhàn),例如獎勵的稀疏性、任務(wù)的長度,以及環(huán)境的部分可觀測性或隨機(jī)性。
每個智能體的參數(shù)都會被定期重置,以鼓勵更新規(guī)則在有限的智能體生命周期內(nèi)取得快速的學(xué)習(xí)進(jìn)展。與先前關(guān)于元梯度 RL 的工作一樣,元梯度項(xiàng)
可以通過鏈?zhǔn)椒▌t分為兩個梯度項(xiàng):
和
。第一項(xiàng)可以被理解為對智能體更新過程 的梯度,而第二項(xiàng)是標(biāo)準(zhǔn) RL 目標(biāo)的梯度。
為了估計第一項(xiàng),該團(tuán)隊(duì)迭代地更新智能體多次,并通過整個更新過程進(jìn)行反向傳播 ,如圖 1d 所示。為了使其易于處理,團(tuán)隊(duì)使用滑動窗口對 20 次智能體更新進(jìn)行反向傳播。最后,為了估計第二項(xiàng),團(tuán)隊(duì)使用優(yōu)勢演員 - 評論家 (A2C) 方法。為了估計優(yōu)勢 ,團(tuán)隊(duì)訓(xùn)練了一個元價值函數(shù),這是一個僅用于發(fā)現(xiàn)過程的價值函數(shù)。

實(shí)驗(yàn)結(jié)果
該團(tuán)隊(duì)在一套復(fù)雜的環(huán)境中,通過一個大型智能體集群實(shí)現(xiàn)了新發(fā)現(xiàn)方法。
該團(tuán)隊(duì)將發(fā)現(xiàn)的 RL 規(guī)則稱為 DiscoRL。在評估中,該團(tuán)隊(duì)使用歸一化分?jǐn)?shù)的四分位均值 (IQM) 來衡量聚合性能,該基準(zhǔn)由多個任務(wù)組成。IQM 之前已被證明是一種統(tǒng)計上可靠的指標(biāo)。
Atari
Atari 基準(zhǔn)是 RL 歷史上研究最多的基準(zhǔn)之一,由 57 款 Atari 2600 游戲組成。它們需要復(fù)雜的策略、規(guī)劃和長期 credit 分配,這使得 AI 智能體難以精通。在過去的十年中,已有數(shù)百種 RL 算法在該基準(zhǔn)上進(jìn)行了評估,其中包括 MuZero 和 Dreamer。
為了觀察直接從該基準(zhǔn)中發(fā)現(xiàn)的規(guī)則能有多強(qiáng)大,該團(tuán)隊(duì)元訓(xùn)練 (meta-trained) 了一個 RL 規(guī)則,命名為 Disco57,并在同樣的 57 款游戲上對其進(jìn)行了評估(見下圖 a)。

Disco57 的各個實(shí)驗(yàn)基準(zhǔn)上的表現(xiàn)
在此評估中,該團(tuán)隊(duì)使用的網(wǎng)絡(luò)架構(gòu)的參數(shù)數(shù)量與 MuZero 使用的數(shù)量相當(dāng)。這是一個比發(fā)現(xiàn)過程中使用的網(wǎng)絡(luò)更大的網(wǎng)絡(luò);因此,被發(fā)現(xiàn)的 RL 規(guī)則必須能泛化到這種設(shè)置。Disco57 取得了 13.86 的 IQM 分?jǐn)?shù),在 Atari 基準(zhǔn)上超越了所有現(xiàn)有的 RL 規(guī)則,并且其運(yùn)行效率 (wall-clock efficiency) 遠(yuǎn)高于當(dāng)前最先進(jìn)的 MuZero(見下圖)。

這表明:該團(tuán)隊(duì)的新方法可以從此類具有挑戰(zhàn)性的環(huán)境中自動發(fā)現(xiàn)強(qiáng)大的 RL 規(guī)則。
泛化能力
該團(tuán)隊(duì)進(jìn)一步研究了 Disco57 的泛化能力,方法是在一系列其在發(fā)現(xiàn)過程中從未接觸過的留存基準(zhǔn)上對其進(jìn)行評估。
這些基準(zhǔn)包括未曾見過的觀測和動作空間、多樣化的環(huán)境動態(tài)、各種獎勵結(jié)構(gòu)以及未曾見過的智能體網(wǎng)絡(luò)架構(gòu)。元訓(xùn)練的超參數(shù)僅在訓(xùn)練環(huán)境(即 Atari)上進(jìn)行了調(diào)整,以防止該規(guī)則被隱式地針對保留基準(zhǔn)進(jìn)行優(yōu)化。
在 ProcGen 基準(zhǔn)上的結(jié)果顯示,Disco57 優(yōu)于所有現(xiàn)有的已發(fā)表方法,包括 MuZero 和 PPO,盡管它在發(fā)現(xiàn)期間從未與 ProcGen 環(huán)境交互過。ProcGen 由 16 個程序生成的 2D 游戲組成。

此外,Disco57 也在 Crafter 上取得了有競爭力的表現(xiàn),在 Crafter 中智能體需要學(xué)習(xí)廣泛的能力才能生存。Disco57 在 NetHack NeurIPS 2021 挑戰(zhàn)賽的排行榜上獲得了第 3 名,該比賽有 40 多個團(tuán)隊(duì)參加。
與比賽中排名靠前的提交智能體不同,Disco57 沒有使用任何領(lǐng)域特定知識來定義子任務(wù)或進(jìn)行獎勵塑造 (reward shaping)。為了進(jìn)行公平比較,該團(tuán)隊(duì)使用與 Disco57 相同的設(shè)置,通過 IMPALA 算法訓(xùn)練了一個智能體。IMPALA 的表現(xiàn)要弱得多,這表明 Disco57 發(fā)現(xiàn)了一種比標(biāo)準(zhǔn)方法更高效的 RL 規(guī)則。
除了環(huán)境之外,Disco57 在評估中還對一系列智能體特定設(shè)置(如網(wǎng)絡(luò)大小、重放比例 (replay ratio) 和超參數(shù))表現(xiàn)出了魯棒性。
復(fù)雜多樣的環(huán)境
為了理解復(fù)雜多樣的環(huán)境對于發(fā)現(xiàn)過程的重要性,該團(tuán)隊(duì)使用額外的環(huán)境進(jìn)一步擴(kuò)大了元學(xué)習(xí)的規(guī)模。
具體來說,該團(tuán)隊(duì)使用了由 Atari、ProcGen 和 DMLab-30 基準(zhǔn)組成的 103 個更具多樣性的環(huán)境,發(fā)現(xiàn)了另一個規(guī)則 Disco103。該規(guī)則在 Atari 基準(zhǔn)上表現(xiàn)相似,同時之前所示的每一個已見和未見的基準(zhǔn)上都提高了分?jǐn)?shù)。特別是,Disco103 在 Crafter 上達(dá)到了人類水平的表現(xiàn),并在 Sokoban 上接近了 MuZero 的 SOTA 性能。
這些結(jié)果表明,用于發(fā)現(xiàn)的環(huán)境集越復(fù)雜、越多樣化,發(fā)現(xiàn)的規(guī)則就越強(qiáng)大、越通用,即使在發(fā)現(xiàn)期間未曾見過的保留環(huán)境上也是如此。與 Disco57 相比,發(fā)現(xiàn) Disco103 除了環(huán)境集不同之外,不需要對發(fā)現(xiàn)方法進(jìn)行任何更改。這表明發(fā)現(xiàn)過程本身是穩(wěn)健的、可擴(kuò)展的和通用的。
為了進(jìn)一步研究使用復(fù)雜環(huán)境的重要性,該團(tuán)隊(duì)在 57 個從先前工作 9 擴(kuò)展而來的網(wǎng)格世界 (grid-world) 任務(wù)上運(yùn)行了該團(tuán)隊(duì)的發(fā)現(xiàn)過程,使用了與 Disco57 相同的元學(xué)習(xí)設(shè)置。新規(guī)則在 Atari 基準(zhǔn)上的表現(xiàn)明顯更差(見下圖 c)。

這驗(yàn)證了該團(tuán)隊(duì)關(guān)于直接從復(fù)雜且具有挑戰(zhàn)性的環(huán)境中進(jìn)行元學(xué)習(xí)的重要性的假設(shè)。雖然使用這樣的環(huán)境至關(guān)重要,但并不需要精心策劃正確的環(huán)境組合;該團(tuán)隊(duì)只是簡單地使用了文獻(xiàn)中流行的基準(zhǔn)。
效率與可擴(kuò)展性
為了進(jìn)一步了解該團(tuán)隊(duì)方法的可擴(kuò)展性和效率,該團(tuán)隊(duì)在發(fā)現(xiàn)過程中評估了多個 Disco57(見上圖 a)。最佳規(guī)則是在每個 Atari 游戲約 6 億步 (內(nèi)發(fā)現(xiàn)的,這相當(dāng)于在 57 個 Atari 游戲上僅進(jìn)行了 3 次實(shí)驗(yàn)。這可以說比手動發(fā)現(xiàn) RL 規(guī)則更有效率,后者通常需要執(zhí)行更多的實(shí)驗(yàn),此外還要花費(fèi)人類研究員的時間。
此外,隨著用于發(fā)現(xiàn)的 Atari 游戲數(shù)量的增加,DiscoRL 在未見過的 ProcGen 基準(zhǔn)上表現(xiàn)得更好(見上圖 b),這表明最終得到的 RL 規(guī)則隨著用于發(fā)現(xiàn)的環(huán)境數(shù)量和多樣性的增加而表現(xiàn)出良好的擴(kuò)展性。換句話說,被發(fā)現(xiàn)規(guī)則的性能是數(shù)據(jù)(即環(huán)境)和計算量的函數(shù)。
發(fā)現(xiàn)新預(yù)測的效果
為了研究被發(fā)現(xiàn)的預(yù)測 (圖 1b 中的 y, z) 其語義的效果,該團(tuán)隊(duì)通過改變智能體的輸出(包含或不包含某些類型的預(yù)測)來比較不同的規(guī)則。上圖 c 中的結(jié)果表明,使用價值函數(shù)可極大地改善發(fā)現(xiàn)過程,這突顯了 RL 這一基本概念的重要性。
另一方面,上圖 c 的結(jié)果也表明,在預(yù)定義預(yù)測之外發(fā)現(xiàn)新預(yù)測語義( y 和 z )的重要性??偟膩碚f,與先前的工作相比,擴(kuò)大發(fā)現(xiàn)的范圍是至關(guān)重要的。在下一節(jié)中,該團(tuán)隊(duì)將提供進(jìn)一步的分析,以揭示發(fā)現(xiàn)了哪些語義。
分析
定性分析
該團(tuán)隊(duì)以 Disco57 為案例,分析了被發(fā)現(xiàn)規(guī)則的性質(zhì)(見下圖)。

從定性上看,被發(fā)現(xiàn)的預(yù)測在諸如收到獎勵或策略熵發(fā)生變化等顯著事件之前會出現(xiàn)峰值(圖 a)。
該團(tuán)隊(duì)還通過測量與觀測的每個部分相關(guān)的梯度范數(shù),研究了觀測中的哪些特征會導(dǎo)致元學(xué)習(xí)的預(yù)測產(chǎn)生強(qiáng)烈反應(yīng)。圖 b 的結(jié)果顯示,元學(xué)習(xí)的預(yù)測傾向于關(guān)注未來可能相關(guān)的物體,這與策略和價值函數(shù)所關(guān)注的地方不同。這些結(jié)果表明,DiscoRL 已經(jīng)學(xué)會了在一個適度的范圍內(nèi)識別和預(yù)測顯著事件,從而補(bǔ)充了諸如策略和價值函數(shù)等現(xiàn)有概念。
信息分析
為了證實(shí)定性分析的發(fā)現(xiàn),該團(tuán)隊(duì)進(jìn)一步研究了預(yù)測中包含哪些信息。該團(tuán)隊(duì)首先在 10 款 Atari 游戲上從 DiscoRL 智能體收集數(shù)據(jù),并訓(xùn)練一個神經(jīng)網(wǎng)絡(luò),使其從被發(fā)現(xiàn)的預(yù)測、策略或價值函數(shù)中預(yù)測該團(tuán)隊(duì)感興趣的量。
圖 c 中的結(jié)果顯示,與策略和價值相比,被發(fā)現(xiàn)的預(yù)測包含更多關(guān)于即將到來的高額獎勵和未來策略熵的信息。這表明,被發(fā)現(xiàn)的預(yù)測可能捕獲了策略和價值未能很好捕獲的、與任務(wù)相關(guān)的獨(dú)特信息。
引導(dǎo)機(jī)制的涌現(xiàn)
該團(tuán)隊(duì)還發(fā)現(xiàn)了 DiscoRL 使用引導(dǎo) (bootstrapping) 機(jī)制的證據(jù)。當(dāng)元網(wǎng)絡(luò)在未來時間步的預(yù)測輸入受到擾動時,它會強(qiáng)烈影響當(dāng)前的目標(biāo)圖 d)。這意味著未來的預(yù)測被用來構(gòu)建當(dāng)前預(yù)測的目標(biāo)。
事實(shí)證明,這種引導(dǎo)機(jī)制和被發(fā)現(xiàn)的預(yù)測對于性能至關(guān)重要(圖 e)。如果在計算 y 和 z 的目標(biāo)時,將輸入到元網(wǎng)絡(luò)的 y 和 z 設(shè)置為零(從而阻止引導(dǎo)),性能會大幅下降。如果將 y 和 z 的輸入設(shè)置為零以計算包括策略目標(biāo)在內(nèi)的所有目標(biāo),性能會進(jìn)一步下降。這表明,被發(fā)現(xiàn)的預(yù)測被大量用于為策略更新提供信息,而不僅僅是作為輔助任務(wù)。
總結(jié)
讓機(jī)器能夠自己發(fā)現(xiàn)學(xué)習(xí)算法是人工智能中最有前途的想法之一,因?yàn)樗哂虚_放式自我改進(jìn)的潛力。
這項(xiàng)工作朝著機(jī)器設(shè)計的強(qiáng)化學(xué)習(xí)算法邁出了重要一步,這些算法在具有挑戰(zhàn)性的環(huán)境中可以與一些最佳的人工設(shè)計算法相媲美,甚至超越它們。
該團(tuán)隊(duì)還表明,隨著發(fā)現(xiàn)的規(guī)則接觸到更多樣化的環(huán)境,它會變得更強(qiáng)、更通用。這表明,未來高級人工智能的 RL 算法設(shè)計,可能會由那些能夠隨數(shù)據(jù)和計算資源有效擴(kuò)展的機(jī)器來主導(dǎo)。

































