偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

為何RL泛化這么難:伯克利博士從認(rèn)知POMDP、隱式部分可觀察解讀

新聞 人工智能
強(qiáng)化學(xué)習(xí)為何泛化如此困難?來自加州大學(xué)伯克利分校等機(jī)構(gòu)的研究者從認(rèn)知 POMDP、隱式部分可觀察兩個(gè)方面進(jìn)行解釋。

 [[437395]]

當(dāng)今強(qiáng)化學(xué)習(xí)(RL)的問題很多,諸如收斂效果不好。在偏弱的實(shí)驗(yàn)環(huán)境里,模型測(cè)試結(jié)果看起來尚可,許多問題暴露得不明顯,但大量實(shí)驗(yàn)已經(jīng)證明深度 RL 泛化很困難:盡管 RL 智能體可以學(xué)習(xí)執(zhí)行非常復(fù)雜的任務(wù),但它似乎對(duì)不同任務(wù)的泛化能力較差,相比較而言,監(jiān)督深度網(wǎng)絡(luò)具有較好的泛化能力。

有研究者認(rèn)為,對(duì)于監(jiān)督學(xué)習(xí)來說,發(fā)生一次錯(cuò)誤只是分類錯(cuò)一張圖片。而對(duì)于 MDP(馬爾可夫決策過程)假設(shè)下的 RL,一次識(shí)別錯(cuò)誤就會(huì)導(dǎo)致次優(yōu)決策,甚至可能一直錯(cuò)誤下去,這也是 RL 在現(xiàn)實(shí)世界沒法用的根源。

為什么強(qiáng)化學(xué)習(xí)的泛化能力從根本上來說很難,甚至從理論的角度來說也很難?來自加州大學(xué)伯克利分校的博士生 Dibya Ghosh 等研究者共同撰文解釋了這一現(xiàn)象,文章從認(rèn)知 POMDP(Epistemic POMDP)、隱式部分可觀察(Implicit Partial Observability)兩個(gè)方面進(jìn)行解釋。論文共同一作 Dibya Ghosh 的研究方向是使用強(qiáng)化學(xué)習(xí)進(jìn)行決策。之前,他曾在蒙特利爾的 Google Brain 工作。

為何RL泛化這么難:伯克利博士從認(rèn)知POMDP、隱式部分可觀察解讀

論文地址:https://arxiv.org/pdf/2107.06277.pdf

通過示例進(jìn)行學(xué)習(xí)

在正式分析 RL 泛化之前,研究者首先通過兩個(gè)示例解釋 RL 中泛化困難的原因。

猜圖游戲

在這個(gè)游戲中,RL 智能體在每個(gè)回合(episode)中都會(huì)看到一張圖像,并盡可能快地猜出圖像標(biāo)簽(下圖 1)。每個(gè)時(shí)間步長內(nèi)(timestep),智能體必須進(jìn)行一次猜測(cè);如果猜測(cè)正確,那么這一回合就結(jié)束了。但如果猜錯(cuò)了,則智能體會(huì)收到一個(gè)負(fù)反饋,并要在下一個(gè)回合中對(duì)相同的圖像進(jìn)行其他猜測(cè)。因?yàn)槊繌垐D像都有唯一的標(biāo)簽(有正確的標(biāo)簽函數(shù) f_true:x—>y),智能體接收?qǐng)D像作為觀測(cè),這是一個(gè)完全可觀測(cè)的 RL 環(huán)境。

為何RL泛化這么難:伯克利博士從認(rèn)知POMDP、隱式部分可觀察解讀

圖 1:在猜圖游戲中,智能體反復(fù)猜測(cè)圖像標(biāo)簽,直到正確為止

假設(shè)我們可以訪問無限數(shù)量的訓(xùn)練圖像,并使用標(biāo)準(zhǔn) RL 算法學(xué)習(xí)策略。該策略將學(xué)習(xí)如何確定地預(yù)測(cè)真實(shí)標(biāo)簽(y:=f_true(x)),同時(shí)這也是 MDP 中的最高回報(bào)(return)策略。假如只有一組有限的訓(xùn)練圖像,RL 算法仍然會(huì)學(xué)習(xí)相同的策略,確定性地預(yù)測(cè)與圖像匹配的標(biāo)簽。

但是,這種策略的泛化能力如何呢?在未見過的測(cè)試圖像上,如果智能體預(yù)測(cè)標(biāo)簽仍然正確,智能體將會(huì)獲得最高的獎(jiǎng)勵(lì);如果不正確,智能體會(huì)收到災(zāi)難性的低回報(bào),因?yàn)樗肋h(yuǎn)不會(huì)猜到正確的標(biāo)簽。這種災(zāi)難性的失敗模式一直存在,因?yàn)榧词宫F(xiàn)代深度網(wǎng)絡(luò)提高了泛化能力并減少了錯(cuò)誤分類的機(jī)會(huì),但測(cè)試集上的錯(cuò)誤也不能完全減少到 0。

我們能做得比這種確定性預(yù)測(cè)策略更好嗎?因?yàn)閷W(xué)習(xí) RL 策略忽略了猜圖游戲的兩個(gè)顯著特征:1) 智能體會(huì)在一個(gè)回合中接收猜測(cè)是否正確的反饋,以及 2) 智能體可以在未來的時(shí)間步長中更改其猜測(cè)。消除過程(process-of-elimination)策略可以很好地利用這兩個(gè)特征:首先,RL 會(huì)選擇它認(rèn)為最有可能的標(biāo)簽,如果不正確,則消除該標(biāo)簽并適應(yīng)下一個(gè)最有可能的標(biāo)簽,依此類推。然而,這種基于記憶的自適應(yīng)策略永遠(yuǎn)不會(huì)被標(biāo)準(zhǔn) RL 算法學(xué)習(xí),因?yàn)樗鼈儍?yōu)化了 MDP 目標(biāo)并且只學(xué)習(xí)確定性和無記憶策略。

迷宮求解算法

作為 RL 泛化基準(zhǔn)測(cè)試的主要內(nèi)容,迷宮求解問題要求智能體可以導(dǎo)航到迷宮中的目標(biāo),并且給出整個(gè)迷宮的鳥瞰圖。這項(xiàng)任務(wù)是完全基于觀察的,智能體通過觀察展示整個(gè)迷宮圖。因此,最優(yōu)策略是無記憶和確定性的,只要智能體沿著最短路徑到達(dá)目標(biāo)即可。

就像在猜圖游戲中一樣,RL 通過最大化訓(xùn)練迷宮布局內(nèi)的回報(bào),確定性會(huì)采取它認(rèn)為以最短路徑到達(dá)目標(biāo)的行動(dòng)(action)。

這種 RL 策略泛化能力很差,因?yàn)槿绻麑W(xué)習(xí)策略選擇了一個(gè)錯(cuò)誤的動(dòng)作,比如撞墻或折回原來的道路,它將繼續(xù)循環(huán)同樣的錯(cuò)誤并且永遠(yuǎn)無法解決迷宮問題。但是,這種失敗模式是完全可以避免的,因?yàn)榧词?RL 智能體最初采取了這樣一個(gè)不正確的行動(dòng),在經(jīng)過幾次跟隨之后,智能體會(huì)收到所采取的行為正確與否的信息(比如基于下一次觀察)。

為了盡可能地進(jìn)行泛化,如果智能體最初的行動(dòng)導(dǎo)致了意想不到的結(jié)果,那么智能體應(yīng)該適應(yīng)它所選擇的行動(dòng),但是這種行動(dòng)回避了標(biāo)準(zhǔn)的 RL 目標(biāo)。

為何RL泛化這么難:伯克利博士從認(rèn)知POMDP、隱式部分可觀察解讀

圖 2:在迷宮任務(wù)中,RL 策略泛化能力很差:當(dāng)出現(xiàn)錯(cuò)誤時(shí),它們會(huì)重復(fù)犯同樣的錯(cuò)誤,導(dǎo)致失?。ㄗ螅?。泛化良好的智能體也會(huì)犯錯(cuò)誤,但具有適應(yīng)性和從這些錯(cuò)誤中恢復(fù)的能力(右)。用于泛化的標(biāo)準(zhǔn) RL 目標(biāo)不會(huì)學(xué)習(xí)這種行為

為何RL泛化這么難:伯克利博士從認(rèn)知POMDP、隱式部分可觀察解讀

圖 3:有限的訓(xùn)練數(shù)據(jù)集使智能體無法準(zhǔn)確地恢復(fù)真實(shí)環(huán)境。相反,存在一種隱式部分可觀察,因?yàn)橹悄荏w不知道在一組一致的環(huán)境中哪一個(gè)是真實(shí)的環(huán)境

當(dāng)給智能體一個(gè)小的上下文訓(xùn)練集時(shí),許多動(dòng)態(tài)模型與提供的訓(xùn)練上下文匹配,但與保留(held-out)的上下文有所不同。這些相互矛盾的假設(shè)體現(xiàn)了智能體在有限訓(xùn)練集中的認(rèn)知不確定性。更重要的是,智能體通過軌跡接收到的信息,可以在評(píng)估時(shí)改變其認(rèn)知不確定性。假設(shè)對(duì)于猜謎游戲中的圖像,智能體最初在「t-shirt / coat」標(biāo)簽之間不確定。如果智能體猜測(cè)「t-shirt 」并收到錯(cuò)誤的反饋,智能體會(huì)改變其不確定性并對(duì)「 coat」標(biāo)簽變得更有信心,這意味著它應(yīng)該因此而適應(yīng)并猜測(cè)「 coat」。

認(rèn)知 POMDP 與隱示部分可觀察

RL 智能體有兩種方式處理其認(rèn)知不確定性:主動(dòng)轉(zhuǎn)向低不確定性區(qū)域和采用信息收集。但是它們都沒有回答這些問題:「是否有一個(gè)最好的方法來處理不確定性,如果有的話,我們?cè)撊绾蚊枋瞿??」從貝葉斯的角度來看,事實(shí)證明存在這樣一個(gè)最優(yōu)解:最優(yōu)泛化要求我們解決「部分可觀察的馬爾可夫決策過程 (POMDP)」,POMDP 隱式地由智能體認(rèn)知不確定性創(chuàng)建。

為何RL泛化這么難:伯克利博士從認(rèn)知POMDP、隱式部分可觀察解讀

認(rèn)知 POMDP(epistemic POMDP)作用如下:由于智能體只能看到有限的訓(xùn)練集,因此有許多可能的環(huán)境與提供的訓(xùn)練上下文一致。一致的環(huán)境集可以通過貝葉斯后驗(yàn)對(duì)環(huán)境進(jìn)行編碼 P(M | D),在認(rèn)知 POMDP 的每一個(gè)階段中,智能體被放入這種一致的環(huán)境中 M~P(M | D),并要求在其中最大化獎(jiǎng)勵(lì)。

該系統(tǒng)對(duì)應(yīng)于 POMDP,因?yàn)樾袆?dòng)所需的相關(guān)信息,智能體只能通過部分觀察到:雖然環(huán)境中的狀態(tài)被觀察到,但環(huán)境 M 生成這些狀態(tài)的信息對(duì)智能體是隱藏的。認(rèn)知 POMDP 將泛化問題實(shí)例化到貝葉斯 RL 框架中,該框架更一般性地研究了 MDP 分布下的最優(yōu)行為。

為何RL泛化這么難:伯克利博士從認(rèn)知POMDP、隱式部分可觀察解讀

圖 4:在認(rèn)知 POMDP 中,智能體在每個(gè)階段中與不同的相互一致環(huán)境進(jìn)行交互,但不知道它具體與哪個(gè)交互可以導(dǎo)致部分可觀察性。要想做得好,智能體必須采用(可能基于內(nèi)存的)策略,使得其無論置于哪個(gè)環(huán)境中,都可以很好地工作

讓我們通過一個(gè)示例來了解認(rèn)知 POMDP 。對(duì)于猜謎游戲,智能體不確定圖像究竟如何標(biāo)記,因此每個(gè)可能的環(huán)境 M∼P(M∣D) 對(duì)應(yīng)于不同圖像標(biāo)簽器,其與訓(xùn)練數(shù)據(jù)集保持一致:f_M:X→Y。在猜謎游戲的認(rèn)識(shí) POMDP 中,每階段隨機(jī)選擇一個(gè)圖像 x 和標(biāo)簽器 f_M,并要求智能體輸出采樣分類器 y=f_M(x) 分配的標(biāo)簽。智能體不能直接這樣做,因?yàn)榉诸惼鞯纳矸輿]有提供給智能體,只提供了圖像 x。如果所有標(biāo)簽器 f_M 后驗(yàn)都同意某個(gè)圖像的標(biāo)簽,則智能體可以只輸出這個(gè)標(biāo)簽(沒有部分可觀察性)。但是,如果不同的分類器分配不同的標(biāo)簽,則智能體必須使用平均效果良好的策略。

認(rèn)知 POMDP 還強(qiáng)調(diào)了從有限訓(xùn)練集上下文中學(xué)習(xí)策略的危險(xiǎn):在訓(xùn)練集上運(yùn)行完全可觀察的 RL 算法。這些算法將環(huán)境建模為 MDP,并學(xué)習(xí) MDP 最優(yōu)策略,即確定性和馬爾可夫策略。這些策略不考慮部分可觀察性,因此往往泛化性很差(例如在猜謎游戲和迷宮任務(wù)中)。這表明基于 MDP 訓(xùn)練目標(biāo)(現(xiàn)代算法標(biāo)準(zhǔn))與認(rèn)知 POMDP 訓(xùn)練目標(biāo)(實(shí)際上決定了所學(xué)習(xí)策略的泛化程度)之間存在不匹配。

在 RL 中推進(jìn)泛化

我們應(yīng)該怎么做才能學(xué)習(xí)更好泛化的 RL 策略?認(rèn)知 POMDP 提供了一個(gè)規(guī)范的解決方案:當(dāng)可以計(jì)算智能體在環(huán)境上的后驗(yàn)分布時(shí),通過構(gòu)建認(rèn)知 POMDP 并在其上運(yùn)行 POMDP 求解算法將產(chǎn)生泛化貝葉斯最優(yōu)的策略。

遺憾的是,在大多數(shù)有趣的問題中,還不能完全做到。盡管如此,認(rèn)知 POMDP 可以作為設(shè)計(jì)具有更好泛化能力 RL 算法的標(biāo)桿。作為第一步,研究者在論文中引入了一種稱為 LEEP 的算法,該算法使用統(tǒng)計(jì)自助法 (Bootstrapping) 來學(xué)習(xí)近似認(rèn)知 POMDP 的策略。

在具有挑戰(zhàn)性的 RL 智能體泛化基準(zhǔn)測(cè)試 Procgen 上,LEEP 在測(cè)試時(shí)的性能比 PPO 顯著提高(圖 3)。雖然只是粗略的逼近,但 LEEP 提供的一些跡象表明,嘗試在 epistemic POMDP 中學(xué)習(xí)策略可以成為開發(fā)更通用 RL 算法的有效途徑。

為何RL泛化這么難:伯克利博士從認(rèn)知POMDP、隱式部分可觀察解讀

圖 5:LEEP,一種基于認(rèn)知 POMDP 目標(biāo)的算法,在四個(gè) Procgen 任務(wù)中比 PPO 具有更好的泛化性能

在監(jiān)督學(xué)習(xí)中,優(yōu)化訓(xùn)練集性能可以提高模型泛化能力,因此,很容易假設(shè) RL 中的泛化可以用同樣的方式解決,但這顯然是錯(cuò)誤的。RL 中有限的訓(xùn)練數(shù)據(jù)將隱式的部分可觀察性引入到一個(gè)完全可觀察的問題中。這種隱式的部分可觀察性,正如認(rèn)知 POMDP 形式化的那樣,意味著在 RL 中很好地泛化需要自適應(yīng)或隨機(jī)行為,這是 POMDP 問題的關(guān)鍵。

最終,這凸顯了深度 RL 算法泛化的不兼容性:由于訓(xùn)練數(shù)據(jù)有限,基于 MDP 的 RL 目標(biāo)與最終決定泛化性能的隱式 POMDP 目標(biāo)不一致。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2018-10-09 14:00:41

SQL深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2025-05-06 15:31:55

智能模型AI

2025-07-14 13:47:29

2025-07-07 13:50:56

AI編程算法

2022-03-28 13:25:42

AI扶貧機(jī)器之心

2025-06-03 08:38:00

2024-09-25 09:37:16

2024-08-19 14:05:00

2025-01-22 15:21:00

2017-04-25 10:44:02

網(wǎng)利寶

2022-01-27 09:47:12

計(jì)算機(jī)MIT

2023-06-08 11:27:10

模型AI

2019-01-10 09:11:51

消息順序性分布式服務(wù)端

2025-09-02 06:41:53

2010-05-04 13:42:18

Unix打印系統(tǒng)

2023-04-07 09:28:31

模型訓(xùn)練

2023-05-26 17:20:29

模型工具

2023-05-19 13:34:02

2025-04-18 08:42:52

模型推理AI

2023-04-04 13:17:00

GPUCMU開源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)