偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI好奇心,不只害死貓!MIT強(qiáng)化學(xué)習(xí)新算法,智能體這回「難易通吃」

人工智能
MIT強(qiáng)化學(xué)習(xí)新算法,根據(jù)監(jiān)督稀疏程度自動(dòng)調(diào)整AI智能體「好奇心」,高低難度任務(wù)通吃。

?人人都遇見過(guò)一個(gè)古老的難題。

周五晚上,你正試圖挑選一家餐廳吃飯,但沒(méi)有預(yù)定。你應(yīng)該去你最愛的那家人滿為患的餐廳排隊(duì)等位,還是嘗試一家新餐廳,希望能發(fā)現(xiàn)一些更好吃的驚喜?

后者確實(shí)有可能帶來(lái)驚喜,但這種好奇心驅(qū)動(dòng)的行為是有風(fēng)險(xiǎn)的:你去嘗試的那家新餐廳的東西可能會(huì)更難吃。

好奇心作為AI探索世界的驅(qū)動(dòng)力,實(shí)例已經(jīng)不勝枚舉了——自主導(dǎo)航、機(jī)器人決策、優(yōu)化檢測(cè)結(jié)果等等。

在某些情況下,機(jī)器使用「強(qiáng)化學(xué)習(xí)」來(lái)完成一個(gè)目標(biāo),在這一過(guò)程中,AI智能體從被獎(jiǎng)勵(lì)的好行為和被懲罰的壞行為中反復(fù)學(xué)習(xí)。

圖片

就像人類在選擇餐廳時(shí)面臨的困境一樣,這些智能體也在努力平衡發(fā)現(xiàn)更好的行動(dòng)(探索)的時(shí)間和采取過(guò)去導(dǎo)致高回報(bào)的行動(dòng)(利用)的時(shí)間。

太強(qiáng)的好奇心會(huì)分散智能體的注意力,無(wú)法做出有利的決定,而好奇心太弱,則意味著智能體永遠(yuǎn)無(wú)法發(fā)現(xiàn)有利的決定。

為了追求使AI智能體具有「恰到好處」的好奇心,來(lái)自麻省理工學(xué)院計(jì)算機(jī)科學(xué)與AI實(shí)驗(yàn)室(CSAIL)的研究人員創(chuàng)造了一種算法,克服了AI過(guò)于「好奇」和被手頭的任務(wù)分散注意力的問(wèn)題。

他們研究出的算法會(huì)在需要時(shí)自動(dòng)增加好奇心,如果智能體從環(huán)境中得到足夠的監(jiān)督,已經(jīng)知道該怎么做,則降低好奇心。

圖片

論文鏈接:https://williamd4112.github.io/pubs/neurips22_eipo.pdf

經(jīng)過(guò)60多個(gè)視頻游戲的測(cè)試,該算法能夠在不同難度的探索任務(wù)中取得成功,而以前的算法只能單獨(dú)解決簡(jiǎn)單或困難難度。這意味著AI智能體可以使用更少的數(shù)據(jù)來(lái)學(xué)習(xí)決策規(guī)則,達(dá)到激勵(lì)最大化。

「如果你很好地掌握了探索-開發(fā)之間權(quán)衡,就能更快地學(xué)習(xí)正確的決策規(guī)則,而任何不足之處都需要大量的數(shù)據(jù),這可能意味著產(chǎn)生的結(jié)果是非最優(yōu)的醫(yī)療方案,網(wǎng)站的利潤(rùn)下降,以及機(jī)器人沒(méi)有學(xué)會(huì)做正確的事情?!?/p>

該研究帶頭人之一、麻省理工學(xué)院教授兼Improbable AI實(shí)驗(yàn)室主任Pulkit Agrawal說(shuō)。?

好奇心,不只害死貓!

我們似乎很難從心理學(xué)角度解釋好奇心的心理基礎(chǔ),對(duì)于這種尋求挑戰(zhàn)的行為的潛在神經(jīng)學(xué)原理,我們一直沒(méi)有深入理解。

有了強(qiáng)化學(xué)習(xí),這個(gè)過(guò)程在情感上被「修剪」了,將這個(gè)問(wèn)題剝離至最基本的層面,但在技術(shù)實(shí)現(xiàn)上卻相當(dāng)復(fù)雜。

從本質(zhì)上講,智能體只應(yīng)該在沒(méi)有足夠的監(jiān)督來(lái)嘗試不同的事情時(shí)才會(huì)有好奇心,如果有監(jiān)督,它必須調(diào)整好奇心,降低好奇心。

在測(cè)試游戲任務(wù)中,很大一部分是小智能體在環(huán)境中跑來(lái)跑去尋找獎(jiǎng)勵(lì),并執(zhí)行一長(zhǎng)串的行動(dòng)來(lái)實(shí)現(xiàn)一些目標(biāo),這似乎是研究人員算法的邏輯測(cè)試平臺(tái)。

圖片

在《馬里奧賽車》和《蒙特祖瑪?shù)膹?fù)仇》等游戲?qū)嶒?yàn)中,研究人員將上述游戲分為兩個(gè)不同類別:

一種監(jiān)督稀疏的環(huán)境,智能體獲得的指導(dǎo)較少,也就是「困難」的探索游戲;另一種是監(jiān)督更密集的環(huán)境,即「簡(jiǎn)單」的探索游戲。

假設(shè)在《馬里奧賽車》中,只刪除所有的獎(jiǎng)勵(lì),你不知道什么時(shí)候敵人殺了你。當(dāng)你收集一個(gè)硬幣或跳過(guò)管道時(shí),不會(huì)得到任何獎(jiǎng)勵(lì)。智能體只有在最后才被告知其表現(xiàn)如何。這就屬于稀疏監(jiān)督環(huán)境,也就是困難任務(wù)。在這種任務(wù)中,激勵(lì)好奇心的算法表現(xiàn)非常好。

而如果智能體處于密集監(jiān)督環(huán)境,也就是說(shuō),跳過(guò)管道、收集硬幣和殺死敵人都有獎(jiǎng)勵(lì),那么,表現(xiàn)最好的就是完全沒(méi)有好奇心的算法,因?yàn)榻?jīng)常得到獎(jiǎng)勵(lì),只要照著走流程就行了,不需要額外探索就能收獲頗豐。

圖片

這里如果使用激勵(lì)好奇心的算法,學(xué)習(xí)速度會(huì)很慢。

因?yàn)楹闷嫘膹?qiáng)的智能體,可能會(huì)試圖以不同的方式快速奔跑,到處亂逛,走遍游戲的每一個(gè)角落。這些事情都很有趣,但并不能幫助智能體在游戲中取得成功,獲得獎(jiǎng)勵(lì)。

如前文所言,在強(qiáng)化學(xué)習(xí)中,一般用激勵(lì)好奇心和抑制好奇心的算法,來(lái)分別對(duì)應(yīng)監(jiān)督稀疏(困難)和監(jiān)督密集(簡(jiǎn)單)任務(wù),不能混用。

這一次,MIT團(tuán)隊(duì)的新算法始終表現(xiàn)良好,無(wú)論是在什么環(huán)境中。

未來(lái)的工作可能涉及回到多年來(lái)令心理學(xué)家高興和困擾的探索:好奇心的適當(dāng)衡量標(biāo)準(zhǔn)--沒(méi)有人真正知道從數(shù)學(xué)上定義好奇心的正確方法。

MIT CSAIL博士生Zhang Weihong說(shuō):

通過(guò)改進(jìn)探索算法,為你感興趣的問(wèn)題調(diào)整算法。我們需要好奇心來(lái)解決極具挑戰(zhàn)性的問(wèn)題,但在某些問(wèn)題上,好奇心會(huì)降低性能。我們的算法消除了調(diào)整「探索和利用」的平衡負(fù)擔(dān)問(wèn)題。

以前要花一個(gè)星期來(lái)解決的問(wèn)題,新算法可以在幾個(gè)小時(shí)內(nèi)就得到滿意的結(jié)果。

他與麻省理工學(xué)院CSAIL工程碩士、22歲的Eric Chen是關(guān)于這項(xiàng)工作的新論文的共同作者。

卡內(nèi)基梅隆大學(xué)的教師Deepak Pathak說(shuō):

「像好奇心這樣的內(nèi)在獎(jiǎng)勵(lì)機(jī)制,是引導(dǎo)智能體發(fā)現(xiàn)有用的多樣化行為的基礎(chǔ),但這不應(yīng)該以在給定的任務(wù)中做得好為代價(jià)。這是AI中的一個(gè)重要問(wèn)題,這篇論文提供了一種平衡這種權(quán)衡的方法??纯催@種方法如何從游戲擴(kuò)展到現(xiàn)實(shí)世界的機(jī)器人智能體上,將是很有趣的一件事?!?/p>

加州大學(xué)伯克利分校心理學(xué)特聘教授和哲學(xué)副教授Alison Gopnik指出,當(dāng)前AI和認(rèn)知科學(xué)的最大挑戰(zhàn)之一,就是如何平衡「探索和利用」,前者是對(duì)信息的搜索,后者是對(duì)獎(jiǎng)勵(lì)的搜索。

「這篇論文使用了令人印象深刻的新技術(shù)來(lái)自動(dòng)完成這一工作,設(shè)計(jì)了一個(gè)能夠系統(tǒng)地平衡對(duì)世界的好奇心和對(duì)獎(jiǎng)勵(lì)的渴望的智能體,讓AI智能體朝著像真正的兒童一樣聰明的方向,邁出了重要一步。」他說(shuō)。

參考資料:

https://techxplore.com/news/2022-11-bad-ai-curious.html

https://www.csail.mit.edu/news/ensuring-ai-works-right-dose-curiosity

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2018-09-18 15:26:21

電腦產(chǎn)品主板

2013-11-07 16:16:24

2020-04-15 16:44:38

谷歌強(qiáng)化學(xué)習(xí)算法

2013-11-07 14:13:23

2017-06-10 16:19:22

人工智能智能體強(qiáng)化學(xué)習(xí)

2022-11-03 14:13:52

強(qiáng)化學(xué)習(xí)方法

2023-08-28 06:52:29

2025-03-03 09:12:00

2015-05-07 13:38:15

2017-03-30 15:19:36

2010-01-21 10:22:53

JAVA認(rèn)證

2021-03-01 19:22:15

大數(shù)據(jù)好奇心CIO

2023-02-21 17:06:49

硬件軟件系統(tǒng)

2023-09-04 09:07:50

CIOIT領(lǐng)域

2025-06-09 09:32:35

2016-02-22 18:28:40

2015-07-02 15:04:53

CSS好奇心+

2021-11-04 15:30:56

AI 數(shù)據(jù)人工智能

2017-02-20 16:35:10

人工智能算法強(qiáng)化學(xué)習(xí)

2020-06-05 14:49:51

強(qiáng)化學(xué)習(xí)算法框架
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)