偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Transformers+世界模型,竟能拯救深度強化學(xué)習(xí)?

人工智能 深度學(xué)習(xí)
前一段時間,LeCun曾預(yù)言AGI:大模型和強化學(xué)習(xí)都沒出路,世界模型才是新路。但最近,康奈爾大學(xué)有研究人員,正試著用Transformers將強化學(xué)習(xí)與世界模型連接起來。

?很多人都知道,當(dāng)年打敗李世石、柯潔等一眾國際頂尖棋手的AlphaGo一共迭代了三個版本,分別是戰(zhàn)勝李世石的一代目AlphaGo Lee、戰(zhàn)勝柯潔的二代目AlphaGo Master,以及吊打前兩代的三代目AlphaGo Zero。

AlphaGo的棋藝能夠逐代遞增,背后其實是在AI技術(shù)上一個出現(xiàn)了明顯的變化趨勢,就是強化學(xué)習(xí)的比重越來越大。

到了近幾年,強化學(xué)習(xí)又發(fā)生了一次「進(jìn)化」,人們把「進(jìn)化」后的強化學(xué)習(xí),稱為深度強化學(xué)習(xí)。

但深度強化學(xué)習(xí)代理的樣本效率低下,這極大地限制了它們在實際問題中的應(yīng)用。

最近,許多基于模型的方法被設(shè)計來解決這個問題,在世界模型的想象中學(xué)習(xí)是最突出的方法之一。

然而,雖然與模擬環(huán)境幾乎無限的交互聽起來很吸引人,但世界模型必須在很長一段時間內(nèi)保持準(zhǔn)確。

受Transformer在序列建模任務(wù)中的成功啟發(fā),康奈爾大學(xué)的文森特·米凱利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷介紹了IRIS,這是一種數(shù)據(jù)高效代理,它在由離散自編碼器和自回歸Transformer組成的世界模型中學(xué)習(xí)。

在Atari 100k基準(zhǔn)測試中,在僅相當(dāng)于兩個小時的游戲時間里,IRIS的平均人類標(biāo)準(zhǔn)化得分為1.046,并且在26場比賽中的10場比賽中表現(xiàn)優(yōu)于人類。

此前,LeCun曾說,強化學(xué)習(xí)會走進(jìn)死胡同。

圖片

現(xiàn)在看來,康奈爾大學(xué)的文森特·米凱利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷等人,正在將世界模型與強化學(xué)習(xí)(更準(zhǔn)確地說是深度強化學(xué)習(xí))融為一體,而連接兩者的橋梁,便是Transformers。

深度強化學(xué)習(xí)有什么不一樣

一提到人工智能技術(shù),很多人能想到的,還是深度學(xué)習(xí)上。

其實,雖然深度學(xué)習(xí)還活躍在AI領(lǐng)域,但已經(jīng)暴露出很多問題。

現(xiàn)在深度學(xué)習(xí)用得最多的就是有監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)不妨理解成“有參考答案的學(xué)習(xí)”,它有一個特點,就是數(shù)據(jù)必須經(jīng)過標(biāo)識才能用于訓(xùn)練。但現(xiàn)在海量的數(shù)據(jù)是未標(biāo)識數(shù)據(jù),且標(biāo)識成本很高。

以至于針對這種局面,有人調(diào)侃道「有多少人工,就有多少智能」。

很多研究人員,甚至包括有不少的大牛都在反思,琢磨深度學(xué)習(xí)是不是“錯了”。

于是,強化學(xué)習(xí)開始崛起了。

強化學(xué)習(xí)和有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)都不太一樣,它是用智能體不斷地試錯,并按試錯結(jié)果獎懲AI。這是DeepMind家做各種棋牌AI、游戲AI的路數(shù)。這種路徑的信徒認(rèn)為,只要獎勵激勵設(shè)定對頭,強化學(xué)習(xí)終將造出真正AGI。

但強化學(xué)習(xí)也有問題,用LeCun的話說,就是「強化學(xué)習(xí)要用巨量數(shù)據(jù)才能訓(xùn)練模型執(zhí)行最簡單任務(wù)」。

于是強化學(xué)習(xí)與深度學(xué)習(xí)進(jìn)行了結(jié)合,成為深度強化學(xué)習(xí)。

深度強化學(xué)習(xí),強化學(xué)習(xí)是骨架,深度學(xué)習(xí)是靈魂,這是什么意思呢?深度強化學(xué)習(xí)的主要運行機制,其實與強化學(xué)習(xí)是基本一致的,只不過使用了深度神經(jīng)網(wǎng)絡(luò)來完成這一過程。

更有甚者,有的深度強化學(xué)習(xí)算法,干脆直接在現(xiàn)成的強化學(xué)習(xí)算法上,通過添加深度神經(jīng)網(wǎng)絡(luò)來實現(xiàn)一套新的深度強化學(xué)習(xí)算法,非常有名的深度強化學(xué)習(xí)算法DQN就是典型的例子。

Transformers有什么神奇之處

Transformers首次亮相于2017年,是Google的論文《Attention is All You Need》中提出的。

在 Transformer出現(xiàn)之前,人工智能在語言任務(wù)上的進(jìn)展一直落后于其他領(lǐng)域的發(fā)展?!冈谶^去10年發(fā)生的這場深度學(xué)習(xí)革命中,自然語言處理在某種程度上是后來者,」馬薩諸塞大學(xué)洛厄爾分校的計算機科學(xué)家Anna Rumshisky 說,「從某種意義上說,NLP曾落后于計算機視覺,而Transformer改變了這一點?!?/p>

近年來,Transformer機器學(xué)習(xí)模型已經(jīng)成為深度學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)步的主要亮點之一。它主要用于自然語言處理中的高級應(yīng)用。谷歌正在使用它來增強其搜索引擎結(jié)果。

Transformer很快成為專注于分析和預(yù)測文本的單詞識別等應(yīng)用程序的引領(lǐng)者。它引發(fā)了一波工具浪潮,比如OpenAI的GPT-3可以在數(shù)千億個單詞上進(jìn)行訓(xùn)練并生成連貫的新文本。

目前,Transformer架構(gòu)不斷發(fā)展并擴(kuò)展到多種不同的變體,從語言任務(wù)擴(kuò)展到其他領(lǐng)域。比如,Transformer已被用于時間序列預(yù)測,同時也是DeepMind的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型 AlphaFold背后的關(guān)鍵創(chuàng)新。

Transformer最近也進(jìn)入了計算機視覺領(lǐng)域,在許多復(fù)雜任務(wù)中它們正在慢慢取代卷積神經(jīng)網(wǎng)絡(luò)(CNN)。

世界模型與Transformers聯(lián)手,其他人怎么看

對于康奈爾大學(xué)的研究成果,有外國網(wǎng)友評論道:「請注意,這兩個小時是來自環(huán)境的鏡頭長度,在GPU上進(jìn)行訓(xùn)練需要一周的時間」。

還有人質(zhì)疑:所以這個系統(tǒng)在一個特別精確的潛在世界模型上學(xué)習(xí)?該模型不需要預(yù)先訓(xùn)練嗎?

另外,有人覺得,康奈爾大學(xué)的文森特·米凱利等人的成果并沒有破天荒的突破:「似乎他們只是訓(xùn)練了世界模型,vqvae和演員評論家,所有這些都來自那2個小時的經(jīng)驗(和大約600個紀(jì)元)的重播緩沖區(qū)」。

參考資料:https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/?

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2024-01-26 08:31:49

2023-01-04 10:02:53

強化學(xué)習(xí)自動駕駛

2021-09-17 15:54:41

深度學(xué)習(xí)機器學(xué)習(xí)人工智能

2023-08-28 06:52:29

2025-01-14 13:20:56

2022-05-31 10:45:01

深度學(xué)習(xí)防御

2020-05-12 07:00:00

深度學(xué)習(xí)強化學(xué)習(xí)人工智能

2023-12-03 22:08:41

深度學(xué)習(xí)人工智能

2017-08-22 15:56:49

神經(jīng)網(wǎng)絡(luò)強化學(xué)習(xí)DQN

2022-06-25 21:38:36

AI模型

2023-08-05 13:08:54

2017-08-17 09:15:23

強化學(xué)習(xí)KerasOpenAI

2023-04-06 16:29:18

模型AI

2024-11-18 14:35:00

智能體AI

2025-06-11 08:45:00

強化學(xué)習(xí)AI模型

2024-01-30 09:00:28

框架BMRL模型

2024-11-29 16:33:24

2023-03-09 08:00:00

強化學(xué)習(xí)機器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強化學(xué)習(xí)代碼深度學(xué)習(xí)

2022-12-01 08:00:00

點贊
收藏

51CTO技術(shù)棧公眾號