偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

用多模態(tài)世界模型預(yù)測未來!UC伯克利全新AI智能體,精確理解人類語言,刷新SOTA

人工智能 新聞
智能體如何從不同的語言中理解世界?近日,來自UC伯克利的研究人員提出了一種全新的AI智能體,可以通過對未來進行多模態(tài)世界建模來學(xué)習(xí)理解語言。

現(xiàn)在,基于強化學(xué)習(xí)的智能體已經(jīng)可以輕松地執(zhí)行諸如「撿起藍色積木」這類的指令。

但人類大部分時間的語言表達,卻遠遠超出了指令的范圍。比如:「我們好像沒有牛奶了」......

而智能體想要學(xué)習(xí)這類語言在世界中的含義,是非常困難的。

對此,來自UC伯克利的研究團隊認為,我們實際上可以利用這些語言,來幫助智能體更好地對未來進行預(yù)測。

論文地址:https://arxiv.org/pdf/2308.01399.pdf

具體來說,研究人員提出了一種全新的智能體——Dynalang。

與僅用語言預(yù)測動作的傳統(tǒng)智能體不同,Dynalang通過使用過去的語言來預(yù)測未來的語言、視頻和獎勵,從而獲得豐富的語言理解。

除了在環(huán)境中的在線交互中學(xué)習(xí)外,Dynalang還可以在沒有動作或獎勵的情況下在文本、視頻或兩者的數(shù)據(jù)集上進行預(yù)訓(xùn)練。

也就是說,新的智能體這時再聽到「我們沒有牛奶了」,就能get到這句話意思是「冰箱里的牛奶喝完了」。

工作原理

使用語言來理解世界自然而然地適合于世界建模范式。

Dynalang以基于模型的RL智能體DreamerV3為基礎(chǔ),并可利用其在環(huán)境中動作時所收集到的經(jīng)驗數(shù)據(jù),不斷地進行學(xué)習(xí)。

左:世界模型在每個時間步將文本和圖像壓縮為潛在表征。在這個表征中,模型被訓(xùn)練以重構(gòu)原始觀察結(jié)果,預(yù)測獎勵,并預(yù)測下一個時間步的表征。直觀地說,世界模型學(xué)會了在給定文本中所讀內(nèi)容的情況下,應(yīng)該期望在世界中看到什么。

右:Dynalang通過在壓縮的世界模型表征基礎(chǔ)上訓(xùn)練策略網(wǎng)絡(luò)來選擇動作。它在世界模型的想象中反復(fù)進行訓(xùn)練,從而學(xué)會采取最大化預(yù)測獎勵的動作。

與之前一次處理一個句子或段落的多模態(tài)模型不同,Dynalang將視頻和文本作為一個統(tǒng)一的序列進行建模,一次處理一個圖像幀和一個文本token。

直觀地說,這更像是人類在現(xiàn)實世界中接收輸入的方式。

將所有內(nèi)容都建模為一個序列,就可以像語言模型一樣在文本數(shù)據(jù)上進行預(yù)訓(xùn)練,從而提高強化學(xué)習(xí)的性能。

語言提示

為了評估智能體在環(huán)境中的表現(xiàn),研究人員引入了HomeGrid。其中,智能體除了任務(wù)指令外,還會收到語言提示。

HomeGrid中的提示,不僅模擬了智能體可能從人類那里學(xué)到的知識或從文本中讀到的信息,而且還提供了有用但不是解決任務(wù)所必需的信息:

- 「未來觀察」:描述智能體在未來可能觀察到的情況,例如「盤子在廚房里」。

- 「糾正」:根據(jù)智能體正在執(zhí)行的任務(wù)的提供交互式反饋,例如「轉(zhuǎn)過身去」。

- 「動態(tài)」:描述環(huán)境的動態(tài),例如「踩踏板打開堆肥箱」。

雖然智能體并未接受過明確的指導(dǎo)來分辨觀察結(jié)果和文本的對應(yīng)關(guān)系。但Dynalang仍能通過未來的預(yù)測目標(biāo),學(xué)會將各種類型的語言與環(huán)境聯(lián)系起來。

結(jié)果顯示,Dynalang要明顯優(yōu)于以語言為條件的IMPALA和R2D2。

后者不僅在使用不同類型的語言時非常吃力,而且在使用指令以外的語言時表現(xiàn)得更差。

游戲評估

在Messenger游戲環(huán)境中,研究人員測試了智能體是如何從較長且更復(fù)雜的文本中學(xué)習(xí)的,這需要在文本和視覺觀察之間進行多跳推理。

智能體必須對描述每個情節(jié)動態(tài)的文本說明進行推理,并將其與環(huán)境中的實體觀察結(jié)合起來,以確定從哪些實體獲取消息和避開哪些實體。

結(jié)果顯示,Dynalang的表現(xiàn)要明顯優(yōu)于IMPALA和R2D2,以及使用專門架構(gòu)對文本和觀察結(jié)果進行推理任務(wù)優(yōu)化的EMMA基準(zhǔn),尤其是在最困難的第3階段。

指令跟隨

Habitat的測試結(jié)果表明,Dynalang能夠處理逼真的視覺觀察并執(zhí)行指令。

也就是,智能體需要按照自然語言的指令,導(dǎo)航到家中的目標(biāo)位置。

在Dynalang中,指令跟隨可以通過將其視為未來獎勵預(yù)測,來在相同的預(yù)測框架中統(tǒng)一處理。

圖片

語言生成

就像語言會影響智能體對所見事物的預(yù)測一樣,智能體觀察到的事物也會影響它期望聽到的語言(例如,關(guān)于所見事物的真實陳述)。

通過在LangRoom中將語言輸出到動作空間中,Dynalang可以生成與環(huán)境相關(guān)聯(lián)的語言,從而執(zhí)行具體的問題回答。

圖片

文本預(yù)訓(xùn)練

由于使用語言建立世界模型與使用世界模型學(xué)習(xí)動作是分開的,因此Dynalang可以在沒有動作或獎勵標(biāo)簽的情況下使用離線數(shù)據(jù)進行預(yù)訓(xùn)練。

這種能力使Dynalang能夠從大規(guī)模的離線數(shù)據(jù)集中受益,所有這些數(shù)據(jù)集都在單一模型架構(gòu)內(nèi)。

研究人員使用純文本數(shù)據(jù)對Dynalang進行預(yù)訓(xùn)練,并從頭開始學(xué)習(xí)token嵌入。

模型在通用文本數(shù)據(jù)(TinyStories,200萬個短故事)上進行預(yù)訓(xùn)練之后,可以提高Messenger下游RL任務(wù)的表現(xiàn),甚至超過了使用預(yù)訓(xùn)練的T5嵌入。

盡管這項工作的重點是讓智能體能夠理解語言并采取行動,但其實也可以像純文本語言模型一樣生成文本。

研究人員在潛空間中對預(yù)訓(xùn)練的TinyStories模型進行了抽樣推演,并在每個時間步驟從表征中解碼出token觀察。

結(jié)果顯示,模型生成的結(jié)果具有令人驚訝的一致性,不過在質(zhì)量上仍然低于SOTA的語言模型。

不過由此也可以看出,將語言生成和行動統(tǒng)一到單一的智能體架構(gòu)中,是一個很有趣的研究方向。

作者介紹

Jessy Lin

圖片

論文一作Jessy Lin,是加州大學(xué)伯克利分校人工智能研究院(Berkeley AI Research)的三年級博士生,由Anca Dragan和Dan Klein指導(dǎo)。

她的研究方向是構(gòu)建能與人類合作和互動并以語言為媒介的智能體。此外,她還對對話以及語言+強化學(xué)習(xí)非常感興趣。目前,她的研究得到了蘋果人工智能獎學(xué)金的支持。

她在麻省理工學(xué)院獲得了計算機科學(xué)和哲學(xué)雙學(xué)位。在那里,她與計算認知科學(xué)小組合作,在Kelsey Allen和Josh Tenenbaum的指導(dǎo)下進行人類啟發(fā)式人工智能研究,同時作為labsix的創(chuàng)始成員從事機器學(xué)習(xí)安全研究。

此外,她還曾在Lilt從事人機協(xié)作機器翻譯/專家翻譯的Copilot研究和產(chǎn)品開發(fā)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-08-05 13:45:46

模型AI

2024-12-02 08:20:00

2024-03-04 08:15:00

2023-05-04 14:55:02

模型AI

2025-01-22 15:21:00

2021-03-05 15:03:36

算法強化學(xué)習(xí)技術(shù)

2025-02-14 09:20:00

模型數(shù)據(jù)訓(xùn)練

2023-12-16 09:49:18

2024-04-07 00:45:00

開源模型

2023-04-07 09:28:31

模型訓(xùn)練

2025-05-15 09:10:00

2025-04-18 08:42:52

模型推理AI

2024-07-31 15:38:00

2024-09-11 13:04:53

2025-05-06 15:31:55

智能模型AI

2024-09-23 14:46:27

2022-03-28 13:25:42

AI扶貧機器之心

2023-11-14 07:47:42

IGN擴散模型

2024-01-18 13:39:00

AI訓(xùn)練

2023-10-12 16:37:36

模型學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號