偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

剛剛,DeepMind最強(qiáng)「基礎(chǔ)世界模型」誕生!單圖生1分鐘游戲世界,解鎖下一代智能體

人工智能
谷歌DeepMind最新基礎(chǔ)世界模型Genie 2登場(chǎng)!只要一張圖,就能生成長(zhǎng)達(dá)1分鐘的游戲世界。從此,我們將擁有無限的具身智能體訓(xùn)練數(shù)據(jù)。更有人驚呼:黑客帝國(guó)來了。

就在剛剛,谷歌DeepMind的第二代大規(guī)模基礎(chǔ)世界模型Genie 2誕生了!

圖片圖片

從此,AI可以生成各種一致性的世界,最長(zhǎng)可玩1分鐘。

谷歌研究人員表示,相信Genie 2可以解鎖具身智能體的下一波能力。

圖片圖片

從第一人稱的真實(shí)世界場(chǎng)景,到第三人稱的駕駛環(huán)境,Genie 2生成了一個(gè)720p的世界。

給定一幅圖像,它就能模擬出世界動(dòng)態(tài),創(chuàng)建一個(gè)可通過鍵盤和鼠標(biāo)輸入的、可操作的一致環(huán)境。

具身智能體的潛力有多大?

在以下這個(gè)Imagen 3生成的世界中,研究者測(cè)試出最新的智能體是否可以遵循語言指令,走到紅門或藍(lán)門。

結(jié)果令人驚喜!

圖片圖片

就這樣,現(xiàn)在我們擁有了一條通往無限環(huán)境的道路,來訓(xùn)練和評(píng)估具身智能體了。

研究者創(chuàng)造了一個(gè)有3個(gè)拱門的世界后,Genie 2再次模擬了這個(gè)世界,讓團(tuán)隊(duì)解決了任務(wù)。

圖片圖片

對(duì)此,網(wǎng)友們紛紛表示贊嘆:」這項(xiàng)工作實(shí)在是太棒了!今后,我們終于可以將開放式智能體與開放世界模型結(jié)合起來。我們正在朝著近乎無限的訓(xùn)練數(shù)據(jù)體系邁進(jìn)?!?/p>

圖片圖片

還有網(wǎng)友表示:「黑客帝國(guó)」的世界,要來了!

圖片

為未來的通用智能體,生成無限多樣的訓(xùn)練環(huán)境

作為一種基礎(chǔ)世界生成模型,Genie 2能生成無限多樣的、可操控且可玩的3D環(huán)境,用于訓(xùn)練和評(píng)估具身智能體。

基于一張?zhí)崾驹~圖像,它就可被人類或AI智能體操作了!方式是使用鍵盤和鼠標(biāo)輸入。

在AI研究中,游戲一直扮演著至關(guān)重要的角色。因?yàn)榫哂幸砸巳雱俚奶匦?、?dú)特的挑戰(zhàn)組合以及可衡量的進(jìn)展,游戲成為了安全測(cè)試和提升AI能力的理想環(huán)境。

自Google DeepMind成立以來,游戲一直都是研究的核心——從早期的Atari游戲研究,到AlphaGo和AlphaStar等突破性成果,再到與游戲開發(fā)者合作研究通用智能體。

然而,訓(xùn)練更通用的具身智能體,卻因缺乏足夠豐富和多樣化的訓(xùn)練環(huán)境而受到限制。

但現(xiàn)在,Genie 2的誕生改變了一切。

從此,未來的智能體可以在無限的新世界場(chǎng)景中進(jìn)行訓(xùn)練和評(píng)估了。

交互式體驗(yàn)原型設(shè)計(jì)的新型創(chuàng)意工作流程,也有了全新的可能性。

圖片圖片

基礎(chǔ)世界模型的涌現(xiàn)能力

迄今為止,世界模型在很大程度上都受限于對(duì)狹窄領(lǐng)域的建模。

在Genie 1中,研究人員引入了一種生成多樣化二維世界的方法。

而到了Genie 2這一代,在通用性上實(shí)現(xiàn)了重大突破——它能生成豐富多樣的3D世界了。

Genie 2是一種世界模型,這就意味著,它可以模擬虛擬世界,包括采取任何行動(dòng)(如跳躍、游泳等)的后果。

基于大規(guī)模視頻數(shù)據(jù)集進(jìn)行訓(xùn)練后,它像其他生成式AI模型一樣,展現(xiàn)出了各種規(guī)模的涌現(xiàn)能力,例如物體交互、復(fù)雜的角色動(dòng)畫、物理效果、建模、預(yù)測(cè)其他智能體行為的能力等等。

對(duì)于每個(gè)人類與Genie 2互動(dòng)的demo,模型都以由Imagen 3生成的單張圖片作為提示詞輸入,

這就意味著,任何人都可以用文字描述自己想要的世界,選擇自己喜歡的渲染效果,然后進(jìn)入這個(gè)新創(chuàng)建的世界,并且與之互動(dòng)(或者,也可以讓AI智能體在其中被訓(xùn)練或評(píng)估)。

每一步,人或智能體都能通過鍵盤和鼠標(biāo)提供動(dòng)作,而Genie 2會(huì)模擬下一步的觀察結(jié)果。

在長(zhǎng)達(dá)一分鐘的時(shí)間里,Genie 2可以生成一個(gè)一致的世界,持續(xù)時(shí)間直接長(zhǎng)達(dá)10-20秒!

動(dòng)作控制

Genie 2能夠智能響應(yīng)通過鍵盤按鍵采取的動(dòng)作,識(shí)別角色并正確移動(dòng)。

例如,模型必須計(jì)算出,箭頭鍵應(yīng)該移動(dòng)機(jī)器人,而不是移動(dòng)樹木或云朵。

圖片圖片

一個(gè)在樹林中的可愛的人形機(jī)器人

圖片圖片

一個(gè)在古埃及的人形機(jī)器人

圖片圖片

在紫色的星球上,以機(jī)器人第一人稱視角觀察

圖片圖片

在現(xiàn)代都市的公寓中,以機(jī)器人第一人稱視角觀察

生成反事實(shí)

Genie 2能夠基于同一個(gè)開始畫面,創(chuàng)造出多個(gè)不同的發(fā)展。

這意味著我們可以為AI訓(xùn)練提供各種「如果這樣做會(huì)怎樣」的場(chǎng)景。

在下面的這兩行demo中,每個(gè)視頻都會(huì)從完全相同的畫面開始,但人類玩家會(huì)選擇不同行動(dòng)。

長(zhǎng)時(shí)間記憶

Genie 2能夠記住那些暫時(shí)離開畫面的場(chǎng)景,并在它們重新進(jìn)入視野時(shí),精確地還原出來。

圖片圖片

持續(xù)生成新場(chǎng)景

Genie 2能在過程中實(shí)時(shí)創(chuàng)造出符合邏輯的新場(chǎng)景內(nèi)容,并且可以在長(zhǎng)達(dá)一分鐘的時(shí)間內(nèi)保持整個(gè)世界的一致性。

多樣化環(huán)境

Genie 2能夠生成多種不同的觀察視角,比如第一人稱視角、等距視角(45度俯視角)或第三人稱駕駛視角。

3D結(jié)構(gòu)

Genie 2能夠創(chuàng)建復(fù)雜的3D視覺場(chǎng)景。

物體屬性與交互

Genie 2能夠建模各種物體交互,例如氣球爆裂、開門和射擊炸藥桶。

圖片圖片

圖片圖片

圖片圖片

角色動(dòng)畫

Genie 2能夠?yàn)椴煌愋偷慕巧?,制作各種動(dòng)作的動(dòng)畫。

圖片圖片

NPC

Genie 2能夠?yàn)槠渌悄荏w建模,甚至與它們進(jìn)行復(fù)雜交互。

圖片圖片

物理效果

Genie 2能夠模擬出水面的動(dòng)效。

煙霧

Genie 2能夠模擬煙霧的效果。

圖片圖片

圖片圖片

重力

Genie 2能夠模擬重力。

圖片圖片

圖片圖片

光照

Genie 2能夠模擬點(diǎn)光源和方向光。

圖片圖片

圖片圖片

反射

Genie 2能夠模擬反射、泛光和彩色光照。

圖片圖片

圖片圖片

基于真實(shí)圖像的模擬

Genie 2還可以將真實(shí)世界的圖像作為提示詞輸入,并模擬出草葉在風(fēng)中搖曳或河水流動(dòng)等場(chǎng)景。

圖片圖片

圖片圖片

快速創(chuàng)建測(cè)試原型

有了Genie 2,制作多樣化的交互場(chǎng)景就變得簡(jiǎn)單了。

研究人員可以快速嘗試新環(huán)境,來訓(xùn)練和測(cè)試具身AI智能體。

例如,下面就是研究人員向Genie 2輸入Imagen 3生成的不同圖像,來模擬操控紙飛機(jī)、飛龍、獵鷹或降落傘等不同的飛行方式。

在這個(gè)過程中,也同時(shí)測(cè)試了Genie處理不同控制對(duì)象動(dòng)作時(shí)的表現(xiàn)。

憑借強(qiáng)大的離散泛化能力,Genie 2可以將概念設(shè)計(jì)圖和手繪草圖轉(zhuǎn)化為可實(shí)際交互的場(chǎng)景。

從而讓藝術(shù)家和設(shè)計(jì)師能夠快速驗(yàn)證創(chuàng)意,提升場(chǎng)景設(shè)計(jì)的效率,并加快相關(guān)研究的進(jìn)度。

以下是由概念設(shè)計(jì)師創(chuàng)作出的一些虛擬場(chǎng)景示例。

圖片圖片

AI智能體在世界模型中行動(dòng)

借助Genie 2,研究人員能夠快速構(gòu)建出豐富多樣的虛擬環(huán)境,并創(chuàng)造全新的評(píng)估任務(wù),來測(cè)試AI智能體在從未接觸過的場(chǎng)景中的表現(xiàn)。

下面這個(gè)demo,就是由谷歌DeepMind與游戲開發(fā)者共同開發(fā)的SIMA智能體,它能夠在Genie 2僅通過一張圖片生成的全新環(huán)境中,準(zhǔn)確理解并完成各種指令。

圖片圖片

prompt:一張第三人稱開放世界探索游戲的截圖。畫面中的玩家是一名在森林中探索的冒險(xiǎn)者。左邊有一座紅門的房子,右邊有一座藍(lán)門的房子。鏡頭正對(duì)著玩家的身后。#寫實(shí)風(fēng)格 #身臨其境

SIMA智能體的目標(biāo)是,能夠在多樣化的3D游戲環(huán)境中,通過自然語言指令完成各種任務(wù)。

在這里,團(tuán)隊(duì)使用Genie 2生成了一個(gè)包含兩扇門(藍(lán)色和紅色)的3D環(huán)境,并向SIMA智能體提供了打開每扇門的指令。

過程中,SIMA通過鍵盤和鼠標(biāo)來控制游戲角色,而Genie 2負(fù)責(zé)實(shí)時(shí)生成游戲畫面。

打開藍(lán)色的門打開藍(lán)色的門

圖片圖片

不僅如此,我們還可以借助SIMA來評(píng)估Genie 2的各項(xiàng)能力。

比如,通過讓SIMA在場(chǎng)景中四處查看并探索房屋背后的區(qū)域,測(cè)試Genie 2是否能夠生成一致性的環(huán)境。

轉(zhuǎn)身轉(zhuǎn)身

去房子后面去房子后面

盡管這項(xiàng)研究還處于起步階段,無論是AI智能體的表現(xiàn),還是環(huán)境的生成都還有待提升。

但研究人員認(rèn)為,Genie 2是解決安全訓(xùn)練具身智能體這一結(jié)構(gòu)性問題的路徑,同時(shí)也能夠?qū)崿F(xiàn)通向通用人工智能(AGI)所需的廣度和通用性。

圖片圖片

prompt:一個(gè)電腦游戲場(chǎng)景,展示了一座粗獷的石洞或礦洞內(nèi)部。畫面采用第三人稱視角,鏡頭在主角上方俯視著。主角是一位手持長(zhǎng)劍的騎士。騎士面前矗立著三座石砌的拱門,他可以選擇進(jìn)入任一道門。透過第一扇門,可以看到隧道內(nèi)生長(zhǎng)著散發(fā)熒光的奇異綠色植物。第二扇門后是一條長(zhǎng)廊,洞壁上布滿了鉚接的鐵板,遠(yuǎn)處隱約透出令人不安的光芒。第三扇門內(nèi)則是一段粗糙的石階,蜿蜒通向未知的高處。

走上樓梯走上樓梯

去有植物的地方去有植物的地方

去中間的門去中間的門

擴(kuò)散世界模型

Genie 2是一種基于大規(guī)模視頻數(shù)據(jù)集訓(xùn)練的自回歸潛變量擴(kuò)散模型。

其中,視頻的潛變量幀首先先會(huì)由自動(dòng)編碼器進(jìn)行處理,然后被傳遞給一個(gè)基于類似LLM中因果掩碼訓(xùn)練的大規(guī)模Transformer動(dòng)態(tài)模型。

在推理階段,Genie 2可以以自回歸的方式進(jìn)行采樣,逐幀利用單個(gè)動(dòng)作和先前的潛變量幀。期間,無分類器指導(dǎo)(classifier-free guidance)會(huì)被用于提高動(dòng)作的可控性。

圖片圖片

值得注意的是,上文中的演示均由未經(jīng)蒸餾的「滿血版」基礎(chǔ)模型生成,從而充分地展示技術(shù)潛在的能力。

當(dāng)然,也可以實(shí)時(shí)運(yùn)行經(jīng)過蒸餾的版本(distilled version),但輸出質(zhì)量會(huì)相應(yīng)降低。

花絮

除了這些酷炫的demo之外,團(tuán)隊(duì)還在生成過程中發(fā)現(xiàn)了很多有意思的花絮:

在花園里站著發(fā)呆,突然間,一個(gè)幽靈出現(xiàn)了在花園里站著發(fā)呆,突然間,一個(gè)幽靈出現(xiàn)了

這位朋友更喜歡在雪場(chǎng)里跑酷,而不是老老實(shí)實(shí)地用滑雪板滑雪這位朋友更喜歡在雪場(chǎng)里跑酷,而不是老老實(shí)實(shí)地用滑雪板滑雪

能力越大,責(zé)任越大能力越大,責(zé)任越大

最后,谷歌DeepMind團(tuán)隊(duì)放出了一個(gè)長(zhǎng)長(zhǎng)的致謝名單。

圖片圖片

參考資料:

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2013-07-27 21:28:44

2012-10-12 14:18:28

光纖

2020-06-02 08:05:28

智能電表蜂窩物聯(lián)網(wǎng)NB-IoT

2013-11-22 10:28:51

智能設(shè)備智能路由器小米

2020-10-15 13:55:38

一分鐘入門 Babel

2013-06-27 11:21:17

2021-04-01 15:30:35

人工智能

2017-05-16 09:50:34

混合云超融合HCI

2020-08-23 08:43:57

物聯(lián)網(wǎng)資產(chǎn)追蹤IOT

2013-06-19 10:38:58

下一代防火墻下一代智能防火墻山石網(wǎng)科

2021-05-25 14:02:40

人工智能商業(yè)智能軟件

2012-10-15 19:02:45

下一代網(wǎng)絡(luò)智能芯片

2020-09-27 17:27:58

邊緣計(jì)算云計(jì)算技術(shù)

2013-09-25 15:55:57

WLANWiFi智能

2022-07-27 15:49:43

互聯(lián)網(wǎng)網(wǎng)絡(luò)范式人工智能

2024-03-22 13:34:00

模型數(shù)據(jù)

2011-08-22 15:28:34

IPv6魔獸世界

2020-09-16 10:28:54

邊緣計(jì)算云計(jì)算數(shù)據(jù)中心

2025-01-03 09:24:10

模型架構(gòu)論文

2013-06-20 09:23:26

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)