偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

震撼,世界模型第一次超真實地模擬了真實世界:谷歌Genie 3昨晚搶了OpenAI風(fēng)頭

人工智能 新聞
據(jù)介紹,在 Genie 3 生成的動態(tài)世界中,玩家可以每秒 24 幀的速度實時導(dǎo)航,在 720p 分辨率下保持幾分鐘的一致性。

昨晚十點,谷歌 DeepMind 重磅宣布其 Genie 世界模型系列正式來到了第 3 代。

Genie 3 是我們突破性的世界模型,可以通過單個文本提示詞創(chuàng)建交互式、可玩的環(huán)境。從照片般逼真的風(fēng)景到奇幻的境界,可能性無窮無盡?!?/span>

圖片

據(jù)介紹,在 Genie 3 生成的動態(tài)世界中,玩家可以每秒 24 幀的速度實時導(dǎo)航,在 720p 分辨率下保持幾分鐘的一致性。

相比于前一代 Genie 2 世界模型、使用擴散模型的游戲生成引擎 GameNGen 以及視頻生成模型 Veo,最新的 Genie 3 在多個特性上都具有明顯優(yōu)勢。

圖片

比如,相比 Genie 2,最新一代 Genie 實現(xiàn)了分辨率的顯著提升,達到了實際可用的程度,同時還支持使用提示詞生成世界事件,并能維持數(shù)分鐘的一致性(DeepMind 將其稱為「交互視界」)。更重要的是,Genie 3 還能做到實時響應(yīng)。

而相比于專用于游戲生成的 GameNGen,Genie 3 更加通用,同時在分辨率等其它指標上都遠遠勝之。

最后與 Veo 3 對比,雖然 Genie 3 在分辨率這一點上還有不足,但在其它方面卻優(yōu)勢明顯。

Genie 3 一宣布就激起夸聲一片。

圖片

Genie 3 團隊的 Matt McGill 分享的「低頭看鞋子……看模型是否理解水坑是什么」的視頻更是引發(fā)了一片熱議——其真實感超乎想象。

一時間,風(fēng)頭甚至蓋過了近段時間來備受期待的 OpenAI 開源模型。

下面,我們來看看 Genie 3 生成的一些具體能力和案例。

Genie 3 的能力

作為最新前沿的世界模型,Genie 3 具備構(gòu)建一個完整世界的全部能力,并且能夠在較長時間范圍內(nèi)保證生成的世界連貫且可交互,其功能包括:

  • 模擬世界的物理屬性:展現(xiàn)自然現(xiàn)象如水與閃電,以及復(fù)雜的環(huán)境交互。
  • 模擬自然世界:生成充滿活力的生態(tài)系統(tǒng),從動物行為到復(fù)雜的植物生命。
  • 建模動畫和小說:激發(fā)想象力,創(chuàng)造奇幻場景和富有表現(xiàn)力的動畫角色。
  • 建模不同地點和歷史背景:超越地理和時間的界限,探索各地和歷史場景。

Prompt: Walking on a pavement in Florida next to a two-lane road from one side and the seaon the other, during an approaching hurricane, with strong wind and waves splashing over theroad. There is a railing on the left of the agent, separating them from the sea. The road goesalong the coast, with a short bridge visible in front of the agent. Waves are splashing over therailing and onto the road one after another. Palm trees are bending in the wind. There is heavyrain, and the agent is wearing a rain coat. Real world, first-person.

提示詞:在佛羅里達州的人行道上行走,一邊是雙向車道,另一邊是海洋,正值即將來臨的颶風(fēng),強風(fēng)和波浪拍打著路面。agent 的左側(cè)有一道欄桿,將其與海洋隔開。道路沿著海岸線延伸,agent 波浪接連不斷地拍打著欄桿,涌上路面。棕樹在風(fēng)中彎曲。大雨傾盆,agent 前方可見一座短橋。agent 穿著雨衣。真實世界,第一人稱。

Prompt: Real world tracking shot swimming through deep dimly lit ocean between deep oceacanyons, densely packed vast school of jellyfish swimming, bioluminescent lighting.

提示詞真實世界的追蹤鏡頭,在深邃昏暗的海洋中穿梭,穿過深海的峽谷,密集的大群水母在游動,生物發(fā)光照明。

Prompt: Being a lizard, origami style

提示詞:你是一只蜥蜴,折紙風(fēng)格

Prompt: Venice by Vaporetto. The canals of Venice are recreated with painstaking detall. Thewater has realistic reflections and wakes, The buildings show crumbling plaster and centuriesof weathering. The scene is populated with other gondolas, water taxis, and barges.

提示詞威尼斯的汽船。威尼斯的運河以精心細致的細節(jié)重新創(chuàng)造。水面有逼真的反射和波紋。建筑物顯示出剝落的灰泥和數(shù)百年的風(fēng)化。場景中還有其他貢多拉船、水上出租車和駁船。

實時響應(yīng)和長時間一致性

這一次 Genie 3 的進化最大的亮點在于實時響應(yīng)的用戶交互,以及能夠長達數(shù)分鐘的場景(三維)一致性。

為了實現(xiàn) Genie 3 在可控性和實時交互性方面的高水平表現(xiàn),谷歌在技術(shù)上取得了一系列的重大突破。

在每一幀的自回歸生成過程中,模型需要持續(xù)考慮隨著時間增長的軌跡信息。例如,當用戶在一分鐘后再次回到某個地點時,模型必須能夠回溯并引用一分鐘前生成的相關(guān)信息。

而要實現(xiàn)真正的實時交互,這種計算必須每秒多次完成,以便及時響應(yīng)不斷到來的用戶輸入。

為了讓 AI 生成的世界更具有沉浸感,環(huán)境在長時間尺度上必須保持物理一致性。然而,通過自回歸方式生成環(huán)境比一次性生成整段視頻在技術(shù)上要困難得多,因為誤差往往會隨時間逐步累積。

盡管面臨這一挑戰(zhàn),Genie 3 所生成的環(huán)境在數(shù)分鐘內(nèi)仍能保持高度一致性,其視覺記憶能力最遠可回溯至一分鐘前的畫面狀態(tài)。

圖片

建筑物左側(cè)的樹木在整個交互過程中保持一致,即使它們進出視野也是如此。

雖作為世界模型,Genie 3 本質(zhì)上仍是一個二維的圖像 / 視頻生成模型,與直接的三維場景生成具有顯著的區(qū)別。

簡單來說,Genie 3 的一致性是一種「涌現(xiàn)能力(emergent capability)」,能夠生成更加豐富,動態(tài),變化的世界,因為世界是基于世界描述和用戶動作逐幀生成的。

而其他基于三維模型的方法,如 NeRF 和 Gaussian Splatting,同樣可以生成具有一致性的可導(dǎo)航三維環(huán)境,但它們依賴于三維表示作為輸入,顯著限制了場景的豐富性。

可用提示詞生成世界事件

除了導(dǎo)航輸入外,Genie 3 還支持一種更具表現(xiàn)力的基于文本的交互形式,DeepMind 稱之為可提示的世界事件(promptable world events)。

可提示的世界事件能夠改變已經(jīng)生成的世界,例如改變天氣狀況或引入新的物體和角色,從而增強導(dǎo)航控制的體驗。

這種能力也能增加反事實(counterfactual)的廣度,即能讓玩家更自由暢想「如果這樣會怎樣」的場景。這些場景可以被 agent 根據(jù)學(xué)習(xí)過的經(jīng)驗來處理意外情況。

局限性

雖然 Genie 3 堪稱前所未有的世界模型,但局限性依然存在,具體包括:


  • 動作空間有限。盡管可提示的世界事件允許進行廣泛的環(huán)境干預(yù),但這些干預(yù)不一定由 agent 自身執(zhí)行。agent 可以直接執(zhí)行的動作范圍目前受到限制。
  • 其他 agent 的交互與模擬。在共享環(huán)境中準確建模多個獨立 agent 之間的復(fù)雜交互仍然很難。
  • 真實世界位置的準確表示。Genie 3 目前無法以完美的地理精度模擬真實世界位置。
  • 文本渲染。通常只有在輸入的世界描述中提供時,才能生成清晰易讀的文本。
  • 交互時間有限。目前 Genie 3 支持幾分鐘的連續(xù)交互,而非數(shù)小時。

未來值得期待

谷歌 DeepMind 也在博客中透露了他們對于 Genie 3 以及在世界模型這個研究方向上的未來計劃。

他們表示:「我們相信 Genie 3 是世界模型的重要時刻,它將開始對 AI 研究和生成式媒體等多個領(lǐng)域產(chǎn)生影響。為此,我們正在探索如何在未來讓更多測試者使用 Genie 3?!?/span>

他們預(yù)計 Genie 3 將為教育和培訓(xùn)創(chuàng)造新的機會,幫助學(xué)生學(xué)習(xí)和專家積累經(jīng)驗。比如,Genie 3 可以讓你探索古希臘的街道:

它不僅能提供廣闊的空間來訓(xùn)練機器人和自主系統(tǒng)等智能體,還能使評估智能體性能、探索其弱點成為可能。

比如在下面的視頻中,為了探索智能體訓(xùn)練的潛力,DeepMind 將 SIMA 智能體置于 Genie 3 世界中,并設(shè)定了目標。智能體會采取行動,Genie 3 能在不知道目標的情況下模擬該世界中的響應(yīng)。這對于構(gòu)建更強大的具身智能體至關(guān)重要。

從 2018 年的 GQN 到如今的 Genie 3,世界模型,或者如 DeepMind 研究副總裁、深度學(xué)習(xí)領(lǐng)導(dǎo)者 Oriol Vinyals 說的「神經(jīng)視頻游戲」,已經(jīng)實現(xiàn)了令人難以置信的進化。

圖片

或許未來,谷歌真的能造出《星際迷航》中的全息甲板!

圖片

DeepMind CEO、諾獎得主 Demis Hassabis 的推文

圖片

對于 Genie 3 世界模型,你有什么看法?

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2009-06-24 17:39:07

TeamDefine

2023-09-11 00:14:46

后端團隊項目

2009-10-09 23:03:45

2025-03-13 10:29:17

模型奧特曼AI

2011-07-21 21:01:37

諾基亞塞班蘋果

2025-08-18 01:00:00

2021-12-20 10:15:16

zip密碼命令網(wǎng)絡(luò)安全

2017-03-22 15:38:28

代碼架構(gòu)Java

2025-06-23 09:10:00

2013-12-11 08:47:14

Anki Drive賽車游戲

2023-09-26 13:33:27

AI自動駕駛

2025-02-19 09:34:01

2023-09-21 09:59:46

AI模型

2025-08-11 09:21:00

2019-10-31 14:10:35

大數(shù)據(jù)人工智能工具

2020-07-07 14:15:25

Go代碼數(shù)據(jù)

2015-04-28 15:31:09

2015-11-26 09:51:57

OpenShift 3Docker開源PaaS

2010-01-18 08:51:35

Java SE 6

2022-08-15 08:16:56

shiroWeb認證
點贊
收藏

51CTO技術(shù)棧公眾號