刷屏了!Genie 2開啟文生游戲時(shí)代,可交互的世界模型震撼登場(chǎng)!背后團(tuán)隊(duì)曝光;12天直播能否截胡老對(duì)手
編輯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
AI公司年底要沖業(yè)績(jī)了!
一覺醒來(lái),OpenAI宣布了未來(lái)12天的直播活動(dòng),而老對(duì)手谷歌直接發(fā)布了Genie 2,宣布在世界模型方面又邁出重要一步!
圖片
但,至少今天是谷歌更勝一籌——Genie 2是在太令人印象深刻了!用Google DeepMind首席執(zhí)行官Demis Hassabis話來(lái)說(shuō):“世界模型正在成形?!?/p>
圖片
給 Genie 2 一張照片,它給你一個(gè)可以交互的世界!
無(wú)論是創(chuàng)造一個(gè)飛船上的游戲世界,還是想變身行走在未來(lái)世界的機(jī)器人,都立馬能安排,想玩什么自己點(diǎn)!
Genie 2 即時(shí)生成新內(nèi)容的時(shí)間也大幅擴(kuò)展了,足足給了一分鐘!
圖片
可以看到,Genie 2生成的虛擬世界交互邏輯非常絲滑。
不僅如此,人類和AI Agents(DeepMind推出的游戲代理SIMA)都可以參與,以后不愁具身智能沒有地方訓(xùn)練了。
“Genie 2 能夠讓未來(lái)的 Agents 在無(wú)限制的新穎世界課程中進(jìn)行訓(xùn)練和評(píng)估。這項(xiàng)研究也為原型化互動(dòng)體驗(yàn)的新型創(chuàng)意工作流程鋪平了道路,”Google DeepMind在其博客文章中寫到。
Genie 2 不只讓我們看到了“大模型沒有撞墻”一個(gè)有力論據(jù),也看到了谷歌搶先一個(gè)身位通向AGI的可能!
1.世界模型正在成形
在前版Genie 1的基礎(chǔ)上,Genie 2從2D環(huán)境的擴(kuò)展到了3D。Genie 2基于大規(guī)模視頻數(shù)據(jù)集訓(xùn)練,采用自回歸潛在擴(kuò)散技術(shù),根據(jù)用戶動(dòng)作逐幀生成畫面。
Genie 2全新的交互讓我們看到了世界模型的雛形:模擬物理交互、建模復(fù)雜動(dòng)畫、創(chuàng)建具有真實(shí)物理特性、光照效果和物體交互的環(huán)境。
比起AI視頻所展示的,我們會(huì)感覺到Genie 2更懂這個(gè)世界了。來(lái)點(diǎn)案例看看:
槍響之后,油罐桶會(huì)爆炸:
模型對(duì)于重力的領(lǐng)悟,汽車是會(huì)墜落懸崖的:
汽車駛?cè)胨范?,輪胎后被激起的水花?/p>
還有各種場(chǎng)景下的煙霧、光照、屋里鏡子的反光隨著視角的變化,都能感受到Genie 2的突破!
2.Genie 2的世界:人類和 AI 都能參與
我們?cè)?月份介紹過(guò),來(lái)自DeepMind的游戲“搭子”SIMA,一個(gè)從多個(gè)3D游戲中訓(xùn)練的AI Agent。
能完成600項(xiàng)基本游戲操作的SIMA,也在Genie 2中挑戰(zhàn)了一把,再次展現(xiàn)了高水平的泛化能力。
領(lǐng)導(dǎo)Genie 2項(xiàng)目的 Jack Parker-Holder 說(shuō), 他們使用了Genie 2創(chuàng)建了一個(gè)神秘“三拱門”場(chǎng)景,然后使用Prompt控制AI進(jìn)入哪個(gè)通道,然后取得了成功!
圖片
也就是說(shuō),SIMA證明了,AI在這個(gè)虛擬世界,是能夠遵循語(yǔ)言指令,進(jìn)行各種訓(xùn)練的!
Genie 2生成的無(wú)限世界,多樣性和復(fù)雜性可以拉滿,Agents缺少培訓(xùn)場(chǎng)景的問(wèn)題大大解決了。而且Genie 2本身也可以使用真實(shí)照片做場(chǎng)景,工廠、農(nóng)田、礦場(chǎng)等等場(chǎng)地都可以一鍵生成,讓AI為迎接現(xiàn)實(shí)世界的復(fù)雜性做足準(zhǔn)備。
值得一提的是,Genie 2 人類和AI都能操作的模式,可能會(huì)在未來(lái)實(shí)現(xiàn)共同的操作和交互。甚至能徹底改變我們測(cè)試和完善人工智能系統(tǒng)的方式,將人類的創(chuàng)造力與人工智能解決問(wèn)題的可能性在虛擬世界中進(jìn)行融合。
3.Genie 2的兩位領(lǐng)導(dǎo)者
領(lǐng)導(dǎo)Genie 2項(xiàng)目的 Jack Parker-Holder,在谷歌已經(jīng)工作了兩年半的時(shí)間。
圖片
他非??粗谿enie 2在具身智能訓(xùn)練上的潛力。
這也和他寫在簡(jiǎn)介中的目標(biāo)高度一致:“我的目標(biāo)是設(shè)計(jì)出永不停止生產(chǎn)新的有趣事物的系統(tǒng)......也許甚至是 AGI:)”。
圖片
Genie 2的技術(shù) leader是Stephen Spencer。Spencer 于 2018 年 6 月加入 DeepMind 擔(dān)任研究科學(xué)家,22年合作發(fā)表的重要論文《通過(guò)算法蒸餾進(jìn)行上下文強(qiáng)化學(xué)習(xí)》,被引用超百次。
圖片
4.寫在最后:OpenAI如何應(yīng)戰(zhàn)?
OpenAI能否截胡成功?
還是很有可能!畢竟是12天活動(dòng)的狂轟亂炸!
而且大家紛紛猜測(cè)Sora是不是要廣泛可用了,也算我們這一整年度的期待有了一個(gè)尾聲。
畢竟,作為實(shí)驗(yàn)室的Deepmind,所發(fā)布的Genie 2還遠(yuǎn)遠(yuǎn)不是一個(gè)產(chǎn)品形態(tài)。如果OpenAI能給用戶更多開箱即用的魔法,勢(shì)必會(huì)在這個(gè)年尾獲得更多的關(guān)注。
網(wǎng)友對(duì)Genie 2的評(píng)價(jià):雖然這令人印象深刻,但看起來(lái)仍像是一個(gè)非常早期的原型。從整體上看,它似乎并不是一個(gè)獨(dú)立的產(chǎn)品,而是面向通用代理的更廣泛研發(fā)項(xiàng)目的一部分...... 我甚至懷疑他們是否已經(jīng)為這個(gè)項(xiàng)目建立了任何生產(chǎn)化的建模管道,而且可以肯定的是,我們不會(huì)在短期內(nèi)獲得開放的訪問(wèn)權(quán)限。
圖片
那么,OpenAI可能發(fā)布什么呢?
GPT-5、Sora、o1-full是呼聲最高的系列了。
在評(píng)論區(qū)有人一本正經(jīng)的在做推測(cè),而有人直接把畫風(fēng)切換到了2045年。
圖片
圖片
12天的活動(dòng),營(yíng)銷鬼才奧特曼到底能給我們帶來(lái)多少干貨,值得拭目以待!
永遠(yuǎn)面向未來(lái)的奧特曼,已經(jīng)在做明年的劇透了,他對(duì)《紐約時(shí)報(bào)》說(shuō):2025年的AI系統(tǒng)將讓我們驚掉下巴。
圖片
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)
