偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<var id="rapzd"></var>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

剛剛！谷歌內(nèi)部揭秘Genie 3：Sora后最強AI爆款，開啟世界模型新時代

作者：新智元 2025-08-18 01:00:00

Genie 3來了！這或許是最接近「模擬世界」的AI魔法。只需一句話，它就能生成一個動態(tài)、可互動的世界——角色能互動、下水會濺起水花，甚至還能記住一分鐘前的細節(jié)。DeepMind研究者直言：Genie 3是通向AGI的關(guān)鍵一步。

Genie 3是有史以來最先進的世界模型之一。

僅通過文本，它能夠?qū)崟r生成完全互動、高度一致的世界。

它不僅是DeepMind積累的結(jié)晶，還是通向AGI和具身智能體的關(guān)鍵一步。

但Genie 3是如何構(gòu)建的？未來的世界模型又是什么樣？

剛剛，谷歌DeepMind的研究科學(xué)家Jack Parker-Holder和研究總監(jiān)Shlomi Fruchter，在a16z的訪談中，分享了他們的觀點。

圖片

這次對話提供了對Genie 3的第一手洞察。

主持人Justine Moore發(fā)推表示：「Genie 3在網(wǎng)絡(luò)上引發(fā)熱潮」。

圖片

他總結(jié)了深入探討的要點：

Genie3是由兩個DeepMind項目（Veo 2和Genie 2）合作完成的成果。
實時、互動的世界模型有很多潛在應(yīng)用。
但應(yīng)用并不是推動研究的主要動力——它們是從用戶使用模型的過程中自然涌現(xiàn)出來的。
Genie 3可以保留最長達一分鐘的空間記憶。
物理規(guī)律是模型的「自然產(chǎn)物」，并會隨著訓(xùn)練數(shù)據(jù)的規(guī)模和深度而不斷提升。
目前還沒有一個「終極模型」能夠同時具備Veo 3和Genie 3的所有能力。

圖片

Genie 3：AI新魔法

如果說LLM的原生圖像編輯功能，「動動嘴PS」是「言出法隨」，那Genie 3這次的新特性叫什么？

只需輸入文本提示，Genie 3即可生成動態(tài)世界。用戶可以實時進行探索，每秒高達24幀，分辨率為720p。

十多年來，谷歌DeepMind一直致力于模擬環(huán)境的研究。

Genie 3是他們最新最強的「世界模型」，是通向通用人工智能（AGI）的關(guān)鍵一步，因為它能讓AI智能體在無限豐富的模擬環(huán)境中進行訓(xùn)練。

去年，他們推出了首批基礎(chǔ)世界模型Genie 1和Genie 2，它們能為智能體生成全新的環(huán)境。此外，他們還通過Veo 2和Veo 3等視頻生成模型，不斷提升對直觀物理的理解能力。

這些模型在世界模擬的不同能力上都取得了進展。Genie 3是谷歌首個支持實時交互的世界模型，同時提升了一致性和真實感。

圖片

在生成視頻時長、世界一致性、內(nèi)容的多樣性、特殊記憶等多個方面，Genie 3都實現(xiàn)了突破。

圖片

它甚至可以讓個人創(chuàng)造自己的游戲世界、訓(xùn)練強化學(xué)習(xí)的智能體、機器人研究等。

所有這些應(yīng)用基本上都源于一個核心能力：只用幾句話就能生成一個完整的世界。

最關(guān)鍵的新特性是：特殊記憶。

比如：一個角色拿著刷子在墻上刷漆，然后他移動到墻的另一邊去刷，接著又回到原來的位置，結(jié)果之前刷的痕跡還在。

特殊記憶（special memory）是DeepMind團隊有意設(shè)計的目標，但最終的效果好得出乎意料。

即便是參與Genie 3的內(nèi)部成員，第一次看到上面刷墻的示例時也不敢相信，需要再三觀看、逐幀檢查，才確定這真的是模型生成的。

圖片

Genie 3的一致性非常高：建筑物左側(cè)的樹木在整個交互過程中始終保持一致，即使它們時而進入視野時而消失

其實，Genie 2就已經(jīng)具備了一些「記憶能力」。但當(dāng)時，整個AI界太多令人激動的模型發(fā)布，比如Veo 2模型幾天后也發(fā)布了。而且，當(dāng)時谷歌主打的賣點是「可以生成新的世界」，所以記憶能力就沒被強調(diào)出來。

到了Genie 3，在「記憶」上，谷歌DeepMind下了更大的決心，明確地把「增強記憶能力」作為核心目標之一。

當(dāng)時設(shè)定的目標是：

超過一分鐘的記憶
支持「實時生成」
還能提升「分辨率」

其實，這幾個目標本身是互相矛盾的，但谷歌無所畏懼。

說實話，直到項目快結(jié)束時，在看到最終樣本的那一刻，他們依然感到震撼。這種成果即使是預(yù)期中的，真的實現(xiàn)的時候還是非常令人興奮。畢竟，研究項目永遠不會有百分百的確定性。

在設(shè)計上，他們還有一個明確的方向，就是不采用「顯式表示法」。市面上已有一些方法，比如用NeRF或Gaussian Splatting等技術(shù)，通過構(gòu)建明確的3D世界結(jié)構(gòu)，來達到一致性。這些方法很好，在某些應(yīng)用上效果不錯。

但他們堅持讓模型「逐幀生成」，這種方式對模型的泛化能力、適應(yīng)多樣世界的能力更有幫助。

智能涌現(xiàn)，驚喜不斷

就像其他生成式模型一樣，隨著Scaling，效果確實會提升，這已經(jīng)不是什么秘密了。

盡管不如語言模型在推理能力上的涌現(xiàn)表現(xiàn)，Genie 3依然涌現(xiàn)出一些令人驚訝的行為。比如說，如果一個角色靠近一扇門，模型可能就會「推測」角色應(yīng)該打開門；這類符合人類直覺的行為，模型現(xiàn)在能在一定程度上表現(xiàn)出來了。

還有就是對語言的理解在不斷變好，生成的內(nèi)容也越來越真實，視覺效果更自然。

從Genie 2到Genie 3的提升非常明顯，特別是在「模擬現(xiàn)實世界能力」上有巨大飛躍。

比如物理效果的表現(xiàn)——像水的模擬、光照的變化，都非常驚艷。

現(xiàn)在已經(jīng)到了一個地步，哪怕是非專業(yè)人士，看了之后也會覺得是真實拍攝的視頻。??

這太驚人了。而在Genie 2時代，模型雖然大致能表現(xiàn)出物體該有的行為，但你還是一眼能看出「這是AI生成的，不是真的」。

現(xiàn)在的視頻真假難辨，進步真的很大了。

在「地形多樣性」問題：比如模型需要理解在沙地上行走、在下坡滑雪、在水中游泳，這些動作和物理反饋應(yīng)該是不一樣的。

谷歌團隊發(fā)現(xiàn)這些行為很多都是規(guī)模和數(shù)據(jù)廣度所帶來的「涌現(xiàn)能力」。

換句話說，他們并沒有為這些行為做專門的訓(xùn)練或設(shè)計，而是模型自己「學(xué)」出來的。它通過足夠豐富的訓(xùn)練數(shù)據(jù)，掌握了這個「世界」的通用常識。大多數(shù)時候，它表現(xiàn)非常不錯。

比如下面的例子：

在滑雪時，角色在下坡時速度會變快，而試圖上坡時就會變慢，甚至爬不上去；

下水后，角色一般會開始游泳或濺起水花；

靠近水坑時，模型通常也會讓角色穿上雨靴。

這些行為都非常自然，和人類對真實世界的理解非常一致，而這些都是模型自己學(xué)會的，真的讓人覺得像魔法一樣。

這里還有一個有趣的權(quán)衡：既能保持世界的「物理一致性」，同時也能忠實地執(zhí)行用戶的提示詞。

對視頻模型來說，「低概率事件」本來很難，但Genie 3依然能有不錯的表現(xiàn)。

這正是它的魅力所在：

即便是一些現(xiàn)實中不太可能發(fā)生的場景，Genie 3也能讓你如臨其境，而不是僅僅生成一個和你身邊環(huán)境一樣的無聊視頻。

在「指令跟隨/文本對齊」，Genie 3也得到了提升，這主要得益于DeepMind內(nèi)部不同項目（特別是Veo項目）的經(jīng)驗遷移和知識共享。這種跨團隊協(xié)作是DeepMind的優(yōu)勢。

世界模型是讓智能體走向現(xiàn)實世界最快的路徑。Genie 3朝著這個目標邁出了一大步。

那Genie 4、Genie 5的新特性有哪些設(shè)想？

未來的關(guān)鍵真實感和交互性

但總的來說，Genie 3團隊最關(guān)注的始終是一件事：讓模型本身變得盡可能強大，讓它能產(chǎn)生更廣泛的影響，然后把創(chuàng)造應(yīng)用的機會交給其他團隊。

他們表示最終會開放Genie 3模型。

未來確實讓人特別興奮，但也必須承認，世界模型距離真正「準確模擬現(xiàn)實世界」還有很大差距。

比如，把一個人放進生成的世界里，讓他隨心所欲地做任何事情，我們還遠遠做不到。

還有很多工作要做，才能讓虛擬世界的真實感和自由度接近現(xiàn)實。

應(yīng)用還有很多，關(guān)鍵在于能否準確模擬世界，并把人放進其中。也許還能從「第三視角」觀察自己，或者與虛擬智能體互動。

他們還透露真實感和交互性是未來的關(guān)鍵。

現(xiàn)在機器人領(lǐng)域最大的瓶頸之一就是數(shù)據(jù)：能收集到的數(shù)據(jù)非常有限。

而Genie 3能生成幾乎無限的場景，這樣一來機器人就能在虛擬世界里學(xué)習(xí)，而不再局限于現(xiàn)實中能采集到的視頻。這個想法真的很令人興奮。

最后一個問題：人類是不是生活在某種模擬中？

這個問題被問過很多次，得到了「哲學(xué)化」的回答：如果真是模擬，那它運行在完全不同的硬件之上

如果人類真的生活在一個模擬世界里，那它絕對不是運行在現(xiàn)在的硬件上的。因為我們的世界是連續(xù)的，而不是數(shù)字化的。

所有的感知都是連續(xù)的信號。

也許，在量子層面會有一些「硬件限制」，但至少和我們現(xiàn)在的計算機完全不同。

或許未來量子計算機，才是運行我們這個模擬世界的真正平臺。

參考資料：

https://www.youtube.com/watch?v=tWgjhC7dJRo

https://x.com/Mascobot/status/1956769541759094859

https://supersonic.video/tWgjhC7dJRo

https://x.com/venturetwins/status/1956769043668725919

責(zé)任編輯：武曉燕來源：新智元

谷歌 Genie 3 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="lnpdp"><span id="lnpdp"></span></blockquote>