李飛飛空間智能首秀:AI靠單圖生成3D世界,可探索,遵循基本物理幾何規(guī)則
就在剛剛,李飛飛空間智能首個(gè)項(xiàng)目突然發(fā)布:
僅憑借1張圖,就能生成一個(gè)3D游戲世界的AI系統(tǒng)!

重點(diǎn)在于,生成的3D世界具有交互性。
能夠像玩游戲那樣,自由地移動相機(jī)來探索這個(gè)3D世界,淺景深、希區(qū)柯克變焦等操作均可行。

隨便輸入一張圖:

除了這張圖本體,可探索的3D世界里,所有東西都是AI生成的:

這些場景在瀏覽器中實(shí)時(shí)渲染,配備了可控的攝像機(jī)效果和可調(diào)節(jié)的模擬景深(DoF)。

你甚至可以改變其中物體顏色,動態(tài)調(diào)整背景光影,在場景中插入其他對象。



此外,之前大多數(shù)生成模型預(yù)測的是像素,而這個(gè)AI系統(tǒng)直接預(yù)測3D場景。
所以場景在你移開視線再回來時(shí)不會發(fā)生變化,并且遵循基本的3D幾何物理規(guī)則。

網(wǎng)友們直接炸開鍋,評論區(qū)“難以置信”一詞直接刷屏。

其中不乏Shopify創(chuàng)始人Tobi Lutke等知名人士點(diǎn)贊:

還有不少網(wǎng)友認(rèn)為這直接為VR打開了新世界。

官方則表示“這僅僅是3D原生生成AI未來的一個(gè)縮影”:
我們正在努力盡快將這項(xiàng)技術(shù)交到用戶手中!

李飛飛本人也第一時(shí)間分享了這項(xiàng)成果并表示:
無論怎么理論化這個(gè)想法,用語言很難描述通過一張照片或一句話生成的3D場景互動的體驗(yàn),希望大家喜歡。

目前候補(bǔ)名單申請已開啟,有內(nèi)容創(chuàng)作者已經(jīng)用上了。
羨慕的口水不爭氣地從眼角落了下來。

Beyond the input image
發(fā)布一個(gè)從單張圖片生成3D世界的AI系統(tǒng)。
Beyond the input image, all is generated。
而且是輸入任何圖片。
而且是能夠互動的3D世界——用戶可以通過W/A/S/D鍵來控制上下左右視角,或者用鼠標(biāo)拖動畫面來逛這個(gè)生成的世界。
官網(wǎng)博文中放了很多個(gè)可以試玩的demo。
這次真的推薦大家都去試玩一下,上手體驗(yàn)和看視頻or動圖的感受非常的不一樣。
(直通車按慣例,放在文末)

好,問題來了,這個(gè)AI系統(tǒng)生成的3D世界還有什么值得探究的細(xì)節(jié)之處?
攝影機(jī)效果
World Labs表示,一旦生成,這個(gè)3D世界就會在瀏覽器中實(shí)時(shí)渲染,給人的感覺跟在看一個(gè)虛擬攝像頭似的。
而且,用戶能夠精準(zhǔn)地控制這個(gè)攝像頭。
所謂“精準(zhǔn)控制”,有2種玩法,
一是能夠模擬景深效果,也就是只能清晰對焦距離相機(jī)一定距離的物體。

二是能模擬滑動變焦(Dolly Zoom),也就是電影拍攝技巧中非常經(jīng)典的希區(qū)柯克變焦。
它的特點(diǎn)是“鏡頭中的主體大小不變,而背景大小改變”。
很多驢友去西藏、新疆玩兒的時(shí)候都希望用希區(qū)柯克變焦拍視頻,有很強(qiáng)的視覺沖擊力。
在World Labs展示中,效果如下(不過在這個(gè)玩法里,沒辦法控制視角):

3D效果
World Labs表示,大多數(shù)生成模型預(yù)測的都是像素,與它們不同,咱這個(gè)AI預(yù)測的是3D場景。
官方博文羅列了三點(diǎn)好處:
第一,持久現(xiàn)實(shí)。
一旦生成一個(gè)世界,它就會一直存在。
不會因?yàn)槟憧聪騽e的視角,再看回來,原視角的場景就會改變了。
第二,實(shí)時(shí)控制。
生成場景后,用戶可以通過鍵盤或鼠標(biāo)控制,實(shí)時(shí)在這個(gè)3D世界暢游移動。
你甚至可以仔細(xì)觀察一朵花的細(xì)節(jié),或者在某個(gè)地方暗中觀察,用上帝視角注意這個(gè)世界的一舉一動。
第三,遵循正確的幾何規(guī)則。
這個(gè)AI系統(tǒng)生成的世界,是遵守3D集合物理基本規(guī)則的。
某些AI生成的視頻,雖然效果很夢核,但可沒有咱的這種深度的真實(shí)感喲(doge)。
官方博文中還寫道,創(chuàng)造一個(gè)可視化3D場景,最簡單的辦法是繪制深度圖。
圖中每個(gè)像素的顏色,都是由它和攝像頭的距離來決定的。

當(dāng)然了,用戶可以使用3D場景結(jié)構(gòu)來構(gòu)建互動效果——
單擊就能與場景互了,包括但不限于突然給場景打個(gè)聚光燈。

動畫效果?
那也是so easy啦。

走進(jìn)繪畫世界
團(tuán)隊(duì)還玩兒了一把,以“全新的方式”體驗(yàn)一些經(jīng)典的藝術(shù)作品。
全新,不僅在于可互動的交互方式,還在于就靠輸入進(jìn)去的那一張圖,就能補(bǔ)全原畫里沒有的部分。
然后變成3D世界。
這是梵高的《夜晚露天咖啡座》:

這是愛德華·霍普的《夜行者》:

創(chuàng)造性的工作流
團(tuán)隊(duì)表示,3D世界生成可以非常自然地和其它AI工具相結(jié)合。
這讓創(chuàng)作者們可以用他們已經(jīng)用順手的工具感受新的工作流體驗(yàn)。
舉個(gè)栗子:
可以先用文生圖模型,從文本世界來到圖像世界。
因?yàn)椴煌P陀懈髯陨瞄L的風(fēng)格特點(diǎn),3D世界可以把這些風(fēng)格遷徙、繼承過來。
在同一prompt下,輸入不同風(fēng)格的文生圖模型生成的圖片,可以誕生不同的3D世界:
一個(gè)充滿活力的卡通風(fēng)格青少年臥室,床上鋪著五彩斑斕的毯子,桌子上雜亂地?cái)[放著電腦,墻上掛著海報(bào),散落著運(yùn)動器材。一把吉他靠在墻上,中間鋪著一塊舒適的花紋地毯。窗戶透進(jìn)的光線給房間增添了一絲溫暖和青春的氣息。
World Labs和空間智能
“World Labs”公司,由斯坦福大學(xué)教授、AI教母李飛飛在今年4月創(chuàng)立。
這也是她被曝出的首次創(chuàng)業(yè)。
而她的創(chuàng)業(yè)方向是一個(gè)新概念——空間智能,即:
視覺化為洞察;看見成為理解;理解導(dǎo)致行動。
在李飛飛看來,這是“解決人工智能難題的關(guān)鍵拼圖”。

只用了3個(gè)月時(shí)間,公司就突破了10億美元估值,成為新晉獨(dú)角獸。
公開資料顯示,a16z、NEA和Radical Ventures是領(lǐng)投方,Adobe、AMD、Databricks,以及老黃的英偉達(dá)也都在投資者之列。
個(gè)人投資者中也不乏大佬:Karpathy、Jeff Dean、Hinton……
今年5月,李飛飛有一場公開的15分鐘TED演講。
她洋洋灑灑,分享了對于空間智能的更多思考,要點(diǎn)包括:
- 視覺能力被認(rèn)為引發(fā)了寒武紀(jì)大爆發(fā)——一個(gè)動物物種大量進(jìn)入化石記錄的時(shí)期。最初是被動體驗(yàn),簡單讓光線進(jìn)入的定位,很快變得更加主動,神經(jīng)系統(tǒng)開始進(jìn)化……這些變化催生了智能。
 - 多年來,我一直在說拍照和理解不是一回事。今天,我想再補(bǔ)充一點(diǎn):僅僅看是不夠的???,是為了行動和學(xué)習(xí)。
 - 如果我們想讓AI超越當(dāng)前能力,我們不僅想要能夠看到和說話的AI,我們還想要能夠行動的AI。空間智能的最新里程碑是,教計(jì)算機(jī)看到、學(xué)習(xí)、行動,并學(xué)習(xí)看到和行動得更好。
 - 隨著空間智能的加速進(jìn)步,一個(gè)新時(shí)代在這個(gè)良性循環(huán)中正在我們眼前展開。這種循環(huán)正在催化機(jī)器人學(xué)習(xí),這是任何需要理解和與3D世界互動的具身智能系統(tǒng)的關(guān)鍵組成部分。
 
據(jù)報(bào)道,該公司的目標(biāo)客戶包括視頻游戲開發(fā)商和電影制片廠。除了互動場景之外,World Labs還計(jì)劃開發(fā)一些對藝術(shù)家、設(shè)計(jì)師、開發(fā)人員、電影制作人和工程師等專業(yè)人士有用的工具。
如今伴隨著空間智能首個(gè)項(xiàng)目的發(fā)布,他們要做的事也逐漸具象化了起來。
但World Labs表示,目前發(fā)布的只是一個(gè)“早期預(yù)覽”:
我們正在努力改進(jìn)我們生成的世界的規(guī)模和逼真度,并嘗試新的方式讓用戶與之互動。
參考鏈接:
[1]https://www.worldlabs.ai/blog。
[2]https://mp.weixin.qq.com/s/3MWUv3Qs7l-Eg9A9_3SnOA?token=965382502&lang=zh_CN。
[3]https://x.com/theworldlabs/status/1863617989549109328。















 
 
 



















 
 
 
 