斯坦福李飛飛團(tuán)隊(duì),帶你一句話進(jìn)入無(wú)限3D世界
斯坦福大學(xué)的李飛飛教授,又帶著她的新成果來(lái)“砸場(chǎng)子”了。

只用一張圖,甚至一句話,就能直接生成一個(gè)可以讓你在里面“逛街”的3D世界。不是圖片,也不是視頻,而是一個(gè)活生生的、可以自由探索、永久存在的3D虛擬空間。
這讓還在2D圖像和視頻生成領(lǐng)域“內(nèi)卷”的同行們,感受到了來(lái)自學(xué)術(shù)界頂流的“物理暴擊”。標(biāo)志著生成式AI已經(jīng)悄然完成了從“畫畫”到“蓋樓”的進(jìn)化,從一個(gè)二維平面畫師,進(jìn)化成了一個(gè)三維空間造物主。
World Labs在他們官方博客說(shuō),“We are building Large World Models to perceive, generate, and interact with the 3D world.”(我們正在構(gòu)建大型世界模型,讓AI能夠感知、生成并與3D世界交互)。

李飛飛團(tuán)隊(duì)是如何把它從科幻電影里搬進(jìn)現(xiàn)實(shí)的?它背后的技術(shù)有多硬核?又將如何掀翻游戲、電影、元宇宙這些行業(yè)的桌子?
從ImageNet到世界模型,李飛飛的“三界”野望
十幾年前,那個(gè)夢(mèng)開始的地方,李飛飛一手締造了AI“龍興之地”——ImageNet。
在那個(gè)深度學(xué)習(xí)還只是少數(shù)幾位學(xué)者腦中火花的年代,是李飛飛頂著巨大的壓力和質(zhì)疑,主導(dǎo)創(chuàng)建了這個(gè)擁有超過(guò)1400萬(wàn)張標(biāo)注圖像的龐大數(shù)據(jù)集。正是這個(gè)“軍火庫(kù)”,為后來(lái)深度學(xué)習(xí)模型的訓(xùn)練提供了充足的“彈藥”,直接點(diǎn)燃了現(xiàn)代AI革命的導(dǎo)火索。毫不夸張地說(shuō),李飛飛用ImageNet,為機(jī)器打開了“看懂”二維世界的大門,是名副其實(shí)的AI視覺(jué)智能奠基人。
對(duì)于李飛飛這樣的頂尖科學(xué)家來(lái)說(shuō),讓機(jī)器“看懂”世界,僅僅是萬(wàn)里長(zhǎng)征的第一步。她的目光,早已越過(guò)了屏幕上的2D像素點(diǎn),投向了我們所生存的、更加復(fù)雜、更加真實(shí)的三維物理世界。
在多個(gè)公開場(chǎng)合,一個(gè)觀點(diǎn)被她反復(fù)提及,并被多家權(quán)威媒體廣泛引用:“Spatial intelligence is the next frontier in AI”(空間智能是AI的下一個(gè)前沿)。
意思就是,AI的下一站,不是寫詩(shī)更溜,也不是畫畫更像,而是要真正理解我們這個(gè)三維空間,能在里面進(jìn)行推理、互動(dòng),甚至創(chuàng)造。這已經(jīng)不是簡(jiǎn)單的“看”,而是要進(jìn)階到“理解”和“行動(dòng)”的層面了。
恰逢其時(shí),“世界模型”(world model)開始在AI研究的前沿陣地嶄露頭角。世界模型的目標(biāo),就是教AI在自己的“腦子”里,構(gòu)建一個(gè)能夠模擬現(xiàn)實(shí)世界運(yùn)行規(guī)律的虛擬空間。這個(gè)模型不僅要知道“桌子上有一個(gè)蘋果”,還要知道“蘋果從桌子上掉下來(lái)會(huì)往下落,而不是往上飛”,它要理解物理法則、時(shí)間序列和因果關(guān)系。這和我們熟悉的2D圖像模型,有著本質(zhì)的區(qū)別。后者更像是一個(gè)才華橫溢的畫家,你說(shuō)啥它畫啥,但畫出來(lái)的東西是靜止的、平面的。而世界模型,則更像是一個(gè)“造物主”,它要?jiǎng)?chuàng)造的是一個(gè)動(dòng)態(tài)的、可交互的、符合物理邏輯的“小宇宙”。
科技巨頭們也紛紛下場(chǎng),試圖搶占這個(gè)未來(lái)高地。比如,谷歌就搞出了一個(gè)叫Genie的模型,Decart公司也有一個(gè)叫Oasis的項(xiàng)目。但它們生成的場(chǎng)景,普遍存在一個(gè)致命缺陷——“健忘癥”。就像《初戀50次》的男主角,每天醒來(lái)都失憶,這些模型生成的場(chǎng)景,你稍微挪動(dòng)一下視角,它可能就忘了剛才背后是啥樣了,導(dǎo)致幾何結(jié)構(gòu)前后矛盾,物體忽有忽無(wú)。交互性也差得可憐。
而李飛飛團(tuán)隊(duì)Marble要做的,是一個(gè)不僅“記得住”,而且“隨便逛”,還能“動(dòng)手改”的真正世界模型。
揭秘Marble:把科幻照進(jìn)現(xiàn)實(shí)的“魔法”
根據(jù)World Labs官方博客的“產(chǎn)品說(shuō)明書”,Marble平臺(tái)的看家本領(lǐng),就是把一張靜態(tài)的圖片或者一段描述性的文字,像變魔術(shù)一樣,變成一個(gè)完整的、可供探索的3D世界。
首先是“持久存在”。這一點(diǎn)至關(guān)重要,也是它吊打一眾前輩的核心優(yōu)勢(shì)。傳統(tǒng)的視頻生成模型,本質(zhì)上是一幀一幀地“猜”,所以經(jīng)常出現(xiàn)前后幀物體不一致的“穿幫鏡頭”。而Marble生成的3D場(chǎng)景,一旦構(gòu)建完成,就擁有了“肌肉記憶”,它是一個(gè)完整的幾何實(shí)體,無(wú)論你的視線怎么移動(dòng),甚至繞到物體的背后,場(chǎng)景都會(huì)保持其固有的結(jié)構(gòu),不會(huì)憑空消失或變形。這種“所見即所得,所不見亦存在”的特性,才是一個(gè)真正虛擬世界該有的樣子。
第二是“可自由導(dǎo)航”。用戶不再是被動(dòng)地觀看一段預(yù)設(shè)好的視頻,而是可以像玩第一人稱游戲一樣,用鍵盤和鼠標(biāo),在瀏覽器里實(shí)時(shí)操控自己的視角,上天入地,穿梭于場(chǎng)景的每一個(gè)角落。你可以湊近一朵花,看清它的紋理;也可以飛到屋頂,俯瞰整個(gè)庭院的全貌。它甚至能“腦補(bǔ)”出你上傳的那張圖片里沒(méi)有拍到的部分,讓你真正有一種“身臨其境”的探索感。
第三是“可自定義操控”。Marble提供的不僅僅是一個(gè)靜態(tài)的“毛坯房”,還給用戶提供了一套“精裝修”工具。你可以像攝影師一樣,實(shí)時(shí)調(diào)整景深(DoF),營(yíng)造出電影般的虛化效果;也可以像室內(nèi)設(shè)計(jì)師一樣,隨心所欲地改變場(chǎng)景中物體的顏色;甚至還能扮演“燈光師”,調(diào)整動(dòng)態(tài)光照,觀察光影在不同角度下的變化。這種高度的交互性,讓創(chuàng)作的自由度大大提升。
不僅如此,Marble還是個(gè)“風(fēng)格大師”。無(wú)論你想要的是色彩明快的卡通風(fēng),還是細(xì)節(jié)逼真的寫實(shí)風(fēng),抑或是光怪陸離的賽博朋克風(fēng),它都能精準(zhǔn)拿捏,生成高質(zhì)量的場(chǎng)景。更厲害的是,它還支持“場(chǎng)景拼接”功能。這意味著你可以先生成一個(gè)森林,再生成一個(gè)城堡,然后把它們無(wú)縫地拼接在一起,理論上可以構(gòu)建出一個(gè)無(wú)限大的虛擬世界。這想象空間,可就太大了。

如此神奇的效果,背后到底藏著什么樣的“黑科技”呢?雖然World Labs本著“商業(yè)機(jī)密”的原則,沒(méi)有把完整的技術(shù)論文公之于眾,但通過(guò)官方的只言片語(yǔ)和其“豪華”的創(chuàng)始團(tuán)隊(duì)背景,我們還是能順藤摸瓜,窺探一二。
業(yè)界普遍推斷,其技術(shù)路線與近年來(lái)在圖形學(xué)領(lǐng)域大放異彩的“3D高斯點(diǎn)云”(3D Gaussian Splatting, 3DGS)技術(shù)緊密相關(guān)。
3DGS,你可以把它想象成一種全新的、更高級(jí)的3D建模方式。傳統(tǒng)的3D建模,要么是用無(wú)數(shù)個(gè)三角面片(多邊形網(wǎng)格)去拼湊,要么是用體素(像樂(lè)高積木一樣的小方塊)去搭建。而3DGS,則是用海量的、帶有顏色、透明度、大小和方向的“高斯橢球體”來(lái)描繪整個(gè)場(chǎng)景。這種方法的牛X之處在于,它既能像照片一樣真實(shí)地還原光影和細(xì)節(jié),又能像3D模型一樣被高速渲染出來(lái),實(shí)現(xiàn)了“魚和熊掌兼得”。
World Labs的聯(lián)合創(chuàng)始人之一Ben Mildenhall,恰好就是另一項(xiàng)革命性3D渲染技術(shù)NeRF(神經(jīng)輻射場(chǎng))的聯(lián)合發(fā)明人,而NeRF正是3DGS的重要技術(shù)前身。這層關(guān)系,基本上算是“官方劇透”了。
Marble的整個(gè)工作流程,我們大概可以腦補(bǔ)為這樣三步曲:
第一步,“輸入處理”。當(dāng)你給它一張圖片或一段文字時(shí),它會(huì)先用一個(gè)強(qiáng)大的AI模型去解析這里面包含了哪些物體、它們大概是什么樣的空間關(guān)系,把非結(jié)構(gòu)化的信息給“吃透”。
第二步,“3D重建”。接下來(lái),它會(huì)調(diào)用類似3DGS的看家本領(lǐng),在虛擬空間中“噴灑”出億萬(wàn)個(gè)高斯小球,把腦海中理解的場(chǎng)景給精準(zhǔn)地“畫”出來(lái),構(gòu)建出一個(gè)具有真實(shí)幾何結(jié)構(gòu)的3D空間。
第三步,“實(shí)時(shí)渲染”。最后,通過(guò)一個(gè)名為Spark的開源渲染庫(kù),將這個(gè)由無(wú)數(shù)高斯小球構(gòu)成的復(fù)雜場(chǎng)景,以極高的效率渲染出來(lái)。
Marble的實(shí)測(cè)表現(xiàn)
我們把它和目前最具代表性的兩位“前輩”——谷歌的Genie和Decart的Oasis,拉到同一個(gè)擂臺(tái)上。下面的對(duì)比數(shù)據(jù),是綜合了World Labs官方博客、MIT Technology Review、TechCrunch等多個(gè)權(quán)威信源的信息。

從最核心的幾個(gè)維度來(lái)看,Marble幾乎是全方位的領(lǐng)先。
在“持久性”上,Marble的“永久存在”特性,直接解決了Genie和Oasis最大的痛點(diǎn)——“健忘癥”。這意味著Marble生成的場(chǎng)景是可靠的、可復(fù)用的,可以作為數(shù)字資產(chǎn)被保存和編輯,而Genie和Oasis生成的更像是一次性的“煙花”。
在“交互性”和“幾何一致性”上,Marble更是展現(xiàn)出了“代差”級(jí)別的優(yōu)勢(shì)。它提供的實(shí)時(shí)自由導(dǎo)航和豐富的自定義功能,讓用戶真正擁有了對(duì)這個(gè)虛擬世界的主宰感。而其基于3D幾何重建的技術(shù),保證了場(chǎng)景的物理真實(shí)性,不會(huì)出現(xiàn)“墻壁突然消失”或者“桌子腿長(zhǎng)短不一”的詭異情況。相比之下,Genie的交互還停留在簡(jiǎn)單的視角切換,視頻幀之間還可能出現(xiàn)不連貫的bug。Oasis雖然生成的是3D場(chǎng)景,但分辨率低得感人,像是打了厚碼的Minecraft,幾何錯(cuò)誤更是家常便飯。
在“移動(dòng)范圍”和“應(yīng)用潛力”上,Marble支持場(chǎng)景拼接,理論上可以構(gòu)建無(wú)限大的世界,并且可以將生成的3D高斯點(diǎn)云導(dǎo)出,用于游戲引擎、影視制作等專業(yè)領(lǐng)域。
當(dāng)然,Genie和Oasis也有其自身的特點(diǎn)。Genie的強(qiáng)項(xiàng)在于其視頻生成的通用性,它能生成各種天馬行空的2D小游戲視頻。Oasis則在游戲模擬的實(shí)時(shí)性上做了很多探索。
一個(gè)價(jià)值10億美金的“小目標(biāo)”
World Labs公司的背景,可以說(shuō)是“豪華”到令人咋舌。
根據(jù)路透社等權(quán)威媒體的報(bào)道,World Labs的正式成立時(shí)間是在2024年9月13日。這是一個(gè)非常新的公司,但其創(chuàng)始團(tuán)隊(duì),卻是一群在AI領(lǐng)域摸爬滾打了多年的“老江湖”。領(lǐng)軍人物自然是李飛飛,她的學(xué)術(shù)地位和行業(yè)影響力無(wú)需贅述。聯(lián)合創(chuàng)始人Justin Johnson,同樣是圈內(nèi)大神,他曾是Meta的資深研究科學(xué)家,也是斯坦福大學(xué)最火的AI課程CS231n的聯(lián)合創(chuàng)始人之一,無(wú)數(shù)AI從業(yè)者都是看著他的課入門的。另外兩位聯(lián)合創(chuàng)始人,Christoph Lassner曾在Meta和Epic Games(《堡壘之夜》的開發(fā)商)任職,是圖形學(xué)和3D領(lǐng)域的專家;Ben Mildenhall則是NeRF的聯(lián)合發(fā)明人,手握3D渲染的“屠龍之技”。
公司一亮相,就宣布完成了高達(dá)2.3億美元的風(fēng)險(xiǎn)投資。領(lǐng)投的是硅谷頂級(jí)風(fēng)投A16z,跟投的包括芯片巨頭Intel Capital和AMD Ventures。此外,個(gè)人投資者名單里,更是閃耀著一串如雷貫耳的名字:前谷歌CEO埃里克·施密特(Eric Schmidt),谷歌AI負(fù)責(zé)人杰夫·迪恩(Jeff Dean),以及被譽(yù)為“深度學(xué)習(xí)之父”的杰弗里·辛頓(Geoffrey Hinton)。
根據(jù)TechCrunch的報(bào)道,公司的估值已經(jīng)超過(guò)了10億美元,成功躋身“獨(dú)角獸”俱樂(lè)部。從成立到成為獨(dú)角獸,World Labs只用了極短的時(shí)間,這背后,是資本市場(chǎng)對(duì)“3D世界生成”這一賽道價(jià)值的最高認(rèn)可。
李飛飛本人,也通過(guò)各種渠道,不斷地向外界傳遞著她對(duì)“空間智能”的深刻思考。她認(rèn)為,當(dāng)前火熱的大語(yǔ)言模型,雖然在處理文本方面表現(xiàn)出了驚人的能力,但它們就像一個(gè)被困在“小黑屋”里的博學(xué)智者,對(duì)物理世界一無(wú)所知,這限制了它們通往通用人工智能(AGI)的道路。AI要想真正地“智能”,就必須走出這個(gè)“小黑屋”,去理解和感知三維空間。
她在自己的社交媒體上,用一段極具詩(shī)意和前瞻性的話,描繪了她心中的藍(lán)圖:“For all of history, humanity shared one 3D world. Spatial intelligence now lets us generate and reconstruct infinite universes for creativity, travel, narrative, and even social.”(縱觀歷史,人類共享一個(gè)3D世界??臻g智能現(xiàn)在讓我們能夠生成并重建無(wú)限的宇宙,用于創(chuàng)造、旅行、敘事,甚至社交。)
聯(lián)合創(chuàng)始人Justin Johnson則從更實(shí)際的產(chǎn)業(yè)角度,闡述了他們正在做的事情的價(jià)值。據(jù)媒體報(bào)道,他指出,在電影、游戲這些行業(yè),傳統(tǒng)3D內(nèi)容的創(chuàng)作是一個(gè)極其“燒錢”且“耗時(shí)”的工程,一個(gè)3A大作或者一部好萊塢特效大片,動(dòng)輒投入數(shù)億美元和數(shù)年的開發(fā)周期,是名副其實(shí)的“重工業(yè)”。而World Labs的目標(biāo),就是要把這個(gè)“重工業(yè)”,變成人人都能上手的“輕工業(yè)”。
“我們的世界模型技術(shù),將讓創(chuàng)作者不再只是得到一張圖片或一段視頻,而是獲得一個(gè)完全模擬、充滿活力、可交互的3D世界。這會(huì)徹底改變電影、游戲、模擬器等數(shù)字內(nèi)容的制作方式?!?/span>
3D世界生成,已經(jīng)不僅僅是一個(gè)技術(shù)概念,而是正在迅速成為AI領(lǐng)域的下一個(gè)超級(jí)風(fēng)口。
































