李飛飛「世界實驗室」重磅推出 AI“造物主”:一張圖片生成 3D 世界“任意門”
剛剛斯坦福大學(xué)的李飛飛教授宣布,她帶領(lǐng)的World Labs團隊推出一個能從單張圖片生成 3D 世界的 AI 系統(tǒng)!不是簡單的 3D 建模,而是真正可以交互的 3D 物理場景!
3D場景在瀏覽器里就能實時渲染,還能用WASD鍵和鼠標(biāo)自由控制視角,就像玩游戲一樣!簡直太酷炫了!
用戶甚至可以體驗 3D 相機效果,例如模擬淺景深,即只有與攝像機保持一定距離的物體才能對焦
或“希區(qū)柯克式變焦”(dolly zoom)
可以去這里網(wǎng)頁體驗 https://www.worldlabs.ai/blog
World Labs 要解決啥問題?
現(xiàn)在的生成式 AI 模型,最大的問題就是缺乏控制力和一致性。World Labs 的目標(biāo)就是解決這個問題!他們的 AI 系統(tǒng)可以根據(jù)輸入的圖片,先估算 3D 幾何形狀,再填充場景中看不到的部分,還能根據(jù) 3D 幾何信息創(chuàng)造新的內(nèi)容,讓場景更完整! 這將改變制作電影、游戲、模擬器和其他物理世界數(shù)字表現(xiàn)形式的方式
不是預(yù)測像素而是預(yù)測3D場景
大多數(shù)生成模型預(yù)測像素, 而預(yù)測三維場景則有很多好處:
持久現(xiàn)實:世界一旦生成,就會一直存在。即使你把視線移開,再回來時,場景也不會改不會像某些 AI 模型那樣,換個角度就“變臉”
實時控制:生成場景后,您可以實時在場景中移動。你可以停留在花朵的細(xì)節(jié)上,或者從角落里偷看,看看里面有什么
正確的幾何形狀:生成的世界遵循 3D 幾何的基本物理規(guī)則。它們具有實體感和深度感,與某些人工智能生成的視頻的夢幻性質(zhì)形成鮮明對比
可視化方式:World Labs 的系統(tǒng)生成 3D 場景方式是一個稱為深度圖 (depth map)的東西,其中每個像素的顏色代表其到相機的距離
交互性:可以修改場景的光照、外觀、幾何形狀
還可以制作特效,使場景被動地動畫化
走進世界名畫
世界生成可以讓你以全新的方式體驗標(biāo)志性的藝術(shù)作品。比如 梵高(van Gogh)、霍珀(Hopper)、修拉(Seurat)和康定斯基(Kandinsky),可以wordlab網(wǎng)頁體驗
可以去這里網(wǎng)頁體驗 https://www.worldlabs.ai/blog
與其他 AI 工具無縫銜接!
World Labs 的 3D 場景生成技術(shù),可以和其他 AI 工具配合使用,讓創(chuàng)作者們的工作流程更加高效!
例如,可以通過先使用文本生成圖像模型生成一幅圖像來從文本創(chuàng)建世界。不同的模型有各自的風(fēng)格,worldlab技術(shù)可以繼承這些風(fēng)格
這里用四個流行的text2image模型 FLUX, Midjourney, Ideogram, DALL-E,采用相同的提示可以生成同一場景的四個變體
這里體驗:https://www.worldlabs.ai/blog
目前wordlab已經(jīng)讓一些創(chuàng)作者提前了解了這種技術(shù),開始嘗試 3D 原生生成 AI 工作流程帶來的可能性
數(shù)字藝術(shù)家 @8bit_e 就用 World Labs 的技術(shù),輕松地將角色放置在場景中,并進行精確的相機運動控制,彌補了他創(chuàng)作流程中的一個空白,極大地提升了創(chuàng)作效率!
未來展望
英偉達JIM FAN 評價:
生成式 AI 正在創(chuàng)造越來越高維度的人類體驗快照
Stable Diffusion 是一個二維快照
OpenAI Sora 是一個二維加時間維度的快照
現(xiàn)在,World Labs 是一個三維、完全沉浸式的快照
總體來看World Labs 的 3D 世界生成技術(shù),絕對是 AI 領(lǐng)域的一項重大突破!它將為游戲、電影、藝術(shù)等領(lǐng)域帶來無限可能!
李飛飛教授表示,這只是 3D 生成式 AI 的一個開始!他們正在努力將這項技術(shù)盡快送到用戶手中!