一張圖or文字生成無限3D世界!斯坦福吳佳俊團(tuán)隊(duì)新作,讓網(wǎng)友直呼“難以置信”
斯坦福吳佳俊團(tuán)隊(duì)打造AI版“愛麗絲夢游仙境”巨作!
僅用一張圖or一段文字就能沿相機(jī)軌跡生成無限連貫3D場景:
只需輸入一段古詩詞,詩中場景立刻映入眼簾:
而且還是來回式的,可以再倒回去的那種:
同一起點(diǎn)可以進(jìn)入不同場景:
真實(shí)場景也可以,其中的人物陰影等細(xì)節(jié)都毫無違和感:
方塊世界更不在話下,仿佛打開了“我的世界”:
這項(xiàng)工作名為WonderJourney,由斯坦福吳佳俊團(tuán)隊(duì)和谷歌研究院聯(lián)合打造。
除了可以從任意位置開始,無限生成多樣化且連貫的3D場景,WonderJourney根據(jù)文本描述生成時(shí),可控性也很高。
只要將鼠標(biāo)懸停在視頻上,就可以暫停自動滑動。
這項(xiàng)工作的發(fā)布讓網(wǎng)友們直呼“難以置信”??。項(xiàng)目代碼還沒正式發(fā)布,就收獲了200+星:
AI研究員Xander Steenbrugge驚訝之余表示:
這是生成式AI和傳統(tǒng)3D技術(shù)的完美結(jié)合。
要知道,之前的工作都是專注于單一類型場景,WonderJourney可謂打開了新世界的大門。
那這究竟是如何做到的?
開啟3D奇妙之旅
生成無限連貫3D場景要解決的一大難題是:如何在保持元素多樣性的同時(shí),生成符合邏輯的場景元素組合。
這當(dāng)中需要判斷將要生成的元素空間位置的合理性,還需要處理好新舊場景的遮擋關(guān)系、視差等幾何關(guān)系。
可以看到WonderJourney在這方面的處理上非常細(xì)致:
無論什么風(fēng)格都能輕松駕馭:
能夠做到這些,關(guān)鍵在于WonderJourney的模塊化流程。
總的生成過程分為“確定要生成什么對象”、“把這些對象放在哪里”、“這些場景如何在幾何上連接”三步。
需要以下三個(gè)模塊配合完成:
- Scene description generation:使用大語言模型(LLM)根據(jù)當(dāng)前場景生成下一個(gè)場景的文本描述。
- Visual scene generation:將文本描述轉(zhuǎn)換為3D點(diǎn)云表示的場景。
- Visual validation:使用VLM驗(yàn)證生成的場景,檢測到不合理的結(jié)果啟動重新生成。
具體來說,在Scene description generation模塊,使用預(yù)訓(xùn)練好的LLM輸入當(dāng)前場景描述,通過自回歸生成下一個(gè)場景,其中包含風(fēng)格、物體、背景三部分的描述。
此外,還要將自然語言描述進(jìn)行詞類過濾,只保留名詞和形容詞;每生成一個(gè)新場景描述,會更新場景描述記憶。
在Visual scene generation模塊,先是將當(dāng)前圖像/文本轉(zhuǎn)換為3D點(diǎn)云表示。
然后使用depth refinement增強(qiáng)對象邊界的depth不連續(xù)性,通俗來講就是讓邊界兩側(cè)的深度對比更加明顯,從而使過渡更加逼真。
之后使用text-guided inpainting基于文本描述生成新場景圖像。
研究人員還設(shè)計(jì)了depth consistency loss和re-rendering consistency機(jī)制改進(jìn)新舊場景遮擋和點(diǎn)云對齊。
最后Visual validation模塊,使用VLM提示檢測生成圖像中的不好的結(jié)果,比如畫框、模糊等,如果檢測到則重新生成場景。
值得一提的是,這三個(gè)模塊都可用最先進(jìn)的預(yù)訓(xùn)練模型實(shí)現(xiàn)、替換,所以不需要任何訓(xùn)練。
實(shí)驗(yàn)測試
由于連貫3D場景生成是一個(gè)沒有現(xiàn)有可用數(shù)據(jù)集的新任務(wù),所以研究人員在實(shí)驗(yàn)中使用了自己拍攝的照片、來自在線無版權(quán)的照片以及生成的圖片進(jìn)行了評估。
此外,使用了兩種最先進(jìn)的連續(xù)視圖生成方法作為基準(zhǔn):基于圖像的InfiniteNature-Zero和基于文本的SceneScape。
定性結(jié)果展示了從不同類型輸入生成的連貫3D場景序列效果,表明方法可以從任何輸入開始生成:
此外,同一輸入可生成不同輸出,表明方法具有多樣性:
研究人員還從生成效果多樣性、視覺質(zhì)量、場景復(fù)雜度和有趣度這4個(gè)方面進(jìn)行了人類偏好評估。
結(jié)果WonderJourney方法明顯優(yōu)于InfiniteNature-Zero、SceneScape。
作者簡介
該篇論文來自斯坦福大學(xué)吳佳俊團(tuán)隊(duì)和谷歌研究院。
論文一作俞洪興,斯坦福大學(xué)四年級博士生,導(dǎo)師吳佳俊。
主要研究領(lǐng)域?yàn)槲锢韴鼍袄斫夂蛣討B(tài)建模。
俞洪興曾在谷歌研究院實(shí)習(xí),論文部分工作是在實(shí)習(xí)期間完成。
吳佳俊,現(xiàn)任斯坦福大學(xué)助理教授,隸屬于斯坦福視覺與學(xué)習(xí)實(shí)驗(yàn)室 (SVL)和斯坦福人工智能實(shí)驗(yàn)室 (SAIL)。
在麻省理工學(xué)院完成博士學(xué)位,本科畢業(yè)于清華大學(xué)姚班,曾被譽(yù)為“清華十大學(xué)神之一”。
論文鏈接:https://arxiv.org/abs/2312.03884