出手即王炸?照片級真實(shí)度生成式世界模型,還獲得皮克斯和Jeff Dean投資
世界模型正在爆發(fā)!
近段時(shí)間,世界模型的相關(guān)研究成果正如雨后春筍版不斷涌現(xiàn),光是我們報(bào)道過的就已有南大周志華團(tuán)隊(duì)的世界模型 Whale、Yann LeCun 團(tuán)隊(duì)的世界模型研究、李飛飛 World Labs 的空間智能研究、谷歌的強(qiáng)大世界模型 Genie 2 以及剛剛開源的像是能模擬萬物的生成式物理引擎 Genesis。
事實(shí)上,在 Genesis 開源發(fā)布的差不多時(shí)間,一家名為 Odyssey 的創(chuàng)業(yè)公司也向世界介紹了他們的世界模型 Explorer。與此同時(shí),他們還宣布,皮克斯動(dòng)畫工作室的創(chuàng)始人、圖靈獎(jiǎng)得主 Ed Catmull 已加入該公司董事會(huì)并進(jìn)行投資。在此之前的 11 月 13 日,該公司曾宣布已經(jīng)完成 1800 萬美元 A 輪融資。
據(jù)介紹,與 Genie 2 類似,Explorer 也能基于單張圖像生成高質(zhì)量 3D 世界。從該公司發(fā)布的 demo 來看,其生成的世界的質(zhì)量和細(xì)節(jié)確實(shí)都非常出色。
從 Odyssey 的博客介紹來看,Explorer 是為 Odyssey 的目標(biāo)或者說細(xì)分領(lǐng)域服務(wù)的:「我們(與皮克斯)有一個(gè)共同信念,那就是技術(shù)必須服務(wù)于故事和故事講述者。在這個(gè) AI 時(shí)代,尤其如此?!购喍灾汗适聻橥酰⊿tory is king)。他們希望為「電影、游戲和其他領(lǐng)域帶來下一個(gè)重大技術(shù)突破:生成式世界模型?!?/span>
和其它 demo 效果驚艷的生成模型一樣,Explorer 同樣也吸引了很多人的贊美。
Explorer:生成式世界模型
「最精彩的故事會(huì)帶我們進(jìn)入新的世界?!乖凇锻婢呖倓?dòng)員》、《頭腦特工隊(duì)》、《星球大戰(zhàn)》、《沙丘》、《阿凡達(dá)》、《指環(huán)王》、《侏羅紀(jì)公園》、《荒野大鏢客》和《最后生還者》等杰作中,藝術(shù)家花費(fèi)了數(shù)萬小時(shí)使用 3D 創(chuàng)作工具來以人工方式制作細(xì)節(jié)豐富的世界。這些世界中充滿了獨(dú)特的角色、風(fēng)景和音樂。這些耗時(shí)的過程既是電影、游戲等的主要推動(dòng)因素,也是瓶頸。
而 Explorer 可以簡化這個(gè)過程。只需一張圖片,就能得到一個(gè)非常具有真實(shí)感和豐富細(xì)節(jié)的 3D 世界。
盡管 Explorer 還處于很早期的階段,但已經(jīng)有望大幅提升電影和游戲兼容世界的創(chuàng)建速度,此外還可以實(shí)現(xiàn)全新的應(yīng)用或娛樂形式。
Odyssey 在博客中展示了大量示例,這里我們也節(jié)選了一些給讀者評鑒。
提示詞:An underground workshop with a muscle car covered in a white cloth
提示詞:An office interior from the 2000s
提示詞:A Japanese garden, with rich, green foliage
Explorer 宣稱具備多項(xiàng)優(yōu)勢。首先,其可以生成照片級真實(shí)度的世界,并且這也是該模型的核心優(yōu)勢之一。
提示詞:A street in London. Brick wall
Explorer 也能生成運(yùn)動(dòng)的世界。該公司表示,盡管還處于研究早期,但生成式世界運(yùn)動(dòng)(generative world motion,全部為 3D)具有激動(dòng)人心的前景,它可讓藝術(shù)家以新的、更逼真的方式生成和操縱運(yùn)動(dòng),此外還能提供生成視頻模型難以復(fù)制的精細(xì)控制。
提示詞:A family in the kitchen. Snowing
提示詞:A serene coral reef
Explorer 還能生成高斯濺射(gaussian splats)。在過去的 18 個(gè)月里,世界上許多頂尖的計(jì)算機(jī)圖形和視覺研究人員都在關(guān)注高斯濺射。原因很容易理解,濺射能夠以令人難以置信的、幾乎難以察覺的真實(shí)細(xì)節(jié)重建場景。有不少人相信這可能成為一種主導(dǎo)的 3D 表示形式。Explorer 也采用了濺射作為世界表示的形式。
Explorer 生成的世界還可以進(jìn)行進(jìn)一步的人工編輯。
創(chuàng)意工具提供商已經(jīng)注意到高斯濺射的發(fā)展勢頭,并已在 Unreal、Houdini、Blender、Maya、3D Studio Max、After Effects 等工具中增加了對濺射可視化和操作的早期支持。
這就意味著,可以使用這些工具來加載甚至編輯 Explorer 生成的世界。
使用 Blender 編輯后的世界
使用 Unreal 編輯后的世界
該公司表示,他們已經(jīng)在生產(chǎn)流程中嘗試過 Explorer:「為了測試 Explorer 是否已經(jīng)為生產(chǎn)用途做好準(zhǔn)備,我們最近與倫敦的 Garden Studios 進(jìn)行了合作。我們將 Explorer 生成的世界傳送到他們最先進(jìn)的虛擬制作階段(用于錄制故事片、電視、商業(yè)廣告、音樂視頻等),并很高興地確認(rèn)我們生成的世界可以在當(dāng)今的實(shí)際制作流程中使用。它們看起來非常棒?!?/span>
當(dāng)然,Explorer 還處于早期階段,很多地方并不完美,該公司也指出了一些有待優(yōu)化的地方:
- Explorer 還不支持實(shí)時(shí)世界生成,目前平均要 10 分鐘才能完成一次生成。
- 分辨率和世界完整性還有待提升,他們希望未來能無縫地?cái)U(kuò)展生成以填補(bǔ)任何空白并創(chuàng)建完整的球形世界。
- 通過視頻到世界和世界到世界輸入,Explorer 的可控性有待進(jìn)一步提升,其目標(biāo)是能將真實(shí)世界中捕獲的高斯濺射作為輸入,并根據(jù)提示詞或其它指導(dǎo)對其進(jìn)行增強(qiáng)。
目前,Explorer 并未公開上線,但感興趣的讀者可自行嘗試申請?jiān)囉茫?/span>https://odyssey.systems/introducing-explorer
Odyssey:想用技術(shù)講故事的 AI 公司
Odyssey 顯然是一家早早就確立自己發(fā)展方向的創(chuàng)業(yè)公司。
該公司的創(chuàng)始人有兩位,分別是擔(dān)任 CEO 的 Oliver Cameron 和擔(dān)任 CTO 的 Jeff Hawke。
兩位創(chuàng)始人的 X 頭像
其中 Oliver Cameron 曾在 Cruise 和 Voyage 參與開發(fā)自動(dòng)駕駛汽車,而 Jeff Hawke 曾在 Wayve 領(lǐng)導(dǎo)開發(fā)自動(dòng)駕駛深度學(xué)習(xí)模型。而他們的團(tuán)隊(duì)更是招募到了來自 Cruise、Waymo、Wayve、特斯拉、微軟、Meta 和英偉達(dá)的多位研究者,以及參與開發(fā)過《孢子》、《模擬城市》、《模擬人生》、《異形:隔離》和《湯姆?克蘭西》系列等視頻游戲的工程師,參與過《沙丘 2》、《哥斯拉》、《造物主》、《復(fù)仇者聯(lián)盟:奧創(chuàng)紀(jì)元》、《艾麗塔:戰(zhàn)斗天使》和《侏羅紀(jì)世界:失落王國》等電影制作的技術(shù)藝術(shù)家。此外,該團(tuán)隊(duì)的多名成員都曾獲得 BAFTA 獎(jiǎng)。
可以看出,該公司有非常強(qiáng)的自動(dòng)駕駛研發(fā)背景,他們在 11 月份的博客中也提到了這一點(diǎn):「事實(shí)上,我們 90% 以上的技術(shù)人員的大部分職業(yè)生涯都是在 Cruise、Wayve、Waymo 和特斯拉等公司從事自動(dòng)駕駛汽車的開發(fā)工作。這種經(jīng)歷讓我們對構(gòu)建世界的模型的問題有了獨(dú)特的見解?!怪徊贿^,這一次,他們想要打造的不是在 3D 世界中導(dǎo)航的模型,而是生成世界的模型。
為此,他們首先考慮解決的問題是收集現(xiàn)實(shí)世界的數(shù)據(jù)。汽車可以完成其中一部分工作,但汽車也有去不到的地方,比如森林、洞穴、小徑、海灘、冰川、公園等等。最終,他們想到了一個(gè)解決方案:人體收集。
是的,你沒有看錯(cuò)!具體來說,這會(huì)用到一款輕巧的背包式計(jì)算機(jī),其連接著分辨率極高的多模態(tài)傳感器。該設(shè)備重 25 磅(約 11.3 kg),電池續(xù)航時(shí)間長,配備 6 個(gè)攝像頭、2 個(gè)激光雷達(dá)和一個(gè) IMU。這些傳感器結(jié)合起來,可以 360 度捕捉我們的世界,分辨率為 13.5K,細(xì)節(jié)豐富,每次全景捕捉都包含物理精確的深度信息。更重要的是,由于人類可以精確控制傳感器,因此它們可以確保捕捉到他們的生成模型可能需要的每一個(gè)角度。
現(xiàn)在我們知道 Explorer 的照片級真實(shí)感是從何而來了。
據(jù)了解,Odyssey 在今年 7 月 12 日宣布完成了種子輪融資,領(lǐng)投方是 Google Ventures。今年 11 月 13 日又宣布了完成了 1800 萬美元 A 輪融資,領(lǐng)投方是 EQT Ventures。其官網(wǎng)也列出了一些投資者信息,從中我們還能看到 Jeff Dean 的名字,此外還有一些來自 OpenAI、DeepMind 和 Midjourney 等 AI 公司的研究者參與投資。
你覺得 Explorer 這個(gè)生成式世界模型的表現(xiàn)如何?你期待用 Explorer 生成的世界制作的電影或游戲嗎?