在2025年初,淺淺聊一聊世界模型 World Models
Update 1月10日:
感謝評(píng)論區(qū)補(bǔ)充world model在RL中的定義!感覺在RL中的定義,world model是針對(duì)一個(gè)具體子任務(wù)的模型,最近上述公司提到的World Model的尺度似乎更大、更加通用,更多從:Language Generation Model (ChatGPT)->Image Generation Model(StableDiffusion)->Video/3D Geneartion Model (二者各有側(cè)重因此平級(jí))->World Generation Model(同時(shí)具備時(shí)序和空間序建模)這么一個(gè)趨勢(shì)。當(dāng)然這個(gè)World似乎想要包容一切,于是也并不清晰到底是什么樣的表征:是否是video sequence? 是否是3d representation? 如何表征物理? 輸入的關(guān)系如何? 這些都是 open research question.
不過隱約認(rèn)為,一個(gè)真正的World Model應(yīng)該建模下列性質(zhì):
- 空間序列(X,Y,Z): 建模幾何
- 時(shí)間序列(t): 建模動(dòng)態(tài)
- 稠密表征: 紋理,光照,渲染過程,物理含義
- 語義實(shí)例: 環(huán)境并非一個(gè)整體,而是分解成各個(gè)具體物體,從而實(shí)現(xiàn)物體級(jí)的控制和重組
- 生成式模型: 建模一個(gè)概率分布而非一個(gè)樣本
- 可微分: 梯度可以從前往后,也可以從后往前傳遞,于是能作為模塊被plug-in一個(gè)更大的復(fù)雜模型中
在上述基礎(chǔ)上最后實(shí)現(xiàn)高逼真可微分渲染,并附帶空間、時(shí)序的一致性。目前市面上一切模型都是上述最終版本的子集。
由于其復(fù)雜性,感覺可以明確的是:訓(xùn)練它需要的數(shù)據(jù)和運(yùn)算資源是空前的,人類互聯(lián)網(wǎng)上擁有的一切數(shù)據(jù)(text, image, video一切模態(tài))可能都不夠訓(xùn)這么一個(gè)模型,只能訓(xùn)練它在特定場景下的子模型。
原文回答:
World Model 最近是一個(gè)比較火的概念,最近有不少公司接二連三提出這個(gè)概念并推出相關(guān)Demo。在國內(nèi)外都引發(fā)了一些討論。國內(nèi)的公司關(guān)注點(diǎn)主要在大語言模型、人形機(jī)器人、Embodied AI,尚未有公司直接跟進(jìn)。在此淺淺點(diǎn)評(píng)一下這幾家公司的技術(shù),就當(dāng)圖一樂。
首先World Model尚未被明確定義,因此我們可以先看看別的公司以及其Demo怎么說的:
李飛飛 World Labs
www.worldlabs.ai/blog
這是最早舉起旗幟的公司。從放出的Demo來看,X上也有人提到非常像Cat3D。走的路線是先生成2D圖像,然后通過2D圖像優(yōu)化3D表征。更早期的朋友肯定也會(huì)想到DreamFusion系列。
當(dāng)然具體細(xì)節(jié)未公布,如果基于這套方案,優(yōu)勢(shì)和缺點(diǎn)很顯然:
優(yōu)勢(shì)在于可以用上基于大規(guī)模圖像數(shù)據(jù)訓(xùn)練的圖像生成器(比如StableDiffusion),得益于大規(guī)模二維圖像數(shù)據(jù)容易獲得,可以生成非常廣闊(Diverse)、可控(Text-driven)的圖像類別,從而實(shí)現(xiàn)Diverse的三維結(jié)構(gòu)生成。
缺點(diǎn) (1)三維一致性。從給出的Demo來看,人物移動(dòng)的范圍有限,這是因?yàn)閺谋举|(zhì)上,該方案恢復(fù)的三維結(jié)構(gòu)并未、而且理論并不可能,完全收斂。于是,在被約束的視角之外,必然能明顯看到幾何結(jié)構(gòu)的缺失和不一致。(2) 由于需要優(yōu)化,速度很慢。一個(gè)場景甚至需要幾小時(shí)。
未來預(yù)測。該方案在短期內(nèi)能得到明顯改善,如通過微調(diào)訓(xùn)練StableDiffusion進(jìn)行更精確可控的二維圖像生成,然而,個(gè)人對(duì)這個(gè)路線比較悲觀,因?yàn)樗M麖拇罅康途S度的信息分布去恢復(fù)高維結(jié)構(gòu)信息,理論上決定了這是Local Minimum。當(dāng)然很可能有秘密武器在里面,期待公司的下一輪Update。
Google Gemini-2
deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
Google 緊隨其后推出了一個(gè)Demo。這套方案與李飛飛的World Labs方案完全不一樣。它是Next-frame Prediction。簡單來說,這個(gè)模型只根據(jù)馬爾可夫假設(shè),只根據(jù)前幾幀的信息預(yù)測下一幀(的Token),可以理解為ChatGPT的圖像版本。因此:
(1)這個(gè)模型并不顯示建模三維信息。該模型并不具有一個(gè)3D表征,如NeRF或GS,相反,它只根據(jù)復(fù)雜的映射關(guān)系(比如一群MLP或者當(dāng)然Transformers結(jié)構(gòu))去推測下一幀。我們能看到似乎有一定的幾何一致性,完全是大量數(shù)據(jù)暴力擬合的結(jié)果。當(dāng)然,這非常神奇!
(2)因此,該模型將非常靈活,由于不明顯建模幾何,意味著它能突破幾何限制建模更復(fù)雜的東西:如動(dòng)態(tài),物理,紋理,甚至交互關(guān)系如對(duì)輸入控制信號(hào)的condition。當(dāng)然,一切都有代價(jià),無限的輸出空間意味著非常難以訓(xùn)練。因此個(gè)人仍然對(duì)該路線悲觀——視頻信號(hào)并不如文本/圖像信號(hào)一般易得,具有維度詛咒。我們無法得到如此大的數(shù)據(jù)去訓(xùn)練一個(gè)有效的模型。這意味著最終效果很可能局限于低分辨率,高延遲,以及簡單的世界交互復(fù)雜度。
不過考慮到Google的技術(shù)水平顯然可以繼續(xù)狠狠期待,最近Deepmind還挖走了OpenAI Sora的負(fù)責(zé)人來做World Model,肯定不久還有大更新。諾獎(jiǎng)得主哈薩比斯加持的Deepmind,是這一波浪潮妥妥的頂級(jí)選手。
視頻生成模型,如OpenAI Sora等
sora.com/
Video Generation 模型個(gè)人一直不認(rèn)為是世界模型。當(dāng)然學(xué)術(shù)界有討論說Sora是不是World Simulators. OpenAI自然樂得大家把它看成一個(gè)World Simulators,但個(gè)人淺薄地認(rèn)為:視頻生成模型,正如Gemini-2,缺乏高維結(jié)構(gòu)的顯示建模。盡管猛地一看,都在輸出連續(xù)sequence圖像,但一個(gè)世界模型應(yīng)該具備更清晰的高維結(jié)構(gòu),而圖像輸出只是它在某一個(gè)時(shí)刻、某一個(gè)位置的投影罷了。舉例而言,一個(gè)3D NeRF/GS是可以被以任意軌跡、相機(jī)模型和分辨率要求去渲染輸出一致的視頻的。這只是一個(gè)幾何層面的例子,世界模型的高維結(jié)構(gòu)理應(yīng)比簡單的幾何結(jié)構(gòu)復(fù)雜,甚至具備物體語義以及物理模型的理解。當(dāng)然具體如何表征,仍然是open question。
Nvidia Cosmos
www.nvidia.com/en-us/ai/cosmos/
非常應(yīng)景,Nvidia在昨天CES推出了Cosmos模型。說實(shí)話粗一看并不知道這是什么東西,這到底是一個(gè)仿真器,還是一個(gè)Video生成器,還是一個(gè)更復(fù)雜的模型?暫時(shí)沒有時(shí)間閱讀出的報(bào)告,但從一個(gè)表格里的比較來看,作者在和Video Generation模型比較,暫且歸納為text-conditioned視頻生成模型吧。
Niantics Labs
nianticlabs.com/news/largegeospatialmodel?hl=en
Niantics對(duì)比前面幾家公司沒那么出名。它的前身是Google Map,獨(dú)立出來之后做三維建圖和增強(qiáng)現(xiàn)實(shí),它的產(chǎn)品Pokemon GO更有名氣一些。由于公司特性,它具有大量現(xiàn)實(shí)世界路標(biāo)、景點(diǎn)的掃描數(shù)據(jù),都來自眾包的游戲玩家掃描。最近也推出了Large Geospatial Model。然而并不認(rèn)為這是世界模型,因?yàn)樗惠敵鱿鄼C(jī)定位參數(shù),或者獲得一個(gè)三維地圖結(jié)構(gòu),同樣缺乏復(fù)雜的交互能力。不過因?yàn)樽鴵泶笠?guī)模三維數(shù)據(jù)(地圖),如果能直接學(xué)習(xí)三維結(jié)構(gòu)或許比基于二維圖像恢復(fù)三維更有優(yōu)勢(shì)。
總結(jié)
盡管每個(gè)公司對(duì)于World Model定義不一樣,我們大概能看出這樣一個(gè)趨勢(shì):
- Data-driven: 當(dāng)然了,大量的數(shù)據(jù),結(jié)合生成式模型的學(xué)習(xí),希望用上Scaling Law大力出奇跡。
- 3D: 強(qiáng)3D,包括世界的表征具有三維一致性,結(jié)合NeRF/Gaussian Splattings進(jìn)行逼真的渲染。
- 可微分性,Differentiable:一個(gè)可微分的模型具有強(qiáng)悍的靈活性,能被任何更大的可微分系統(tǒng)作為模塊使用:如,感知-控制-決策-執(zhí)行的復(fù)雜機(jī)器人系統(tǒng),想象一個(gè)世界模型與機(jī)器人控制器結(jié)合能產(chǎn)生什么樣的功能。
在2025年必然有更多公司邁入這個(gè)領(lǐng)域,而且也確實(shí)期待它在大量領(lǐng)域的潛在應(yīng)用,我們可以拭目以待。也歡迎補(bǔ)充文章缺失的World Model。