世界模型的架構(gòu)總結(jié) 原創(chuàng)
在開始前我們先來分析一下當下的AI技術(shù)發(fā)展路線:
1. 目前來看LLM/MLLM等類似GPT的decoder架構(gòu)仍是主流,各家更新一代比一代快;
2. 由sora帶火的diffusion model類生成式模型還處于是否是“world simulator”的爭議中悄悄發(fā)育;
3. Deepmind、Meta、Nvidia等幾家在“孤獨地”推進世界模型,還沒有真正進入大眾視野應(yīng)用。
上述的路線中哪一條可能是真正可以在未來通往AGI的路呢?
目前業(yè)內(nèi)主要的觀點還是第三種。
Meta首席AI科學家_Yann LeCun_甚至預測“再過五年可能沒有人會再使用目前這種(通過在離散的詞元(token)空間中進行預測)的純LLM范式”;
近日Google的開發(fā)負責人和Deepmind CEO在談?wù)揋enie3的訪談中也提到了一個更大的視角 : “World models aren't just about physical simulation. Every creative domain has its own physics”。

Genie3的效果不知道大家看沒有,確實有些震撼:720p的清晰度、24FPS的實時生成速率,以及提示式世界事件(Promptable world Events),這意味著可以支持第一人稱視角導航和實時互動,完全在虛擬世界中生活了。
這背后“世界模型”是主要的技術(shù)支撐,那么本文就來總結(jié)世界模型的架構(gòu),下面是一個快捷目錄。
一、什么是世界模型?
二、世界模型跟傳統(tǒng)AI的區(qū)別
三、為什么世界模型難訓練?與LLM / MLLM的區(qū)別
四、世界模型的核心架構(gòu)
五、目前各家世界模型的架構(gòu)介紹
六、總結(jié),世界模型到底是在訓練什么?
一、什么是世界模型?
1. 世界模型的概念
世界模型的概念源于認知科學和機器人學,它強調(diào)AI系統(tǒng)需要具備對物理世界的直觀理解,而不僅僅是處理離散的符號或數(shù)據(jù) 。
世界模型主要分為理解世界和預測未來兩大視角——即構(gòu)建內(nèi)部表示以理解世界機制,預測未來狀態(tài)以模擬和指導決策。這個視角可以輔助大家去理解很多世界模型的架構(gòu)。

2. 權(quán)威定義解析
1)David Ha和Jürgen Schmidhuber:生成式神經(jīng)網(wǎng)絡(luò)模型
他們在2018年開創(chuàng)性論文《Recurrent World Models Facilitate Policy Evolution》中將世界模型定義為一個生成式模型,該模型能夠理解和模擬環(huán)境,學習行為策略,并將學到的知識遷移到新的情境中。
他們的模型由兩個核心部分組成:一個變分自編碼器(VAE)和一個循環(huán)神經(jīng)網(wǎng)絡(luò)RNN:
- VAE負責理解世界,捕捉環(huán)境的關(guān)鍵特征,將高維的感官輸入(如圖像)壓縮成一個低維的潛在向量(latent vector);
- RNN負責預測未來,學習這些潛在向量在時間序列上的動態(tài)變化,即預測在給定當前狀態(tài)和動作的情況下,下一個狀態(tài)會是什么。
2)Yann LeCun:基于編碼器與預測器的系統(tǒng)
Yann LeCun定義的核心在于,世界模型不僅僅是一個生成模型,更是一個包含了感知、記憶、預測和規(guī)劃等多個模塊的完整認知架構(gòu)。
模型由兩個核心部分組成:編碼器(Encoder)和預測器(Predictor):
- 編碼器(Encoder)負責理解世界 ,將高維的觀測數(shù)據(jù)(如圖像)轉(zhuǎn)換成一個低維的、抽象的表示h(t)。這個表示捕捉了環(huán)境的關(guān)鍵信息,同時過濾掉了不相關(guān)的細節(jié);
- 預測器(Predictor)負責預測未來,接收當前的表示、之前的世界狀態(tài)估計、一個預設(shè)的行動以及一個潛在變量,然后預測下一個世界的狀態(tài)。
二、世界模型跟傳統(tǒng)AI的區(qū)別
1. 世界模型的能力
世界模型的核心思想在于賦予人工智能系統(tǒng)一種類似人類的“想象力”和“規(guī)劃”能力。
具體來說,世界模型允許智能體在“心智”中模擬未來可能發(fā)生的情景,評估不同行動方案的潛在結(jié)果,并選擇最優(yōu)的策略來實現(xiàn)其目標。這種在模擬環(huán)境中進行“思想實驗”的能力,極大地提高了學習效率和決策的魯棒性。
2. 跟傳統(tǒng)基于實際環(huán)境的強化學習的具體區(qū)別
這里有可能提起強化學習會引起一些argue,強化學習雖然也與環(huán)境的動態(tài)變化有關(guān),但其學習方式通常是“試錯”。
智能體在環(huán)境中通過不斷嘗試不同的行動,并根據(jù)獲得的獎勵或懲罰來調(diào)整其策略。這種方式在簡單環(huán)境中可能有效,但在復雜、高維度的現(xiàn)實世界環(huán)境中,試錯學習的成本極高,甚至可能帶來災(zāi)難性的后果。
世界模型則提供了一種更高效的學習方式。它通過觀察和學習環(huán)境的動態(tài)規(guī)律,在內(nèi)部構(gòu)建一個模擬器。智能體可以在這個模擬器中進行大量的“想象”和“規(guī)劃”,從而找到最優(yōu)的行動序列,而無需在真實環(huán)境中進行大量的試錯 。
下面舉個自動駕駛中具體的例子作為說明,
VLM / VLA 相當于背熟了一本《汽車駕駛?cè)珪罚馈坝龅綕窕访嫘枰崆皠x車”這條規(guī)則,當從輸入語義或圖像的token中獲取到“濕滑路面”時會提前進行剎車制動;
而一個具備世界模型的自動駕駛系統(tǒng),可以在遇到濕滑路面時,預判到如果車速過快可能會導致剎車距離延長,從而提前減速,避免危險;世界模型的決策需要源于AI內(nèi)部對物理規(guī)律(如摩擦力、慣性)的模擬,而不是簡單地記憶“濕滑路面要減速”這條規(guī)則。
三、為什么世界模型難訓練?與LLM / MLLM的區(qū)別
上面說了很多,感覺世界模型真的很重要,那么為啥只有幾家大廠在“孤獨地”推進呢?
夕小瑤的這篇文章???從Genie 3看懂“世界模型”:為什么說它比語言模型更接近AGI?? 解釋得非常透徹,推薦大家去看看。
這里做個簡單的總結(jié),world model通過視頻訓練——>理解世界,需要學習視頻中的物理規(guī)律,空間動態(tài)以及因果。跟LLM / MLLM 相比難訓練的主要原因包括三方面:訓練成本,算法以及架構(gòu)。
1. 訓練成本
這個應(yīng)該是最根源的問題。
LLM / MLLM :現(xiàn)存互聯(lián)網(wǎng)數(shù)據(jù)多易爬取,成本低,主要是一維序列與NTP任務(wù)。
World model:訓練數(shù)據(jù)要求較高,除視頻數(shù)據(jù)本身外還需要包括圖像注釋,動作軌跡、物理動態(tài)、空間結(jié)構(gòu)、因果鏈條等方面的標注;標注需要涉及時序、空間一致性、以及角色之間的交互與反饋,需要把世界一幀一幀講清楚。
此外處理數(shù)據(jù)的過程也非常繁復,包括拆分—>去噪—>注釋—>去重—>分詞—>空間結(jié)構(gòu)—>跨模態(tài)對齊—>token壓縮等。
2. 算法復雜度
LLM / MLLM :通過NTP任務(wù)生成合理的句子,可能出現(xiàn)幻覺,但如果能自圓其說結(jié)果也能看。
World model :生成的視頻需要滿足因果成立、物理合理、空間連續(xù)且維持世界的邏輯閉環(huán),內(nèi)部需要有完整模擬器能預測結(jié)果、想象未來、評估路徑、對未知場景做出合理回應(yīng)。
3. 架構(gòu)
LLM / MLLM :基于Transformer 架構(gòu)和算力穩(wěn)健發(fā)展,上下文窗口越來越大,模型越來越深。
World model :Transformer 的堆砌難以解決更復雜的問題:
- 既要看圖像,又要預測運動
- 既要記住過去,還要能推演未來
- 既要生成細節(jié),又要邏輯連貫
- 還得考慮“動作—反饋—后果”的因果鏈條
四、 世界模型的核心架構(gòu)
1. 視覺模型(Vision Model, V):感知與表征
1) 功能
視覺模型是世界模型架構(gòu)中的第一個關(guān)鍵組件,其核心功能是處理來自外部世界的高維度感官輸入,并將其壓縮成一個低維度的潛在向量latent vector表示 。
視覺模型的首要任務(wù)就是對原始感官數(shù)據(jù)(攝像頭、激光雷達等傳感器接收到的數(shù)據(jù))進行“降維”和“提純”,提取出其中最關(guān)鍵、最本質(zhì)的特征,形成一個緊湊而富有信息量的潛在表示。
這部分需要捕捉環(huán)境中物體的位置、形狀、運動狀態(tài)等關(guān)鍵信息,同時忽略了那些不重要的細節(jié),將關(guān)鍵信息編碼到潛在向量中,為后續(xù)模塊提供一個清晰、簡潔的世界表征,使得整個系統(tǒng)能夠更高效地進行學習和決策。
這個壓縮過程不僅減少計算負擔,更重要的是,它幫助智能體抓住了世界的本質(zhì)規(guī)律,從而能夠更好地進行泛化,應(yīng)對那些從未見過的場景。
2)實現(xiàn)
通常這部分使用變分自編碼器(VAE)來實現(xiàn),VAE包括編碼器和解碼器:
- 編碼器負責將輸入數(shù)據(jù)(如圖像,點云等數(shù)據(jù))映射到一個潛在空間中的概率分布(通常是一個高斯分布),而不是一個確定的點。這個概率分布的均值和方差構(gòu)成了潛在向量;
- 解碼器則負責從這個潛在向量中重建出原始的輸入數(shù)據(jù)。
2. 記憶模型(Memory Model, M):學習與預測
1) 功能
記憶模型主要功能是學習環(huán)境在時間維度上的動態(tài)變化規(guī)律,并基于當前的狀態(tài)和行動來預測未來的狀態(tài) 。
如果說視覺模型負責理解“世界是什么樣”,那么記憶模型則負責理解“世界將如何變化”。
記憶模型起到了一個“承上啟下”的作用,通過接收來自視覺模型的潛在表示(即對當前世界狀態(tài)的壓縮描述)以及控制器發(fā)出的行動指令,來學習這兩者與未來世界狀態(tài)之間的因果關(guān)系。
當智能體需要完成一個復雜任務(wù)時,它可以利用記憶模型來“想象”出執(zhí)行不同行動序列后可能導致的未來場景,從而選擇出最有可能成功的行動方案。
舉個例子就是,在自動駕駛場景中,記憶模型需要學習“當車輛以某個速度行駛,并且方向盤轉(zhuǎn)動某個角度時,車輛在下一秒的位置和朝向?qū)绾巫兓?。通過不斷地學習和積累這些動態(tài)知識,記憶模型就能夠在智能體的“腦?!敝袠?gòu)建起一個關(guān)于世界如何運作的預測模型。
2)實現(xiàn)
RNN / LSTM / GRU與混合密度網(wǎng)絡(luò)(MDN):
- RNN / LSTM / GRU負責建模時間序列上的依賴關(guān)系;
- 混合密度網(wǎng)絡(luò)(Mixture Density Network, MDN)通過學習多個高斯分布的混合來近似任意復雜的概率分布,通過從這個概率分布中進行采樣,智能體就可以生成多個可能的未來場景,從而更好地應(yīng)對不確定性。
3. 控制器(Controller, C):決策與規(guī)劃
1)功能
基于視覺模型根據(jù)提供的當前世界表征和記憶模型預測的未來狀態(tài),來做出最優(yōu)的決策和規(guī)劃 ??刂破鞑⒉恢苯优c原始的外部世界交互,而是在一個由視覺模型和記憶模型共同構(gòu)建的內(nèi)部模擬世界中進行“思考”和“規(guī)劃”。
這種在內(nèi)部世界中進行決策的方式,是世界模型架構(gòu)相比于傳統(tǒng)AI方法的一大優(yōu)勢。而控制器則可以在一個安全、高效的模擬環(huán)境中進行仿真訓練,極大縮小了成本。
它可以通過向記憶模型提出各種“假設(shè)性問題”(例如,“如果我向左轉(zhuǎn),會發(fā)生什么?”),來評估不同行動可能帶來的結(jié)果,并選擇那個最有可能導向成功的行動。這個過程可以反復迭代,使得控制器能夠規(guī)劃出復雜的、多步的行動序列,以完成長期目標。
2)實現(xiàn)
輕量級策略網(wǎng)絡(luò),即一個小型的FFN,輸入是當前的潛在狀態(tài)(來自視覺模型)和記憶模型的隱藏狀態(tài)(包含了對未來的預測信息),輸出是一個行動指令(例如,機器人的關(guān)節(jié)角度、自動駕駛汽車的方向盤轉(zhuǎn)角和油門)。
控制器的訓練通常采用強化學習的方法。但與傳統(tǒng)的強化學習不同,控制器是在世界模型構(gòu)建的模擬環(huán)境中進行訓練的。
訓練過程如下:控制器從某個初始狀態(tài)開始,根據(jù)當前的世界表征選擇一個行動;這個行動被輸入到記憶模型中,記憶模型預測出下一個世界的狀態(tài);然后,根據(jù)這個新的狀態(tài),環(huán)境會給出一個獎勵(或懲罰);控制器根據(jù)這個獎勵來更新其策略,以便在未來能夠獲得更高的累積獎勵。
整個過程都在模擬環(huán)境中進行,因此可以快速地執(zhí)行數(shù)百萬次的迭代,從而高效地學習到最優(yōu)策略。一旦控制器在模擬環(huán)境中訓練完成,它就可以被部署到真實世界中,與真實的環(huán)境進行交互。
目前各大OEM也普遍在推車端VLA,云端world model的智駕方案,可以看出world model確實是有很大的發(fā)展?jié)摿Α?/p>
五、目前各家世界模型的架構(gòu)介紹
1. DeepMind 的 DreamerV3
DreamerV3 不使用transformer,用的是循環(huán)狀態(tài)空間模型(RSSM), 與RNN單一的確定性隱藏狀態(tài) h_t 相比,RSSM將確定性狀態(tài) h_t 與隨機潛在狀態(tài) z_t 分離,通過 z_t 的概率分布顯式建模。

2. NVIDIA 的 Cosmos-Reason1
Cosmos-Reason1使用Mamba + MLP + Transformer混合體:

- Mamba負責捕捉長距離依賴,提高效率;
- Transformer負責對短距離依賴和高層次抽象進行注意力機制捕獲;
- MLP在Mamba層和Transformer層之間提供非線性變換。
3. Meta 的 NWM
Meta 的 NWM使用CDiT,一種能減少 FLOPs 的條件擴散網(wǎng)絡(luò):

CDiT基于擴散的學習過程,使用交叉注意力而非所有標記使用自注意力的,降低注意力復雜度,擴展到更長的上下文窗口和更大的模型。
六、總結(jié),世界模型到底是在訓練什么?
LeCun 提出的 JEPA(Joint Embedding Predictive Architecture)從像素層面的建模,轉(zhuǎn)向預測隱藏狀態(tài)的抽象表示,強調(diào)的是“預測未來潛在表征”的能力,而非逐像素生成。這種思路與人類認知極為相似——我們并不是逐幀還原畫面,而是基于抽象模型推測世界會如何演化。
AGI的目標是創(chuàng)造出能夠像人類一樣思考、學習和解決各種問題的智能系統(tǒng)。而人類智能的一個核心特征,就是具備一個關(guān)于世界的豐富而深刻的內(nèi)部模型。世界模型可以理解周圍的環(huán)境,預測未來的事件,并進行復雜的規(guī)劃和推理。
本篇簡單總結(jié)了世界模型的架構(gòu),這里再給一些個人的理解,世界模型其實本質(zhì)更像是在訓練人的元認知抽象能力,因此未來為一些針對COT的強化學習(類似于騰訊提出的RLVMR框架)研究很有潛力;后續(xù)大家也可以多多關(guān)注這塊。
參考文獻
[1] Understanding World or Predicting Future? A Comprehensive Survey of World Models - ( https://arxiv.org/pdf/2411.14499)
[2] 從Genie 3看懂“世界模型”:為什么說它比語言模型更接近AGI - (https://mp.weixin.qq.com/s/u1AGgjTj3ARWacVyTwGJ6Q)
[3] 【世界模型】一文讀懂世界模型:從核心原理到前沿爭議 - 知乎 - (https://zhuanlan.zhihu.com/p/1934608134745338050)
本文轉(zhuǎn)載自????瓦力算法學研所????,作者:喜歡瓦力的卷卷

















