偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

世界模型的架構(gòu)總結(jié) 原創(chuàng)

發(fā)布于 2025-8-19 09:35

瀏覽

0收藏

在開始前我們先來分析一下當下的AI技術(shù)發(fā)展路線：

1. 目前來看LLM/MLLM等類似GPT的decoder架構(gòu)仍是主流，各家更新一代比一代快；

2. 由sora帶火的diffusion model類生成式模型還處于是否是“world simulator”的爭議中悄悄發(fā)育；

3. Deepmind、Meta、Nvidia等幾家在“孤獨地”推進世界模型，還沒有真正進入大眾視野應(yīng)用。

上述的路線中哪一條可能是真正可以在未來通往AGI的路呢？

目前業(yè)內(nèi)主要的觀點還是第三種。

Meta首席AI科學家_Yann LeCun_甚至預測“再過五年可能沒有人會再使用目前這種（通過在離散的詞元（token）空間中進行預測）的純LLM范式”；

近日Google的開發(fā)負責人和Deepmind CEO在談?wù)揋enie3的訪談中也提到了一個更大的視角 : “World models aren't just about physical simulation. Every creative domain has its own physics”。

世界模型的架構(gòu)總結(jié)-AI.x社區(qū)

Genie3的效果不知道大家看沒有，確實有些震撼：720p的清晰度、24FPS的實時生成速率，以及提示式世界事件（Promptable world Events），這意味著可以支持第一人稱視角導航和實時互動，完全在虛擬世界中生活了。

這背后“世界模型”是主要的技術(shù)支撐，那么本文就來總結(jié)世界模型的架構(gòu)，下面是一個快捷目錄。

一、什么是世界模型？

二、世界模型跟傳統(tǒng)AI的區(qū)別

三、為什么世界模型難訓練？與LLM / MLLM的區(qū)別

四、世界模型的核心架構(gòu)

五、目前各家世界模型的架構(gòu)介紹

六、總結(jié)，世界模型到底是在訓練什么？

一、什么是世界模型？

1. 世界模型的概念

世界模型的概念源于認知科學和機器人學，它強調(diào)AI系統(tǒng)需要具備對物理世界的直觀理解，而不僅僅是處理離散的符號或數(shù)據(jù) 。

世界模型主要分為理解世界和預測未來兩大視角——即構(gòu)建內(nèi)部表示以理解世界機制，預測未來狀態(tài)以模擬和指導決策。這個視角可以輔助大家去理解很多世界模型的架構(gòu)。

世界模型的架構(gòu)總結(jié)-AI.x社區(qū)

2. 權(quán)威定義解析

1）David Ha和Jürgen Schmidhuber：生成式神經(jīng)網(wǎng)絡(luò)模型

他們在2018年開創(chuàng)性論文《Recurrent World Models Facilitate Policy Evolution》中將世界模型定義為一個生成式模型，該模型能夠理解和模擬環(huán)境，學習行為策略，并將學到的知識遷移到新的情境中。

他們的模型由兩個核心部分組成：一個變分自編碼器（VAE）和一個循環(huán)神經(jīng)網(wǎng)絡(luò)RNN：

VAE負責理解世界，捕捉環(huán)境的關(guān)鍵特征，將高維的感官輸入（如圖像）壓縮成一個低維的潛在向量（latent vector）；
RNN負責預測未來，學習這些潛在向量在時間序列上的動態(tài)變化，即預測在給定當前狀態(tài)和動作的情況下，下一個狀態(tài)會是什么。

2）Yann LeCun：基于編碼器與預測器的系統(tǒng)

Yann LeCun定義的核心在于，世界模型不僅僅是一個生成模型，更是一個包含了感知、記憶、預測和規(guī)劃等多個模塊的完整認知架構(gòu)。

模型由兩個核心部分組成：編碼器（Encoder）和預測器（Predictor）：

編碼器（Encoder）負責理解世界，將高維的觀測數(shù)據(jù)（如圖像）轉(zhuǎn)換成一個低維的、抽象的表示h(t)。這個表示捕捉了環(huán)境的關(guān)鍵信息，同時過濾掉了不相關(guān)的細節(jié)；
預測器（Predictor）負責預測未來，接收當前的表示、之前的世界狀態(tài)估計、一個預設(shè)的行動以及一個潛在變量，然后預測下一個世界的狀態(tài)。

二、世界模型跟傳統(tǒng)AI的區(qū)別

1. 世界模型的能力

世界模型的核心思想在于賦予人工智能系統(tǒng)一種類似人類的“想象力”和“規(guī)劃”能力。

具體來說，世界模型允許智能體在“心智”中模擬未來可能發(fā)生的情景，評估不同行動方案的潛在結(jié)果，并選擇最優(yōu)的策略來實現(xiàn)其目標。這種在模擬環(huán)境中進行“思想實驗”的能力，極大地提高了學習效率和決策的魯棒性。

2. 跟傳統(tǒng)基于實際環(huán)境的強化學習的具體區(qū)別

這里有可能提起強化學習會引起一些argue，強化學習雖然也與環(huán)境的動態(tài)變化有關(guān)，但其學習方式通常是“試錯”。

智能體在環(huán)境中通過不斷嘗試不同的行動，并根據(jù)獲得的獎勵或懲罰來調(diào)整其策略。這種方式在簡單環(huán)境中可能有效，但在復雜、高維度的現(xiàn)實世界環(huán)境中，試錯學習的成本極高，甚至可能帶來災(zāi)難性的后果。

世界模型則提供了一種更高效的學習方式。它通過觀察和學習環(huán)境的動態(tài)規(guī)律，在內(nèi)部構(gòu)建一個模擬器。智能體可以在這個模擬器中進行大量的“想象”和“規(guī)劃”，從而找到最優(yōu)的行動序列，而無需在真實環(huán)境中進行大量的試錯。

下面舉個自動駕駛中具體的例子作為說明，

VLM / VLA 相當于背熟了一本《汽車駕駛?cè)珪罚馈坝龅綕窕访嫘枰崆皠x車”這條規(guī)則，當從輸入語義或圖像的token中獲取到“濕滑路面”時會提前進行剎車制動；

而一個具備世界模型的自動駕駛系統(tǒng)，可以在遇到濕滑路面時，預判到如果車速過快可能會導致剎車距離延長，從而提前減速，避免危險；世界模型的決策需要源于AI內(nèi)部對物理規(guī)律（如摩擦力、慣性）的模擬，而不是簡單地記憶“濕滑路面要減速”這條規(guī)則。

三、為什么世界模型難訓練？與LLM / MLLM的區(qū)別

上面說了很多，感覺世界模型真的很重要，那么為啥只有幾家大廠在“孤獨地”推進呢？

夕小瑤的這篇文章???從Genie 3看懂“世界模型”：為什么說它比語言模型更接近AGI?? 解釋得非常透徹，推薦大家去看看。

這里做個簡單的總結(jié)，world model通過視頻訓練——>理解世界，需要學習視頻中的物理規(guī)律，空間動態(tài)以及因果。跟LLM / MLLM 相比難訓練的主要原因包括三方面：訓練成本，算法以及架構(gòu)。

1. 訓練成本

這個應(yīng)該是最根源的問題。

LLM / MLLM ：現(xiàn)存互聯(lián)網(wǎng)數(shù)據(jù)多易爬取，成本低，主要是一維序列與NTP任務(wù)。

World model：訓練數(shù)據(jù)要求較高，除視頻數(shù)據(jù)本身外還需要包括圖像注釋，動作軌跡、物理動態(tài)、空間結(jié)構(gòu)、因果鏈條等方面的標注；標注需要涉及時序、空間一致性、以及角色之間的交互與反饋，需要把世界一幀一幀講清楚。

此外處理數(shù)據(jù)的過程也非常繁復，包括拆分—>去噪—>注釋—>去重—>分詞—>空間結(jié)構(gòu)—>跨模態(tài)對齊—>token壓縮等。

2. 算法復雜度

LLM / MLLM ：通過NTP任務(wù)生成合理的句子，可能出現(xiàn)幻覺，但如果能自圓其說結(jié)果也能看。

World model ：生成的視頻需要滿足因果成立、物理合理、空間連續(xù)且維持世界的邏輯閉環(huán)，內(nèi)部需要有完整模擬器能預測結(jié)果、想象未來、評估路徑、對未知場景做出合理回應(yīng)。

3. 架構(gòu)

LLM / MLLM ：基于Transformer 架構(gòu)和算力穩(wěn)健發(fā)展，上下文窗口越來越大，模型越來越深。

World model ：Transformer 的堆砌難以解決更復雜的問題：

既要看圖像，又要預測運動
既要記住過去，還要能推演未來
既要生成細節(jié)，又要邏輯連貫
還得考慮“動作—反饋—后果”的因果鏈條

四、世界模型的核心架構(gòu)

1. 視覺模型（Vision Model, V）：感知與表征

1）功能

視覺模型是世界模型架構(gòu)中的第一個關(guān)鍵組件，其核心功能是處理來自外部世界的高維度感官輸入，并將其壓縮成一個低維度的潛在向量latent vector表示。

視覺模型的首要任務(wù)就是對原始感官數(shù)據(jù)（攝像頭、激光雷達等傳感器接收到的數(shù)據(jù)）進行“降維”和“提純”，提取出其中最關(guān)鍵、最本質(zhì)的特征，形成一個緊湊而富有信息量的潛在表示。

這部分需要捕捉環(huán)境中物體的位置、形狀、運動狀態(tài)等關(guān)鍵信息，同時忽略了那些不重要的細節(jié)，將關(guān)鍵信息編碼到潛在向量中，為后續(xù)模塊提供一個清晰、簡潔的世界表征，使得整個系統(tǒng)能夠更高效地進行學習和決策。

這個壓縮過程不僅減少計算負擔，更重要的是，它幫助智能體抓住了世界的本質(zhì)規(guī)律，從而能夠更好地進行泛化，應(yīng)對那些從未見過的場景。

2）實現(xiàn)

通常這部分使用變分自編碼器（VAE）來實現(xiàn)，VAE包括編碼器和解碼器：

編碼器負責將輸入數(shù)據(jù)（如圖像，點云等數(shù)據(jù)）映射到一個潛在空間中的概率分布（通常是一個高斯分布），而不是一個確定的點。這個概率分布的均值和方差構(gòu)成了潛在向量；
解碼器則負責從這個潛在向量中重建出原始的輸入數(shù)據(jù)。

2. 記憶模型（Memory Model, M）：學習與預測

1）功能

記憶模型主要功能是學習環(huán)境在時間維度上的動態(tài)變化規(guī)律，并基于當前的狀態(tài)和行動來預測未來的狀態(tài) 。

如果說視覺模型負責理解“世界是什么樣”，那么記憶模型則負責理解“世界將如何變化”。

記憶模型起到了一個“承上啟下”的作用，通過接收來自視覺模型的潛在表示（即對當前世界狀態(tài)的壓縮描述）以及控制器發(fā)出的行動指令，來學習這兩者與未來世界狀態(tài)之間的因果關(guān)系。

當智能體需要完成一個復雜任務(wù)時，它可以利用記憶模型來“想象”出執(zhí)行不同行動序列后可能導致的未來場景，從而選擇出最有可能成功的行動方案。

舉個例子就是，在自動駕駛場景中，記憶模型需要學習“當車輛以某個速度行駛，并且方向盤轉(zhuǎn)動某個角度時，車輛在下一秒的位置和朝向?qū)绾巫兓?。通過不斷地學習和積累這些動態(tài)知識，記憶模型就能夠在智能體的“腦?！敝袠?gòu)建起一個關(guān)于世界如何運作的預測模型。

2）實現(xiàn)

RNN / LSTM / GRU與混合密度網(wǎng)絡(luò)（MDN）：

RNN / LSTM / GRU負責建模時間序列上的依賴關(guān)系；
混合密度網(wǎng)絡(luò)（Mixture Density Network, MDN）通過學習多個高斯分布的混合來近似任意復雜的概率分布，通過從這個概率分布中進行采樣，智能體就可以生成多個可能的未來場景，從而更好地應(yīng)對不確定性。

3. 控制器（Controller, C）：決策與規(guī)劃

1）功能

基于視覺模型根據(jù)提供的當前世界表征和記憶模型預測的未來狀態(tài)，來做出最優(yōu)的決策和規(guī)劃 ?？刂破鞑⒉恢苯优c原始的外部世界交互，而是在一個由視覺模型和記憶模型共同構(gòu)建的內(nèi)部模擬世界中進行“思考”和“規(guī)劃”。

這種在內(nèi)部世界中進行決策的方式，是世界模型架構(gòu)相比于傳統(tǒng)AI方法的一大優(yōu)勢。而控制器則可以在一個安全、高效的模擬環(huán)境中進行仿真訓練，極大縮小了成本。

它可以通過向記憶模型提出各種“假設(shè)性問題”（例如，“如果我向左轉(zhuǎn)，會發(fā)生什么？”），來評估不同行動可能帶來的結(jié)果，并選擇那個最有可能導向成功的行動。這個過程可以反復迭代，使得控制器能夠規(guī)劃出復雜的、多步的行動序列，以完成長期目標。

2）實現(xiàn)

輕量級策略網(wǎng)絡(luò)，即一個小型的FFN，輸入是當前的潛在狀態(tài)（來自視覺模型）和記憶模型的隱藏狀態(tài)（包含了對未來的預測信息），輸出是一個行動指令（例如，機器人的關(guān)節(jié)角度、自動駕駛汽車的方向盤轉(zhuǎn)角和油門）。

控制器的訓練通常采用強化學習的方法。但與傳統(tǒng)的強化學習不同，控制器是在世界模型構(gòu)建的模擬環(huán)境中進行訓練的。

訓練過程如下：控制器從某個初始狀態(tài)開始，根據(jù)當前的世界表征選擇一個行動；這個行動被輸入到記憶模型中，記憶模型預測出下一個世界的狀態(tài)；然后，根據(jù)這個新的狀態(tài)，環(huán)境會給出一個獎勵（或懲罰）；控制器根據(jù)這個獎勵來更新其策略，以便在未來能夠獲得更高的累積獎勵。

整個過程都在模擬環(huán)境中進行，因此可以快速地執(zhí)行數(shù)百萬次的迭代，從而高效地學習到最優(yōu)策略。一旦控制器在模擬環(huán)境中訓練完成，它就可以被部署到真實世界中，與真實的環(huán)境進行交互。

目前各大OEM也普遍在推車端VLA，云端world model的智駕方案，可以看出world model確實是有很大的發(fā)展?jié)摿Α?/p>

五、目前各家世界模型的架構(gòu)介紹

1. DeepMind 的 DreamerV3

DreamerV3 不使用transformer，用的是循環(huán)狀態(tài)空間模型（RSSM），與RNN單一的確定性隱藏狀態(tài) h_t 相比，RSSM將確定性狀態(tài) h_t 與隨機潛在狀態(tài) z_t 分離，通過 z_t 的概率分布顯式建模。

世界模型的架構(gòu)總結(jié)-AI.x社區(qū)

2. NVIDIA 的 Cosmos-Reason1

Cosmos-Reason1使用Mamba + MLP + Transformer混合體：

世界模型的架構(gòu)總結(jié)-AI.x社區(qū)

Mamba負責捕捉長距離依賴，提高效率；
Transformer負責對短距離依賴和高層次抽象進行注意力機制捕獲；
MLP在Mamba層和Transformer層之間提供非線性變換。

3. Meta 的 NWM

Meta 的 NWM使用CDiT，一種能減少 FLOPs 的條件擴散網(wǎng)絡(luò)：

世界模型的架構(gòu)總結(jié)-AI.x社區(qū)

CDiT基于擴散的學習過程，使用交叉注意力而非所有標記使用自注意力的，降低注意力復雜度，擴展到更長的上下文窗口和更大的模型。

六、總結(jié)，世界模型到底是在訓練什么？

LeCun 提出的 JEPA（Joint Embedding Predictive Architecture）從像素層面的建模，轉(zhuǎn)向預測隱藏狀態(tài)的抽象表示，強調(diào)的是“預測未來潛在表征”的能力，而非逐像素生成。這種思路與人類認知極為相似——我們并不是逐幀還原畫面，而是基于抽象模型推測世界會如何演化。

AGI的目標是創(chuàng)造出能夠像人類一樣思考、學習和解決各種問題的智能系統(tǒng)。而人類智能的一個核心特征，就是具備一個關(guān)于世界的豐富而深刻的內(nèi)部模型。世界模型可以理解周圍的環(huán)境，預測未來的事件，并進行復雜的規(guī)劃和推理。

本篇簡單總結(jié)了世界模型的架構(gòu)，這里再給一些個人的理解，世界模型其實本質(zhì)更像是在訓練人的元認知抽象能力，因此未來為一些針對COT的強化學習（類似于騰訊提出的RLVMR框架）研究很有潛力；后續(xù)大家也可以多多關(guān)注這塊。

參考文獻

[1] Understanding World or Predicting Future? A Comprehensive Survey of World Models - ( https://arxiv.org/pdf/2411.14499)

[2] 從Genie 3看懂“世界模型”：為什么說它比語言模型更接近AGI - (https://mp.weixin.qq.com/s/u1AGgjTj3ARWacVyTwGJ6Q)

[3] 【世界模型】一文讀懂世界模型：從核心原理到前沿爭議 - 知乎 - (https://zhuanlan.zhihu.com/p/1934608134745338050)

本文轉(zhuǎn)載自????瓦力算法學研所????，作者：喜歡瓦力的卷卷

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

社區(qū)頭條

回復

相關(guān)推薦

Sora的狂歡、世界模型和AGI

lintoms ? 3659瀏覽 ? 0回復
基于擴散模型的，開源世界模型DIAMOND

Aceryt ? 4142瀏覽 ? 0回復
GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界

duhorse ? 3398瀏覽 ? 0回復
PWM: 基于世界模型的策略學習

AIGC最前線 ? 4302瀏覽 ? 0回復
大模型面經(jīng)——LoRA最全總結(jié)

shizhi02 ? 4742瀏覽 ? 0回復
大模型面經(jīng)——Langchain總結(jié)

shizhi02 ? 4043瀏覽 ? 0回復
大模型面經(jīng)——MoE混合專家模型總結(jié)

shizhi02 ? 4317瀏覽 ? 0回復
Kaggle大模型競賽優(yōu)勝方案總結(jié)與思考

arnoldzhw ? 5513瀏覽 ? 0回復
長文 | 大模型Post-Training總結(jié)

NLP工作站 ? 4487瀏覽 ? 0回復
英偉達開源世界大模型，完美模擬物理世界！

Aceryt ? 4896瀏覽 ? 0回復
RAG范式演進及Agentic-RAG總結(jié)綜述

大模型自然語言處理 ? 5616瀏覽 ? 0回復
DeepSeek 模型架構(gòu)的特殊選擇

amei2000go ? 3935瀏覽 ? 0回復
【模型測試】大模型評測工具OpenCompass使用方法總結(jié)

一起AI技術(shù) ? 8893瀏覽 ? 0回復
12張圖清晰總結(jié) MCP、RAG、Agent 架構(gòu)設(shè)計間的關(guān)系

玄姐聊AGI ? 5104瀏覽 ? 0回復
12張圖清晰總結(jié) MCP、RAG、Agent 架構(gòu)設(shè)計間的關(guān)系

玄姐聊AGI ? 4735瀏覽 ? 0回復
11張圖全面總結(jié) MCP、A2A、Function Calling 架構(gòu)設(shè)計間關(guān)系

玄姐聊AGI ? 7770瀏覽 ? 0回復
八大LLM架構(gòu)大比較總結(jié)：從DeepSeek-V3->qwen3->Kimi K2看LLM架構(gòu)設(shè)計

大模型自然語言處理 ? 6110瀏覽 ? 0回復
下一代智能體，用大腦的方式看世界、走世界

xuxiangda ? 2309瀏覽 ? 0回復
Meta CWM：代碼世界模型的技術(shù)突破

魯班模錘1 ? 1770瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

LLMs后訓練技術(shù)總結(jié) 2025-07-15 12:39:27發(fā)布
LLM面經(jīng)——多模態(tài)大模型訓練中”模態(tài)懶惰“問題如何解決？ 2025-06-24 06:03:37發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復

DeepSeek團隊開源新模型DeepSeek-OCR，用3B參數(shù)量實現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復

上一篇： LLMs后訓練技術(shù)總結(jié)

社區(qū)精華內(nèi)容

目錄

<nav id="qkoew"></nav>

<strike id="qkoew"></strike>