AI無限生成《我的世界》,玩家動動鍵盤鼠標(biāo)自主控制!國產(chǎn)交互式世界模型來了
用AI無限擴(kuò)展《我的世界》,動動鼠標(biāo)、鍵盤即可搞定!
一直前進(jìn)、砍掉樹木,后面別有洞天的世界,都是由用戶與環(huán)境交互、AI實時生成的。

也就是說,在砍掉樹木之前,樹后面的內(nèi)容還是不存在的。
用鼠標(biāo)切換視角、環(huán)顧環(huán)境,絲滑生成連貫畫面內(nèi)容。

哪怕是跳躍,畫面也非常穩(wěn)定,且符合自然世界物理規(guī)律。

Minecraft中森林、沙灘、沙漠、冰川、河流、平原等場景都可搞定。
支持基礎(chǔ)運(yùn)動(前后左右)、復(fù)合運(yùn)動、視角移動、跳躍、攻擊等細(xì)節(jié)操作。
而且不局限于《我的世界》,類Unreal Engine場景泛化也不在話下。
生成的雨天后的街道,已經(jīng)非常逼真。

無限逼近畫面細(xì)節(jié)也不崩:

以上,就是交互式世界模型最新的重大更新!
Matrix-Game,面向游戲世界建模,專為開放世界生成高質(zhì)量內(nèi)容而來。
它由昆侖萬維帶來,可以讓用戶通過簡單的鍵鼠指令,自由探索、創(chuàng)作細(xì)節(jié)豐富且符合現(xiàn)實世界物理規(guī)律的虛擬內(nèi)容;以極低操作門檻,釋放物理真實感與創(chuàng)作自由度的雙重潛力。
要知道,傳統(tǒng)方法構(gòu)建類似效果,往往需要手寫代碼、渲染視覺效果,耗時又耗力。
此前,谷歌推出了完全由AI驅(qū)動的實時游戲引擎GameNGEN一夜爆火,它能以每秒20幀模擬經(jīng)典射擊游戲DOOM,被網(wǎng)友直呼“比Sora還震撼”。
圖片
Matrix-Game與之類似,是交互式世界模型的更進(jìn)一步探索。
具體如何實現(xiàn)?一起來看。
自由探索創(chuàng)作虛擬世界
Matrix-Game主要發(fā)布了三方面內(nèi)容:
- Matrix-Game-MC數(shù)據(jù)集
 - Matrix-Game主模型
 - GameWorld Score評測體系
 
Matrix-Game-MC數(shù)據(jù)集
Matrix-Game-MC數(shù)據(jù)集是一個自主構(gòu)建的大規(guī)模交互世界數(shù)據(jù)集。主要包含兩類數(shù)據(jù):大規(guī)模無標(biāo)簽的Minecraft游戲視頻和帶有鍵盤與鼠標(biāo)控制信號的Minecraft與Unreal可控視頻數(shù)據(jù),具備精細(xì)動作標(biāo)注。
這能讓模型同時學(xué)習(xí)復(fù)雜環(huán)境動態(tài)和交互模式,完成建模。
其中,無標(biāo)簽預(yù)訓(xùn)練數(shù)據(jù)采用三階段過濾機(jī)制:畫質(zhì)與美學(xué)過濾→非游戲內(nèi)容剔除→動態(tài)與視角穩(wěn)定性過濾。
從6000小時的MineDojo數(shù)據(jù)中過濾出近千小時高質(zhì)量數(shù)據(jù)。

有標(biāo)簽數(shù)據(jù)采用2種混合策略,生成數(shù)千小時可控監(jiān)督數(shù)據(jù)。
一方面基于探索代理(Exploration Agent),借助VPT agent在MineRL環(huán)境中自動探索,生成大規(guī)模、高質(zhì)量的Minecraft視頻數(shù)據(jù),數(shù)據(jù)中包含精確的鍵盤與鼠標(biāo)控制信號,支持可控性學(xué)習(xí)。
另一方面進(jìn)行程序化模擬(Unreal Procedural Simulation),基于Unreal Engine手動構(gòu)建結(jié)構(gòu)清晰、標(biāo)簽精確的模擬交互場景,提供位置信息、動作標(biāo)簽(離散與連續(xù))、以及環(huán)境反饋信號(如方塊是否成功破壞),生成高精度、無噪聲的可控標(biāo)注數(shù)據(jù),以此完成高保真動作-響應(yīng)建模。
Matrix-Game主模型
主模型核心框架基于擴(kuò)散模型。包含圖像到世界建模、自回歸式視頻生成、可控交互設(shè)計幾個部分。
首先,圖像到世界建模(Image-to-World Modeling)以單張圖像作為生成交互式視頻起點,融入用戶動作輸入(如鍵盤、鼠標(biāo)),通過類似Flux與HunyuanVideo的多模態(tài)擴(kuò)散模型直接生成虛擬游戲世界的視頻內(nèi)容。
過程中不依賴語言提示,僅基于視覺信號建??臻g幾何、物體運(yùn)動及其物理交互。

然后通過自回歸式視頻生成(Autoregressive Diffusion Generation),持續(xù)生成高一致性長視頻內(nèi)容。
每次生成以前一視頻片段的最后k=5幀作為運(yùn)動上下文,逐段遞進(jìn)生成,確保時間上的連貫性。
為緩解時序漂移和誤差累積,訓(xùn)練中以一定概率針對參考圖像與運(yùn)動上下文引入隨機(jī)擾動、隨機(jī)刪除以及分類引導(dǎo)(CFG)策略。

訓(xùn)練中采用可控交互設(shè)計(Injecting Actions for Controllability),鍵盤動作以離散token表達(dá),視角移動動作則以連續(xù)token表達(dá)。
采用GameFactory的控制模塊,并融入多模態(tài)Diffusion Transformer架構(gòu),同時使用CFG技術(shù)提升對控制信號的魯棒響應(yīng)能力。

GameWorld Score測評體系
為了系統(tǒng)性評估和比較交互式世界生成模型的性能,Matrix-Game提出了一套統(tǒng)一評測框架。
該評測體系首次實現(xiàn)了感知質(zhì)量+控制能力+物理合理性的全方位衡量。
核心評估維度有四方面:
- 視覺質(zhì)量(Visual Quality):評估每一幀圖像的清晰度、結(jié)構(gòu)一致性與真實感。依據(jù)人類視覺系統(tǒng)(HVS)標(biāo)準(zhǔn)衡量每一幀圖像生成效果。
 - 時間一致性(Temporal Quality):衡量模型生成視頻的動態(tài)連貫性,包括運(yùn)動連續(xù)性、節(jié)奏平滑性與時間穩(wěn)定性。
 - 交互可控性(Action Controllability):評估生成結(jié)果是否準(zhǔn)確響應(yīng)用戶輸入的控制信號,涵蓋離散控制(如前進(jìn)、跳躍)和連續(xù)控制(如視角轉(zhuǎn)換)。
 - 物理規(guī)則理解(Physical Rule Understanding):測試生成視頻是否遵循物理常識與空間一致性。
 

8大Minecraft場景中全面領(lǐng)先
結(jié)果顯示,在GameWorld Score評測系統(tǒng)中,Matrix-Game全面超越現(xiàn)有開源基線模型Decart的Oasis與微軟的MineWorld,在視覺質(zhì)量、時間一致性、動作可控性與物理規(guī)則理解四大維度上均取得領(lǐng)先成績。

在雙盲實驗中,用戶也更傾向于選擇Matrix-Game生成的視頻,總體偏好率達(dá)到96.3%,細(xì)分維度上的偏好也都超過89%,尤其是視覺質(zhì)量上,偏好率達(dá)到了98.23%。

在“運(yùn)動”、“攻擊”等動作上,Matrix-Game可實現(xiàn)90%+準(zhǔn)確率,而且在細(xì)粒度視角控制下依然保持高精度響應(yīng)。

在8大典型Minecraft場景中全面領(lǐng)先。

在實際應(yīng)用方面,Matrix-Game可以在虛擬游戲世界快速搭建、影視與元宇宙內(nèi)容生產(chǎn)、具身智能體訓(xùn)練和數(shù)據(jù)生成上發(fā)揮作用。
能夠更低成本、更高效率生成高保真、物理一致且可交互的虛擬視頻內(nèi)容或虛擬環(huán)境。
空間智能正在重塑虛擬世界
隨著大模型應(yīng)用落地趨勢開啟,在前沿領(lǐng)域,AI正在從2D世界向3D世界滲透。
李飛飛官宣創(chuàng)業(yè)World Labs,更是讓空間智能成為當(dāng)下熱議方向。
如今,只憑一張圖生成以假亂真的3D世界,已經(jīng)成為現(xiàn)實。
今年2月,昆侖萬維推出了Matrix-Zero世界模型,成為中國第一家同時推出3D場景生成、可交互視頻生成模型的企業(yè)。由此也開啟了昆侖萬維在世界模型Matrix系列上的探索以及在空間智能領(lǐng)域的深度布局。
國內(nèi)外,大廠巨頭們也紛紛押注3D AIGC,如谷歌DeepMind、騰訊等也一直在該領(lǐng)域進(jìn)行前沿布局。
為啥都看好空間智能?
一方面是技術(shù)演進(jìn)邏輯使然:從單模態(tài)到多模態(tài)、從2D到3D,技術(shù)總是朝著“更能傳遞豐富信息”的方向演進(jìn)。
另一方面在于,現(xiàn)階段技術(shù)也為向3D領(lǐng)域探索做好了一定基礎(chǔ)準(zhǔn)備,從算法、數(shù)據(jù)到算力,都展現(xiàn)出了處理3D內(nèi)容生成的潛力。比如世界模型、3D數(shù)字資產(chǎn)生成等……現(xiàn)在可以進(jìn)行前沿探索了。
再從行業(yè)需求來看,影視制作、游戲場景開發(fā)、具身智能等領(lǐng)域,都已經(jīng)浮現(xiàn)出對3D AIGC的需求。近期大火的智能體,也能在虛擬3D世界中進(jìn)行訓(xùn)練和迭代。
一定程度上,3D AIGC、世界模型可以為人類提供了一種全新的交互體驗。
所以也就不難理解李飛飛為何在這一領(lǐng)域創(chuàng)業(yè),硅谷巨頭也積極入局,這是對下一代AI、下一個“大模型”的押注。
如此趨勢,在國內(nèi)亦是如此。
更懂AI的人,已經(jīng)火速奔赴下一個戰(zhàn)場搶占先機(jī)了。
而這一次,站在最前面的是Matrix-Game及其背后的昆侖萬維,它們讓世界不再只是被觀看,而是被探索、被創(chuàng)造。
Github:https://github.com/SkyworkAI/Matrix-Game
Huggingface model:https://huggingface.co/Skywork/Matrix-Game
Homepage:https://matrix-game-homepage.github.io
技術(shù)報告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf















 
 
 













 
 
 
 