一句指令,無(wú)限宇宙!Matrix-Game硬核上線,秒殺SOTA
黑客帝國(guó)中的「矩陣」,已照進(jìn)現(xiàn)實(shí)。
指尖輕點(diǎn),一個(gè)細(xì)節(jié)滿滿、物理規(guī)則完美運(yùn)轉(zhuǎn)的虛擬世界就此誕生。
這個(gè)曾經(jīng)只在科幻大片出現(xiàn)的場(chǎng)景,如今「空間智能」就幫人類實(shí)現(xiàn)了。
繼之前刷屏的單張圖片生成虛擬世界Matrix Zero之后,昆侖萬(wàn)維又來(lái)搞事情了!
這次,他們?cè)俣人毫鸭夹g(shù)邊界,推出Matrix系巔峰之作——Matrix-Game。
GitHub:https://github.com/SkyworkAI/Matrix-Game
Hugging Face:https://huggingface.co/Skywork/Matrix-Game
技術(shù)報(bào)告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf
項(xiàng)目主頁(yè):https://matrix-game-homepage.github.io
這是一個(gè)不僅能生成虛擬世界,更讓你成為世界主宰的交互式創(chuàng)世引擎。
在這個(gè)空間智能時(shí)代,視頻生成、3D建模、交互控制的融合之力,正徹底顛覆人類與虛擬世界的連接方式。
直通「創(chuàng)世之神」
簡(jiǎn)單來(lái)說(shuō),Matrix-Game就是通往「創(chuàng)世神」之路的超級(jí)加速器。
它是Matrix系列在交互世界生成領(lǐng)域的首次驚艷落地,一個(gè)專為游戲世界量身打造的交互式世界基礎(chǔ)模型。
Matrix-Game的強(qiáng)大之處在于,不僅能在開(kāi)放世界里「造」出高質(zhì)量場(chǎng)景,還能精準(zhǔn)控制里面的細(xì)節(jié)。
現(xiàn)在,只需要輸入一個(gè)指令,即可自由探索、操控,甚至創(chuàng)造出細(xì)節(jié)豐富、物理規(guī)則合理的虛擬世界。
多場(chǎng)景可控生成
比如沙漠、森林、山丘、冰原、河流等場(chǎng)景,Matrix-Game可一鍵生成。
這種多場(chǎng)景泛化能力,讓Matrix-Game具備了強(qiáng)大的環(huán)境適用性,覆蓋了不同地形、天氣、生物群系的Minecraft場(chǎng)景。
依次是:沙漠、海灘、山丘、河流、森林(左右滑動(dòng)查看)
它還能支持前進(jìn)、跳躍、攻擊等細(xì)節(jié)操作,會(huì)根據(jù)用戶的輸入,準(zhǔn)確響應(yīng)。
不論是敲擊鍵盤(pán),還是鼠標(biāo)滑動(dòng),操作體驗(yàn)非常絲滑,仿佛置身于真實(shí)世界。
依次是:前進(jìn)、后退、向左、向右、跳躍、攻擊(左右滑動(dòng)查看)
包括視角移動(dòng),可實(shí)現(xiàn)360°無(wú)死角生成。
依次是:視角移動(dòng)向上、向下、向左、向右
依次是:視角移動(dòng)左上、左下、右上、右下
現(xiàn)在,只需把場(chǎng)景和交互控制融合,便會(huì)驚嘆Matrix-Game無(wú)與倫比的技術(shù)實(shí)力。
不論是前進(jìn)、后退,向左、向右,Matrix-Game不僅能精準(zhǔn)響應(yīng),而且周邊物理環(huán)境生成的穩(wěn)定性極高。
再比如,跳躍攻擊等幅度大的動(dòng)作,更是對(duì)AI空間生成提出了高難度的考驗(yàn)。
Matrix-Game模擬了真實(shí)物理規(guī)律,精準(zhǔn)拿捏。
它生成的虛擬世界不僅視覺(jué)連貫、細(xì)節(jié)逼真,還嚴(yán)格遵守了自然物理規(guī)律,如重力、碰撞等。
這種高保真表現(xiàn),顯著提升了沉浸感,讓用戶仿佛「身臨其境」。
總而言之,Matrix-Game能在不同Minecraft場(chǎng)景下做到可控生成,包括基礎(chǔ)運(yùn)動(dòng)、復(fù)合運(yùn)動(dòng)、視角運(yùn)動(dòng)等。
泛化場(chǎng)景生成
更令人興奮的是,Matrix-Game展現(xiàn)出向非Minecraft游戲環(huán)境泛化的潛力,為更廣泛的應(yīng)用奠定了基礎(chǔ)。
比如,生成賽博風(fēng)格的城市。
還有古建筑風(fēng)格的場(chǎng)景,都能無(wú)限生成。
由上可見(jiàn),Matrix-Game這一突破性成果,直接點(diǎn)燃了虛擬世界的無(wú)限可能。
它不僅刷新了交互式世界生成的技術(shù)天花板,更為構(gòu)建通用虛擬世界基座樹(shù)立了全新標(biāo)桿。
那么,它是如何做到的呢?
解密Matrix-Game三大技術(shù)核心
接下來(lái),讓我們一一拆解Matrix-Game的三大「秘密武器」。
大規(guī)模高質(zhì)量Matrix-Game-MC數(shù)據(jù)集
數(shù)據(jù)是AI模型的「養(yǎng)分」,其質(zhì)量和豐富度直接決定了模型的成敗。
為此,昆侖萬(wàn)維團(tuán)隊(duì)自主構(gòu)建了大規(guī)模Matrix-Game-MC數(shù)據(jù)集,為復(fù)雜環(huán)境的動(dòng)態(tài)學(xué)習(xí)和交互模式訓(xùn)練,提供了堅(jiān)實(shí)的基礎(chǔ)。
它涵蓋了「無(wú)標(biāo)注預(yù)訓(xùn)練數(shù)據(jù)」和精細(xì)標(biāo)注的「有標(biāo)注可控?cái)?shù)據(jù)」,兼顧了數(shù)據(jù)規(guī)模和質(zhì)量。
無(wú)標(biāo)注預(yù)訓(xùn)練數(shù)據(jù)
從6000小時(shí)的MineDojo數(shù)據(jù)中,研究者通過(guò)三階段過(guò)濾機(jī)制,篩選出近千小時(shí)高質(zhì)量數(shù)據(jù)。
具體來(lái)說(shuō),經(jīng)過(guò)了(1) 畫(huà)質(zhì)與美學(xué)過(guò)濾;(2) 非游戲內(nèi)容剔除;(3) 動(dòng)態(tài)與視角穩(wěn)定性過(guò)濾。
有標(biāo)注可控?cái)?shù)據(jù)
這里,采用了兩種策略,生成數(shù)千小時(shí)的精細(xì)標(biāo)注數(shù)據(jù)。
- 探索智能體(Exploration Agent):利用VPT agent在 MineRL環(huán)境中進(jìn)行自動(dòng)探索,生成包含精確鍵盤(pán)與鼠標(biāo)控制信號(hào)的Minecraft視頻數(shù)據(jù),支持可控性學(xué)習(xí)。
- 程序化模擬(Unreal Procedural Simulation):基于Unreal Engine手動(dòng)構(gòu)建清晰、標(biāo)注精確的交互場(chǎng)景,提供位置信息、動(dòng)作標(biāo)注(離散與連續(xù))、以及環(huán)境反饋信號(hào)(如方塊是否成功破壞),生成高精度、無(wú)噪聲的可控標(biāo)注數(shù)據(jù),助力高保真動(dòng)作-響應(yīng)建模。
核心架構(gòu):從圖像出發(fā)構(gòu)建可控交互世界
基于當(dāng)前最火的擴(kuò)散模型技術(shù),Matrix-Game打造了一個(gè)從圖像到世界生成的創(chuàng)新框架。
只需輸入一個(gè)指令、鼠標(biāo)移動(dòng),它就能生成連貫、可控的互動(dòng)視頻,兼顧視覺(jué)精度、時(shí)序一致性和物理合理性。
整體架構(gòu)的設(shè)計(jì),有三大核心亮點(diǎn):
1. 圖像到世界建模(Image-to-World Modeling)
它不依賴語(yǔ)言提示,僅基于視覺(jué)信號(hào)建模空間幾何、物體運(yùn)動(dòng),及物理交互,強(qiáng)調(diào)空間智能能力。
輸入形式是以單張參考圖像為起點(diǎn),生成交互式視頻。
在交互可控生成上,融合了用戶動(dòng)作輸入(如鍵盤(pán)、鼠標(biāo)),通過(guò)多模態(tài)擴(kuò)散模型,直接生成虛擬游戲世界的視頻內(nèi)容。
2. 自回歸式視頻生成(Autoregressive Diffusion Generation)
Matrix-Game支持自回歸方式scaling生成長(zhǎng)度,可持續(xù)生成高一致性長(zhǎng)視頻內(nèi)容。
每次,它會(huì)以前一視頻最后k=5幀作為運(yùn)動(dòng)上下文,逐段遞進(jìn)生成,確保了時(shí)間上的連貫性。
此外,通過(guò)隨機(jī)擾動(dòng)、隨機(jī)刪除、分類引導(dǎo)(CFG)策略,可緩解時(shí)序漂移和誤差積累,確保了時(shí)間連貫性。
3. 可控交互設(shè)計(jì)(Injecting Actions for Controllability)
對(duì)于交互設(shè)計(jì),鍵盤(pán)動(dòng)作(如上下左右跳躍攻擊)是以離散token表達(dá),視角移動(dòng)動(dòng)作(如鼠標(biāo)pitch角度)則以連續(xù)token表達(dá)。
同時(shí),它采用了GameFactory控制模塊,融入多模態(tài)Diffusion Transformer架構(gòu),并利用CFG提升對(duì)控制信號(hào)的魯棒響應(yīng)能力。
得益于這一架構(gòu),使得Matrix-Game在生成交互世界時(shí),既能保持視覺(jué)上的驚艷效果,又能精準(zhǔn)響應(yīng)用戶指令。
統(tǒng)一評(píng)測(cè)體系
接下來(lái),如何去全面、科學(xué)地評(píng)估交互世界生成模型的性能?
為此,研究團(tuán)隊(duì)創(chuàng)新性提出GameWorld Score評(píng)測(cè)體系。
它從視覺(jué)質(zhì)量、時(shí)間一致性、交互可控性,以及物理規(guī)則理解四個(gè)關(guān)鍵維度,來(lái)進(jìn)行量化評(píng)估。
- 視覺(jué)質(zhì)量(Visual Quality):基于人類視覺(jué)系統(tǒng)(HVS)標(biāo)準(zhǔn),評(píng)估每一幀圖像清晰度、結(jié)構(gòu)一致性與真實(shí)感。
- 時(shí)間一致性(Temporal Quality):衡量視頻的動(dòng)態(tài)連貫性,包括運(yùn)動(dòng)連續(xù)性、節(jié)奏平滑性與時(shí)間穩(wěn)定性。
- 交互可控性(Action Controllability):測(cè)試生成結(jié)果是否準(zhǔn)確響應(yīng)用戶輸入的控制信號(hào),涵蓋離散控制(如前進(jìn)、跳躍)和連續(xù)控制(如視角轉(zhuǎn)換)。
- 物理規(guī)則理解(Physical Rule Understanding):驗(yàn)證生成視頻是否遵循物理常識(shí)與空間一致性。
這一體系的提出,填補(bǔ)了行業(yè)在交互性、物理一致性等維度的評(píng)測(cè)空白,為模型的迭代優(yōu)化提供了科學(xué)依據(jù)。
而且, GameWorld Score首次實(shí)現(xiàn)了對(duì)「感知質(zhì)量+控制能力+物理合理性」的全方位衡量。
它不僅為Matrix-Game性能提供了全面量化的依據(jù),也為整個(gè)交互世界生成領(lǐng)域,樹(shù)立了統(tǒng)一的標(biāo)準(zhǔn)。
刷新SOTA 重塑交互式世界生成標(biāo)桿
在實(shí)驗(yàn)評(píng)估中,通過(guò)兩階段訓(xùn)練策略(無(wú)標(biāo)注預(yù)訓(xùn)練 + 動(dòng)作標(biāo)注微調(diào)),17B參數(shù)規(guī)模的大模型在空間理解、物理交互建模,以及用戶指令響應(yīng)方面,取得了顯著的突破。
在GameWorld Score評(píng)測(cè)系統(tǒng)中,Matrix-Game在以上四大評(píng)測(cè)維度中全面領(lǐng)先,超越了業(yè)內(nèi)著名開(kāi)源基線——Decart的Oasis和微軟的MineWorld。
尤其是,新模型在交互可控性和物理一致性等關(guān)鍵指標(biāo)上,表現(xiàn)尤為突出。
在雙盲評(píng)實(shí)驗(yàn)中,用戶更傾向于選擇Matrix-Game生成的視頻:
- 96.3%總體偏好率,生成效果更真實(shí)、連貫、可信;
- 93.76%動(dòng)作控制偏好,準(zhǔn)確響應(yīng)鍵盤(pán)與鼠標(biāo)指令;
- 98.23%視覺(jué)質(zhì)量得分,單幀畫(huà)面更清晰美觀;
- 89.56%時(shí)間一致性得分,動(dòng)態(tài)流暢,無(wú)閃爍跳變。
在控制性能上,Matrix-Game可實(shí)現(xiàn)「運(yùn)動(dòng)」「攻擊」等動(dòng)作高達(dá)90%+準(zhǔn)確率;細(xì)粒度視角控制下依然保持高精度響應(yīng)。
此外,Matrix-Game在8大典型Minecraft場(chǎng)景中,也全面領(lǐng)先。
模型展現(xiàn)出卓越的環(huán)境適應(yīng)與泛化能力,可廣泛應(yīng)用于復(fù)雜動(dòng)態(tài)的虛擬世界交互任務(wù)。
Matrix-Game用事實(shí)證明,它不僅能「看得清」,更能「動(dòng)得準(zhǔn)、控得穩(wěn)」,是當(dāng)前最強(qiáng)的交互式世界生成基座模型之一。
多領(lǐng)域革命引擎 解鎖交互宇宙
作為空間智能領(lǐng)域的先鋒之作,Matrix-Game不僅是一個(gè)技術(shù)突破,更是一個(gè)跨行業(yè)的賦能引擎。
通過(guò)融合視頻生成、三維建模與交互控制等核心技術(shù),空間智能不僅支持更加自然、直觀、沉浸的體驗(yàn),也在具身智能、影視制作、游戲開(kāi)發(fā)等領(lǐng)域展現(xiàn)出巨大潛力。
Matrix-Game強(qiáng)大的交互式生成能力,未來(lái)將在多個(gè)領(lǐng)域掀起深遠(yuǎn)的變革。
虛擬游戲世界快速搭建
老黃曾表示,「用不了十年,我們就能看到游戲中每一個(gè)像素都是由AI生成的」。
Matrix-Game的誕生,讓這一預(yù)言又近了一步。
傳統(tǒng)游戲世界構(gòu)建,往往依賴人工設(shè)計(jì)和3D建模,開(kāi)發(fā)周期長(zhǎng)、成本高。
而且,許多游戲地圖和任務(wù)缺乏多樣性,難以滿足玩家對(duì)高自由度探索需求。
對(duì)于游戲開(kāi)發(fā)者,Matrix-Game能以低成本、高效率生成細(xì)節(jié)豐富、可控的游戲地圖與任務(wù)環(huán)境,極大地縮短了開(kāi)發(fā)周期。
不論是開(kāi)放世界RPG的廣袤大陸,還是沙盒游戲的動(dòng)態(tài)地形,Matrix-Game都能根據(jù)指令實(shí)時(shí)生成,賦予玩家更高自由度的探索體驗(yàn)。
同時(shí),其物理一致性確保了游戲世界的真實(shí)感、沉浸感。
具身智能體訓(xùn)練與測(cè)試
具身智能,也稱物理AI,是AI下一個(gè)前沿。
它能夠讓智能體在物理世界中,具備感知、推理和行動(dòng)的能力。然而,現(xiàn)實(shí)開(kāi)發(fā)和測(cè)試中,具身智能面臨著多種挑戰(zhàn)。
比如,環(huán)境復(fù)雜性不足,測(cè)試場(chǎng)景單一,測(cè)試中難以復(fù)現(xiàn)現(xiàn)實(shí)世界動(dòng)態(tài)性和復(fù)雜性,導(dǎo)致訓(xùn)練效果較為有限。
又或是,真實(shí)物理環(huán)境搭建和數(shù)據(jù)采集耗時(shí)耗力,成本高昂等等。
在紅杉最新演講中,Jim Fan將「物理圖靈測(cè)試」稱之為AI的下一個(gè)北極星,即智能體在虛擬和物理世界無(wú)縫操作,展現(xiàn)出與人類無(wú)異的能力。
而Matrix-Game以高保真的交互世界生成能力,為智能體提供逼真的訓(xùn)練環(huán)境,直接助力這一目標(biāo)的實(shí)現(xiàn)。
從上面demo中不難看出,Matrix-Game可快速生成高度逼真虛擬場(chǎng)景,森林、山丘、冰原、蘑菇等,涵蓋了多樣地形、物體元素,多樣化場(chǎng)景定制。
這種環(huán)境不僅視覺(jué)細(xì)節(jié)豐富,還嚴(yán)格遵守物理規(guī)律,可以為具身智能提供接近真實(shí)世界的訓(xùn)練場(chǎng)。
另外,支持前進(jìn)、跳躍、抓取等精細(xì)動(dòng)作,Matrix-Game還能讓智能體實(shí)時(shí)、細(xì)致的交互。
未來(lái),Matrix-Game通過(guò)模擬極端天氣、家庭環(huán)境等,訓(xùn)練機(jī)器人、服務(wù)智能體,推動(dòng)通用具身智能的實(shí)現(xiàn)。
影視與元宇宙內(nèi)容生產(chǎn)
在影視與元宇宙領(lǐng)域,虛擬場(chǎng)景往往依賴3D建模和特效團(tuán)隊(duì),一個(gè)好萊塢特效場(chǎng)景制作可能耗費(fèi)數(shù)月,甚至數(shù)年,成本動(dòng)輒數(shù)百萬(wàn)。
一些現(xiàn)有虛擬世界,多為靜態(tài)或有限的交互,難以滿足元宇宙用戶對(duì)自由探索和實(shí)時(shí)互動(dòng)的需求。
Matrix-Game能以更高效生產(chǎn)真實(shí)合理的動(dòng)態(tài)虛擬空間,直接賦能創(chuàng)意內(nèi)容制作與沉浸式體驗(yàn)的開(kāi)發(fā)。
它為導(dǎo)演、元宇宙開(kāi)發(fā)者提供了一個(gè)革命性工具,將重塑虛擬內(nèi)容創(chuàng)作的未來(lái)。
教育與仿真系統(tǒng)構(gòu)建
Matrix-Game在教育、仿真系統(tǒng)構(gòu)建領(lǐng)域中,同樣大有可為。
即,通過(guò)生成高度可控、交互豐富的虛擬學(xué)習(xí)環(huán)境,為學(xué)生和專業(yè)人士提供一個(gè)沉浸式訓(xùn)練平臺(tái)。
舉個(gè)栗子,在醫(yī)學(xué)教育中,或許就可以利用Matrix-Game模擬手術(shù)室場(chǎng)景,讓學(xué)生身臨其境練習(xí)復(fù)雜操作。
在航空航天領(lǐng)域,則可以用于生成逼真的飛行模擬環(huán)境,幫助飛行員提升應(yīng)對(duì)突發(fā)狀況的能力。
這些虛擬場(chǎng)景的搭建,不僅能降低培訓(xùn)成本,還能通過(guò)交互反饋提升學(xué)習(xí)效果。
此外,在文化遺產(chǎn)保護(hù)、零售電商、數(shù)字孿生與智能城市規(guī)劃等領(lǐng)域中,Matrix-Game未來(lái)將會(huì)釋放無(wú)限的潛力。
它讓世界不再是靜態(tài)的畫(huà)卷,而是可以被探索、被操控、被創(chuàng)造的活宇宙。
下一步,Matrix-Game還將繼續(xù)迭代優(yōu)化,帶領(lǐng)我們邁向更加智能、沉浸的虛擬世界。