李飛飛押注的「世界模型」,中國自研Matrix-3D已搶先實現了?
一花一世界,一葉一菩提。
千百年來,人類只能憑想象勾勒圖畫之外的世界,夢境與現實之間始終隔著一層不可觸及的紗幕。
而今天,當AI的力量被無限延伸,這層紗幕終于被揭開——
Matrix-3D,一個真正從「一圖生萬境」的世界模型!
它不僅是昆侖萬維第一款,也是第一首款全自研世界模型「Matrix-Zero」的全新升級。
進化后的世界模型Matrix-3D,可以從一張山間草地的照片出發(fā),創(chuàng)造出風吹草動、遠山起伏的全景風光。


從現代城市的一角出發(fā),它能「腦補」出畫面之外,繁華的街道和大廈。


現在,我們不再需要多個視圖,也不再局限于局部透視,而是真正實現了幾何結構精確、可以360°自由漫游的3D世界。
值得一提的是,本周還是昆侖萬維如火如荼的AI技術發(fā)布周,而Matrix-3D便是第二個出場的模型。
挑戰(zhàn)空間智能的核心痛點
大模型賽道卷了兩年,誰都在觀望,下一個破局的方向在何方。
在這之中,李飛飛僅用3個月就實現10億估值的World Labs也許能證明:具有空間智能的世界模型正是AI理解世界的下一個前沿。
最近,谷歌發(fā)布的Genie 3再次讓所有人對「世界模型」充滿期待,它能以每秒20-24幀速度,實時生成720p畫面,還能持續(xù)數分鐘一致性。

作為探索,昆侖萬維也在今年2月時發(fā)布了自研的Matrix-Zero世界模型:
- 它不僅能將用戶輸入的圖片轉化為可自由探索的真實合理的3D場景;
- 而且還能根據用戶輸入實時生成互動視頻效果。

而這次全新發(fā)布的Matrix-3D,首次具備了「從一圖入實境」的構建能力,讓世界模型再次得到了進化:
- 場景全局一致:支持360°自由視角瀏覽,幾何結構準確、遮擋關系自然,紋理風格統(tǒng)一。
- 生成場景范圍大:與現有場景生成方法相比,支持更大范圍的、可360度自由探索的場景生成
- 生成高度可控:同時支持文本和圖像輸入,結果與輸入高度匹配,支持自定義范圍與無限擴展。
- 泛化能力強:基于自研3D數據與視頻模型先驗,可生成豐富多樣的高質量場景。
- 生成速度快:首個前饋全景3D場景生成模型,可快速生成高質量3D場景。

技術報告:https://github.com/SkyworkAI/Matrix-3D/blob/main/asset/report.pdf
項目主頁:https://matrix-3d.github.io/
Github:https://github.com/SkyworkAI/Matrix-3D
Hugging Face:https://huggingface.co/Skywork/Matrix-3D
接下來,我們就來直觀感受一下,Matrix-3D的「威力」吧。
畫面一致性
首先,不管是生成的內容還是顏色,都能做到統(tǒng)一一致。
其次,在視角上,Matrix-3D可以支持360°的自由環(huán)視。
一座有草屋頂的房子,風車,以及延伸至地平線遠端的花田的動漫風格村莊,極為精細,暖光,舒適的氛圍。


此外,物體之間的幾何和遮擋關系,也能符合物理定律。
一幅印象派風格的冬日風景,包含山脈、湖泊、小屋、樹木和積雪,以藍色調為主,筆觸質感豐富,氛圍寧靜,高分辨率,色彩鮮明。

Matrix-3D生成的全景視頻如下:

而最終的3D場景渲染結果長這樣:

一個方塊像素化的景觀,包含山脈、樹木、水體、天空、云朵,類似《我的世界》風格,高分辨率,色彩鮮艷,紋理細節(jié)豐富,氛圍寧靜。


精準控制
3D世界中,我們的視角通常會隨心所欲地沿著不同路徑,向各種各樣的方向移動。

針對這些不同的軌跡,Matrix-3D能夠生成與之對應的3D場景。

比如,沿著S形的彎折前行:

或者,向右前方移動:

大范圍移動
對比李飛飛的World Labs方法,Matrix-3D支持更大范圍的移動。

可以看到,在World Labs發(fā)布的視頻中,「我們」剛走兩步,就碰到邊界了。

類似的,Hunyuan World 1.0在邊緣的生成上也存在問題。

相比之下,Matrix-3D「生成」的3D世界動態(tài)范圍更大,視角更豐富,范圍更廣。

無限續(xù)寫
創(chuàng)造的意義就在于,我們可以根據已知來描繪「未知」。
Matrix-3D生成一段場景后,可以允許用戶在此基礎上對場景進行擴寫。
比如一開始是一張靜態(tài)圖片,描繪了一座建在冰川上的未來研究基地,配有發(fā)光穹頂和先進機械,四周環(huán)繞著冰封景觀,具有科幻美學風格,畫面極為細致精美。

很快,Matrix-3D就根據圖片渲染出了首段視頻。
可以看到,畫面鏡頭從圖片開始緩緩前移,然后中途360°旋轉回正。

但是,如果我們想繼續(xù)知道「前路如何」呢?
Matrix-3D可以根據已經生成的全景視頻繼續(xù)完成續(xù)寫,可以看到畫面隨著鏡頭繼續(xù)前移,最終進入新的場景。

快速場景重建&精細場景重建
為了綜合考慮生成速度和質量,Matrix-3D有兩套場景生成框架——看中速度的「全景前饋重建」,以及看中質量的「3DGS優(yōu)化」。
舉個栗子,這是一張描繪河道的圖片。

如果就是想要快速生成,那么全景前饋重建只需不到10秒,即可給出一個可360°觀看的3D場景。

但如果希望得到更好的生成效果,就可以使用3DGS優(yōu)化,讓最終的場景既細致又準確,看上去就像真實拍攝的一樣。

解密Matrix-3D核心技術
如果說經過30年發(fā)展的互聯網世界為當下大模型時代提供了足夠「優(yōu)質」的訓練數據。
那么3D場景數據的稀缺性,也正是目前制約空間智能、3D場景生成的重要原因之一。
為了獲取3D數據,目前一種主流的研究方法是利用圖像生成模型或者視頻生成模型,作為三維生成的先驗。
但這類方法存在一個根本性的缺陷:
由于訓練過程主要基于透視圖(Perspective View)進行,模型只能學習到局部視角下的有限空間結構。
一旦用戶視角超出訓練數據所覆蓋的范圍,場景就會出現明顯的「邊界效應」或「斷層」。
如下圖所示,這種不連續(xù)性會嚴重破壞用戶的沉浸感,直接影響VR/AR等需要自由視角探索的下游應用體驗。

為了實現任意地點、任意角度的自由視角瀏覽,Matrix-3D引入了全景圖像(Panoramic Images)作為場景生成的中間表達形式。
與傳統(tǒng)透視圖相比,全景圖具備更全面的空間感知能力——
它能夠覆蓋360°水平視角和180°垂直視角,幾乎囊括了人眼可見的全部方向,如下圖所示,用戶可以從任意角度對場景進行觀察與探索。
圖片
更進一步,將多個地點的全景圖順序拼接,即可構建出一段連續(xù)的全景視頻(Panoramic Video)。
這種結構不僅保留了各個觀察點的空間信息,也為3D場景重建提供了充足的視覺線索,相當于以二維方式完整記錄了三維世界的骨架與細節(jié)。
這為后續(xù)的3D世界生成奠定了數據基礎,也極大提升了下游應用(如VR/AR)的沉浸式體驗質量。
確定使用全景視頻作為中間表達后,Matrix-3D設計了三個核心模塊來實現3D世界生成:
- 全景圖生成模塊:通過LoRA微調,從文本或透視圖生成高質量全景圖;
- 可控全景視頻生成模塊:結合用戶設定的軌跡和范圍,生成連續(xù)全景視頻;
- 3D場景生成模塊:從全景視頻解碼出完整3D場景,支持自由視角探索。
Matrix-Pano數據集
每一個空間智能問題,最終還是要回歸到數據集。
收集真實世界的3D場景數據仍然成本高昂,但是目前3D場景數據集存在規(guī)模小、視角不全、質量參差、缺乏精準相機/幾何標注等問題。
于是,昆侖萬維提出了Matrix-Pano數據集——這是一個基于Unreal Engine構建可擴展的全景視頻數據集,專為生成高質量、可探索的全景視頻而設計。
圖片
Matrix-Pano數據集具有以下特點:
- 場景環(huán)境多樣:包含11.6萬條全景視頻、2200萬幀畫面,覆蓋504個高質量室內外場景,多種天氣與光照條件。
- 軌跡生成智能高效:基于Navigation Mesh與Delaunay三角剖分,結合Dijkstra路徑規(guī)劃與Hermite曲線平滑,自動生成自然連貫的探索軌跡。
- 高仿真碰撞檢測:通過邊界框代理,實時剔除穿模或幾何剪切,確保運動軌跡物理合理。
- 工業(yè)級相機控制:融合多級平滑與PID控制,實現相機位置與旋轉的精準解耦,生成穩(wěn)定流暢的視頻序列及高質量標注。
- 開放共享:核心子集將向學術界開源,助力3D生成和空間智能領域研究。

同時,Matrix-3D的全景視頻生成結果在全景視頻生成評測集上也取得了最好的生成質量。
此外,Matrix-3D方法在生成結果的視覺質量和相機可控性層面都優(yōu)于現有方法。
圖片

不同方法生成全景視頻不同時刻對比圖,其中Matrix-3D方法生成視頻的質量更高、一致性更強(下方小圖為四方向透視圖)
軌跡引導的可控全景視頻生成
軌跡引導是突破控制性與3D視覺質量的關鍵技術。
所以,首要問題是如何構建軌跡引導?

· Initial Panorama with depth:輸入為帶深度的全景圖,提供基本的空間信息
· Trajectory guidance from point cloud:基于點云的軌跡引導
· Trajectory guidance from mesh:基于三角網格的軌跡引導方式
Matrix-3D根據輸入的全景圖像與深度圖構建三維網格,并結合預設相機軌跡生成引導視頻序列。
系統(tǒng)通過深度變化檢測遮擋區(qū)域,標記不可見像素并剔除其對應頂點,確保遮擋關系清晰準確。
每一幀引導圖像都配有可見性掩碼,用于精確控制模型輸入。
與傳統(tǒng)點云渲染相比,該方法有效緩解摩爾紋和遮擋錯誤,提升了幾何一致性和生成質量。
解決了軌跡引導,就可以進行全景視頻生成。
圖片
Matrix-3D通過一套「全景渲染+視頻擴散」的流程,實現從2D全景圖生成可自由探索的3D世界:
- 流程最左側為輸入的全景渲染圖(Scene Mesh Renders)和遮擋掩碼(Mask),包含幾何結構和可見性信息;
- 圖像經3D Causal Encoder編碼,遮擋掩碼下采樣后與其進行通道級拼接;
- 將融合特征輸入Video Diffusion Transformer,在時間維度合成連貫的視頻表示;
3D世界生成:從視頻到可探索三維世界
有了數據,也有了軌跡引導的可控全景視頻。
那如何將全景視頻還原為可自由探索的高質量3D場景呢?
Matrix-3D提供兩種方案,將全景視頻還原為可自由探索的高質量3D場景:
1. 優(yōu)化式三維重建:追求極致畫質
通過估算全景視頻深度并結合相機軌跡生成點云,作為三維高斯渲染(3DGS)的基礎輸入。
進一步引入超分辨率提升視頻質量,并將全景圖裁剪為12個透視視角,實現高精度3D重建。
適用于對細節(jié)要求極高的場景,如虛擬仿真與高保真還原。
2. 前饋三維重建:主打高效快速
為了提升效率,直接從視頻潛變量預測3DGS表達,顯著降低計算成本。
通過Transformer+DPT解碼器預測顏色、深度、尺寸、透明度等屬性,并結合Plücker編碼精準建模相機姿態(tài)。
采用專為全景圖設計的CUDA光柵器實現無需多視角的高效渲染。
訓練時采用兩階段策略,先引導模型學習幾何,再優(yōu)化真實渲染效果,兼顧準確性與泛化能力。

最左側輸入為視頻潛變量+相機編碼。
上支路:對視頻潛變量進行 2D 卷積提取特征;下支路:對相機姿態(tài)(如 Plücker 編碼)進行3D卷積處理,提取時空結構信息。
然后進行特征融合+Transformer 編碼,兩路特征拼接后送入多層Transformer進行全局建模,輸出空間一致的語義表達。
最后是分支解碼,第一分支預測深度圖,為重建提供幾何基礎;第二分支預測3DGS的其他屬性:顏色、尺寸、透明度、旋轉方向等。
最終生成可自由視角探索的全景3D場景,具備真實感強、幾何一致性好的空間體驗。
應用前景
Matrix-3D作為3D世界生成的重要里程碑,將在多個領域廣泛應用:
- 游戲與影視制作:快速生成高質量3D場景,助力游戲開發(fā)與虛擬拍攝,提升沉浸感并顯著降低制作成本。
- 具身智能:構建可控模擬環(huán)境,用于機器人訓練與自動駕駛測試,提高系統(tǒng)的安全性與泛化能力。
- 虛擬現實:生成可360°自由探索的沉浸式虛擬空間,為用戶帶來真實可感的交互體驗。
這些應用場景展示了Matrix-3D技術在不同領域中的重要性和多樣性。隨著技術的進步,這些應用將繼續(xù)發(fā)展并帶來更多創(chuàng)新。
從「一圖生萬境」到「無限宇宙皆可構建」,Matrix-3D 不僅是一項3D生成技術的突破,更是AI邁向空間智能時代的宣言。
它標志著——AI不再只是「解讀」圖像,而是真正能夠「走進」世界;不再只是「構想」場景,而是切實具備「創(chuàng)造」現實的力量。
未來,想象力將成為探索世界的唯一邊界。
而Matrix-3D,正在讓這道邊界徹底消失。




































