工業(yè)級(jí)3D世界構(gòu)建提速90倍!全新框架LatticeWorld讓虛擬世界「一句話成真」
本文的作者來(lái)自網(wǎng)易、香港城市大學(xué)、北京航空航天大學(xué)和清華大學(xué)等機(jī)構(gòu)。本文的共同第一作者為網(wǎng)易互娛段穎琳、北京航空航天大學(xué)鄒征夏、網(wǎng)易互娛谷統(tǒng)偉。本文的通訊作者為香港城市大學(xué)邱爽、網(wǎng)易互娛陳康。

- 論文題目:LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation
- 文章鏈接:https://arxiv.org/pdf/2509.05263
構(gòu)建一個(gè)工業(yè)級(jí)高仿真 3D 虛擬世界,需要投入多少時(shí)間與人力?如果僅需一段描述、一張草圖,AI 便可快速自動(dòng)生成 —— 你相信嗎?
這并非科幻!最新論文提出的 LatticeWorld 框架讓「指令直達(dá)場(chǎng)景」。該方法將大語(yǔ)言模型與工業(yè)級(jí) 3D 渲染引擎虛幻引擎 5(Unreal Engine 5,UE5)無(wú)縫融合,打通工業(yè)級(jí)程序化內(nèi)容生成(PCG)管線,實(shí)現(xiàn)讓虛擬世界「一句話成真」。創(chuàng)作效率提升 90 倍,為 3D 世界構(gòu)建帶來(lái)了革命性的突破。

在具身智能、自動(dòng)駕駛、游戲開(kāi)發(fā)和影視制作等領(lǐng)域,高質(zhì)量的 3D 世界構(gòu)建具有重大意義。
在具身智能和自動(dòng)駕駛中,高質(zhì)量的 3D 虛擬世界可作為仿真與算法訓(xùn)練的關(guān)鍵基礎(chǔ)設(shè)施;在游戲與影視領(lǐng)域,高質(zhì)量 3D 世界可支撐逼真與沉浸體驗(yàn)。然而,傳統(tǒng)的 3D 場(chǎng)景制作主要依賴藝術(shù)家手工建模,不僅成本高昂、耗時(shí)巨大,還難以快速響應(yīng)多樣化的創(chuàng)作需求。
隨著生成式 AI 的快速發(fā)展,自動(dòng)化的 3D 世界生成逐漸成為可能,為行業(yè)提供了新的解決思路。然而,現(xiàn)有方法存在顯著局限:基于神經(jīng)渲染的方法缺乏交互能力,限制了實(shí)際應(yīng)用;基于擴(kuò)散模型的視覺(jué)生成方案雖能創(chuàng)建內(nèi)容,但依賴大量視頻訓(xùn)練數(shù)據(jù),在復(fù)雜物理仿真與多智能體交互場(chǎng)景中仍有待進(jìn)一步發(fā)展。
對(duì)此,另一類研究嘗試將生成式模型與 3D 建模平臺(tái)相集成,其中以 Blender 平臺(tái)尤為常見(jiàn)。不過(guò),Blender 在實(shí)時(shí)交互的支持和高保真的物理仿真方面原生能力依然有限,不能很好的滿足工業(yè)級(jí) 3D 世界建模的現(xiàn)實(shí)需求。
為解決上述難題,研究團(tuán)隊(duì)提出了一個(gè)高效的多模態(tài) 3D 世界生成框架 LatticeWorld。該框架巧妙地將輕量級(jí)大語(yǔ)言模型(LLaMA-2-7B)與工業(yè)級(jí)渲染引擎(如 UE5)相結(jié)合,支持文本描述和視覺(jué)指令的多模態(tài)輸入,能夠生成具備高動(dòng)態(tài)環(huán)境、真實(shí)物理仿真和實(shí)時(shí)渲染的大規(guī)模交互式 3D 世界,并高效支持多智能體交互。相比傳統(tǒng)手工化的工業(yè)流程,LatticeWorld 在保持高創(chuàng)作質(zhì)量的同時(shí),創(chuàng)作效率提升超過(guò) 90 倍,為 3D 世界構(gòu)建帶來(lái)了革命性的突破。

LatticeWorld 框架介紹
LatticeWorld 框架的核心思想是采用大語(yǔ)言模型處理場(chǎng)景布局和環(huán)境配置的生成,并構(gòu)建多模態(tài)輸入融合機(jī)制,可同時(shí)接收文本描述和視覺(jué)條件(如高度圖或?qū)?yīng)的草圖)作為模型輸入生成結(jié)構(gòu)化的中間結(jié)果 (包括場(chǎng)景布局和 JSON 格式的場(chǎng)景與智能體參數(shù)),進(jìn)一步通過(guò)定制的解碼和轉(zhuǎn)譯流程中間結(jié)果映射為渲染引擎可理解的輸入形式,最終由渲染引擎生成為可交互、可定制化的 3D 虛擬世界。
具體而言,本研究提出的 LatticeWorld 框架通過(guò)三個(gè)核心組件模塊實(shí)現(xiàn)從自然語(yǔ)言描述與草圖到完整 3D 場(chǎng)景的端到端生成:場(chǎng)景布局生成模塊、環(huán)境配置生成模塊、程序化渲染管線模塊。

1. 場(chǎng)景布局生成
LatticeWorld 將場(chǎng)景布局生成問(wèn)題建模為

其中
為布局生成大語(yǔ)言模型,
代表布局描述文本輸入,
表示視覺(jué)輸入信息,如本文中的地形高度圖等,
為視覺(jué)到語(yǔ)言的映射,而
為本論文中創(chuàng)新性提出的符號(hào)序列場(chǎng)景布局表示。其中,
中還包含了特定的系統(tǒng)提示詞,描述符號(hào)化布局中不同符號(hào)的含義。此外,值得注意的是,借助已有方法,地形高度圖
可通過(guò)簡(jiǎn)單的手繪草圖直接生成,顯著降低視覺(jué)輸入的復(fù)雜度并提升框架的可用性。
符號(hào)序列場(chǎng)景布局表示:本文創(chuàng)新性地設(shè)計(jì)了一種場(chǎng)景布局中間表示方案。首先將復(fù)雜的空間場(chǎng)景布局轉(zhuǎn)換為
(文中
設(shè)為 32) 的符號(hào)矩陣:每個(gè)符號(hào)精確代表特定的資產(chǎn)類型,例如 F 表示森林區(qū)域,W 表示水體,B 表示建筑物,R 表示道路網(wǎng)絡(luò)等。隨后,這種符號(hào)化矩陣被序列化為大語(yǔ)言模型可直接處理的字符串格式:

其中
代表符號(hào)矩陣的第 i 行第 j 列個(gè)元素,而 \n 代表?yè)Q行符。這種方式有效保持了空間關(guān)系的完整性,同時(shí)又可使純文本基礎(chǔ)模型能夠理解和生成復(fù)雜的二維空間布局。
多模態(tài)視覺(jué)融合機(jī)制:針對(duì)具有高度變化的復(fù)雜地形場(chǎng)景,本文訓(xùn)練了視覺(jué)指令集成模塊。該框架利用預(yù)訓(xùn)練的 CLIP 視覺(jué)編碼器
提取高維視覺(jué)特征表示,隨后通過(guò)專門設(shè)計(jì)的多層 CNN 投影網(wǎng)絡(luò) Proj 將這些特征映射到
的詞嵌入空間:

論文采用精心設(shè)計(jì)的三階段訓(xùn)練范式:(1) CLIP 微調(diào)階段。專門針對(duì)地形理解任務(wù)對(duì)
進(jìn)行微調(diào);(2) 持續(xù)預(yù)訓(xùn)練階段。在保持
和 CLIP 權(quán)重凍結(jié)的條件下進(jìn)行 Proj 的訓(xùn)練;(3) 端到端微調(diào)階段。構(gòu)建相應(yīng)的多模態(tài)數(shù)據(jù)集,每個(gè)樣本包含視覺(jué)信息(高度圖)、布局文本描述與符號(hào)化場(chǎng)景布局。在此基礎(chǔ)上,采用交叉熵?fù)p失,聯(lián)合優(yōu)化 Proj 模塊和
,其中
使用輕量級(jí)大語(yǔ)言模型 LLaMA-2-7B。
2. 環(huán)境配置生成
基于已生成的場(chǎng)景布局
,視覺(jué)輸入信息
,以及環(huán)境配置的文本描述
,該方法進(jìn)一步構(gòu)建了環(huán)境配置生成模型
,并生成環(huán)境配置參數(shù)
:

該模型能夠生成關(guān)于場(chǎng)景內(nèi)容的兩方面配置:(1)場(chǎng)景屬性,(2)智能體參數(shù),該兩方面配置則以 JSON 數(shù)據(jù)格式的來(lái)表達(dá)。針對(duì)
的訓(xùn)練,該方法構(gòu)建相應(yīng)數(shù)據(jù)集,每個(gè)數(shù)據(jù)樣本包含視覺(jué)信息(高度圖)、環(huán)境配置文本描述、場(chǎng)景布局以及對(duì)應(yīng)的環(huán)境配置,并在此基礎(chǔ)上使用交叉熵?fù)p失函數(shù)對(duì)輕量級(jí)大語(yǔ)言模型 LLaMA-2-7B 進(jìn)行微調(diào),最終得到
。
層次化場(chǎng)景屬性框架:該方法建立了雙層場(chǎng)景屬性的層次化結(jié)構(gòu)來(lái)精確建模場(chǎng)景特征。其中,粗粒度屬性層控制全局環(huán)境特征,包括地形類型、季節(jié)變化、天氣狀況、時(shí)間設(shè)定和藝術(shù)風(fēng)格等宏觀參數(shù)。細(xì)粒度屬性層則涵蓋多種細(xì)節(jié)參數(shù),如資產(chǎn)的材質(zhì)、密度、位置、朝向等。這些細(xì)粒度參數(shù)的具體表現(xiàn)又會(huì)受到粗粒度屬性的約束和影響,確保場(chǎng)景的語(yǔ)義一致性并有效減少?gòu)?fù)雜環(huán)境中的參數(shù)沖突。
智能體參數(shù)生成:該框架能夠生成動(dòng)態(tài)智能體配置信息,包括智能體類別分類 (人形機(jī)器人、機(jī)器狗、動(dòng)物等)、數(shù)量、行為狀態(tài) (靜止、移動(dòng)等) 和空間位置等。這些參數(shù)生成受到場(chǎng)景屬性約束和視覺(jué)條件限制,確保智能體的正確布置,例如水生動(dòng)物僅出現(xiàn)在水體區(qū)域。
3. 程序化渲染管線
在生成得到符號(hào)化場(chǎng)景布局和環(huán)境配置后,該方法通過(guò)特定的渲染過(guò)程

來(lái)最終得到虛擬的 3D 世界
。其中,Render 為特定的 3D 渲染引擎,本文采用工業(yè)級(jí)渲染引擎 UE5。
和
分別作為場(chǎng)景布局的解碼器和環(huán)境配置的轉(zhuǎn)譯系統(tǒng),將符號(hào)化場(chǎng)景布局和 JSON 格式的環(huán)境配置轉(zhuǎn)換為 3D 渲染引擎的輸入。
場(chǎng)景布局解碼器:
實(shí)現(xiàn)對(duì)生成的符號(hào)化場(chǎng)景布局進(jìn)行精確處理:(1) 將
符號(hào)化場(chǎng)景布局轉(zhuǎn)換為各場(chǎng)景類型的降采樣二值掩碼圖片;(2) 調(diào)整掩碼圖像以達(dá)到特定的場(chǎng)景大小并通過(guò)邊緣平滑技術(shù)形成不同類型場(chǎng)景內(nèi)容的自然過(guò)渡區(qū)域;(3) 輸出渲染引擎直接可讀的對(duì)應(yīng)多場(chǎng)景類型的多通道灰度圖像。
環(huán)境配置轉(zhuǎn)譯系統(tǒng):
負(fù)責(zé)將 JSON 格式的環(huán)境配置參數(shù)轉(zhuǎn)譯為特定渲染引擎的原生屬性格式,精確控制物體和智能體的類型、狀態(tài)、空間分布等詳細(xì)參數(shù)。
通過(guò)編寫轉(zhuǎn)換腳本或借助以 Houdini 等軟件為基礎(chǔ)開(kāi)發(fā)的專業(yè)插件來(lái)實(shí)現(xiàn)轉(zhuǎn)譯流程的自動(dòng)化。
4. 數(shù)據(jù)集構(gòu)建
論文中構(gòu)建了兩個(gè)高質(zhì)量的數(shù)據(jù)集來(lái)進(jìn)行模型訓(xùn)練:(1)LoveDA,包含 8,236 個(gè)精心標(biāo)注的郊區(qū)場(chǎng)景實(shí)例,通過(guò)對(duì)開(kāi)源數(shù)據(jù)集 LoveDA 進(jìn)行處理和增強(qiáng)后得到。該數(shù)據(jù)集的場(chǎng)景設(shè)定為固定高度。(2)Wild,包含 24,380 個(gè)多樣化的荒野地形實(shí)例,通過(guò)采集衛(wèi)星地圖數(shù)據(jù)進(jìn)行處理并增強(qiáng)后得到。該數(shù)據(jù)集的場(chǎng)景設(shè)定為可變高度,因此包含高度圖和對(duì)應(yīng)的草圖。
在以上兩個(gè)數(shù)據(jù)集中,首先分別構(gòu)建每個(gè)衛(wèi)星圖片樣本的場(chǎng)景布局和對(duì)應(yīng)的符號(hào)化場(chǎng)景布局,同時(shí)生成相應(yīng)的高度圖和草圖。隨后進(jìn)行數(shù)據(jù)增強(qiáng),包括對(duì)每個(gè)樣本中的圖片和對(duì)應(yīng)的符號(hào)化場(chǎng)景布局進(jìn)行多次旋轉(zhuǎn)等,以提升訓(xùn)練所得模型的魯棒性。進(jìn)一步,通過(guò) GPT-4o 對(duì)布局圖片進(jìn)行文字標(biāo)注,結(jié)合精心設(shè)計(jì)提示詞工程,GPT?4o 能夠提供場(chǎng)景和資產(chǎn)的有效的空間關(guān)系與分布描述。對(duì)于高度圖,同樣利用 GPT?4o 生成關(guān)于地形起伏變化及其方向的描述。最終得到了對(duì)應(yīng)的場(chǎng)景布局?jǐn)?shù)據(jù)集用以訓(xùn)練
和
。
進(jìn)一步,構(gòu)造環(huán)境配置數(shù)據(jù)集以訓(xùn)練
。本文對(duì)應(yīng)的提出一種分層框架,構(gòu)造 LoveDA 和 Wild 環(huán)境配置樣本。首先用 GPT?4o 為布局圖與高度圖生成文字描述。然后采用部分隨機(jī)采樣(針對(duì)某些場(chǎng)景無(wú)關(guān)的配置)與結(jié)構(gòu)化提示詞工程相結(jié)合的方式生成 JSON 格式的環(huán)境配置(含場(chǎng)景屬性與智能體參數(shù))。最后,采用基于特定規(guī)則的提示詞,將環(huán)境配置與場(chǎng)景布局以及高度圖的描述融合,指導(dǎo) GPT?4o 生成完整的環(huán)境配置文本描述。
實(shí)驗(yàn)對(duì)比
1. 基于多模態(tài)指令的場(chǎng)景布局生成
文中將 LatticeWorld 與 GPT-4o、Claude 3.7 Sonnet、DeepSeek-R1 和 Qwen2-VL-Max 等模型進(jìn)行對(duì)比,在固定高度條件(僅文本描述)和可變高度條件(草圖所對(duì)應(yīng)轉(zhuǎn)化成的高度圖的視覺(jué)信號(hào))下測(cè)試文本到布局的生成能力。結(jié)果顯示 LatticeWorld 在生成準(zhǔn)確布局方面表現(xiàn)更優(yōu)。

2. 環(huán)境生成能力評(píng)估
下面的表格展示了 LatticeWorld 在不同多模態(tài)布局指令下的場(chǎng)景生成能力,通過(guò) $$32\times 32$$ 的符號(hào)矩陣編碼空間關(guān)系,結(jié)合文本和視覺(jué)輸入進(jìn)行場(chǎng)景生成,所有布局均在 UE5 中渲染。

3. 場(chǎng)景屬性生成驗(yàn)證
在該實(shí)驗(yàn)中,固定場(chǎng)景布局并輸入不同的環(huán)境描述,驗(yàn)證了 LatticeWorld 支持多樣化的自然環(huán)境生成,并能夠有效地依據(jù)文本描述調(diào)整整個(gè)場(chǎng)景的環(huán)境屬性。

4. 生成動(dòng)態(tài)交互式智能體環(huán)境
表格展示了基于 LatticeWorld 構(gòu)建多智能體交互環(huán)境的能力。LatticeWorld 支持通過(guò)文本描述生成智能體參數(shù)配置(類型、數(shù)量、分布、行為等)。生成的 3D 世界中可預(yù)置了基于預(yù)定義規(guī)則的自主對(duì)抗行為,如在接近時(shí)進(jìn)行追逐和攻擊。

5. LatticeWorld 與專業(yè)藝術(shù)家對(duì)比
使用相同的布局和參數(shù)指令,對(duì)比專業(yè)藝術(shù)家手工創(chuàng)作和 LatticeWorld 生成的環(huán)境。工作量對(duì)比顯示,LatticeWorld 將總制作時(shí)間從 55 天(手工)降低到不到 0.6 天,效率提升超過(guò) 90 倍,在生成多個(gè)環(huán)境時(shí)優(yōu)勢(shì)更加明顯。

下方表格展示了兩者在構(gòu)建場(chǎng)景的效果上的對(duì)比,可見(jiàn) LatticeWorld 保證了極高的生成質(zhì)量。

未來(lái)展望
未來(lái)該框架可繼續(xù)擴(kuò)展研究的方向包括:(1) 設(shè)計(jì)更多樣化的對(duì)抗智能體行為策略,提升交互的豐富性;(2) 支持多玩家控制和 AI 算法策略;(3) 實(shí)現(xiàn)主智能體身體部位的精細(xì)化獨(dú)立控制;(4) 擴(kuò)充資產(chǎn)庫(kù),增加更多對(duì)象和交互元素以生成更加多樣的虛擬世界。


































