破解空間智能數(shù)據(jù)稀缺難題,影石開源DiT架構(gòu)全景生成模型,在線可玩
空間智能領(lǐng)域的全景數(shù)據(jù)稀缺問題,有解了。
影石研究院團(tuán)隊(duì),推出了基于DiT架構(gòu)的全景圖像生成模型DiT360。
通過全新的全景圖像生成框架,DiT360能夠?qū)崿F(xiàn)高質(zhì)量的全景生成。

DiT360提出了一個(gè)基于DiT架構(gòu)的混合訓(xùn)練框架,充分結(jié)合透視圖像與全景圖像數(shù)據(jù),在保持真實(shí)感的同時(shí)提升幾何一致性。
而且同時(shí)支持多項(xiàng)任務(wù),并在邊界一致性、圖像保真度和感知質(zhì)量等方面均優(yōu)于現(xiàn)有方法。

破解真實(shí)全景數(shù)據(jù)稀缺問題
全景圖像生成正在成為通向“空間智能”的關(guān)鍵一步,隨著世界模型和具身智能的發(fā)展,模型需要更好地“看見”并理解整個(gè)三維世界。
全景圖像能提供連續(xù)360°的沉浸式視野,對(duì)AR/VR、自動(dòng)駕駛、機(jī)器人導(dǎo)航等應(yīng)用都至關(guān)重要。
但相比普通圖像,生成全景圖要面對(duì)無縫銜接、極區(qū)畸變等幾何難題;同時(shí),真實(shí)全景數(shù)據(jù)稀缺且質(zhì)量有限,也讓模型難以學(xué)到高質(zhì)量的幾何與紋理特征,限制模型的生成質(zhì)量與泛化能力。
針對(duì)全景圖像獨(dú)特的幾何特性,研究者主要有兩種思路。
一種是把全景圖拆成多個(gè)平面視角(立方體投影),這樣可以減輕極區(qū)畸變的問題,但容易在視圖邊界出現(xiàn)接縫;另一種方法則直接在球面上生成全景圖(等距矩形投影),整體更連貫,但極區(qū)畸變和邊界一致性的問題依然存在。
另外,由于真實(shí)全景數(shù)據(jù)稀缺,也有研究者嘗試用渲染數(shù)據(jù)訓(xùn)練模型,但缺少真實(shí)光照和紋理,使得生成的結(jié)果充滿了“渲染感”;另有嘗試?yán)没ヂ?lián)網(wǎng)的全景視頻和圖片,但這些數(shù)據(jù)噪聲太多,很難支撐高質(zhì)量的生成。
在高質(zhì)量全景數(shù)據(jù)稀缺的情況下,如何讓模型學(xué)會(huì)理解全景圖像的幾何特性成為關(guān)鍵。
為此,團(tuán)隊(duì)提出了DiT360——一個(gè)基于Diffusion Transformer(DiT)架構(gòu)的全景圖像生成模型。
DiT360設(shè)計(jì)了一種分層混合訓(xùn)練框架,結(jié)合有限的全景數(shù)據(jù)和大規(guī)模高質(zhì)量的透視圖像,讓生成結(jié)果在真實(shí)感和幾何一致性上都實(shí)現(xiàn)了顯著提升。
DiT360可在室內(nèi)、室外等多種場(chǎng)景下生成高分辨率(2048×1024)的全景圖像,展現(xiàn)出出色的細(xì)節(jié)和真實(shí)感。在邊界一致性和極區(qū)畸變建模方面,相比現(xiàn)有方法有明顯優(yōu)勢(shì),能夠生成結(jié)構(gòu)連續(xù)、幾何穩(wěn)定的全景結(jié)果。
總結(jié)而言,DiT360的主要貢獻(xiàn)包括:
- 全新的全景圖像生成框架:提出了一個(gè)基于DiT架構(gòu)的混合訓(xùn)練框架,充分結(jié)合透視圖像與全景圖像數(shù)據(jù),在保持真實(shí)感的同時(shí)提升幾何一致性。與以往主要聚焦模型結(jié)構(gòu)設(shè)計(jì)的工作不同,DiT360更強(qiáng)調(diào)多域數(shù)據(jù)的高效融合與協(xié)同利用,從而實(shí)現(xiàn)更高質(zhì)量的全景生成。
- 多層次的混合訓(xùn)練機(jī)制:在圖像層面,通過對(duì)全景數(shù)據(jù)的去偽影處理與透視圖像的投影引導(dǎo),提升生成結(jié)果的多樣性和真實(shí)感;在特征層面,通過旋轉(zhuǎn)一致性和畸變感知的幾何約束,強(qiáng)化潛空間中的結(jié)構(gòu)合理性與空間連續(xù)性;
- 多任務(wù)支持:DiT360同時(shí)支持文本引導(dǎo)的圖像生成、inpainting和outpainting等多項(xiàng)任務(wù),并在邊界一致性、圖像保真度和感知質(zhì)量等方面均優(yōu)于現(xiàn)有方法。
多層級(jí)混合訓(xùn)練框架
DiT360是一個(gè)面向全景圖像生成的多層級(jí)混合訓(xùn)練框架,旨在同時(shí)提升生成結(jié)果的真實(shí)感和幾何一致性。
不同于以往主要關(guān)注模型結(jié)構(gòu)設(shè)計(jì)的方案,DiT360從圖像層面和特征層面兩個(gè)方向出發(fā),充分利用透視圖像與全景圖像的互補(bǔ)特性,在有限真實(shí)數(shù)據(jù)的條件下實(shí)現(xiàn)跨域知識(shí)遷移與高保真生成。

圖像層級(jí):跨域正則化與知識(shí)遷移
圖像層級(jí)方法的目標(biāo)是彌補(bǔ)真實(shí)全景數(shù)據(jù)的不足,同時(shí)減少由極區(qū)畸變和偽影帶來的訓(xùn)練偏差。研究團(tuán)隊(duì)提出了兩種互補(bǔ)機(jī)制——全景圖像精修與透視圖像引導(dǎo),分別用于提升全景數(shù)據(jù)的結(jié)構(gòu)質(zhì)量和實(shí)現(xiàn)透視數(shù)據(jù)的跨域遷移。
現(xiàn)有的真實(shí)全景數(shù)據(jù)(如 Matterport3D)受采集設(shè)備與方式限制,極區(qū)區(qū)域常出現(xiàn)模糊、拉伸和偽影,直接用于訓(xùn)練會(huì)導(dǎo)致生成結(jié)果在極區(qū)模糊失真。
為此,研究團(tuán)隊(duì)提出基于立方體空間變換的精修策略:將等距矩形投影圖像映射到立方體空間,在極區(qū)對(duì)應(yīng)面進(jìn)行掩碼和修復(fù)操作,以去除偽影并重建細(xì)節(jié),最后再反投影回 ERP 空間,得到細(xì)節(jié)更清晰、視覺更自然的全景圖像。
這一策略顯著提升了模型對(duì)高質(zhì)量區(qū)域的學(xué)習(xí)和生成能力。

雖然高質(zhì)量全景數(shù)據(jù)稀缺,但互聯(lián)網(wǎng)上有大量高分辨率、語義豐富的透視圖像可作為潛在知識(shí)源。為此,研究團(tuán)隊(duì)提出投影感知正則化機(jī)制,將透視域知識(shí)遷移到全景域。
通過球面投影將透視圖像映射到全景空間,并引入類全景引導(dǎo)損失,使模型能從透視圖像中學(xué)習(xí)真實(shí)的紋理和語義結(jié)構(gòu),從而更好地理解和建模全景中的畸變規(guī)律,顯著提升生成結(jié)果的細(xì)節(jié)和多樣性。
特征層級(jí):幾何一致性與畸變感知
在特征層面,研究團(tuán)隊(duì)關(guān)注VAE潛空間中的幾何一致性和全局連續(xù)性問題。
全景圖像在經(jīng)度方向上天然連續(xù)(0° 與 360° 對(duì)應(yīng)同一位置),并在極區(qū)存在強(qiáng)烈投影畸變,僅靠圖像層面的監(jiān)督難以保證特征一致性。
為此,研究團(tuán)隊(duì)在特征層面設(shè)計(jì)了三個(gè)關(guān)鍵模塊:循環(huán)填充、旋轉(zhuǎn)一致性損失與畸變感知立方體損失。
針對(duì)ERP圖像在左右邊界(0°/360°)的自然連續(xù)性,傳統(tǒng)基于卷積的循環(huán)填充或循環(huán)去噪等操作往往造成邊緣特征不連續(xù),從而在生成結(jié)果中出現(xiàn)接縫偽影。
為了解決這一問題,研究團(tuán)隊(duì)在特征空間中引入循環(huán)填充機(jī)制:在每次卷積或注意力計(jì)算前,將左端特征復(fù)制到右端、右端特征復(fù)制到左端,并同步調(diào)整位置編碼,使模型能學(xué)習(xí)到空間位置的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)特征層的連續(xù)對(duì)齊。
這樣模型能更好地理解全景圖像的環(huán)繞結(jié)構(gòu),避免生成斷裂。
在球面坐標(biāo)下,全景圖像的旋轉(zhuǎn)應(yīng)保持視覺一致。
為此,研究團(tuán)隊(duì)引入旋轉(zhuǎn)一致性損失——在訓(xùn)練中隨機(jī)旋轉(zhuǎn)輸入全景圖像,并約束模型輸出在旋轉(zhuǎn)前后保持一致。
這一機(jī)制在潛空間中建立了全局旋轉(zhuǎn)不變性,使模型能學(xué)習(xí)球面上各方向的等價(jià)關(guān)系,顯著提升生成的方向魯棒性。
由于ERP投影在極區(qū)存在明顯的幾何拉伸,常規(guī)像素?fù)p失難以準(zhǔn)確衡量真實(shí)幾何誤差。
為此,研究團(tuán)隊(duì)引入畸變感知立方體損失,將模型預(yù)測(cè)結(jié)果映射到立方體空間,對(duì)每個(gè)面分別計(jì)算重建誤差,并加入基于視角加權(quán)的畸變補(bǔ)償項(xiàng)。
這樣可以有效減輕ERP在極區(qū)的誤差放大問題,讓模型在極區(qū)也能保持穩(wěn)定的空間結(jié)構(gòu)與細(xì)節(jié)表現(xiàn)。

高質(zhì)量的全景圖像生成與泛化能力
團(tuán)隊(duì)將DiT360與當(dāng)前全景圖像生成領(lǐng)域的多種代表性方法進(jìn)行了對(duì)比,包括MVDiffusion、PanFusion、SMGD、PAR、WorldGen、Matrix-3D、LayerPano3D和HunyuanWorld等。
這些方法幾乎覆蓋了現(xiàn)階段的主流技術(shù)路線——從多視角拼接、自回歸生成、結(jié)構(gòu)優(yōu)化,到基于Diffusion Transformer的生成架構(gòu)。
實(shí)驗(yàn)結(jié)果顯示,DiT360在視覺質(zhì)量和幾何一致性上均明顯優(yōu)于現(xiàn)有方法,并在多項(xiàng)指標(biāo)上取得了領(lǐng)先表現(xiàn)。
全景圖像生成
團(tuán)隊(duì)對(duì)DiT360進(jìn)行了系統(tǒng)的定量評(píng)估,結(jié)果如表所示。

可以看到,DiT360在幾乎所有指標(biāo)上都取得了最佳成績,在各項(xiàng)評(píng)價(jià)維度上展現(xiàn)出穩(wěn)定而全面的優(yōu)勢(shì)。
無論是傳統(tǒng)的圖像質(zhì)量指標(biāo)(如 FID、Inception Score、BRISQUE),還是衡量視覺一致性的幾何指標(biāo)(如 FAED),DiT360都顯著優(yōu)于其他方法。
總體來看,這些定量結(jié)果與前述的定性分析一致——DiT360不僅在感知真實(shí)感和幾何保真度上表現(xiàn)突出,而且在多項(xiàng)指標(biāo)上實(shí)現(xiàn)了全面領(lǐng)先,充分驗(yàn)證了其生成高質(zhì)量全景圖像的有效性與魯棒性。
為了進(jìn)一步評(píng)估DiT360在人類感知層面的表現(xiàn),團(tuán)隊(duì)組織了用戶測(cè)評(píng),比較了DiT360與現(xiàn)有方法(包括 PanFusion、Matrix-3D、HunyuanWorld)在文本對(duì)齊、邊界連續(xù)性、真實(shí)感與整體質(zhì)量四個(gè)維度的差異。
測(cè)評(píng)共邀請(qǐng)63位參與者,對(duì)測(cè)試集中不同方法生成的全景圖像進(jìn)行主觀選擇,選出最符合個(gè)人偏好的結(jié)果。
結(jié)果顯示,DiT360在所有指標(biāo)上均獲得最高偏好比例,尤其在真實(shí)感和整體質(zhì)量上優(yōu)勢(shì)明顯,分別達(dá)到63.8%和80.9%,遠(yuǎn)超其他方法。

這一結(jié)果表明,DiT360不僅在客觀指標(biāo)上表現(xiàn)出色,也更符合人類對(duì)真實(shí)感和空間連貫性的主觀認(rèn)知,進(jìn)一步證明了其在全景生成中的實(shí)際可用性。
消融實(shí)驗(yàn)
為驗(yàn)證各模塊對(duì)整體性能的貢獻(xiàn),團(tuán)隊(duì)基于微調(diào)后的 Flux 構(gòu)建了基線模型,并依次獨(dú)立加入關(guān)鍵模塊進(jìn)行消融實(shí)驗(yàn)。
重點(diǎn)考察了四個(gè)核心設(shè)計(jì):循環(huán)填充(Circular Padding)、畸變感知立方體損失(Cube Loss)、旋轉(zhuǎn)一致性損失(Yaw Loss)以及透視圖像引導(dǎo)(Perspective Image Guidance)。

實(shí)驗(yàn)發(fā)現(xiàn):
- 循環(huán)填充顯著提升了圖像左右邊界(0°/360°)處的一致性,同時(shí)整體畫面質(zhì)量也明顯改善。這是因?yàn)樵谧笥疫吔绻蚕砦恢镁幋a后,模型能夠?qū)W習(xí)正確的空間對(duì)應(yīng)關(guān)系,從而減少斷裂或接縫偽影,使FID與BRISQUE等指標(biāo)顯著下降;
- 畸變感知立方體損失通過在立方體空間中引入額外幾何監(jiān)督,使模型能更準(zhǔn)確地建模極區(qū)畸變,改善細(xì)節(jié)表現(xiàn)并提升IS與CLIP Score等指標(biāo);
- 旋轉(zhuǎn)一致性損失強(qiáng)化了模型在球面坐標(biāo)下的方向穩(wěn)定性,使生成結(jié)果在結(jié)構(gòu)連貫性上更優(yōu),在FAED指標(biāo)上取得顯著提升;
- 透視圖像引導(dǎo)進(jìn)一步增強(qiáng)了局部細(xì)節(jié)與視覺多樣性,減少了偽影問題,并在關(guān)注風(fēng)格與美學(xué)的指標(biāo)(如QA)上表現(xiàn)突出。
綜合來看,這些模塊在不同層面共同提升了模型的感知真實(shí)感與幾何一致性,當(dāng)它們協(xié)同工作時(shí),DiT360達(dá)到最佳整體性能,充分驗(yàn)證了框架設(shè)計(jì)的合理性與有效性。
更多任務(wù)
值得一提的是,DiT360在無需額外訓(xùn)練的情況下即可原生支持inpainting與outpainting任務(wù),展現(xiàn)出其統(tǒng)一的全景生成框架與強(qiáng)泛化能力。

具體來說,團(tuán)隊(duì)首先通過反演獲得輸入圖像的初始噪聲表示,并提取參考圖像的特征與主體區(qū)域掩碼。
在早期去噪階段,DiT360采用基于時(shí)間步自適應(yīng)的特征替換策略——將被遮擋或需擴(kuò)展的區(qū)域替換為參考圖像中的對(duì)應(yīng)特征,同時(shí)保留原始位置編碼,從而在生成初期錨定主體結(jié)構(gòu)與語義。
這種機(jī)制能有效保持生成內(nèi)容在語義與空間上的一致性,使模型在補(bǔ)全與擴(kuò)展任務(wù)中都能自然還原主體細(xì)節(jié)并維持全景結(jié)構(gòu)連貫。
得益于此,DiT360在inpainting與outpainting場(chǎng)景中均能生成語義豐富、邊界平滑、內(nèi)容連貫的高質(zhì)量全景結(jié)果。
本研究提出的DiT360展示了結(jié)合高質(zhì)量透視圖像與有限全景數(shù)據(jù),以提升全景圖像真實(shí)感和幾何一致性的潛力。該方法不僅在靜態(tài)全景圖生成中表現(xiàn)突出,也為未來多模態(tài)、跨域的三維場(chǎng)景生成提供了思路。
未來,這種平面到全景的混合訓(xùn)練策略可以進(jìn)一步拓展到全景視頻生成、VR/AR 內(nèi)容創(chuàng)作及動(dòng)態(tài)場(chǎng)景模擬等任務(wù)中。
例如,將時(shí)序透視幀引入全景生成流程,有望實(shí)現(xiàn)高保真、連貫的全景視頻生成;在開放世界環(huán)境建模中,利用平面圖像彌補(bǔ)稀缺的全景數(shù)據(jù),也能顯著提升場(chǎng)景細(xì)節(jié)的真實(shí)感與空間一致性。
總體而言,DiT360不僅為當(dāng)前全景圖像生成提供了強(qiáng)有力的基線,也為未來三維場(chǎng)景理解、動(dòng)態(tài)全景合成與虛擬世界構(gòu)建開辟了新的方向。
在DiT360取得顯著成果的同時(shí),影石研究院團(tuán)隊(duì)也對(duì)自回歸(AR)生成范式展開了系統(tǒng)研究,相關(guān)成果“Conditional Panoramic Image Generation via Masked Autoregressive Modeling”已被NeurIPS 2025接收。
論文鏈接:https://arxiv.org/abs/2510.11712
項(xiàng)目主頁:https://fenghora.github.io/DiT360-Page/
GitHub:https://github.com/Insta360-Research-Team/DiT360
Demo:https://huggingface.co/spaces/Insta360-Research/DiT360




























