StochSync:可在任意空間中生成高質(zhì)量360°全景圖和3D網(wǎng)格紋理
本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
StochSync方法可以用于在任意空間中生成圖像,尤其是360°全景圖和3D網(wǎng)格紋理。該方法利用了預(yù)訓(xùn)練的圖像擴(kuò)散模型,以實(shí)現(xiàn)zero-shot生成,消除了對新數(shù)據(jù)收集和單獨(dú)訓(xùn)練生成模型的需求。StochSync 結(jié)合了 Diffusion Synchronization(DS)和 Score Distillation Sampling(SDS)的優(yōu)點(diǎn),能夠在條件較弱的情況下仍然生成高質(zhì)量的圖像。
使用 StochSync 生成的各類網(wǎng)格紋理和全景圖,包括背景中的一張(環(huán)境映射圖),它是一張 360°全景圖。StochSync 擴(kuò)展了在方形空間中訓(xùn)練的圖像擴(kuò)散模型的能力,能夠在諸如圓柱體、球體、環(huán)面和網(wǎng)格表面等任意空間中生成圖像。
相關(guān)鏈接
- 論文:http://arxiv.org/abs/2501.15445v1
- 主頁:https://stochsync.github.io/
論文介紹
我們提出了一種名為 StochSync 的方法,用于生成任意空間中的圖像——例如 360°全景圖或 3D 表面上的紋理——該方法利用了一個(gè)預(yù)訓(xùn)練的圖像擴(kuò)散模型。主要的挑戰(zhàn)在于彌合擴(kuò)散模型理解的二維圖像與圖像生成的目標(biāo)空間之間的差距。與那些在缺乏強(qiáng)條件或缺乏精細(xì)細(xì)節(jié)的情況下難以取得成效的方法不同,StochSync 結(jié)合了擴(kuò)散同步和得分蒸餾采樣的優(yōu)勢,即使在條件較弱的情況下也能有效運(yùn)行。實(shí)驗(yàn)表明 StochSync 比之前的基于微調(diào)的方法表現(xiàn)更出色,尤其是在 360°全景圖生成方面。
方法
StochSync方法的核心在于結(jié)合了Diffusion Synchronization和Score Distillation Sampling的優(yōu)勢,具體包括以下幾個(gè)方面:
- 最大隨機(jī)性:在同步過程中引入最大隨機(jī)性,優(yōu)化了樣本在不同實(shí)例空間之間的連貫性。這一策略通過調(diào)整噪聲預(yù)測的方式,幫助消除樣本間的接縫,提高了圖像的整體流暢性。
- 多步去噪計(jì)算:將傳統(tǒng)的單步去噪預(yù)測替換為多步去噪過程,以提高生成樣本的真實(shí)感和一致性。這種方法允許在每個(gè)時(shí)間步驟上進(jìn)行更精確的樣本預(yù)測,進(jìn)而提升生成圖像的細(xì)節(jié)。
- 非重疊視圖采樣:在每個(gè)步驟中采用非重疊的視圖采樣策略,確保樣本在時(shí)間上的同步,同時(shí)避免了由于視圖重疊導(dǎo)致的真實(shí)感下降。這種方法通過交替采樣不同的視圖,提高了生成圖像的質(zhì)量。
全景生成
使用 PanFusion 生成全景圖的定性結(jié)果提示。在左側(cè)列中呈現(xiàn)了與先前工作的比較結(jié)果,而在右側(cè)列中展示了與 StochSync 一起的消融測試案例。
L-MAGIC (Cai et al., 2024)和StochSync在水平特異性提示上的定性比較。
三維網(wǎng)格紋理的附加定性結(jié)果。