偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

僅需0.7秒單圖像實(shí)時(shí)3D重建,開源擴(kuò)散模型

人工智能 新聞
著名開源大模型平臺(tái)Stability-AI開源了一個(gè)創(chuàng)新模型SPAR3D,通過融合上面兩種傳統(tǒng)的方法同時(shí)規(guī)避局限性,僅需0.7秒就能將單圖實(shí)時(shí)完成3D重建。

單圖像3D重建,即從單一視角的二維圖像中恢復(fù)出三維物體的形狀和結(jié)構(gòu),是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)基礎(chǔ)且極具挑戰(zhàn)的難題。

學(xué)術(shù)界和工業(yè)界主要探索了兩種不同的技術(shù)路線:基于回歸的建模方法和生成式建模方法?;诨貧w的方法能夠高效地推斷出可見表面,但在處理遮擋區(qū)域時(shí)卻力不從心,常常導(dǎo)致表面和紋理估計(jì)不準(zhǔn)確。

而生成式方法雖然通過建模分布更好地處理了不確定性區(qū)域,卻存在計(jì)算成本高昂、生成結(jié)果與可見表面對齊不佳等問題。

著名開源大模型平臺(tái)Stability-AI開源了一個(gè)創(chuàng)新模型SPAR3D,通過融合上面兩種傳統(tǒng)的方法同時(shí)規(guī)避局限性,僅需0.7秒就能將單圖實(shí)時(shí)完成3D重建。

圖片

開源地址:https://github.com/Stability-AI/stable-point-aware-3d

Huggingfacehttps://huggingface.co/stabilityai/stable-point-aware-3d

SPAR3D的架構(gòu)一共使用了點(diǎn)采樣和網(wǎng)格化兩大階段:點(diǎn)采樣階段的核心是點(diǎn)擴(kuò)散模型,它能夠根據(jù)輸入圖像生成包含XYZ坐標(biāo)和RGB顏色信息的稀疏點(diǎn)云。該階段基于DDPM框架,包含正向過程和反向過程。正向過程向原始點(diǎn)云添加高斯噪聲,而反向過程中的去噪器則學(xué)習(xí)如何從含噪點(diǎn)云中恢復(fù)出噪聲。

在推理時(shí),采用DDIM采樣器生成點(diǎn)云樣本,并借助分類器自由引導(dǎo)(CFG)來提升采樣保真度。去噪器的設(shè)計(jì)采用了類似Point-E的Transformer架構(gòu),將含噪點(diǎn)云線性映射為點(diǎn)標(biāo)記,同時(shí)利用DINOv2編碼輸入圖像作為條件標(biāo)記,然后將條件標(biāo)記和點(diǎn)標(biāo)記拼接起來輸入到Transformer中,以預(yù)測每個(gè)點(diǎn)上添加的噪聲。

此外,為了降低網(wǎng)格化階段逆渲染的不確定性,該階段還直接生成了反照率點(diǎn)云,作為網(wǎng)格化階段的輸入,從而減少了逆渲染的歧義,穩(wěn)定了分解學(xué)習(xí)過程。

圖片

網(wǎng)格化階段的目標(biāo)是從輸入圖像和點(diǎn)云中生成帶有紋理的網(wǎng)格。其骨干網(wǎng)絡(luò)是一個(gè)大型的三平面Transformer,能夠從圖像和點(diǎn)云條件中預(yù)測三平面特征?;谌矫嫣卣?,可以估計(jì)出物體的幾何形狀、紋理和照明,以及從圖像特征中估計(jì)金屬度和粗糙度。

幾何形狀和材質(zhì)在訓(xùn)練過程中輸入到可微渲染器中,以便利用渲染損失來監(jiān)督模型。三平面Transformer由點(diǎn)云編碼器、圖像編碼器和Transformer主干網(wǎng)絡(luò)三個(gè)子模塊組成。點(diǎn)云編碼器使用簡單的Transformer編碼器將點(diǎn)云編碼為點(diǎn)標(biāo)記,圖像編碼器則采用DINOv2生成局部圖像嵌入。

三平面Transformer遵循PointInfinity和SF3D的設(shè)計(jì),通過計(jì)算分離的雙流設(shè)計(jì)生成高分辨率的三平面。在表面估計(jì)方面,通過淺層MLP查詢?nèi)矫嬉援a(chǎn)生密度值,并利用可微Marching Tetrahedron(DMTet)將隱式密度場轉(zhuǎn)換為顯式表面。

同時(shí),還使用兩個(gè)MLP頭一起預(yù)測頂點(diǎn)偏移和表面法線,以減少M(fèi)arching Tetrahedron引入的偽影,使表面更加平滑。對于材質(zhì)和照明估計(jì),執(zhí)行逆渲染并聯(lián)合估計(jì)材質(zhì)(反照率、金屬度和粗糙度)和照明。

圖片

基于RENI++的學(xué)習(xí)型照明先驗(yàn)構(gòu)建照明估計(jì)器,通過學(xué)習(xí)編碼器將三平面特征映射到RENI++的潛在空間中,從而估計(jì)輸入圖像中的環(huán)境照明。反照率的估計(jì)方式與幾何形狀類似,通過淺層MLP預(yù)測每個(gè)3D位置的反照率值。

對于金屬度和粗糙度,則采用概率方法通過Beta先驗(yàn)進(jìn)行估計(jì),并用AlphaCLIP替換SF3D中的CLIP編碼器,以解決物體大小變化時(shí)的不穩(wěn)定性問題??晌秩酒鞲鶕?jù)預(yù)測的環(huán)境圖、PBR材質(zhì)和幾何表面渲染圖像。使用可微網(wǎng)格光柵化器和可微著色器,著色器中采用標(biāo)準(zhǔn)的簡化Disney PBR模型,并進(jìn)行蒙特卡洛積分。

此外,為了更好地模擬通常被忽略的自遮擋現(xiàn)象,實(shí)現(xiàn)了可見性測試以改進(jìn)陰影建模,靈感來源于實(shí)時(shí)圖形技術(shù),將可見性測試作為屏幕空間方法,利用光柵化器生成的深度圖進(jìn)行建模。

為了評估SPAR3D的性能,研究人員在GSO和Omniobject3D數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。結(jié)果顯示,SPAR3D在多個(gè)評估指標(biāo)上都顯著優(yōu)于其他回歸或生成式基線方法。例如,在GSO數(shù)據(jù)集上,SPAR3D的CD值為0.120,F(xiàn)S@0.1為0.584,PSNR為18.6,LPIPS為0.139,而其他方法如Shap-E、LN3Diff、LGM等的相應(yīng)指標(biāo)均不如SPAR3D。

圖片

在OmniObject3D數(shù)據(jù)集上,SPAR3D同樣展現(xiàn)出優(yōu)異的性能,CD值為0.122,F(xiàn)S@0.1為0.587,PSNR為17.9,LPIPS為0.140。這些定量比較結(jié)果充分證明了SPAR3D在幾何形狀和紋理質(zhì)量方面的卓越性能。

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2022-09-13 15:19:48

3D網(wǎng)絡(luò)

2020-08-26 10:37:21

阿里3D

2023-04-24 16:25:47

3D開發(fā)

2025-06-24 08:40:00

3D模型訓(xùn)練

2024-03-05 11:31:00

AI數(shù)據(jù)

2023-12-07 13:07:59

3D模型訓(xùn)練

2025-01-26 10:19:21

2021-09-14 10:11:46

谷歌3D舞蹈生成模型FACT

2025-01-07 08:40:00

視頻生成AI

2025-02-13 08:26:26

2025-01-16 10:05:00

3D模型代碼

2024-01-11 09:55:00

AI訓(xùn)練

2025-01-09 12:32:18

2025-02-18 09:27:20

2023-02-20 09:58:35

模型3D

2012-08-13 17:11:37

Silverlight

2009-09-02 15:37:26

Windows 7Windows XP操作系統(tǒng)

2024-01-18 12:37:31

SOTA3D方法

2023-12-11 09:00:00

人工智能3D模型

2025-03-27 09:26:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號