偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝 精華

發(fā)布于 2025-3-21 11:09
瀏覽
0收藏

CVPR 2025 | 電商退貨率或?qū)⒀鼣兀TON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

文章鏈接: https://arxiv.org/pdf/2503.12165 
項目鏈接:https://scnuhealthy.github.io/VTON360

亮點直擊

  • 一種新穎的3D虛擬試衣(VTON)方法,即VTON 360,能夠從任意視角實現(xiàn)高保真度的虛擬試衣。
  • 利用3D模型與其渲染的多視角2D圖像之間的等價性,將3D VTON重新定義為2D VTON的擴(kuò)展,確保多視角下的一致性結(jié)果。具體而言,引入了多項新技術(shù),包括:(i)偽3D姿態(tài)表示;(ii)多視角空間注意力機(jī)制;以及(iii)多視角CLIP嵌入。這些創(chuàng)新增強(qiáng)了傳統(tǒng)2D VTON模型,使其能夠生成多視角且3D一致的結(jié)果。
  • 在兩個大型真實數(shù)據(jù)集以及來自電子商務(wù)平臺的真實服裝圖像上進(jìn)行的大量實驗結(jié)果證明了本文方法的有效性。

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

效果速覽

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

CVPR 2025 | 電商退貨率或?qū)⒀鼣兀TON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

CVPR 2025 | 電商退貨率或?qū)⒀鼣兀TON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)


總結(jié)速覽

解決的問題

  • 2D VTON的局限性:現(xiàn)有的2D虛擬試衣(VTON)技術(shù)在表示與視角相關(guān)的特征方面存在固有局限性,無法支持高保真度的多視角渲染。
  • 3D VTON的挑戰(zhàn):現(xiàn)有的3D VTON方法在實現(xiàn)高保真度和支持任意視角渲染方面仍面臨挑戰(zhàn),尤其是在服裝的幾何一致性和紋理保真度方面。
  • 數(shù)據(jù)獲取成本高:早期的3D VTON方法依賴昂貴的3D掃描設(shè)備和物理存在的人體/服裝,限制了其在實際應(yīng)用中的實用性。
  • 多視角信息缺失:現(xiàn)有的基于圖像的3D VTON方法由于輸入圖像(通常是正面)缺乏多視角信息,難以重建高質(zhì)量的多視角服裝模型。

提出的方案

  • VTON 360方法:通過擴(kuò)展2D VTON模型,引入多視角服裝和與服裝無關(guān)的人體圖像作為輸入,確保多視角下的3D一致性。
  • 偽3D姿態(tài)表示:使用從SMPL-X 3D人體模型導(dǎo)出的法線圖來表示偽3D姿態(tài),捕捉細(xì)粒度的表面方向細(xì)節(jié),提供跨視角的幾何一致性。
  • 多視角空間注意力機(jī)制:設(shè)計了一種多視角空間注意力機(jī)制,建模不同視角特征之間的相關(guān)性,通過“相關(guān)性”矩陣來建模不同輸入視角之間的關(guān)系。
  • 多視角CLIP嵌入:提出了多視角CLIP嵌入,增強(qiáng)了2D VTON方法中使用的服裝CLIP嵌入,加入相機(jī)信息,促進(jìn)網(wǎng)絡(luò)學(xué)習(xí)與特定視角相關(guān)的特征。

應(yīng)用的技術(shù)

  • 2D VTON模型擴(kuò)展:將2D VTON模型擴(kuò)展為支持多視角輸入,包括前后視角的服裝圖像和從隨機(jī)方位角采樣的多視角與服裝無關(guān)的人體圖像。
  • SMPL-X 3D人體模型:利用SMPL-X 3D人體模型生成法線圖,用于偽3D姿態(tài)表示。
  • 多視角空間注意力機(jī)制:通過設(shè)計多視角空間注意力機(jī)制,建模不同視角特征之間的相關(guān)性。
  • 多視角CLIP嵌入:將相機(jī)信息融入CLIP嵌入,增強(qiáng)網(wǎng)絡(luò)對特定視角特征的學(xué)習(xí)能力。

達(dá)到的效果

  • 高保真度3D VTON:在Thuman2.0和MVHumanNet數(shù)據(jù)集上的大量實驗表明,VTON 360方法能夠?qū)崿F(xiàn)高保真度的3D VTON,并支持任意視角渲染。
  • 多視角一致性:通過引入多視角輸入和偽3D姿態(tài)表示,確保了多視角下的3D一致性。
  • 實際應(yīng)用驗證:通過在電子商務(wù)平臺的服裝上進(jìn)行測試,驗證了該方法的有效性和通用性。

方法

本文的方法利用3D模型與其渲染的多視角2D圖像之間的等價性,實現(xiàn)高保真度、任意視角的3D虛擬試衣(VTON)。具體而言,如圖2所示,給定輸入的3D人體模型和服裝圖像,本文的方法:

  • 將3D模型渲染為多視角2D圖像;
  • 將3D VTON定義為在這些渲染視角上一致且統(tǒng)一的2D VTON過程;
  • 通過使用現(xiàn)有的3D重建方法將編輯后的圖像重建為3D模型,確保從任意視角觀看時的視覺一致性和精確的服裝對齊。其中,第二步至關(guān)重要,因為現(xiàn)有的2D VTON方法缺乏3D知識,無法生成具有3D一致性的多視角圖像。

為了解決這一挑戰(zhàn),本文提出了多項新技術(shù),為典型的2D VTON網(wǎng)絡(luò) 賦予了生成3D一致性結(jié)果的能力。該網(wǎng)絡(luò)基于隱空間擴(kuò)散模型,并使用高斯?jié)姙R(Gaussian Splatting)作為3D表示。

2D VTON框架回顧

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

具有3D一致性的多視角2D VTON

為了使上述2D VTON模型能夠生成多視角且3D一致的結(jié)果,對其設(shè)計提出了以下新穎的改進(jìn):

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

CVPR 2025 | 電商退貨率或?qū)⒀鼣兀TON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

相應(yīng)地,將三個組件連接起來作為Main UNet的增強(qiáng)輸入:

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

CVPR 2025 | 電商退貨率或?qū)⒀鼣兀TON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

實驗

實驗設(shè)置

數(shù)據(jù)集:本文在兩個公開數(shù)據(jù)集上進(jìn)行了實驗:Thuman2.0 和 MVHumanNet。Thuman2.0 包含 526 個重建的穿衣人體掃描,從中渲染多視角輸入圖像。其中 426 個樣本用于訓(xùn)練,剩余的 100 個用于測試。為了進(jìn)一步評估本文方法的有效性和魯棒性,還在 MVHumanNet 上進(jìn)行了實驗。MVHumanNet 是一個大規(guī)模的多視角人體圖像數(shù)據(jù)集,涵蓋了多樣化的主體、日常服裝和運動序列。MVHumanNet 中的圖像使用 48 或 24 個相機(jī)的多視角系統(tǒng)捕獲。我們從該數(shù)據(jù)集中使用了 4,990 個主體,其中 4,790 個用于訓(xùn)練,200 個用于測試。對于每個主體,我們從其整個運動序列中隨機(jī)選擇兩幀多視角圖像。雖然 MVHumanNet 直接提供了多視角圖像用于編輯和重建,但在 Thuman2.0 中為每個主體渲染均勻分布的視角以確保輸入的一致性。


基線方法:主要將本文的方法與三種現(xiàn)有方法進(jìn)行比較:DreamWaltz、GaussCtrl和 TIP-Editor。DreamWaltz 是一種基于文本描述直接生成 3D 人體的方法,而 GaussCtrl 和 TIP-Editor 是基于輻射場的編輯方法。GaussCtrl 基于 Stable Diffusion,使用類似描述的提示編輯場景。TIP-Editor 接受文本和圖像提示。我們通過指定人體為編輯區(qū)域,并將目標(biāo)服裝作為圖像提示來配置它。使用 ChatGPT 生成與服裝圖像對應(yīng)的文本提示。


評估指標(biāo):為了定量評估,評估編輯后的人體與參考圖像之間的服裝對齊情況。根據(jù) [63],計算參考圖像與編輯后的 3D 場景渲染的多視角圖像之間的平均 DINO 相似度。此外,為了評估多視角一致性,按照 [17] 計算 CLIP 方向一致性分?jǐn)?shù)。由于實驗規(guī)模較大(重復(fù)的 3DGS 重建),從數(shù)據(jù)集中選擇了一部分樣本進(jìn)行指標(biāo)評估。從 Thuman 和 MVHumanNet 的測試集中,隨機(jī)抽取了 10 個人體掃描,每個人體掃描使用 6 個隨機(jī)選擇的服裝進(jìn)行虛擬試衣。


本文還進(jìn)行了一項用戶研究,邀請了 50 名參與者對本文的方法和三種基線方法的結(jié)果進(jìn)行評分,評分標(biāo)準(zhǔn)包括整體“質(zhì)量”和與參考圖像的“對齊”程度。每次評估包含兩個問題:(1) 哪種方法生成的編輯后 3D 人體質(zhì)量最高?(2) 哪種方法與目標(biāo)服裝的對齊最一致?參與者通過觀看隨機(jī)旋轉(zhuǎn)的視頻序列來評估 VTON 結(jié)果。


實現(xiàn)細(xì)節(jié):在預(yù)處理階段,我們將多視角圖像裁剪到人體周圍的邊界框,并將其調(diào)整為 768 × 576 的分辨率。服裝圖像的前視圖和后視圖從相應(yīng)的穿衣人體圖像中獲取。編輯后,我們將圖像填充回原始大小。Thuman2.0 和 MVHumanNet 數(shù)據(jù)集的數(shù)據(jù)處理流程相同。

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

與最先進(jìn)方法的比較

定性評估:下圖5展示了本文的方法與基線方法的視覺對比。DreamWaltz 從文本提示重新生成3D穿衣人體,但難以準(zhǔn)確保留身體和服裝的特征。GaussCtrl 由于不支持圖像提示,無法保持詳細(xì)的服裝紋理。雖然Tip-Editor 利用LoRA  進(jìn)行個性化,但由于個性化概念在2D空間中是語義的,它在將兩個視角的服裝輸入一致映射到3D人體時遇到困難。相比之下,本文的方法有效地保留了復(fù)雜的服裝細(xì)節(jié),如文字、條紋和標(biāo)志。

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

定量評估:下表1展示了在Thuman2.0和MVHumanNet數(shù)據(jù)集上的CLIP方向一致性分?jǐn)?shù)和DINO相似度的結(jié)果。本文的方法在DINO相似度上優(yōu)于其他方法,清楚地展示了我們在服裝紋理保留方面的優(yōu)勢。雖然我們的CLIP一致性結(jié)果與其他方法相當(dāng),但需要注意的是,這些方法結(jié)合了SDS損失,這在一定程度上平滑了3D空間中的人體表示。此外,其他方法的“更平坦”紋理也可能導(dǎo)致人為更高的一致性分?jǐn)?shù)。此外,用戶研究表明,本文的方法在編輯后的3D人體質(zhì)量和服裝細(xì)節(jié)對齊方面顯著優(yōu)于基線方法。

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

使用電子商務(wù)服裝的視覺結(jié)果

下圖6展示了使用MVG數(shù)據(jù)集中的服裝進(jìn)行的VTON結(jié)果,這些圖像來自YOOX NET-A-PORTER、淘寶和抖音等電子商務(wù)平臺,并在Thuman2.0數(shù)據(jù)集上訓(xùn)練的模型。結(jié)果表明,本文的方法有效地保留了復(fù)雜的服裝細(xì)節(jié)和紋理。例如,它準(zhǔn)確地保留了第一行中的條紋圖案、第二行中的可愛領(lǐng)帶以及第三行中的紐扣,突出了本文方法在處理多樣化和現(xiàn)實服裝項目時的魯棒性。

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

消融研究

在Thuman2.0數(shù)據(jù)集上進(jìn)行了消融研究,如下表2和圖7所示,以評估本文提出的三個模塊在增強(qiáng)典型2D VTON網(wǎng)絡(luò)以具備3D一致性生成能力方面的影響。從使用DensePose的2D VTON基線 開始,我們逐步用偽3D姿態(tài)替換DensePose,加入多視角CLIP嵌入,并最終在最終配置中整合MVAttention。表2中的結(jié)果表明,每個模塊都對指標(biāo)改進(jìn)有所貢獻(xiàn)。圖7展示了一個多視角圖像編輯的示例。與2D VTON基線相比,偽3D姿態(tài)的引入顯著改善了肢體生成。比較第4行和第5行,在整合多視角CLIP嵌入之前,模型捕捉到的空間信息有限,導(dǎo)致在特定角度(第3、4和6列)出現(xiàn)細(xì)節(jié)丟失。最后,提出的MVAttention實現(xiàn)了跨視角的更一致生成。

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝-AI.x社區(qū)

結(jié)論

VTON 360,一種新穎的3D虛擬試衣(VTON)方法,能夠?qū)崿F(xiàn)高保真度的虛擬試衣,并支持從任意視角渲染服裝。本文的方法通過將3D VTON重新定義為2D VTON的擴(kuò)展,確保多視角下的3D一致性結(jié)果。為了彌合2D VTON模型與3D一致性需求之間的差距,引入了多項關(guān)鍵創(chuàng)新,包括多視角輸入、偽3D姿態(tài)表示、多視角空間注意力機(jī)制以及多視角CLIP嵌入。大量實驗證明了本文方法的有效性,在保真度和任意視角渲染方面顯著優(yōu)于現(xiàn)有的3D VTON技術(shù)。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/8q8ZC1RVfgIA2cbQYIvs0w??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦