上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit:任意場(chǎng)景、任意組合! 精華
文章鏈接:https://arxiv.org/pdf/2405.18172
工程鏈接:https://colorful-liyu.github.io/anyfit-page/
今天和大家一起學(xué)習(xí)的是一種名為AnyFit的新型虛擬試穿系統(tǒng),旨在解決現(xiàn)有技術(shù)在處理不同場(chǎng)景和服飾組合時(shí)出現(xiàn)的衣物風(fēng)格不匹配和質(zhì)量下降問(wèn)題。通過(guò)引入輕量級(jí)、可擴(kuò)展的Hydra Block操作符和并行注意力機(jī)制,AnyFit能夠有效地將多種服飾特征注入主網(wǎng)絡(luò),實(shí)現(xiàn)高保真度的試穿效果。此外,通過(guò)合成多個(gè)模型的殘差和實(shí)施mask區(qū)域增強(qiáng)策略,AnyFit顯著提高了模型在真實(shí)世界場(chǎng)景中的魯棒性和表達(dá)能力。實(shí)驗(yàn)結(jié)果表明,AnyFit在高清基準(zhǔn)測(cè)試和實(shí)際數(shù)據(jù)上均超越了現(xiàn)有技術(shù),能夠生成細(xì)節(jié)豐富且逼真的試穿圖像。
主要貢獻(xiàn)
確立AnyFit為一種新穎的虛擬試衣(VTON)范式,能夠熟練應(yīng)對(duì)各種場(chǎng)景下任意服裝組合的挑戰(zhàn),如下圖1所示。AnyFit主要由兩個(gè)同構(gòu)的U-Net組成,即HydraNet和MainNet。前者負(fù)責(zé)提取細(xì)粒度的服裝特征,而后者負(fù)責(zé)生成試穿效果。
可擴(kuò)展性:AnyFit的一個(gè)顯著特點(diǎn)是創(chuàng)新引入了Hydra編碼塊,僅在共享的HydraNet中并行化注意力矩陣,從而使每增加一個(gè)分支參數(shù)量?jī)H增加8%,即可輕松擴(kuò)展到任何數(shù)量的條件。這種并行化提案基于以下洞察:只有自注意力層對(duì)于隱式變形至關(guān)重要,其余組件主要作為通用特征提取器。研究者們進(jìn)一步發(fā)明了Hydra融合塊,以無(wú)縫整合Hydra編碼的特征到MainNet中,并通過(guò)位置嵌入?yún)^(qū)分來(lái)自不同來(lái)源的編碼。需要注意的是,當(dāng)僅限于單一條件時(shí),ReferenceNet或GarmentNet可以視為HydraNet的特定實(shí)例。
穩(wěn)健性:觀察表明,現(xiàn)有虛擬試穿(VTON)工作生成的圖像在穩(wěn)健性和質(zhì)量上明顯低于原始穩(wěn)定擴(kuò)散表現(xiàn)。受社區(qū)討論的啟發(fā),提出了先驗(yàn)?zāi)P脱莼呗?。這種創(chuàng)新方法涉及在模型家族(例如,一系列微調(diào)版本的SDXL)內(nèi)合并參數(shù)變化,使得基礎(chǔ)模型的多種能力能夠獨(dú)立演化。在訓(xùn)練前放大模型固有潛力,這種策略被證明為直觀且高效的方法,特別是當(dāng)面對(duì)雙U-Net訓(xùn)練成本顯著增加的問(wèn)題時(shí),這在之前的研究中被忽略。此外,引入了自適應(yīng)mask增強(qiáng),以進(jìn)一步優(yōu)化服裝的合身度。它需要在訓(xùn)練階段延長(zhǎng)無(wú)解析mask區(qū)域的長(zhǎng)度,使模型能夠自主理解服裝的整體形狀,從而擺脫之前依賴于服裝mask提示的局限。在推理過(guò)程中,根據(jù)目標(biāo)服裝的縱橫比調(diào)整mask區(qū)域的形狀,從而顯著提升試穿效果,特別是對(duì)于長(zhǎng)款服裝(如風(fēng)衣)。
方法
模型概述
可擴(kuò)展性:為了保留服裝的細(xì)節(jié),并支持單件和多件服裝的VTON,采用了一個(gè)鏡像MainNet的HydraNet來(lái)編碼服裝信息。它與MainNet共享相同的權(quán)重初始化,并根據(jù)條件數(shù)量并行化注意力矩陣,創(chuàng)建不同條件編碼的Hydra編碼塊。
穩(wěn)健性:在訓(xùn)練過(guò)程中,觀察到mask 信息泄漏和質(zhì)量下降等問(wèn)題。為了解決這些問(wèn)題,分別采用了自適應(yīng)mask 增強(qiáng)和先驗(yàn)?zāi)P脱莼?,這顯著增強(qiáng)了模型在不同場(chǎng)景下的穩(wěn)健性,且成本效益高且簡(jiǎn)單易行。
HydraNet用于多條件VTON
HydraNet。受在人像編輯領(lǐng)域成功實(shí)踐的啟發(fā),本文引入了一個(gè)與主要生成網(wǎng)絡(luò)(MainNet)同構(gòu)的服裝編碼網(wǎng)絡(luò),以精確保留服裝的細(xì)節(jié)。在處理多服裝VTON時(shí),一個(gè)直接的方法可能涉及復(fù)制多個(gè)服裝編碼網(wǎng)絡(luò)以管理不同的條件。然而,這種方法會(huì)導(dǎo)致參數(shù)數(shù)量顯著增加,使其計(jì)算量過(guò)于龐大。實(shí)驗(yàn)表明,對(duì)于具有相似內(nèi)容的條件(如不同類型的服裝),自注意模塊在隱變量變形和將服裝對(duì)齊到需要修補(bǔ)的位置方面起著至關(guān)重要的作用。相反,其他網(wǎng)絡(luò)結(jié)構(gòu)通常負(fù)責(zé)一般特征提取,可以在不同條件編碼分支之間共享,而不會(huì)影響模型的性能。
通過(guò)模型演化和mask增強(qiáng)實(shí)現(xiàn)穩(wěn)健的VTON
自適應(yīng)mask增強(qiáng)。以前的工作在跨類別試穿場(chǎng)景中通常表現(xiàn)出有限的穩(wěn)健性,導(dǎo)致渲染的服裝樣式不準(zhǔn)確,如下圖6和圖9所示。這主要是由于依賴于從服裝解析中得出的無(wú)關(guān)mask ,這在訓(xùn)練期間往往會(huì)泄露服裝形狀的邊緣。這種泄露可能導(dǎo)致生成的服裝幾乎完全覆蓋無(wú)關(guān)mask區(qū)域。針對(duì)這些局限性,采用了一種直觀且有效的方法,即自適應(yīng)mask增強(qiáng)策略,大大增強(qiáng)了模型在跨類別試穿方面的穩(wěn)健性。該策略主要包括訓(xùn)練期間的mask增強(qiáng)和推理期間的自適應(yīng)延長(zhǎng)。
實(shí)驗(yàn)
定性結(jié)果
單服裝試穿。圖3和圖4在VITON-HD、更具挑戰(zhàn)性的專有數(shù)據(jù)和野外數(shù)據(jù)上提供了AnyFit與基線方法的定性比較,涵蓋了開(kāi)放服裝和分層渲染場(chǎng)景。為了與基線方法進(jìn)行公平比較,包括了在VITON-HD上訓(xùn)練的AnyFit的結(jié)果。AnyFit在保留復(fù)雜圖案細(xì)節(jié)方面表現(xiàn)出色,這歸功于HydraNet和IP-Adapter之間的有效協(xié)作。它還在語(yǔ)義級(jí)別上保持了正確的服裝輪廓。這表明,通過(guò)mask 增強(qiáng),AnyFit增強(qiáng)了對(duì)服裝原始形狀的回憶,而其他受mask 影響的模型往往會(huì)生成不正確的外觀。先前的模型演化進(jìn)一步增強(qiáng)了服裝的紋理表示。值得注意的是,當(dāng)在專有數(shù)據(jù)集上訓(xùn)練時(shí),AnyFit會(huì)根據(jù)姿勢(shì)自動(dòng)填充內(nèi)衣或解開(kāi)衣物,而在VITON-HD上訓(xùn)練的版本則因缺乏此類訓(xùn)練數(shù)據(jù)而無(wú)法做到。
多服裝試穿。下圖5提供了使用編譯的DressCode-multiple數(shù)據(jù)集進(jìn)行多服裝試穿的定性比較。首先,AnyFit展示了高保真的布料保留。由于位于不同條件分支中的獨(dú)特和個(gè)體的Hydra-Blocks,AnyFit準(zhǔn)確地描繪了上衣和下衣之間的分界線,并展示了連接處的合理過(guò)渡。相比之下,VTON-concat在串聯(lián)后處理相對(duì)服裝尺寸時(shí)處理不當(dāng),導(dǎo)致服裝失真和模糊。與此同時(shí),IDM-2Stage在上下衣交接處面臨著偽影,因?yàn)樵谠嚧┮粋€(gè)服裝時(shí),它會(huì)掩蓋另一個(gè)服裝的部分。值得注意的是,盡管訓(xùn)練時(shí)一個(gè)服裝呈現(xiàn)為平鋪圖像,另一個(gè)服裝為從人物圖像裁剪的扭曲布料,但在推理時(shí),AnyFit在面對(duì)兩種都作為平鋪圖像呈現(xiàn)的服裝時(shí)仍然表現(xiàn)出色。
定量結(jié)果
如下表1、2、3所示,在VITON-HD、DressCode、專有數(shù)據(jù)集和DressCode-multiple上進(jìn)行了廣泛的實(shí)驗(yàn),結(jié)果一致表明AnyFit顯著優(yōu)于所有基線方法。這證實(shí)了AnyFit在單件服裝和多件服裝任務(wù)中在各種場(chǎng)景下提供優(yōu)越的試穿質(zhì)量的能力。此外,注意到AnyFit在未配對(duì)設(shè)置下在FID和KID指標(biāo)方面顯示出顯著改善,展示了本文模型在跨類別試穿中的魯棒性。
消融研究
Hydra Blocks。為驗(yàn)證本文提出的Hydra Blocks的有效性,直接使用一個(gè)條件化的單一HydraNet作為基線“w/o Hydra Block”,實(shí)際上退化為ReferenceNet,同時(shí)編碼頂部和底部服裝條件,然后將它們連接到MainNet中。如下表4、圖7和10所示,缺乏Hydra Block的模型往往在上衣和下衣交接處產(chǎn)生偽影。這些模型還經(jīng)常允許一個(gè)服裝的特征影響另一個(gè),導(dǎo)致不正確的服裝風(fēng)格。然而,引入Hydra Block后,AnyFit始終展現(xiàn)出更穩(wěn)定的結(jié)果。
Prior Model Evolution。在下圖12和6(a)中定性展示了Prior Model Evolution的效果。SDXL-evolved模型顯著減少了偽影,并顯著增強(qiáng)了魯棒性,而沒(méi)有Prior Model Evolution的輸出通常具有過(guò)度飽和的顏色,以及與背景不協(xié)調(diào)的光照和陰影。模型能力的逐步增強(qiáng)在圖6(c)中可視化。還在圖7和表4中從經(jīng)驗(yàn)和定量上驗(yàn)證了Prior Model Evolution策略的有效性。通過(guò)增強(qiáng)模型的初始能力,Prior Model Evolution減少了學(xué)習(xí)的難度,并顯著提升了服裝裝配能力和標(biāo)志保真度。
Adaptive Mask Boost。在上圖6(b)和下圖9中圖示展示了先前方法中發(fā)現(xiàn)的信息泄露和mask 依賴的問(wèn)題。在表4和圖9中經(jīng)驗(yàn)和定量上驗(yàn)證了Adaptive Mask Boost策略的有效性。該策略顯著增強(qiáng)了模型對(duì)不同服裝類別的魯棒性,使其能夠自主確定適當(dāng)?shù)姆b長(zhǎng)度,而不是依賴于mask 。此外,在推理過(guò)程中手動(dòng)調(diào)整了長(zhǎng)寬比σ,顯示了自適應(yīng)延伸的積極影響。
結(jié)論
AnyFit,這是一個(gè)適用于任何場(chǎng)景下任意服裝組合的新穎而強(qiáng)大的VTON pipeline,為實(shí)現(xiàn)逼真的試穿效果邁出了關(guān)鍵性的一步。為支持多件服裝試穿,AnyFit構(gòu)建了具有輕量級(jí)和可擴(kuò)展并行化注意力的HydraNet,促進(jìn)了多件服裝的特征注入。通過(guò)在真實(shí)場(chǎng)景中觀察到的偽影,通過(guò)合成多模型的殘差以及實(shí)施mask區(qū)域增強(qiáng)策略來(lái)提升其潛力。對(duì)高分辨率基準(zhǔn)和真實(shí)數(shù)據(jù)的全面實(shí)驗(yàn)表明,AnyFit在各方面顯著超越了所有基線方法。
更廣泛的影響
隨著生成圖像的能力,AnyFit可能被用于違反知識(shí)產(chǎn)權(quán)或隱私規(guī)范的不當(dāng)目的。因此,基于這些風(fēng)險(xiǎn),強(qiáng)烈主張謹(jǐn)慎使用這項(xiàng)技術(shù)。
本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Yuhan Li等
