偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！精華

發(fā)布于 2024-6-20 12:01

瀏覽

1收藏

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2405.18172
工程鏈接：https://colorful-liyu.github.io/anyfit-page/

今天和大家一起學(xué)習(xí)的是一種名為AnyFit的新型虛擬試穿系統(tǒng)，旨在解決現(xiàn)有技術(shù)在處理不同場(chǎng)景和服飾組合時(shí)出現(xiàn)的衣物風(fēng)格不匹配和質(zhì)量下降問(wèn)題。通過(guò)引入輕量級(jí)、可擴(kuò)展的Hydra Block操作符和并行注意力機(jī)制，AnyFit能夠有效地將多種服飾特征注入主網(wǎng)絡(luò)，實(shí)現(xiàn)高保真度的試穿效果。此外，通過(guò)合成多個(gè)模型的殘差和實(shí)施mask區(qū)域增強(qiáng)策略，AnyFit顯著提高了模型在真實(shí)世界場(chǎng)景中的魯棒性和表達(dá)能力。實(shí)驗(yàn)結(jié)果表明，AnyFit在高清基準(zhǔn)測(cè)試和實(shí)際數(shù)據(jù)上均超越了現(xiàn)有技術(shù)，能夠生成細(xì)節(jié)豐富且逼真的試穿圖像。

主要貢獻(xiàn)

確立AnyFit為一種新穎的虛擬試衣（VTON）范式，能夠熟練應(yīng)對(duì)各種場(chǎng)景下任意服裝組合的挑戰(zhàn)，如下圖1所示。AnyFit主要由兩個(gè)同構(gòu)的U-Net組成，即HydraNet和MainNet。前者負(fù)責(zé)提取細(xì)粒度的服裝特征，而后者負(fù)責(zé)生成試穿效果。

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

可擴(kuò)展性：AnyFit的一個(gè)顯著特點(diǎn)是創(chuàng)新引入了Hydra編碼塊，僅在共享的HydraNet中并行化注意力矩陣，從而使每增加一個(gè)分支參數(shù)量?jī)H增加8%，即可輕松擴(kuò)展到任何數(shù)量的條件。這種并行化提案基于以下洞察：只有自注意力層對(duì)于隱式變形至關(guān)重要，其余組件主要作為通用特征提取器。研究者們進(jìn)一步發(fā)明了Hydra融合塊，以無(wú)縫整合Hydra編碼的特征到MainNet中，并通過(guò)位置嵌入?yún)^(qū)分來(lái)自不同來(lái)源的編碼。需要注意的是，當(dāng)僅限于單一條件時(shí)，ReferenceNet或GarmentNet可以視為HydraNet的特定實(shí)例。

穩(wěn)健性：觀察表明，現(xiàn)有虛擬試穿（VTON）工作生成的圖像在穩(wěn)健性和質(zhì)量上明顯低于原始穩(wěn)定擴(kuò)散表現(xiàn)。受社區(qū)討論的啟發(fā)，提出了先驗(yàn)?zāi)Ｐ脱莼呗?。這種創(chuàng)新方法涉及在模型家族（例如，一系列微調(diào)版本的SDXL）內(nèi)合并參數(shù)變化，使得基礎(chǔ)模型的多種能力能夠獨(dú)立演化。在訓(xùn)練前放大模型固有潛力，這種策略被證明為直觀且高效的方法，特別是當(dāng)面對(duì)雙U-Net訓(xùn)練成本顯著增加的問(wèn)題時(shí)，這在之前的研究中被忽略。此外，引入了自適應(yīng)mask增強(qiáng)，以進(jìn)一步優(yōu)化服裝的合身度。它需要在訓(xùn)練階段延長(zhǎng)無(wú)解析mask區(qū)域的長(zhǎng)度，使模型能夠自主理解服裝的整體形狀，從而擺脫之前依賴于服裝mask提示的局限。在推理過(guò)程中，根據(jù)目標(biāo)服裝的縱橫比調(diào)整mask區(qū)域的形狀，從而顯著提升試穿效果，特別是對(duì)于長(zhǎng)款服裝（如風(fēng)衣）。

方法

模型概述

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

可擴(kuò)展性：為了保留服裝的細(xì)節(jié)，并支持單件和多件服裝的VTON，采用了一個(gè)鏡像MainNet的HydraNet來(lái)編碼服裝信息。它與MainNet共享相同的權(quán)重初始化，并根據(jù)條件數(shù)量并行化注意力矩陣，創(chuàng)建不同條件編碼的Hydra編碼塊。

穩(wěn)健性：在訓(xùn)練過(guò)程中，觀察到mask 信息泄漏和質(zhì)量下降等問(wèn)題。為了解決這些問(wèn)題，分別采用了自適應(yīng)mask 增強(qiáng)和先驗(yàn)?zāi)Ｐ脱莼?，這顯著增強(qiáng)了模型在不同場(chǎng)景下的穩(wěn)健性，且成本效益高且簡(jiǎn)單易行。

HydraNet用于多條件VTON

HydraNet。受在人像編輯領(lǐng)域成功實(shí)踐的啟發(fā)，本文引入了一個(gè)與主要生成網(wǎng)絡(luò)（MainNet）同構(gòu)的服裝編碼網(wǎng)絡(luò)，以精確保留服裝的細(xì)節(jié)。在處理多服裝VTON時(shí)，一個(gè)直接的方法可能涉及復(fù)制多個(gè)服裝編碼網(wǎng)絡(luò)以管理不同的條件。然而，這種方法會(huì)導(dǎo)致參數(shù)數(shù)量顯著增加，使其計(jì)算量過(guò)于龐大。實(shí)驗(yàn)表明，對(duì)于具有相似內(nèi)容的條件（如不同類型的服裝），自注意模塊在隱變量變形和將服裝對(duì)齊到需要修補(bǔ)的位置方面起著至關(guān)重要的作用。相反，其他網(wǎng)絡(luò)結(jié)構(gòu)通常負(fù)責(zé)一般特征提取，可以在不同條件編碼分支之間共享，而不會(huì)影響模型的性能。

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

通過(guò)模型演化和mask增強(qiáng)實(shí)現(xiàn)穩(wěn)健的VTON

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

自適應(yīng)mask增強(qiáng)。以前的工作在跨類別試穿場(chǎng)景中通常表現(xiàn)出有限的穩(wěn)健性，導(dǎo)致渲染的服裝樣式不準(zhǔn)確，如下圖6和圖9所示。這主要是由于依賴于從服裝解析中得出的無(wú)關(guān)mask ，這在訓(xùn)練期間往往會(huì)泄露服裝形狀的邊緣。這種泄露可能導(dǎo)致生成的服裝幾乎完全覆蓋無(wú)關(guān)mask區(qū)域。針對(duì)這些局限性，采用了一種直觀且有效的方法，即自適應(yīng)mask增強(qiáng)策略，大大增強(qiáng)了模型在跨類別試穿方面的穩(wěn)健性。該策略主要包括訓(xùn)練期間的mask增強(qiáng)和推理期間的自適應(yīng)延長(zhǎng)。

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

實(shí)驗(yàn)

定性結(jié)果

單服裝試穿。圖3和圖4在VITON-HD、更具挑戰(zhàn)性的專有數(shù)據(jù)和野外數(shù)據(jù)上提供了AnyFit與基線方法的定性比較，涵蓋了開(kāi)放服裝和分層渲染場(chǎng)景。為了與基線方法進(jìn)行公平比較，包括了在VITON-HD上訓(xùn)練的AnyFit的結(jié)果。AnyFit在保留復(fù)雜圖案細(xì)節(jié)方面表現(xiàn)出色，這歸功于HydraNet和IP-Adapter之間的有效協(xié)作。它還在語(yǔ)義級(jí)別上保持了正確的服裝輪廓。這表明，通過(guò)mask 增強(qiáng)，AnyFit增強(qiáng)了對(duì)服裝原始形狀的回憶，而其他受mask 影響的模型往往會(huì)生成不正確的外觀。先前的模型演化進(jìn)一步增強(qiáng)了服裝的紋理表示。值得注意的是，當(dāng)在專有數(shù)據(jù)集上訓(xùn)練時(shí)，AnyFit會(huì)根據(jù)姿勢(shì)自動(dòng)填充內(nèi)衣或解開(kāi)衣物，而在VITON-HD上訓(xùn)練的版本則因缺乏此類訓(xùn)練數(shù)據(jù)而無(wú)法做到。

多服裝試穿。下圖5提供了使用編譯的DressCode-multiple數(shù)據(jù)集進(jìn)行多服裝試穿的定性比較。首先，AnyFit展示了高保真的布料保留。由于位于不同條件分支中的獨(dú)特和個(gè)體的Hydra-Blocks，AnyFit準(zhǔn)確地描繪了上衣和下衣之間的分界線，并展示了連接處的合理過(guò)渡。相比之下，VTON-concat在串聯(lián)后處理相對(duì)服裝尺寸時(shí)處理不當(dāng)，導(dǎo)致服裝失真和模糊。與此同時(shí)，IDM-2Stage在上下衣交接處面臨著偽影，因?yàn)樵谠嚧┮粋€(gè)服裝時(shí)，它會(huì)掩蓋另一個(gè)服裝的部分。值得注意的是，盡管訓(xùn)練時(shí)一個(gè)服裝呈現(xiàn)為平鋪圖像，另一個(gè)服裝為從人物圖像裁剪的扭曲布料，但在推理時(shí)，AnyFit在面對(duì)兩種都作為平鋪圖像呈現(xiàn)的服裝時(shí)仍然表現(xiàn)出色。

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

定量結(jié)果

如下表1、2、3所示，在VITON-HD、DressCode、專有數(shù)據(jù)集和DressCode-multiple上進(jìn)行了廣泛的實(shí)驗(yàn)，結(jié)果一致表明AnyFit顯著優(yōu)于所有基線方法。這證實(shí)了AnyFit在單件服裝和多件服裝任務(wù)中在各種場(chǎng)景下提供優(yōu)越的試穿質(zhì)量的能力。此外，注意到AnyFit在未配對(duì)設(shè)置下在FID和KID指標(biāo)方面顯示出顯著改善，展示了本文模型在跨類別試穿中的魯棒性。

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

消融研究

Hydra Blocks。為驗(yàn)證本文提出的Hydra Blocks的有效性，直接使用一個(gè)條件化的單一HydraNet作為基線“w/o Hydra Block”，實(shí)際上退化為ReferenceNet，同時(shí)編碼頂部和底部服裝條件，然后將它們連接到MainNet中。如下表4、圖7和10所示，缺乏Hydra Block的模型往往在上衣和下衣交接處產(chǎn)生偽影。這些模型還經(jīng)常允許一個(gè)服裝的特征影響另一個(gè)，導(dǎo)致不正確的服裝風(fēng)格。然而，引入Hydra Block后，AnyFit始終展現(xiàn)出更穩(wěn)定的結(jié)果。

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

Prior Model Evolution。在下圖12和6(a)中定性展示了Prior Model Evolution的效果。SDXL-evolved模型顯著減少了偽影，并顯著增強(qiáng)了魯棒性，而沒(méi)有Prior Model Evolution的輸出通常具有過(guò)度飽和的顏色，以及與背景不協(xié)調(diào)的光照和陰影。模型能力的逐步增強(qiáng)在圖6(c)中可視化。還在圖7和表4中從經(jīng)驗(yàn)和定量上驗(yàn)證了Prior Model Evolution策略的有效性。通過(guò)增強(qiáng)模型的初始能力，Prior Model Evolution減少了學(xué)習(xí)的難度，并顯著提升了服裝裝配能力和標(biāo)志保真度。

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

Adaptive Mask Boost。在上圖6(b)和下圖9中圖示展示了先前方法中發(fā)現(xiàn)的信息泄露和mask 依賴的問(wèn)題。在表4和圖9中經(jīng)驗(yàn)和定量上驗(yàn)證了Adaptive Mask Boost策略的有效性。該策略顯著增強(qiáng)了模型對(duì)不同服裝類別的魯棒性，使其能夠自主確定適當(dāng)?shù)姆b長(zhǎng)度，而不是依賴于mask 。此外，在推理過(guò)程中手動(dòng)調(diào)整了長(zhǎng)寬比σ，顯示了自適應(yīng)延伸的積極影響。

上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場(chǎng)景、任意組合！-AI.x社區(qū)

結(jié)論

AnyFit，這是一個(gè)適用于任何場(chǎng)景下任意服裝組合的新穎而強(qiáng)大的VTON pipeline，為實(shí)現(xiàn)逼真的試穿效果邁出了關(guān)鍵性的一步。為支持多件服裝試穿，AnyFit構(gòu)建了具有輕量級(jí)和可擴(kuò)展并行化注意力的HydraNet，促進(jìn)了多件服裝的特征注入。通過(guò)在真實(shí)場(chǎng)景中觀察到的偽影，通過(guò)合成多模型的殘差以及實(shí)施mask區(qū)域增強(qiáng)策略來(lái)提升其潛力。對(duì)高分辨率基準(zhǔn)和真實(shí)數(shù)據(jù)的全面實(shí)驗(yàn)表明，AnyFit在各方面顯著超越了所有基線方法。

更廣泛的影響

隨著生成圖像的能力，AnyFit可能被用于違反知識(shí)產(chǎn)權(quán)或隱私規(guī)范的不當(dāng)目的。因此，基于這些風(fēng)險(xiǎn)，強(qiáng)烈主張謹(jǐn)慎使用這項(xiàng)技術(shù)。

本文轉(zhuǎn)自 AI生成未來(lái) ，作者：Yuhan Li等

原文鏈接:??https://mp.weixin.qq.com/s/w8BnSSy5WhCC2YUdceHELQ??

標(biāo)簽

贊

收藏 1

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

圖像生成里程碑！VAR:自回歸模型首超Diffusion Transformer?。ū贝?amp;字節(jié)）

angel ? 1.4w瀏覽 ? 0回復(fù)
支持虛擬試衣，上海AI Lab&網(wǎng)易等聯(lián)合發(fā)布

angel ? 6027瀏覽 ? 0回復(fù)
阿里巴巴重磅開(kāi)源EasyAnimate！基于DiT的長(zhǎng)視頻制作生態(tài)系統(tǒng)

angel ? 5067瀏覽 ? 0回復(fù)
大語(yǔ)言模型的前世今生：萬(wàn)字長(zhǎng)文完整梳理所有里程碑式大語(yǔ)言模型（LLMs）

angel ? 8013瀏覽 ? 0回復(fù)
上海交大、復(fù)旦、上海 AI Lab引入漸進(jìn)學(xué)習(xí)框架來(lái)驗(yàn)證弱到強(qiáng)的推理

sbf_2000 ? 2757瀏覽 ? 0回復(fù)
顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)！阿里發(fā)布OutfitAnyone：任意服裝+任意人！

angel ? 3325瀏覽 ? 0回復(fù)
阿里巴巴提出CODEXGRAPH：打破大模型與代碼庫(kù)的壁壘，引領(lǐng)軟件工程新革命

AI論文解讀 ? 4037瀏覽 ? 0回復(fù)
上海交大等聯(lián)合發(fā)布MegaFusion：無(wú)須微調(diào)的高效高分辨率圖像生成方法

angel ? 2958瀏覽 ? 0回復(fù)
可提示 3D 分割研究里程碑！SAM2Point：SAM2加持泛化任意3D場(chǎng)景、任意提示！

angel ? 2753瀏覽 ? 0回復(fù)
上海交大&騰訊開(kāi)源SaRA：兼顧原始生成和下游任務(wù)

angel ? 2645瀏覽 ? 0回復(fù)
超越SDEdit等七大SOTA，免訓(xùn)練多模態(tài)圖像編輯里程碑：HeadRouter帶來(lái)精準(zhǔn)語(yǔ)義調(diào)整

angel ? 2537瀏覽 ? 0回復(fù)
多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開(kāi)源DeeR-VLA：讓算力內(nèi)存雙降

angel ? 2920瀏覽 ? 0回復(fù)
阿里巴巴研究院推出 XiYan-SQL：用于Text-to-SQL的多生成器集成人工智能框架

Halo咯咯 ? 8128瀏覽 ? 0回復(fù)
亞馬遜Nova大模型家族：AI技術(shù)的新里程碑 | 1000個(gè)人的數(shù)字分身：AI如何精準(zhǔn)模擬人類行為？

sbf_2000 ? 2782瀏覽 ? 0回復(fù)
突破與超越：CosyVoice 2.0—阿里巴巴通義實(shí)驗(yàn)室的語(yǔ)音進(jìn)階新作

穿越時(shí)空111 ? 5447瀏覽 ? 0回復(fù)
阿里巴巴語(yǔ)音實(shí)驗(yàn)室發(fā)布新成果，多模態(tài)方法顯著提升視頻主題分割性能

xuxiangda ? 2651瀏覽 ? 0回復(fù)
阿里巴巴Qwen研究員推出ProcessBench：衡量數(shù)學(xué)推理過(guò)程錯(cuò)誤識(shí)別能力的新AI基準(zhǔn)

Halo咯咯 ? 2455瀏覽 ? 0回復(fù)
阿里巴巴AI研究院發(fā)布CosyVoice 2：改進(jìn)的流式語(yǔ)音合成模型

Halo咯咯 ? 4758瀏覽 ? 0回復(fù)
基于Langbase Memory Agents將任意LLM轉(zhuǎn)為可對(duì)話式AI文檔助手

51CTO內(nèi)容精選 ? 2327瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴(kuò)散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開(kāi)源BAGEL爆火：圖文生成理解雙冠王，竟能預(yù)測(cè)未來(lái)畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒(méi)問(wèn)題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開(kāi)源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇： CVPR`24 | 4D編輯哪家強(qiáng)？浙大首次提出通用指導(dǎo)4D編輯框架：Instruct 4D-to-4D

下一篇：到底什么是視覺(jué)語(yǔ)言模型？(分類/訓(xùn)練/評(píng)估)

社區(qū)精華內(nèi)容

目錄

<thead id="u3ane"><span id="u3ane"><legend id="u3ane"></legend></span></thead>

<tt id="u3ane"></tt>