統(tǒng)一圖像編輯框架,達(dá)到閉源一流水平;高分辨率自回歸圖像生成;高低層次特征聯(lián)合的圖像生成;視頻試穿框架
Step1X-Edit: A Practical Framework for General Image Editing
2025-04-24|StepFun, |??55
???http://arxiv.org/abs/2504.17761v1????
????https://huggingface.co/papers/2504.17761????
????https://github.com/stepfun-ai/Step1X-Edit???
研究背景與意義
- 領(lǐng)域現(xiàn)狀與挑戰(zhàn)近年來,圖像編輯技術(shù)迅速發(fā)展,尤其是在多模態(tài)大模型(如GPT-4o、Gemini2 Flash)推動下,實現(xiàn)了基于自然語言的高質(zhì)量圖像編輯。這些閉源模型在理解復(fù)雜編輯指令和保持圖像一致性方面表現(xiàn)優(yōu)異,但其封閉性限制了學(xué)術(shù)界和開源社區(qū)的研究與應(yīng)用推廣。相較之下,現(xiàn)有開源圖像編輯算法在泛化能力、編輯準(zhǔn)確度和生成圖像質(zhì)量上仍存在顯著差距。
- 研究目標(biāo)本論文旨在縮小開源與閉源圖像編輯模型間的性能差距,提出一個開源的通用圖像編輯框架Step1X-Edit,兼具閉源模型的高性能和開源模型的透明性。為此,作者構(gòu)建了大規(guī)模、高質(zhì)量的圖像編輯數(shù)據(jù)集,并設(shè)計了一個融合多模態(tài)大語言模型(MLLM)與擴(kuò)散模型的統(tǒng)一編輯架構(gòu),同時推出了真實用戶驅(qū)動的評測基準(zhǔn)GEdit-Bench,推動圖像編輯技術(shù)向?qū)嵱没~進(jìn)。
研究方法與創(chuàng)新
- 數(shù)據(jù)生成與標(biāo)注創(chuàng)新論文提出了覆蓋11大類編輯任務(wù)的規(guī)?;瘮?shù)據(jù)生成管線,利用多模態(tài)大語言模型和自動化工具結(jié)合人工審核,構(gòu)建了超過1百萬高質(zhì)量圖像-指令-目標(biāo)三元組數(shù)據(jù)集,顯著超越現(xiàn)有開源數(shù)據(jù)集規(guī)模與多樣性。數(shù)據(jù)標(biāo)注采用多輪遞歸增強(qiáng)策略,結(jié)合中英雙語注釋,提升語義一致性和跨語言適用性。
- 模型架構(gòu)設(shè)計Step1X-Edit將多模態(tài)大語言模型(如Qwen-VL)與基于Transformer的擴(kuò)散模型(DiT)深度集成。編輯指令與參考圖像首先由MLLM解析,生成語義豐富的編輯嵌入;接著通過輕量級連接模塊精煉特征,替代傳統(tǒng)文本編碼器的嵌入,作為擴(kuò)散模型的條件輸入。訓(xùn)練時,模型采用目標(biāo)圖像與參考圖像的融合視覺特征,優(yōu)化編輯準(zhǔn)確度和圖像質(zhì)量,實現(xiàn)語義理解與視覺生成的緊密耦合。
- 創(chuàng)新點與優(yōu)勢
- 統(tǒng)一框架:打破傳統(tǒng)模塊化設(shè)計,緊密結(jié)合語言理解與圖像生成,支持多輪交互和細(xì)粒度編輯。
- 語義引導(dǎo)的視覺條件:利用MLLM強(qiáng)大的語義推理能力,提升編輯指令的準(zhǔn)確執(zhí)行,尤其對復(fù)雜、組合性編輯表現(xiàn)優(yōu)異。
- 大規(guī)模高質(zhì)量數(shù)據(jù)支撐:數(shù)據(jù)多樣性和規(guī)模保障模型泛化能力,推動實際應(yīng)用。
- 跨語言支持:支持中英文編輯指令,拓寬應(yīng)用場景。
- 訓(xùn)練策略:采用預(yù)訓(xùn)練權(quán)重初始化,穩(wěn)定且高效地提升模型性能。
實驗設(shè)計與結(jié)果分析
- 實驗設(shè)置
- 構(gòu)建了真實用戶編輯指令驅(qū)動的GEdit-Bench評測集,包含606個多樣化編輯任務(wù),涵蓋11大類編輯場景,確保評測的真實性和全面性。
- 對比對象涵蓋多個開源模型(Instruct-Pix2Pix、MagicBrush、AnyEdit、OmniGen)及閉源頂尖模型(GPT-4o、Gemini2 Flash、Doubao)。
- 采用自動化多指標(biāo)評價(語義一致性SQ、感知質(zhì)量PQ、整體評分O)和主觀用戶偏好測試,保證評測的客觀與主觀雙重維度。
- 結(jié)果表現(xiàn)
- Step1X-Edit在GEdit-Bench上全面超越所有開源基線,提升幅度顯著,接近甚至部分任務(wù)超越閉源模型。特別在風(fēng)格轉(zhuǎn)換、顏色調(diào)整等細(xì)節(jié)編輯上表現(xiàn)優(yōu)異。
- 在中文編輯指令評測中,Step1X-Edit同樣表現(xiàn)穩(wěn)定,超過Gemini2和Doubao,顯示出強(qiáng)大的跨語言適應(yīng)能力。
- 用戶研究表明,Step1X-Edit編輯結(jié)果在視覺質(zhì)量和符合用戶意圖方面獲得較高認(rèn)可,主觀評分與閉源模型相當(dāng),體現(xiàn)了良好的用戶體驗。
- 多場景驗證
- 論文展示了豐富的編輯示例,涵蓋從物體添加、替換、移除,到材質(zhì)修改、風(fēng)格遷移、文本編輯等多種任務(wù),驗證模型的通用性和實用性。
- 對比圖示清晰展示了Step1X-Edit在細(xì)節(jié)保留、語義理解和圖像美學(xué)上的優(yōu)勢。
結(jié)論與展望
- 總結(jié)貢獻(xiàn)
- Step1X-Edit作為首個開源且性能接近閉源頂尖水平的通用圖像編輯模型,填補(bǔ)了開源社區(qū)與工業(yè)閉源模型之間的空白。
- 數(shù)據(jù)生成管線和GEdit-Bench基準(zhǔn)的開放,為后續(xù)研究提供了寶貴資源和評價標(biāo)準(zhǔn)。
- 模型架構(gòu)創(chuàng)新實現(xiàn)了多模態(tài)語義理解與擴(kuò)散生成的深度融合,推動圖像編輯技術(shù)向更智能、更交互的方向發(fā)展。
- 局限性分析
- 盡管性能優(yōu)異,某些復(fù)雜多輪交互和極端細(xì)節(jié)編輯仍有提升空間。
- 模型訓(xùn)練和推理成本較高,對硬件資源要求較大,限制了部分應(yīng)用場景。
- 安全策略導(dǎo)致部分編輯指令被拒絕響應(yīng),影響模型的開放性和靈活性。
- 未來展望
- 進(jìn)一步優(yōu)化模型架構(gòu),提升多輪交互和細(xì)節(jié)編輯能力,實現(xiàn)更自然的用戶反饋循環(huán)。
- 探索輕量化和加速推理技術(shù),降低模型部署門檻,擴(kuò)大實際應(yīng)用范圍。
- 拓展多語言、多文化背景下的編輯能力,增強(qiáng)模型的全球適用性。
- 深化隱私保護(hù)和安全策略,兼顧開放性與合規(guī)性,促進(jìn)模型的廣泛應(yīng)用。
總體而言,Step1X-Edit開創(chuàng)了開源圖像編輯模型的新紀(jì)元,其高質(zhì)量數(shù)據(jù)、創(chuàng)新模型設(shè)計和嚴(yán)謹(jǐn)評測體系,為圖像編輯領(lǐng)域的研究與應(yīng)用提供了堅實基礎(chǔ)和廣闊前景。
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models
2025-04-24|NEU, Meta GenAI, Meta FAIR, NUS, CUHK, U Washington|??8
???http://arxiv.org/abs/2504.17789v1????
????https://huggingface.co/papers/2504.17789???
研究背景與意義
- 研究背景自然語言處理領(lǐng)域中,自回歸(Autoregressive, AR)模型通過預(yù)測序列中下一個token取得了巨大成功。近年來,AR模型逐漸被應(yīng)用于圖像生成,尤其是在多模態(tài)大語言模型(Multimodal Large Language Models, MLLMs)中。然而,AR模型在圖像生成中面臨的主要瓶頸是需要大量的視覺token,導(dǎo)致訓(xùn)練和推理效率低下,且限制了生成圖像的分辨率。
- 研究意義現(xiàn)有AR模型難以高效生成高分辨率圖像(如2048×2048),而擴(kuò)展視覺token數(shù)量則帶來計算成本的指數(shù)級增長。相比之下,擴(kuò)散模型雖然在高分辨率生成上表現(xiàn)優(yōu)異,但AR模型具有統(tǒng)一的多模態(tài)生成潛力。解決AR模型中視覺token數(shù)量過多的問題,有助于提升AR模型在高分辨率圖像生成中的實用性和性能,推動多模態(tài)生成技術(shù)的發(fā)展。
- 挑戰(zhàn)與目標(biāo)
- 挑戰(zhàn):視覺token數(shù)量龐大,Transformer計算復(fù)雜度呈二次方增長,限制了分辨率提升。
- 目標(biāo):設(shè)計簡潔有效的方法減少視覺token數(shù)量,提升計算效率,同時保持甚至提升生成圖像的質(zhì)量和分辨率,實現(xiàn)AR模型高效高分辨率圖像生成。
研究方法與創(chuàng)新
- 核心方法——Token-Shuffle本文提出了Token-Shuffle,一種利用視覺詞匯表維度冗余的輕量級操作。該方法通過將空間鄰近的視覺token在通道維度上融合(token-shuffle),顯著減少輸入Transformer的token數(shù)量;隨后通過token-unshuffle操作恢復(fù)空間結(jié)構(gòu),保證輸出圖像的空間一致性。
- 維度冗余的發(fā)現(xiàn)與利用視覺編碼器生成的低維視覺token被直接映射到高維語言詞匯空間,導(dǎo)致維度冗余。實驗表明,視覺詞匯的維度可以壓縮8倍而不顯著影響生成質(zhì)量。Token-Shuffle正是借助這一冗余,將多個空間token融合為一個復(fù)合token,減少計算量。
- 技術(shù)細(xì)節(jié)
- 融合與解耦機(jī)制:融合操作通過MLP壓縮維度并合并s×s鄰域token,解耦操作則逆向恢復(fù)。
- 訓(xùn)練與推理一致性:Token-Shuffle不改變原有的自回歸預(yù)測范式,而是將下一token預(yù)測擴(kuò)展為下一組復(fù)合token預(yù)測,提升效率。
- 無須額外預(yù)訓(xùn)練文本編碼器,直接聯(lián)合訓(xùn)練文本和視覺token,實現(xiàn)統(tǒng)一的多模態(tài)生成框架。
- 創(chuàng)新優(yōu)勢
- 顯著減少視覺token數(shù)量,降低Transformer計算復(fù)雜度,提升訓(xùn)練和推理速度。
- 支持最高2048×2048分辨率的文本到圖像生成,打破AR模型生成分辨率瓶頸。
- 保持甚至提升生成圖像質(zhì)量和文本對齊度,超越現(xiàn)有AR模型及部分?jǐn)U散模型。
- 與現(xiàn)有方法對比傳統(tǒng)方法或通過壓縮視覺token,或犧牲分辨率與質(zhì)量,Token-Shuffle則通過融合鄰域token利用維度冗余,兼顧效率與質(zhì)量,避免復(fù)雜架構(gòu)改動,易于集成。
實驗設(shè)計與結(jié)果分析
- 實驗設(shè)計
- 模型基礎(chǔ):基于2.7B參數(shù)的LLaMA自回歸Transformer。
- 訓(xùn)練策略:分三階段訓(xùn)練,分辨率從512×512逐步提升至2048×2048,后兩階段引入Token-Shuffle。
- 數(shù)據(jù)與優(yōu)化:使用授權(quán)數(shù)據(jù)集,長文本提示重寫以提升細(xì)節(jié)表達(dá),采用z-loss穩(wěn)定高分辨率訓(xùn)練。
- 評測指標(biāo):自動評測采用GenAI-Bench的VQA Score和GenEval,人工評測關(guān)注文本對齊、視覺缺陷和美觀度。
- 主要實驗結(jié)果
- 自動評測:Token-Shuffle模型在GenAI-Bench“hard”提示上整體得分0.77,較LlamaGen提高0.18,超越DALL-E 3等擴(kuò)散模型。
- 人工評測:在文本對齊、視覺缺陷和美觀度三項指標(biāo)上均優(yōu)于主流AR模型和部分?jǐn)U散模型,體現(xiàn)了優(yōu)越的生成質(zhì)量。
- 效率提升:Token-Shuffle通過減少約75%的視覺token,訓(xùn)練和推理計算量顯著降低,實現(xiàn)高分辨率圖像生成的同時保持高效。
- 消融實驗
- Token-Shuffle設(shè)計選擇:增加MLP層數(shù)、添加位置編碼等改動未顯著提升性能,證明默認(rèn)設(shè)計合理。
- 不同融合窗口大小:窗口越大,計算效率越高,但生成質(zhì)量略有下降,窗口大小為2時取得較好平衡。
- 與其他融合方法對比:Token-Shuffle優(yōu)于簡單線性融合和改良Re-sampler,顯示其設(shè)計的有效性。
結(jié)論與展望
- 研究貢獻(xiàn)總結(jié)本文提出的Token-Shuffle方法創(chuàng)新性地利用視覺詞匯維度冗余,通過空間token融合與解耦操作,顯著減少視覺token數(shù)量,提升自回歸Transformer在圖像生成中的計算效率。該方法首次實現(xiàn)了2048×2048高分辨率文本到圖像生成,且在生成質(zhì)量和文本對齊度上超越現(xiàn)有主流AR模型及部分?jǐn)U散模型,推動了AR模型在多模態(tài)生成領(lǐng)域的邊界。
- 局限性分析
- Token-Shuffle在極大融合窗口下生成質(zhì)量有所下降,存在效率與質(zhì)量的權(quán)衡問題。
- 相較于擴(kuò)散模型,視覺缺陷指標(biāo)稍遜,提示進(jìn)一步優(yōu)化空間。
- 訓(xùn)練高分辨率模型仍需穩(wěn)定性改進(jìn),如z-loss的引入表明訓(xùn)練過程仍存在挑戰(zhàn)。
- 未來展望
- 探索更優(yōu)的token融合策略,減小質(zhì)量損失,提升更大窗口融合的可行性。
- 結(jié)合擴(kuò)散模型優(yōu)勢,探索混合模型架構(gòu),改善視覺缺陷表現(xiàn)。
- 擴(kuò)展Token-Shuffle至更多模態(tài)和任務(wù),推動統(tǒng)一高效的多模態(tài)大語言模型發(fā)展。
- 優(yōu)化訓(xùn)練穩(wěn)定性和推理效率,推動工業(yè)級高分辨率多模態(tài)生成應(yīng)用。
綜上,Token-Shuffle為高效、高分辨率自回歸圖像生成提供了創(chuàng)新思路和實踐路徑,具備廣泛應(yīng)用前景和研究價值。
Boosting Generative Image Modeling via Joint Image-Feature Synthesis
2025-04-22|Archimedes,AthenaRC, NTUA, valeo.ai, IIT,NCSR"Demokritos", UoC, IACM-Forth|??5
???http://arxiv.org/abs/2504.16064v1????
????https://huggingface.co/papers/2504.16064????
????https://github.com/zelaki/ReDi???
研究背景與意義
- 研究背景:高質(zhì)量圖像生成領(lǐng)域,潛變量擴(kuò)散模型(LDMs)已成為主流,其通過變分自編碼器(VAE)將圖像壓縮為潛在表示,再用擴(kuò)散模型學(xué)習(xí)這些潛變量的分布,取得了顯著成果。然而,現(xiàn)有LDMs在融合低層次圖像細(xì)節(jié)與高層次語義特征方面存在挑戰(zhàn),尤其是在同時保持精細(xì)重建和語義表達(dá)的平衡上表現(xiàn)不足。
- 研究意義:本研究針對如何有效結(jié)合表示學(xué)習(xí)與生成建模提出新方案,通過聯(lián)合建模低層圖像潛變量與高層語義特征,旨在提升圖像生成質(zhì)量和訓(xùn)練效率,推動生成模型在語義感知方面的能力,填補(bǔ)了現(xiàn)有方法在這一領(lǐng)域的空白。
研究方法與創(chuàng)新
- 技術(shù)描述:提出ReDi框架,利用擴(kuò)散模型同時對VAE潛變量和預(yù)訓(xùn)練自監(jiān)督編碼器(如DINOv2)提取的語義特征進(jìn)行聯(lián)合建模。具體通過將兩種表示在擴(kuò)散過程中進(jìn)行噪聲添加與聯(lián)合去噪,模型學(xué)習(xí)兩者的聯(lián)合分布,實現(xiàn)圖像與語義特征的同步生成。
- 創(chuàng)新點:
- 聯(lián)合擴(kuò)散過程:區(qū)別于先前通過蒸餾對齊特征的間接方式,ReDi直接在擴(kuò)散模型中聯(lián)合建模兩個模態(tài),簡化訓(xùn)練流程,避免額外蒸餾目標(biāo)。
- 輕量架構(gòu)改動:僅對現(xiàn)有Diffusion Transformer架構(gòu)做最小改動,采用兩種token融合策略(通道合并與序列拼接),兼顧表達(dá)能力與計算效率。
- Representation Guidance推理策略:利用訓(xùn)練得到的語義特征引導(dǎo)推理過程,通過調(diào)整噪聲預(yù)測引導(dǎo)圖像生成更符合語義特征,顯著提升生成效果。
- 理論基礎(chǔ)對比:相較于REPA等方法通過蒸餾提升語義質(zhì)量,ReDi的聯(lián)合建模更直接且高效,理論上能夠更好地捕獲圖像與語義特征間的復(fù)雜依賴關(guān)系。
實驗設(shè)計與結(jié)果分析
- 實驗設(shè)計:在ImageNet 256×256數(shù)據(jù)集上,采用DiT和SiT兩種擴(kuò)散框架,訓(xùn)練不同規(guī)模模型,比較ReDi與基線(含REPA)在有無條件生成、分類條件生成下的性能差異。對比指標(biāo)包括FID、sFID、IS、Precision和Recall,采樣步驟固定為250。
- 結(jié)果分析:
- ReDi顯著提升生成質(zhì)量,DiT-XL/2模型400k步訓(xùn)練即可達(dá)到8.7 FID,遠(yuǎn)優(yōu)于7M步基線模型,體現(xiàn)出極大加速收斂能力(最高23倍快于DiT基線)。
- 在與REPA比較中,ReDi在相同或更少訓(xùn)練迭代下均取得更優(yōu)FID分?jǐn)?shù),證明聯(lián)合建模策略優(yōu)于蒸餾對齊。
- Representation Guidance進(jìn)一步提升性能,特別是在無條件生成中,F(xiàn)ID從51.7降至22.6,縮小無條件與條件生成的性能差距。
- 維度壓縮(PCA)對視覺特征有效,8個主成分為性能與模型容量的最佳平衡點。
- 兩種token融合策略均有效,但通道合并方式在保持性能的同時顯著降低計算成本。
- Classifier-Free Guidance更適合僅對VAE潛變量應(yīng)用,避免對語義特征的過度引導(dǎo),提高生成穩(wěn)定性。
結(jié)論與展望
- 貢獻(xiàn)總結(jié):本文提出的ReDi方法通過聯(lián)合擴(kuò)散模型同時生成圖像潛變量與高層語義特征,顯著提升了生成圖像的質(zhì)量和訓(xùn)練效率。Representation Guidance的引入為推理階段提供了語義引導(dǎo),進(jìn)一步增強(qiáng)了生成效果。實驗證明該方法在多個模型架構(gòu)和條件設(shè)置下均表現(xiàn)優(yōu)異,且訓(xùn)練更為簡潔高效。
- 局限分析:當(dāng)前方法依賴于預(yù)訓(xùn)練的語義編碼器(如DINOv2),其性能受限于編碼器的表達(dá)能力和維度壓縮策略。融合方式雖已優(yōu)化,但在更大規(guī)模模型或更復(fù)雜多模態(tài)任務(wù)中的擴(kuò)展性仍需驗證。
- 未來展望:未來工作可探索更豐富的語義特征集成策略,結(jié)合多模態(tài)數(shù)據(jù)(如文本、視頻)擴(kuò)展聯(lián)合建??蚣?;進(jìn)一步優(yōu)化推理引導(dǎo)機(jī)制,提升生成多樣性與細(xì)節(jié)表現(xiàn);以及研究聯(lián)合訓(xùn)練中語義特征與潛變量的動態(tài)權(quán)重調(diào)節(jié),以實現(xiàn)更靈活高效的生成模型。
3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models
2025-04-24|Alibaba DAMO, Alibaba Group, Hupan Lab, ZJU|??4
???http://arxiv.org/abs/2504.17414v1????
????https://huggingface.co/papers/2504.17414????
????https://2y7c3.github.io/3DV-TON/???
研究背景與意義
- 問題定義與現(xiàn)狀視頻試穿技術(shù)旨在將視頻中人物所穿服裝替換為目標(biāo)服裝,實現(xiàn)虛擬試衣。傳統(tǒng)方法多依賴基于流的變形技術(shù),雖然能對服裝幾何進(jìn)行形變適配,但在復(fù)雜姿態(tài)、遮擋及多樣服裝紋理場景下,往往產(chǎn)生時間一致性差、細(xì)節(jié)丟失和偽影等問題。近年來,基于擴(kuò)散模型的生成方法提升了視覺質(zhì)量,但依然難以兼顧紋理細(xì)節(jié)與動態(tài)一致性。
- 挑戰(zhàn)現(xiàn)有視頻試穿模型過度關(guān)注外觀還原,忽視運動連貫性,導(dǎo)致動態(tài)視頻中服裝紋理與人體動作不匹配,產(chǎn)生運動偽影和紋理漂移。缺乏有效的時空一致性引導(dǎo)是主要瓶頸。
- 研究目標(biāo)本文旨在提出一種新穎的基于擴(kuò)散模型的視頻試穿框架3DV-TON,通過引入帶紋理的可動畫3D人體網(wǎng)格作為顯式的幀級引導(dǎo),解決動態(tài)服裝紋理一致性問題,實現(xiàn)高保真且時間連貫的視頻試穿效果。
研究方法與創(chuàng)新
- 技術(shù)描述3DV-TON框架核心創(chuàng)新在于采用生成的可動畫紋理3D人體網(wǎng)格作為時空一致性的顯式引導(dǎo)。具體流程包括:
- 自適應(yīng)選擇關(guān)鍵幀進(jìn)行2D圖像試穿,生成初始試穿圖像。
- 基于人體姿態(tài)重建與紋理映射,構(gòu)建與視頻人體動作同步的紋理3D網(wǎng)格。
- 利用該3D網(wǎng)格動畫序列提供穩(wěn)定的服裝紋理運動參考,指導(dǎo)擴(kuò)散模型生成視頻幀,確保紋理與動作一致。
- 創(chuàng)新點詳解
- 紋理3D引導(dǎo)的提出:區(qū)別于僅用幾何信息的傳統(tǒng)SMPL模型,本文引入帶紋理的3D人體網(wǎng)格,顯式建模服裝紋理隨人體動作的時空變化,有效緩解了傳統(tǒng)模型在動態(tài)場景中的紋理漂移和運動偽影。
- 擴(kuò)散模型與3D引導(dǎo)融合:設(shè)計了融合服裝圖像、試穿圖像和紋理3D引導(dǎo)的多通道輸入,通過空間自注意力機(jī)制實現(xiàn)紋理感知的特征融合,提升細(xì)節(jié)還原與時序一致性。
- 動態(tài)矩形掩碼策略:創(chuàng)新掩碼方法防止人體動作導(dǎo)致的服裝信息泄露,確保試穿區(qū)域的準(zhǔn)確性和視覺連貫性,提升模型魯棒性。
- 無需額外訓(xùn)練的3D引導(dǎo)生成:通過單幀圖像重建和視頻姿態(tài)同步,動態(tài)生成紋理3D引導(dǎo),無需針對新數(shù)據(jù)集額外訓(xùn)練,增強(qiáng)方法泛化能力。
- 理論基礎(chǔ)與優(yōu)勢基于SMPL及SMPL-X參數(shù)化人體模型,結(jié)合單圖像3D人體重建技術(shù),確保人體網(wǎng)格與視頻中人體姿態(tài)高度一致。紋理映射與動畫保證了服裝紋理在三維空間的連續(xù)性,擴(kuò)散模型借助這一顯式引導(dǎo)克服了像素級重建目標(biāo)對時間一致性的限制,實現(xiàn)了視覺質(zhì)量與運動連貫性的平衡。
- 與現(xiàn)有方法對比傳統(tǒng)基于流的試穿方法受限于變形模塊,難以處理復(fù)雜服裝形變和遮擋。純擴(kuò)散模型雖提升圖像質(zhì)量,但缺乏有效時空引導(dǎo),導(dǎo)致動態(tài)不連貫。3DV-TON通過紋理3D引導(dǎo)顯著提升了動態(tài)紋理一致性和細(xì)節(jié)表達(dá),獲得更自然真實的試穿視頻。
實驗設(shè)計與結(jié)果分析
- 實驗設(shè)計
- 數(shù)據(jù)集:訓(xùn)練采用多種高分辨率圖像和視頻數(shù)據(jù)集,包括VITON-HD、DressCode及ViViD,測試時引入新建的高分辨率視頻試穿基準(zhǔn)HR-VVT,涵蓋多樣服裝類型和復(fù)雜動作場景。
- 對比方法:選取當(dāng)前最先進(jìn)的ViViD、CatV2TON等公開代碼方法進(jìn)行定量和定性比較。
- 評估指標(biāo):采用SSIM、LPIPS衡量圖像質(zhì)量,視頻Frechet Inception Distance(VFID)衡量視頻生成的真實性和時序一致性,同時進(jìn)行用戶主觀偏好測試。
- 消融實驗:驗證紋理3D引導(dǎo)、SMPL幾何引導(dǎo)和掩碼策略對性能的貢獻(xiàn)。
- 結(jié)果分析
- 定性表現(xiàn):3DV-TON在復(fù)雜動作和多視角場景下,能準(zhǔn)確還原服裝紋理細(xì)節(jié),保持紋理運動連貫,避免了其他方法常見的模糊、偽影和紋理漂移。
- 定量指標(biāo):在所有關(guān)鍵指標(biāo)上,3DV-TON均優(yōu)于對比方法,特別在VFID指標(biāo)上顯著領(lǐng)先,說明生成視頻的時序一致性和視覺真實性得到大幅提升。
- 消融驗證:紋理3D引導(dǎo)對提升紋理一致性和細(xì)節(jié)恢復(fù)貢獻(xiàn)最大,SMPL幾何引導(dǎo)輔助人體結(jié)構(gòu)準(zhǔn)確,掩碼策略有效防止服裝信息泄露,保障了試穿區(qū)域的視覺真實性。
- 用戶研究:主觀評價顯示用戶對3DV-TON生成視頻的視覺質(zhì)量和動態(tài)連貫性更為滿意,偏好率明顯高于現(xiàn)有方法。
- 運行效率優(yōu)化后的SMPL擬合過程約需30秒,32幀視頻生成耗時約35秒,具備實用性。
結(jié)論與展望
- 研究貢獻(xiàn)總結(jié)本文提出了基于紋理3D人體網(wǎng)格引導(dǎo)的擴(kuò)散模型視頻試穿框架3DV-TON,成功解決了傳統(tǒng)視頻試穿中服裝紋理動態(tài)不一致的問題。通過融合幾何與紋理顯式引導(dǎo),實現(xiàn)了高保真、時序連貫的試穿視頻生成,并構(gòu)建了高分辨率多樣化視頻試穿基準(zhǔn)HR-VVT,推動了該領(lǐng)域的評測標(biāo)準(zhǔn)建設(shè)。
- 局限性分析當(dāng)前方法在極端復(fù)雜遮擋和超大范圍服裝變形場景下,3D重建與動畫仍存在一定誤差,可能影響最終試穿效果的自然度。此外,模型推理時間仍需進(jìn)一步優(yōu)化以滿足實時應(yīng)用需求。
- 未來展望
未來可探索結(jié)合物理仿真與動態(tài)紋理建模,進(jìn)一步提升服裝運動的真實感和細(xì)節(jié)表現(xiàn);同時,優(yōu)化3D重建與動畫算法,縮短推理時間,實現(xiàn)更高效的視頻試穿系統(tǒng);此外,擴(kuò)展至多人物、復(fù)雜交互場景的試穿應(yīng)用,將拓展該技術(shù)的實用邊界。
本文轉(zhuǎn)載自???AI研究前瞻???,作者:胡耀淇
