偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI 模特時(shí)代到來:字節(jié)x清華推出商用級視頻換裝模型DreamVVT,保真度顯著領(lǐng)先SOTA

人工智能 新聞
DreamVVT 的出現(xiàn),為視頻虛擬試穿技術(shù)開辟了新的道路。它在復(fù)雜場景下的出色表現(xiàn),標(biāo)志著視頻虛擬試穿技術(shù)正邁向成熟的商業(yè)應(yīng)用,為電商和泛娛樂行業(yè)開啟了無限的想象空間。

服裝視頻廣告太燒錢?卡點(diǎn)變裝太難拍? 字節(jié)跳動智能創(chuàng)作團(tuán)隊(duì)聯(lián)合清華大學(xué)最新推出一款全能的視頻換裝模型 DreamVVT,為視頻虛擬試穿領(lǐng)域帶來了突破性進(jìn)展。

該模型基于 Diffusion  Transformer(DiTs)構(gòu)建,通過精細(xì)的兩階段設(shè)計(jì),成功解決了現(xiàn)有技術(shù)在復(fù)雜場景下的痛點(diǎn), 能夠支持任意類型的衣服、處理大幅度的人物或者相機(jī)運(yùn)動、復(fù)雜背景以及不同的風(fēng)格的輸入。

  • 論文鏈接:https://arxiv.org/abs/2508.02807
  • 代碼鏈接:https://virtu-lab.github.io/

技術(shù)前沿:攻克復(fù)雜場景下的視頻虛擬試穿難題

視頻虛擬試穿(Video Virtual Try-on, VVT),這項(xiàng)旨在將任意服裝魔法般地 “穿” 在視頻中人物身上的技術(shù),正逐漸成為電商、廣告及娛樂產(chǎn)業(yè)的焦點(diǎn)。然而,要實(shí)現(xiàn)理想效果,現(xiàn)有技術(shù)仍面臨著嚴(yán)峻挑戰(zhàn)。

主流的端到端方案高度依賴稀缺的 “服裝 - 視頻” 成對訓(xùn)練數(shù)據(jù),同時(shí)難以充分利用強(qiáng)大預(yù)訓(xùn)練模型的先驗(yàn)知識。這導(dǎo)致在人物 360 度旋轉(zhuǎn)、鏡頭劇烈運(yùn)鏡或背景動態(tài)變化的復(fù)雜場景下,生成的視頻往往會遭遇 服裝細(xì)節(jié)崩壞、紋理丟失與時(shí)序抖動 等一系列問題。

為攻克這一行業(yè)難題,字節(jié)跳動智能創(chuàng)作團(tuán)隊(duì)與清華大學(xué)攜手,提出了全新的 DreamVVT 框架,刷新了該領(lǐng)域的 SOTA 記錄。該框架基于強(qiáng)大的 Diffusion Transformer (DiT) 構(gòu)建,并獨(dú)創(chuàng)性地提出了一套分階段生成方案,精準(zhǔn)解決了現(xiàn)有技術(shù)在復(fù)雜場景下的核心痛點(diǎn),能夠生成高保真且時(shí)間連貫的虛擬試穿視頻。

破局之道:精巧的兩階段生成框架

DreamVVT 的核心設(shè)計(jì)理念,在于其精巧的兩階段框架。這一設(shè)計(jì)巧妙地解耦了任務(wù)難度,使其既能充分利用海量的非成對數(shù)據(jù)進(jìn)行學(xué)習(xí),又能靈活地融合預(yù)訓(xùn)練模型的先驗(yàn)知識與測試階段的即時(shí)信息。其核心貢獻(xiàn)主要體現(xiàn)在以下三個(gè)方面:

1. 創(chuàng)新的分階段框架:我們首次提出了基于 DiT 的分階段方案,它打破了對成對數(shù)據(jù)的依賴,能夠有效利用非成對數(shù)據(jù)、先進(jìn)視覺模型的先驗(yàn)知識以及測試時(shí)的輸入信息,顯著提升了模型在復(fù)雜場景下的虛擬試穿性能。

2. 關(guān)鍵幀與大模型結(jié)合:我們將靜態(tài)的關(guān)鍵幀試穿與視頻語言模型(Video LLM)的推理能力相結(jié)合。這一機(jī)制為視頻生成提供了兼具豐富外觀細(xì)節(jié)與全局運(yùn)動邏輯的綜合指導(dǎo),從而在根源上平衡了服裝細(xì)節(jié)的保真度與視頻整體的時(shí)間一致性。

3. 卓越的性能驗(yàn)證:最后,大量的實(shí)驗(yàn)結(jié)果有力地證明,在多樣化的真實(shí)場景下,DreamVT 在保留高保真服裝細(xì)節(jié)和確保時(shí)序穩(wěn)定性方面,均顯著優(yōu)于現(xiàn)有的所有方法。

技術(shù)解碼:揭秘兩階段高清視頻換裝方案

我們的高清視頻換裝技術(shù),其核心是一個(gè)精心設(shè)計(jì)的兩階段框架。第一階段負(fù)責(zé)生成高質(zhì)量的多張靜態(tài)換裝參考圖,第二階段則基于這些參考圖,結(jié)合多模態(tài)信息,生成時(shí)序穩(wěn)定的高保真換裝視頻。

第一階段:生成高質(zhì)量的換裝關(guān)鍵幀

1. 智能關(guān)鍵幀采樣

為了全面捕捉人物的動態(tài),我們設(shè)計(jì)了一套智能采樣策略。首先,設(shè)定一個(gè)標(biāo)準(zhǔn)的正面 A 字姿態(tài)作為 “錨點(diǎn)幀”。接著,通過計(jì)算視頻中每一幀與錨點(diǎn)幀的骨骼運(yùn)動相似度,并結(jié)合人物在畫面中的面積比重進(jìn)行加權(quán),為每幀的 “獨(dú)特性” 打分。最后,我們采用一種反向搜索算法,從高分幀中篩選出一組信息冗余度最低的關(guān)鍵幀,為后續(xù)生成提供多樣化的姿態(tài)或者視角參考。

2. 多幀換裝參考圖生成

有了關(guān)鍵幀,我們利用一個(gè)在預(yù)訓(xùn)練模型 Seedream 上微調(diào)的 Diffusion Transformer 來生成換裝后的參考圖。我們巧妙地集成了 LoRA 模塊,實(shí)現(xiàn)了參數(shù)高效的微調(diào)。模型會同時(shí)接收多個(gè)關(guān)鍵幀、服裝圖以及我們精心設(shè)計(jì)的 “一致性圖像指令”。通過注意力機(jī)制中的 QKV 拼接,模型能有效聚合所有關(guān)鍵幀的信息,確保生成的換裝參考圖在細(xì)節(jié)上保持高度一致。此外,我們還引入 VLM 對服裝進(jìn)行詳細(xì)的文本描述,并進(jìn)行對齊,進(jìn)一步強(qiáng)化了多幀間的外觀一致性。

第二階段:多模態(tài)引導(dǎo)的視頻生成

第二階段的核心任務(wù)是,基于第一階段生成的換裝參考圖,結(jié)合多種信息,生成最終的換裝視頻。我們基于一個(gè)強(qiáng)大的圖生視頻(I2V)框架進(jìn)行構(gòu)建。

1. 多模態(tài)輸入處理

模型同時(shí)接收多種模態(tài)的輸入,各司其職:

  • 動作信息:為了精準(zhǔn)還原身體動作,我們提取視頻的 2D 骨骼序列,并通過一個(gè)帶有時(shí)間注意力機(jī)制的 Pose Guider 將其轉(zhuǎn)換為平滑的姿態(tài)特征。
  • 視覺信息:我們將裁剪后的衣服不可知圖像(Agnostic Image)和遮罩送入 VAE 編碼器,得到基礎(chǔ)的視覺特征。
  • 文本信息:考慮到僅靠骨骼無法捕捉精細(xì)的服裝動態(tài),我們利用 Video LLM 提取詳細(xì)的動作和視覺文本描述, 為模型提供不同維度和精細(xì)地指導(dǎo)。
  • 外觀信息:第一階段生成的換裝關(guān)鍵幀則作為核心的外觀參考,同樣被編碼為圖像特征。

2. 模型結(jié)構(gòu)與訓(xùn)練

在模型結(jié)構(gòu)上,我們凍結(jié)了 Seaweed 模型的所有權(quán)重,僅在視頻流和圖像流中插入輕量化的 LoRA 適配器,實(shí)現(xiàn)了高效訓(xùn)練。所有模態(tài)的特征在輸入網(wǎng)絡(luò)后,通過一次 全自注意力(Full Self-Attention) 操作進(jìn)行深度融合,使模型能自適應(yīng)地對齊不同信息。

3. 視頻生成與融合

融合后的特征被送入 DiT 模塊進(jìn)行多輪去噪,最終由 VAE 解碼器生成換裝視頻。我們還采用高效的拉普拉斯金字塔融合技術(shù),將生成的視頻無縫地嵌入原始背景中。在訓(xùn)練階段,我們采用了多任務(wù)學(xué)習(xí)策略,隨機(jī)切換訓(xùn)練任務(wù),充分利用了不同模態(tài)的互補(bǔ)優(yōu)勢,最終實(shí)現(xiàn)了卓越的生成效果。

此外,針對長視頻生成,團(tuán)隊(duì)使用前一段視頻最后一幀的潛表示作為后一段的初始幀,避免了因反復(fù)編碼解碼導(dǎo)致的誤差累積,顯著延長了視頻質(zhì)量明顯下降前的持續(xù)時(shí)間。

實(shí)驗(yàn)驗(yàn)證:全方位展現(xiàn)通用場景下的 SOTA 性能

與 SOTA 方法的全面對比

在定性對比中,面對 360 度旋轉(zhuǎn)等復(fù)雜野外場景,現(xiàn)有方法(如 CatV2TON、MagicTryOn)常出現(xiàn)細(xì)節(jié)崩壞和模糊,而 DreamVVT 則能穩(wěn)定生成時(shí)空平滑且細(xì)節(jié)逼真的結(jié)果。定量數(shù)據(jù)更有力地印證了這一點(diǎn)。在 ViViD-S 數(shù)據(jù)集上,我們的 VFID 和 LPIPS 等關(guān)鍵指標(biāo)達(dá)到 SOTA。在更具挑戰(zhàn)性的自建基準(zhǔn) Wild-TryOnBench 上,DreamVVT 在服裝細(xì)節(jié)保留度(GP) 、物理真實(shí)感(PR) 和 時(shí)序一致性(TC)  三項(xiàng)人工評估中全面領(lǐng)先,展現(xiàn)了強(qiáng)大的泛化能力。

消融實(shí)驗(yàn)

1. 關(guān)鍵幀數(shù)量:將關(guān)鍵幀從 1 幀增至 2 幀,能為模型提供更豐富的服裝與運(yùn)動信息,顯著提升了細(xì)節(jié)保真度與物理真實(shí)感,有效避免了偽影。

2. LoRA 微調(diào):采用 LoRA 進(jìn)行輕量化微調(diào),相比全參數(shù)訓(xùn)練,能更好地繼承預(yù)訓(xùn)練模型的文本控制能力,在不犧牲其他性能的前提下,顯著增強(qiáng)了生成視頻的物理真實(shí)感,尤其能夠?qū)崿F(xiàn)和服裝的交互。

這些實(shí)驗(yàn)充分證明,DreamVVT 通過其創(chuàng)新的設(shè)計(jì),在復(fù)雜場景下的視頻虛擬試穿任務(wù)中取得了突破性的進(jìn)展。

總結(jié)

DreamVVT 的出現(xiàn),為視頻虛擬試穿技術(shù)開辟了新的道路。它在復(fù)雜場景下的出色表現(xiàn),標(biāo)志著視頻虛擬試穿技術(shù)正邁向成熟的商業(yè)應(yīng)用,為電商和泛娛樂行業(yè)開啟了無限的想象空間。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-09-04 12:15:26

2025-04-02 08:50:00

AI視頻生成

2023-01-09 13:18:59

AI

2024-06-04 09:52:25

2023-07-17 16:07:51

人工智能監(jiān)管部門

2023-12-05 13:49:00

AI模型

2011-09-30 15:28:08

無線視頻

2025-08-05 09:02:00

2024-12-18 15:02:48

2023-04-28 15:53:55

框架模型

2018-12-09 16:27:03

軌道交通智慧交通人工智能

2023-07-06 14:09:04

AI網(wǎng)絡(luò)安全

2023-06-27 12:56:23

微軟AI

2023-11-20 22:02:54

開源模型

2024-11-25 07:10:00

NumPro視頻大模型AI

2017-02-07 17:44:30

LTE網(wǎng)絡(luò)千兆級LTEQualcomm

2025-02-27 09:39:49

2019-07-16 19:33:32

人工智能AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號