偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ACM MM 2025 | 小紅書AIGC團(tuán)隊(duì)提出風(fēng)格遷移加速算法STD

人工智能 新聞
文章提出了單軌跡蒸餾(Single Trajectory Distillation,STD),一個(gè)從部分噪聲狀態(tài)出發(fā)的訓(xùn)練框架。

本論文主要作者來自小紅書 AIGC 團(tuán)隊(duì)(Dynamic-X-Lab),Dynamic?X?LAB 是一個(gè)專注于 AIGC 領(lǐng)域的研究團(tuán)隊(duì),致力于推動(dòng)姿態(tài)驅(qū)動(dòng)的人像生成與視頻動(dòng)畫技術(shù)。他們以高質(zhì)量、高可控性的生成模型為核心,圍繞文生圖(t2i)、圖像生成(i2i)、圖像轉(zhuǎn)視頻(i2v)和風(fēng)格遷移加速等方向展開研究,并通過完整的開源方案分享給開發(fā)者與研究者社區(qū)。

基于一致性模型(Consistency Models, CMs)的軌跡蒸餾(Trajectory Distillation)為加速擴(kuò)散模型提供了一個(gè)有效框架,通過減少推理步驟來提升效率。然而,現(xiàn)有的一致性模型在風(fēng)格化任務(wù)中會(huì)削弱風(fēng)格相似性,并損害美學(xué)質(zhì)量 —— 尤其是在處理從部分加噪輸入開始去噪的圖像到圖像(image-to-image)或視頻到視頻(video-to-video)變換任務(wù)時(shí)問題尤為明顯。

這一核心問題源于當(dāng)前方法要求學(xué)生模型的概率流常微分方程(PF-ODE)軌跡在初始步驟與其不完美的教師模型對(duì)齊。這種僅限初始步驟對(duì)齊的策略無法保證整個(gè)軌跡的一致性,從而影響了生成結(jié)果的整體質(zhì)量。

為了解決這一問題,文章提出了單軌蒸餾(Single Trajectory Distillation,STD),一個(gè)從部分噪聲狀態(tài)出發(fā)的訓(xùn)練框架。

為了抵消 STD 引入的額外時(shí)間開銷,文章設(shè)計(jì)了一個(gè)軌跡狀態(tài)庫(kù)(Trajectory Bank),預(yù)先存儲(chǔ)教師模型 PF-ODE 軌跡中的中間狀態(tài),從而有效減輕學(xué)生模型訓(xùn)練時(shí)的計(jì)算負(fù)擔(dān)。這一機(jī)制確保了 STD 在訓(xùn)練效率上可與傳統(tǒng)一致性模型保持一致。

此外,該工作還引入了一個(gè)非對(duì)稱對(duì)抗損失(Asymmetric Adversarial Loss),可顯著增強(qiáng)生成結(jié)果的風(fēng)格一致性和感知質(zhì)量。

在圖像與視頻風(fēng)格化任務(wù)上的大量實(shí)驗(yàn)證明,STD 在風(fēng)格相似性和美學(xué)評(píng)估方面均優(yōu)于現(xiàn)有的加速擴(kuò)散模型。

圖片

STD 與其他方法的差異

如圖 2 所示,(a) 中的傳統(tǒng)一致性蒸餾方法(Other CMs)從 x_0 加噪得到不同的 x_t,再擬合多條 PF-ODE 軌跡的初始部分,存在軌跡不對(duì)齊問題。而在 (b) 中,文章提出的單軌跡蒸餾(Single-Trajectory Distillation, STD)方法則從一個(gè)固定的加噪狀態(tài) x_(τ_η ) 出發(fā),通過教師模型完整地去噪出多個(gè) x_t,并以此為訓(xùn)練目標(biāo),使學(xué)生模型在一條完整軌跡上實(shí)現(xiàn)自一致性。這種策略有效解決了訓(xùn)練 - 推理路徑不一致的問題,提升了整體生成質(zhì)量。

圖片

為了避免從 x_(τ_η ) 開始反復(fù)推理帶來的訓(xùn)練開銷,進(jìn)一步提出了軌跡緩存庫(kù)(trajectory bank),用于預(yù)存教師模型軌跡中的中間狀態(tài),從而保持訓(xùn)練效率不變。同時(shí),引入了非對(duì)稱對(duì)抗損失(asymmetric adversarial loss),對(duì)不同噪聲級(jí)別下的生成圖與真實(shí)圖進(jìn)行對(duì)比,有效提升圖像飽和度,減少紋理噪聲。

前置理論

【擴(kuò)散模型】

擴(kuò)散模型通過多步噪聲疊加模擬數(shù)據(jù)退化過程,并在生成階段通過逆向去噪獲得真實(shí)樣本?;诜?jǐn)?shù)匹配理論,前向過程可表述為將數(shù)據(jù)分布轉(zhuǎn)化為高斯噪聲的隨機(jī)微分方程(SDE):圖片。Song 等人證明存在概率流常微分方程(PF-ODE)與 SDE 具有相同邊界概率密度,其形式為 圖片,其中圖片 為去噪模型預(yù)測(cè)的分?jǐn)?shù)項(xiàng)?;诖丝砂l(fā)展多種數(shù)值解法,包括 DDIM-Solver、DPM 系列等求解器。

【軌跡】

在擴(kuò)散模型中,軌跡直觀表征了樣本在加噪與去噪過程中的演化過程,但現(xiàn)有研究鮮少明確定義這一概念。文章將軌跡點(diǎn)定義為特定時(shí)間步的邊界概率密度(可通過樣本分布估計(jì)),從而支持軌跡樣本分布的量化分析。前向擴(kuò)散 SDE 軌跡可表述為 圖片,其中 圖片;反向擴(kuò)散軌跡則定義為 圖片。當(dāng)模型充分預(yù)訓(xùn)練且 圖片 時(shí),有 圖片 成立,此時(shí) 圖片 表示帶去噪模型 ? 的 ODE 求解器。

【基于部分加噪的編輯】

自一致性模型通過減少推理步數(shù)實(shí)現(xiàn)加速,其核心在于確保任意時(shí)刻的生成函數(shù)滿足不同時(shí)間步 t,t' 反向擴(kuò)散到 圖片 的自一致性,即 圖片?;谡麴s方法可高效構(gòu)建一致性模型,其損失函數(shù)定義為:

圖片

其中 n 均勻采樣于 {1,...,N-1},s 為目標(biāo)步長(zhǎng)。計(jì)算期望時(shí) 圖片  通過 SDE 生成,而 圖片 由 ODE 求解器 圖片確定。為提升訓(xùn)練穩(wěn)定性,采用 EMA 策略更新目標(biāo)網(wǎng)絡(luò)參數(shù) 圖片。

方法介紹

圖片

【單軌跡蒸餾理論】

在擴(kuò)散模型中,理想情況下反向去噪軌跡應(yīng)與前向擴(kuò)散軌跡嚴(yán)格互逆。但實(shí)際中,不完美去噪模型會(huì)導(dǎo)致:

  • 軌跡不一致性:不同起點(diǎn) η,η' 的反向軌跡 圖片 與圖片互不等價(jià)。
  • 誤差傳播:若模型預(yù)測(cè)噪聲誤差為 圖片,則去噪樣本 圖片 與前向樣本 圖片 的偏差滿足:

圖片

針對(duì)圖像 / 視頻風(fēng)格化任務(wù)中固定起點(diǎn) η 的需求,提出基于一致性模型僅在固定起點(diǎn)的單條軌跡上做一致性蒸餾,具體包含兩個(gè)關(guān)鍵點(diǎn):

  • 固定噪聲強(qiáng)度起點(diǎn) τ_η=η?T(即 圖片)。 
  • 使用教師模型 ? 生成完整軌跡 圖片,引導(dǎo)學(xué)生模型 θ 學(xué)習(xí)該軌跡的自一致性。

根據(jù)第二部分對(duì)軌跡的定義,可以寫出單軌跡蒸餾損失函數(shù)的表達(dá)式如下:

圖片

為降低蒸餾誤差,約束學(xué)生模型學(xué)習(xí)的時(shí)間步 s 接近教師步 t: 

圖片

其中 γ 表示控制目標(biāo)時(shí)間步 s 的取值下限比例因子通過縮短 t 與 s 的距離,可以減小誤差上界,同時(shí)保留隨機(jī)性提升模型性能。

圖片

【軌跡狀態(tài)庫(kù)】

在 STD 訓(xùn)練過程中,教師模型的全軌跡狀態(tài)需通過多步 ODE-Solver 進(jìn)行反向擴(kuò)散,導(dǎo)致訓(xùn)練耗時(shí)顯著增加。為解決此問題,提出軌跡狀態(tài)庫(kù)(Trajectory Bank),其存儲(chǔ)教師模型沿反向擴(kuò)散軌跡 圖片的中間狀態(tài)。通過按采樣概率 ρ 從庫(kù)中隨機(jī)抽取 圖片,可直接獲取 t 時(shí)刻的軌跡狀態(tài)樣本,避免從 x_0 加噪至 τ_η 再逐步去噪的高耗時(shí)過程。

【非對(duì)稱對(duì)抗損失】

受到 MCM 方法啟發(fā),提出非對(duì)稱對(duì)抗損失函數(shù)。不同于傳統(tǒng)方法約束圖片 與真實(shí)圖像 圖片 的匹配,論文中建立 圖片 與 x_r 的約束關(guān)系(0<r<s),實(shí)驗(yàn)發(fā)現(xiàn)通過時(shí)間步錯(cuò)位可以顯著增強(qiáng)圖像風(fēng)格化程度。具體實(shí)現(xiàn):

圖片

其中 F 表示 DINO-v2 模型,D_ψ 表示判別器,ψ 表示判別器的可學(xué)習(xí)參數(shù),x_r 指對(duì) x_0 加噪 r 步后獲得的樣本。

圖片

 實(shí)驗(yàn)結(jié)果

  • 訓(xùn)練集:Open-Sora-Plan-v1.0.0
  • 測(cè)試集:wikiArt(10 張) + COCO(100 張) + 自定義 100 張圖像 / 12 個(gè)視頻及 15 種風(fēng)格圖像的測(cè)試集
  • 評(píng)估指標(biāo):風(fēng)格相似度(CSD)、LAION 美學(xué)評(píng)分和時(shí)間一致性(Warping Error)指標(biāo)
  • 對(duì)比方法:LCM / TCD / PCM / TDD / Hyper-SD / SDXL-Lightning / MCM

【對(duì)比實(shí)驗(yàn)】

圖片

圖片

圖片

圖片

STD 與當(dāng)前多種加速方法在 8 步、6 步、4 步下進(jìn)行對(duì)比,在風(fēng)格相似性和美學(xué)分?jǐn)?shù)上達(dá)到 SOTA 水平。其中圖像生成在 NFE=8 時(shí) CSD 分?jǐn)?shù)比 Hyper-SD 提升↑0.032;視頻生成的 Warping Error 達(dá)到 0.166,顯著優(yōu)于 MCM 的 0.257。從可視化(圖 4)中可以看出 STD 方法的風(fēng)格質(zhì)量和圖像質(zhì)量顯著更高;在不同 CFG 的定量指標(biāo)折線圖中(圖 5)也表現(xiàn)出了更優(yōu)水平。

視頻效果:

【消融實(shí)驗(yàn)】

文章對(duì)單軌跡蒸餾方法、軌跡狀態(tài)庫(kù)以及非對(duì)稱對(duì)抗損失函數(shù)做了消融實(shí)驗(yàn)(表 2),當(dāng)使用軌跡狀態(tài)庫(kù)時(shí),抵消了 STD 帶來的額外 3.8 倍訓(xùn)練耗時(shí),而 STD 方法和非對(duì)稱對(duì)抗損失函數(shù)都顯著提升了風(fēng)格相似性分以及美學(xué)分。

圖片

其他重要參數(shù)的取值和特性消融實(shí)驗(yàn):

STD 和非對(duì)稱對(duì)抗損失強(qiáng)度(Fig 6):強(qiáng)度越大,細(xì)節(jié)和噪點(diǎn)越少,對(duì)比度越強(qiáng),畫質(zhì)越好。

圖片

不同的噪聲起點(diǎn)(Fig 8):η 越大,風(fēng)格化程度越大,但是內(nèi)容相關(guān)性越弱。

圖片

不同的目標(biāo)時(shí)間步 s 的取值下限比例因子(Fig 10):更大的 γ 值帶來更低噪聲,更強(qiáng)的非對(duì)稱對(duì)抗損失產(chǎn)生更高對(duì)比度;γ=0.7 在風(fēng)格保持與細(xì)節(jié)呈現(xiàn)間取得最佳平衡。

圖片

非對(duì)稱對(duì)抗損失目標(biāo)時(shí)間步位置(Table 3、Fig 9):當(dāng) r<s 時(shí)風(fēng)格化程度最佳,噪點(diǎn)最少。

圖片

圖片

【可擴(kuò)展性試驗(yàn)】

文章進(jìn)一步討論了 STD 方法的適用范圍,從 STD 的理論推導(dǎo)上看,該方法可用于其他任何 “基于部分噪聲的圖像 / 視頻編輯” 任務(wù),如 inpainting 等。為了驗(yàn)證猜想,文章展示了一組使用 STD 和其他加速方法用于 inpainting 的對(duì)比圖。如圖 7,相比 LCM 和 TCD 方法,STD 的 inpainting 效果更加自然。

圖片

結(jié)語(yǔ)

文章針對(duì)基于一致性模型的圖像視頻風(fēng)格遷移加速方法,重點(diǎn)優(yōu)化了風(fēng)格相似性與美學(xué)質(zhì)量。研究發(fā)現(xiàn)前向 SDE 軌跡中不同噪聲強(qiáng)度會(huì)導(dǎo)致 PF-ODE 軌跡產(chǎn)生差異,據(jù)此提出基于特定噪聲強(qiáng)度的單軌跡蒸餾方法(STD),有效解決了訓(xùn)練與推理軌跡不對(duì)齊問題。為降低 STD 方法的訓(xùn)練成本,創(chuàng)新性引入軌跡庫(kù)機(jī)制,并采用非對(duì)稱對(duì)抗損失提升生成質(zhì)量。對(duì)比實(shí)驗(yàn)驗(yàn)證了本方法在風(fēng)格保持與美學(xué)表現(xiàn)上的優(yōu)越性,系統(tǒng)消融實(shí)驗(yàn)證實(shí)了各模塊的有效性。該方法可擴(kuò)展至部分噪聲編輯任務(wù),文章已探索了基于 STD 的圖像修復(fù)應(yīng)用,為后續(xù)相關(guān)工作提供新思路。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-08-20 07:49:28

2024-10-12 10:57:39

2025-08-13 09:00:00

AI模型訓(xùn)練

2025-08-20 07:06:23

2017-10-31 10:17:06

阿里

2025-01-17 14:38:40

2017-08-31 10:48:59

CNN 模型壓縮算法

2025-02-25 10:04:10

2024-01-12 21:18:22

負(fù)樣本大模型蒸餾

2025-03-07 08:50:00

AI生成技術(shù)

2025-10-29 09:45:35

2025-06-10 05:00:00

2022-11-30 20:30:18

2024-04-29 11:06:53

GDR語(yǔ)言模型

2025-07-21 09:07:00

模型訓(xùn)練視頻

2025-08-01 09:03:16

2025-01-16 17:40:42

算法AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)