ACM MM 2025 | 小紅書(shū)AIGC團(tuán)隊(duì)提出風(fēng)格遷移加速新算法STD

基于一致性模型(Consistency Models, CMs)的軌跡蒸餾(Trajectory Distillation)為加速擴(kuò)散模型提供了一個(gè)有效框架,通過(guò)減少推理步驟來(lái)提升效率。然而,現(xiàn)有的一致性模型在風(fēng)格化任務(wù)中會(huì)削弱風(fēng)格相似性,并損害美學(xué)質(zhì)量 —— 尤其是在處理從部分加噪輸入開(kāi)始去噪的圖像到圖像(image-to-image)或視頻到視頻(video-to-video)變換任務(wù)時(shí)問(wèn)題尤為明顯。這一核心問(wèn)題源于當(dāng)前方法要求學(xué)生模型的概率流常微分方程(PF-ODE)軌跡在初始步驟與其不完美的教師模型對(duì)齊。這種僅限初始步驟對(duì)齊的策略無(wú)法保證整個(gè)軌跡的一致性,從而影響了生成結(jié)果的整體質(zhì)量。為了解決這一問(wèn)題,文章提出了單軌跡蒸餾(Single Trajectory Distillation,STD),一個(gè)從部分噪聲狀態(tài)出發(fā)的訓(xùn)練框架。為了抵消 STD 引入的額外時(shí)間開(kāi)銷(xiāo),文章設(shè)計(jì)了一個(gè)軌跡狀態(tài)庫(kù)(Trajectory Bank),預(yù)先存儲(chǔ)教師模型 PF-ODE 軌跡中的中間狀態(tài),從而有效減輕學(xué)生模型訓(xùn)練時(shí)的計(jì)算負(fù)擔(dān)。這一機(jī)制確保了 STD 在訓(xùn)練效率上可與傳統(tǒng)一致性模型保持一致。此外,引入了一個(gè)非對(duì)稱對(duì)抗損失(Asymmetric Adversarial Loss),顯著增強(qiáng)生成結(jié)果的風(fēng)格一致性和感知質(zhì)量。在圖像與視頻風(fēng)格化任務(wù)上的大量實(shí)驗(yàn)證明,STD 在風(fēng)格相似性和美學(xué)評(píng)估方面均優(yōu)于現(xiàn)有的加速擴(kuò)散模型。
論文地址:
https://arxiv.org/abs/2412.18945
項(xiàng)目主頁(yè):
https://single-trajectory-distillation.github.io/
項(xiàng)目Github:
https://github.com/dynamic-X-LAB/Single-Trajectory-Distillation
項(xiàng)目模型:
https://huggingface.co/Single-Trajectory-Distillation/Single-Trajectory-Distillation
小紅書(shū) AIGC 團(tuán)隊(duì)提出風(fēng)格遷移加速算法,入選 ACM MM 2025。
論文標(biāo)題:
Single Trajectory Distillation for Accelerating Image and Video Style Transfer
01、背景
擴(kuò)散模型在圖像和視頻風(fēng)格化任務(wù)中表現(xiàn)出強(qiáng)大的生成能力,但由于其依賴多步推理過(guò)程,推理速度較慢,難以滿足實(shí)際應(yīng)用需求。近年來(lái),一致性蒸餾(Consistency Distillation, CMs)方法通過(guò)減少推理步數(shù)實(shí)現(xiàn)加速,取得了一定效果。然而,現(xiàn)有一致性方法在風(fēng)格遷移任務(wù)中存在明顯局限:風(fēng)格一致性弱,圖像質(zhì)量下降。其根本原因在于現(xiàn)有方法依賴從原始圖像 加噪生成的
,并從該點(diǎn)出發(fā)去擬合教師模型的初始去噪軌跡,導(dǎo)致訓(xùn)練過(guò)程僅關(guān)注部分路徑,且與實(shí)際推理中從固定噪聲狀態(tài)開(kāi)始去噪的流程不一致。

如圖 2所示,(a) 中的傳統(tǒng)一致性蒸餾方法(Other CMs)從 加噪得到不同的
,再擬合多條 PF-ODE 軌跡的初始部分,存在軌跡不對(duì)齊問(wèn)題。而在 (b) 中,文章提出的單軌跡蒸餾(Single-Trajectory Distillation, STD)方法則從一個(gè)固定的加噪狀態(tài)
出發(fā),通過(guò)教師模型完整地去噪出多個(gè)
,并以此為訓(xùn)練目標(biāo),使學(xué)生模型在一條完整軌跡上實(shí)現(xiàn)自一致性。這種策略有效解決了訓(xùn)練-推理路徑不一致的問(wèn)題,提升了整體生成質(zhì)量。
為了避免從 開(kāi)始反復(fù)推理帶來(lái)的訓(xùn)練開(kāi)銷(xiāo),進(jìn)一步提出了軌跡緩存庫(kù)(trajectory bank),用于預(yù)存教師模型軌跡中的中間狀態(tài),從而保持訓(xùn)練效率不變。同時(shí),引入了非對(duì)稱對(duì)抗損失(asymmetric adversarial loss),對(duì)不同噪聲級(jí)別下的生成圖與真實(shí)圖進(jìn)行對(duì)比,有效提升圖像飽和度,減少紋理噪聲。
文章還構(gòu)建了圖像和視頻風(fēng)格化的標(biāo)準(zhǔn)測(cè)試集,并在多項(xiàng)評(píng)估指標(biāo)下驗(yàn)證了 STD 的有效性。實(shí)驗(yàn)結(jié)果顯示,STD 在風(fēng)格相似性、美學(xué)質(zhì)量和推理效率方面均顯著優(yōu)于現(xiàn)有一致性蒸餾方法。
02、前置理論
擴(kuò)散模型
擴(kuò)散模型通過(guò)多步噪聲疊加模擬數(shù)據(jù)退化過(guò)程,并在生成階段通過(guò)逆向去噪獲得真實(shí)樣本。基于分?jǐn)?shù)匹配理論,前向過(guò)程可表述為將數(shù)據(jù)分布轉(zhuǎn)化為高斯噪聲的隨機(jī)微分方程(SDE):。
Song 等人 [1] 證明存在概率流常微分方程(PF-ODE)與 SDE 具有相同邊界概率密度,其形式為

其中為去噪模型預(yù)測(cè)的分?jǐn)?shù)項(xiàng)。基于此可發(fā)展多種數(shù)值解法,包括DDIM-Solver、DPM系列等求解器。
軌跡
在擴(kuò)散模型中,軌跡直觀表征了樣本在加噪與去噪過(guò)程中的演化過(guò)程,但現(xiàn)有研究鮮少明確定義這一概念。本文將軌跡點(diǎn)定義為特定時(shí)間步的邊界概率密度(可通過(guò)樣本分布估計(jì)),從而支持軌跡樣本分布的量化分析。前向擴(kuò)散 SDE 軌跡可表述為

反向擴(kuò)散軌跡則定義為

當(dāng)模型充分預(yù)訓(xùn)練且時(shí),有
成立,此時(shí)
表示帶去噪模型
的 ODE 求解器。
基于部分加噪的編輯
擴(kuò)散模型憑借強(qiáng)大的生成能力和多樣性,通過(guò)部分加噪再去噪已成為圖像視頻編輯的主流方法。該方法通過(guò)保留原始圖像部分信息維持主體結(jié)構(gòu),其中去噪強(qiáng)度控制編輯程度,對(duì)應(yīng)軌跡可表示為

其中


一致性模型
Song 等人提出 [2] 的自一致性模型通過(guò)減少推理步數(shù)實(shí)現(xiàn)加速,其核心在于確保任意時(shí)刻的生成函數(shù)滿足不同時(shí)間步 反向擴(kuò)散到
的自一致性,即

基于蒸餾方法可高效構(gòu)建一致性模型,其損失函數(shù)定義為

其中 均勻采樣于
,
為目標(biāo)步長(zhǎng)。計(jì)算期望時(shí)
,
通過(guò) SDE 生成,而
由 ODE 求解器
確定。為提升訓(xùn)練穩(wěn)定性,采用EMA策略更新目標(biāo)網(wǎng)絡(luò)參數(shù)
。
03、方法


單軌跡蒸餾理論
在擴(kuò)散模型中,理想情況下反向去噪軌跡應(yīng)與前向擴(kuò)散軌跡嚴(yán)格互逆。但實(shí)際中,不完美去噪模型會(huì)導(dǎo)致:
- 軌跡不一致性:

- 誤差傳播:


理論推導(dǎo):
為證明從 SDE 軌跡上兩個(gè)不同強(qiáng)度點(diǎn)出發(fā)的去噪軌跡 和
不相同,可轉(zhuǎn)化為證明:軌跡
上的任意點(diǎn)不位于另一條軌跡上。此外,每條去噪軌跡與 SDE 軌跡必然存在唯一交點(diǎn),即起始時(shí)刻
對(duì)應(yīng)的點(diǎn)。因此,只需聚焦于此特定位置,證明軌跡
在
處的點(diǎn)不位于軌跡
上即可。

教師模型預(yù)測(cè)的噪聲為,其誤差滿足
。當(dāng)教師模型訓(xùn)練完美時(shí),
。使用 DDIM-Solver 從
時(shí)刻去噪至
時(shí)刻的過(guò)程可表示為:

從 加噪到
可以用前向擴(kuò)散公式表示為:

則 和
的差異可以表示為:

其中

當(dāng)t和s越接近,誤差上界越小。
針對(duì)圖像/視頻風(fēng)格化任務(wù)中固定起點(diǎn) 的需求,提出基于一致性模型僅在固定起點(diǎn)的單條軌跡上做一致性蒸餾,具體包含兩個(gè)關(guān)鍵點(diǎn):
- 固定噪聲強(qiáng)度起點(diǎn)
(即
)。
- 使用教師模型
生成完整軌跡
,引導(dǎo)學(xué)生模型
學(xué)習(xí)該軌跡的自一致性。
根據(jù)第二部分對(duì)軌跡的定義,可以寫(xiě)出單軌跡蒸餾損失函數(shù)的表達(dá)式如下:

其中

為降低蒸餾誤差,約束學(xué)生模型學(xué)習(xí)的時(shí)間步 接近教師步
:

其中 表示控制目標(biāo)時(shí)間步
的取值下限比例因子通過(guò)縮短
與
的距離,可以減小誤差上界,同時(shí)保留隨機(jī)性提升模型性能。
軌跡狀態(tài)庫(kù)
在 STD 訓(xùn)練過(guò)程中,教師模型的全軌跡狀態(tài)需通過(guò)多步 ODE-Solver 進(jìn)行反向擴(kuò)散,導(dǎo)致訓(xùn)練耗時(shí)顯著增加。為解決此問(wèn)題,提出軌跡狀態(tài)庫(kù)(Trajectory Bank),其存儲(chǔ)教師模型沿反向擴(kuò)散軌跡的中間狀態(tài)。通過(guò)按采樣概率
從庫(kù)中隨機(jī)抽取
,可直接獲取
時(shí)刻的軌跡狀態(tài)樣本,避免從
加噪至
再逐步去噪的高耗時(shí)過(guò)程。軌跡庫(kù)定義如下:

如圖3左側(cè)所示,軌跡庫(kù)從數(shù)據(jù)集中采樣,通過(guò)前向SDE加噪至噪聲強(qiáng)度
得到樣本
,并將樣本及其對(duì)應(yīng)提示詞
存入庫(kù)中。訓(xùn)練時(shí)隨機(jī)從庫(kù)中采樣,經(jīng)教師模型處理后生成
及對(duì)應(yīng)時(shí)間步,替換庫(kù)中原樣本以實(shí)現(xiàn)更新。當(dāng)再次采樣到該樣本時(shí),直接從
推進(jìn)至
,依此類推。當(dāng)
時(shí),將該樣本移出庫(kù),并加入新的
。
非對(duì)稱對(duì)抗損失
作者觀察到一致性蒸餾的圖像往往帶有比較明顯的斑點(diǎn)噪聲,有許多方法都用到了對(duì)抗損失函數(shù)來(lái)增加生成的穩(wěn)定性以及圖像質(zhì)量,其中 Wang 等 [3] 采用整個(gè)去噪模型作為判別器,而 Sauer 等 [4] 則使用 DINO-v2 的特征訓(xùn)練一個(gè)比較小的判別器。文章選擇后者,出于以下兩點(diǎn)原因:
- 語(yǔ)義級(jí)約束優(yōu)勢(shì):本方法學(xué)習(xí)軌跡
的目標(biāo)分布(非原始數(shù)據(jù)分布
),DINO-v2特征可提供語(yǔ)義約束而非像素級(jí)匹配;
- 對(duì)視頻蒸餾更友好:
DINO-v2 判別器在視頻任務(wù)中顯存效率更高,支持多幀處理。
受到 MCM 方法啟發(fā),提出非對(duì)稱對(duì)抗損失函數(shù)。不同于傳統(tǒng)方法約束與真實(shí)圖像
的匹配,論文中建立
與
的約束關(guān)系(
),實(shí)驗(yàn)發(fā)現(xiàn)通過(guò)時(shí)間步錯(cuò)位可以顯著增強(qiáng)圖像風(fēng)格化程度。具體實(shí)現(xiàn):



其中 表示DINO-v2模型,
表示判別器,
表示判別器的可學(xué)習(xí)參數(shù),
指對(duì)
加噪
步后獲得的樣本,其中
從
s到
的范圍內(nèi)隨機(jī)選取。
04、實(shí)驗(yàn)
數(shù)據(jù)集:
- 訓(xùn)練集:Open-Sora-Plan-v1.0.0
- 測(cè)試集:wikiArt + COCO + 自定義100張圖像/12個(gè)視頻及15種風(fēng)格圖像的測(cè)試集
評(píng)估指標(biāo):風(fēng)格相似度(CSD)、LAION 美學(xué)評(píng)分和時(shí)間一致性(Warping Error)指標(biāo)
對(duì)比方法:LCM / TCD / PCM / TDD / Hyper-SD / SDXL-Lightning / MCM
對(duì)比實(shí)驗(yàn)




STD 與當(dāng)前多種加速方法在 8 步、6 步、4 步下進(jìn)行對(duì)比(表1、表4),在風(fēng)格相似性和美學(xué)分?jǐn)?shù)上達(dá)到 SOTA 水平。其中圖像生成在 NFE=8 時(shí) CSD 分?jǐn)?shù)比Hyper-SD 提升 ↑0.032;視頻生成的 warping error 達(dá)到 0.166,顯著優(yōu)于 MCM 的 0.257。從可視化(圖4)中可以看出 STD 方法的風(fēng)格質(zhì)量和圖像質(zhì)量顯著更高;在不同 CFG 的定量指標(biāo)折線圖中(圖5)也表現(xiàn)出了更優(yōu)水平。
消融實(shí)驗(yàn)


文章對(duì)單軌跡蒸餾方法、軌跡狀態(tài)庫(kù)以及非對(duì)稱對(duì)抗損失函數(shù)做了笑容實(shí)驗(yàn)(表2),當(dāng)使用軌跡狀態(tài)庫(kù)時(shí),抵消了 STD 帶來(lái)的額外 3.8 倍訓(xùn)練耗時(shí),而 STD 方法和非對(duì)稱對(duì)抗損失函數(shù)都顯著提升了風(fēng)格相似性分以及美學(xué)分。




其他重要參數(shù)的取值和特性消融實(shí)驗(yàn):
- STD 和非對(duì)稱對(duì)抗損失強(qiáng)度(圖6):強(qiáng)度越大,細(xì)節(jié)和噪點(diǎn)越少,對(duì)比度越強(qiáng),畫(huà)質(zhì)越好;
- 不同的噪聲起點(diǎn)(圖8):
越大,風(fēng)格化程度越大,但是內(nèi)容相關(guān)性越弱;
- 不同的目標(biāo)時(shí)間步
的取值下限比例因子(圖10):更大的
值帶來(lái)更低噪聲,更強(qiáng)的非對(duì)稱對(duì)抗損失產(chǎn)生更高對(duì)比度;
在風(fēng)格保持與細(xì)節(jié)呈現(xiàn)間取得最佳平衡;
- 非對(duì)稱對(duì)抗損失目標(biāo)時(shí)間步位置(表3、圖9):當(dāng)
時(shí)風(fēng)格化程度最佳,噪點(diǎn)最少。
可擴(kuò)展性試驗(yàn)

文章進(jìn)一步討論了 STD 方法的適用范圍,從 STD 的理論推導(dǎo)上看,該方法可用于其他任何“基于部分噪聲的圖像/視頻編輯”任務(wù),如 inpainting 等。為了驗(yàn)證猜想,文章展示了一組使用 STD 和其他加速方法用于 inpainting 的對(duì)比圖。如圖7,相比 LCM 和 TCD 方法,STD 的 inpainting 效果更加自然。
05、結(jié)語(yǔ)
文章針對(duì)基于一致性模型的圖像視頻風(fēng)格遷移加速方法,重點(diǎn)優(yōu)化了風(fēng)格相似性與美學(xué)質(zhì)量。研究發(fā)現(xiàn)前向 SDE 軌跡中不同噪聲強(qiáng)度會(huì)導(dǎo)致 PF-ODE 軌跡產(chǎn)生差異,據(jù)此提出基于特定噪聲強(qiáng)度的單軌跡蒸餾方法(STD),有效解決了訓(xùn)練與推理軌跡不對(duì)齊問(wèn)題。為降低 STD 方法的訓(xùn)練成本,創(chuàng)新性引入軌跡庫(kù)機(jī)制,并采用非對(duì)稱對(duì)抗損失提升生成質(zhì)量。對(duì)比實(shí)驗(yàn)驗(yàn)證了本方法在風(fēng)格保持與美學(xué)表現(xiàn)上的優(yōu)越性,系統(tǒng)消融實(shí)驗(yàn)證實(shí)了各模塊的有效性。該方法可擴(kuò)展至部分噪聲編輯任務(wù),文章已探索了基于 STD 的圖像修復(fù)應(yīng)用,未來(lái)擬進(jìn)一步拓展至其他圖像編輯任務(wù)的加速。期望本研究能為該領(lǐng)域后續(xù)工作提供新思路。
參考文獻(xiàn):
[1] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. 2021. Score-Based Generative Modeling through Stochastic Di!erential Equations. In ICLR.
[2] Yang Song, Prafulla Dhariwal, Mark Chen, and Ilya Sutskever. 2023. Consistency models. In Proceedings of the 40th International Conference on Machine Learning. 32211–32252.
[3] Fu-Yun Wang, Zhaoyang Huang, Alexander Bergman, Dazhong Shen, Peng Gao, Michael Lingelbach, Keqiang Sun, Weikang Bian, Guanglu Song, Yu Liu, et al. 2024. Phased consistency models. Advances in neural information processing systems 37 (2024), 83951–84009.
[4] Axel Sauer, Dominik Lorenz, Andreas Blattmann, and Robin Rombach. 2025. Adversarial di!usion distillation. In ECCV. Springer, 87–103.
06、作者簡(jiǎn)介
Core Contributors
許思杰
小紅書(shū) AIGC 團(tuán)隊(duì)算法工程師,在 ACM MM、ICCV 等計(jì)算機(jī)視覺(jué)、多媒體頂會(huì)發(fā)表多篇論文。主要研究方向?yàn)橐曨l AIGC 的可控生成&視頻風(fēng)格化任務(wù),近期研究領(lǐng)域?yàn)榛诙嗄B(tài)大模型的智能剪輯。
王潤(rùn)奇
小紅書(shū) AIGC 團(tuán)隊(duì)算法工程師,在 ICCV、ACM MM 等計(jì)算機(jī)視覺(jué)、多媒體頂會(huì)發(fā)表多篇論文,曾多次獲得天池、頂會(huì) Challenge 冠亞季軍。主要研究方向?yàn)閿U(kuò)散模型、可控圖像生成和視頻生成等。
魏嬰
小紅書(shū) AIGC 團(tuán)隊(duì)算法工程師,主攻圖像視頻AIGC可控生成和風(fēng)格化,近期聚焦基于多模態(tài)大模型的長(zhǎng)文和人像生成。
秦明
小紅書(shū)社區(qū)智創(chuàng) AIGC 方向負(fù)責(zé)人。在計(jì)算機(jī)視覺(jué)領(lǐng)域頂會(huì)發(fā)表多篇論文,曾獲 ICCV VOT 世界冠軍,多次刷新 MOT 國(guó)際榜單世界記錄。在創(chuàng)作領(lǐng)域,專注于視頻自動(dòng)化剪輯、圖像/視頻可控生成、個(gè)性化生成等方向的算法研究與落地工作。

































