偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

ACM MM 2025 | 小紅書AIGC團(tuán)隊(duì)提出風(fēng)格遷移加速算法STD

2025-08-05 09:09:00

人工智能新聞

文章提出了單軌跡蒸餾（Single Trajectory Distillation，STD），一個(gè)從部分噪聲狀態(tài)出發(fā)的訓(xùn)練框架。

本論文主要作者來自小紅書 AIGC 團(tuán)隊(duì)（Dynamic-X-Lab），Dynamic?X?LAB 是一個(gè)專注于 AIGC 領(lǐng)域的研究團(tuán)隊(duì)，致力于推動(dòng)姿態(tài)驅(qū)動(dòng)的人像生成與視頻動(dòng)畫技術(shù)。他們以高質(zhì)量、高可控性的生成模型為核心，圍繞文生圖（t2i）、圖像生成（i2i）、圖像轉(zhuǎn)視頻（i2v）和風(fēng)格遷移加速等方向展開研究，并通過完整的開源方案分享給開發(fā)者與研究者社區(qū)。

基于一致性模型（Consistency Models, CMs）的軌跡蒸餾（Trajectory Distillation）為加速擴(kuò)散模型提供了一個(gè)有效框架，通過減少推理步驟來提升效率。然而，現(xiàn)有的一致性模型在風(fēng)格化任務(wù)中會(huì)削弱風(fēng)格相似性，并損害美學(xué)質(zhì)量 —— 尤其是在處理從部分加噪輸入開始去噪的圖像到圖像（image-to-image）或視頻到視頻（video-to-video）變換任務(wù)時(shí)問題尤為明顯。

這一核心問題源于當(dāng)前方法要求學(xué)生模型的概率流常微分方程（PF-ODE）軌跡在初始步驟與其不完美的教師模型對(duì)齊。這種僅限初始步驟對(duì)齊的策略無法保證整個(gè)軌跡的一致性，從而影響了生成結(jié)果的整體質(zhì)量。

為了解決這一問題，文章提出了單軌跡蒸餾（Single Trajectory Distillation，STD），一個(gè)從部分噪聲狀態(tài)出發(fā)的訓(xùn)練框架。

為了抵消 STD 引入的額外時(shí)間開銷，文章設(shè)計(jì)了一個(gè)軌跡狀態(tài)庫(kù)（Trajectory Bank），預(yù)先存儲(chǔ)教師模型 PF-ODE 軌跡中的中間狀態(tài)，從而有效減輕學(xué)生模型訓(xùn)練時(shí)的計(jì)算負(fù)擔(dān)。這一機(jī)制確保了 STD 在訓(xùn)練效率上可與傳統(tǒng)一致性模型保持一致。

此外，該工作還引入了一個(gè)非對(duì)稱對(duì)抗損失（Asymmetric Adversarial Loss），可顯著增強(qiáng)生成結(jié)果的風(fēng)格一致性和感知質(zhì)量。

在圖像與視頻風(fēng)格化任務(wù)上的大量實(shí)驗(yàn)證明，STD 在風(fēng)格相似性和美學(xué)評(píng)估方面均優(yōu)于現(xiàn)有的加速擴(kuò)散模型。

論文地址：https://arxiv.org/abs/2412.18945
項(xiàng)目主頁(yè)：https://single-trajectory-distillation.github.io/
項(xiàng)目 Github: https://github.com/dynamic-X-LAB/Single-Trajectory-Distillation
項(xiàng)目模型：https://huggingface.co/Single-Trajectory-Distillation/Single-Trajectory-Distillation
關(guān)鍵詞：AIGC、視頻風(fēng)格遷移、擴(kuò)散模型加速

STD 與其他方法的差異

如圖 2 所示，(a) 中的傳統(tǒng)一致性蒸餾方法（Other CMs）從 x_0 加噪得到不同的 x_t，再擬合多條 PF-ODE 軌跡的初始部分，存在軌跡不對(duì)齊問題。而在 (b) 中，文章提出的單軌跡蒸餾（Single-Trajectory Distillation, STD）方法則從一個(gè)固定的加噪狀態(tài) x_(τ_η ) 出發(fā)，通過教師模型完整地去噪出多個(gè) x_t，并以此為訓(xùn)練目標(biāo)，使學(xué)生模型在一條完整軌跡上實(shí)現(xiàn)自一致性。這種策略有效解決了訓(xùn)練 - 推理路徑不一致的問題，提升了整體生成質(zhì)量。

為了避免從 x_(τ_η ) 開始反復(fù)推理帶來的訓(xùn)練開銷，進(jìn)一步提出了軌跡緩存庫(kù)（trajectory bank），用于預(yù)存教師模型軌跡中的中間狀態(tài)，從而保持訓(xùn)練效率不變。同時(shí)，引入了非對(duì)稱對(duì)抗損失（asymmetric adversarial loss），對(duì)不同噪聲級(jí)別下的生成圖與真實(shí)圖進(jìn)行對(duì)比，有效提升圖像飽和度，減少紋理噪聲。

前置理論

【擴(kuò)散模型】

擴(kuò)散模型通過多步噪聲疊加模擬數(shù)據(jù)退化過程，并在生成階段通過逆向去噪獲得真實(shí)樣本?；诜?jǐn)?shù)匹配理論，前向過程可表述為將數(shù)據(jù)分布轉(zhuǎn)化為高斯噪聲的隨機(jī)微分方程（SDE）：。Song 等人證明存在概率流常微分方程（PF-ODE）與 SDE 具有相同邊界概率密度，其形式為，其中為去噪模型預(yù)測(cè)的分?jǐn)?shù)項(xiàng)?；诖丝砂l(fā)展多種數(shù)值解法，包括 DDIM-Solver、DPM 系列等求解器。

【軌跡】

在擴(kuò)散模型中，軌跡直觀表征了樣本在加噪與去噪過程中的演化過程，但現(xiàn)有研究鮮少明確定義這一概念。文章將軌跡點(diǎn)定義為特定時(shí)間步的邊界概率密度（可通過樣本分布估計(jì)），從而支持軌跡樣本分布的量化分析。前向擴(kuò)散 SDE 軌跡可表述為，其中；反向擴(kuò)散軌跡則定義為。當(dāng)模型充分預(yù)訓(xùn)練且時(shí)，有成立，此時(shí) 表示帶去噪模型 ? 的 ODE 求解器。

【基于部分加噪的編輯】

自一致性模型通過減少推理步數(shù)實(shí)現(xiàn)加速，其核心在于確保任意時(shí)刻的生成函數(shù)滿足不同時(shí)間步 t,t' 反向擴(kuò)散到的自一致性，即 ?；谡麴s方法可高效構(gòu)建一致性模型，其損失函數(shù)定義為:

其中 n 均勻采樣于 {1,...,N-1}，s 為目標(biāo)步長(zhǎng)。計(jì)算期望時(shí) 通過 SDE 生成，而由 ODE 求解器確定。為提升訓(xùn)練穩(wěn)定性，采用 EMA 策略更新目標(biāo)網(wǎng)絡(luò)參數(shù) 。

方法介紹

【單軌跡蒸餾理論】

在擴(kuò)散模型中，理想情況下反向去噪軌跡應(yīng)與前向擴(kuò)散軌跡嚴(yán)格互逆。但實(shí)際中，不完美去噪模型會(huì)導(dǎo)致：

軌跡不一致性：不同起點(diǎn) η,η' 的反向軌跡與互不等價(jià)。
誤差傳播：若模型預(yù)測(cè)噪聲誤差為，則去噪樣本與前向樣本的偏差滿足：

針對(duì)圖像 / 視頻風(fēng)格化任務(wù)中固定起點(diǎn) η 的需求，提出基于一致性模型僅在固定起點(diǎn)的單條軌跡上做一致性蒸餾，具體包含兩個(gè)關(guān)鍵點(diǎn)：

固定噪聲強(qiáng)度起點(diǎn) τ_η=η?T（即）。
使用教師模型 ? 生成完整軌跡，引導(dǎo)學(xué)生模型 θ 學(xué)習(xí)該軌跡的自一致性。

根據(jù)第二部分對(duì)軌跡的定義，可以寫出單軌跡蒸餾損失函數(shù)的表達(dá)式如下：

為降低蒸餾誤差，約束學(xué)生模型學(xué)習(xí)的時(shí)間步 s 接近教師步 t：

其中 γ 表示控制目標(biāo)時(shí)間步 s 的取值下限比例因子通過縮短 t 與 s 的距離，可以減小誤差上界，同時(shí)保留隨機(jī)性提升模型性能。

【軌跡狀態(tài)庫(kù)】

在 STD 訓(xùn)練過程中，教師模型的全軌跡狀態(tài)需通過多步 ODE-Solver 進(jìn)行反向擴(kuò)散，導(dǎo)致訓(xùn)練耗時(shí)顯著增加。為解決此問題，提出軌跡狀態(tài)庫(kù)（Trajectory Bank），其存儲(chǔ)教師模型沿反向擴(kuò)散軌跡的中間狀態(tài)。通過按采樣概率 ρ 從庫(kù)中隨機(jī)抽取，可直接獲取 t 時(shí)刻的軌跡狀態(tài)樣本，避免從 x_0 加噪至 τ_η 再逐步去噪的高耗時(shí)過程。

【非對(duì)稱對(duì)抗損失】

受到 MCM 方法啟發(fā)，提出非對(duì)稱對(duì)抗損失函數(shù)。不同于傳統(tǒng)方法約束與真實(shí)圖像的匹配，論文中建立與 x_r 的約束關(guān)系（0<r<s），實(shí)驗(yàn)發(fā)現(xiàn)通過時(shí)間步錯(cuò)位可以顯著增強(qiáng)圖像風(fēng)格化程度。具體實(shí)現(xiàn):

其中 F 表示 DINO-v2 模型，D_ψ 表示判別器，ψ 表示判別器的可學(xué)習(xí)參數(shù)，x_r 指對(duì) x_0 加噪 r 步后獲得的樣本。

實(shí)驗(yàn)結(jié)果

訓(xùn)練集：Open-Sora-Plan-v1.0.0
測(cè)試集：wikiArt（10 張） + COCO（100 張） + 自定義 100 張圖像 / 12 個(gè)視頻及 15 種風(fēng)格圖像的測(cè)試集
評(píng)估指標(biāo)：風(fēng)格相似度（CSD）、LAION 美學(xué)評(píng)分和時(shí)間一致性（Warping Error）指標(biāo)
對(duì)比方法：LCM / TCD / PCM / TDD / Hyper-SD / SDXL-Lightning / MCM

【對(duì)比實(shí)驗(yàn)】

STD 與當(dāng)前多種加速方法在 8 步、6 步、4 步下進(jìn)行對(duì)比，在風(fēng)格相似性和美學(xué)分?jǐn)?shù)上達(dá)到 SOTA 水平。其中圖像生成在 NFE=8 時(shí) CSD 分?jǐn)?shù)比 Hyper-SD 提升↑0.032；視頻生成的 Warping Error 達(dá)到 0.166，顯著優(yōu)于 MCM 的 0.257。從可視化（圖 4）中可以看出 STD 方法的風(fēng)格質(zhì)量和圖像質(zhì)量顯著更高；在不同 CFG 的定量指標(biāo)折線圖中（圖 5）也表現(xiàn)出了更優(yōu)水平。

視頻效果：

【消融實(shí)驗(yàn)】

文章對(duì)單軌跡蒸餾方法、軌跡狀態(tài)庫(kù)以及非對(duì)稱對(duì)抗損失函數(shù)做了消融實(shí)驗(yàn)（表 2），當(dāng)使用軌跡狀態(tài)庫(kù)時(shí)，抵消了 STD 帶來的額外 3.8 倍訓(xùn)練耗時(shí)，而 STD 方法和非對(duì)稱對(duì)抗損失函數(shù)都顯著提升了風(fēng)格相似性分以及美學(xué)分。

其他重要參數(shù)的取值和特性消融實(shí)驗(yàn)：

STD 和非對(duì)稱對(duì)抗損失強(qiáng)度（Fig 6）：強(qiáng)度越大，細(xì)節(jié)和噪點(diǎn)越少，對(duì)比度越強(qiáng)，畫質(zhì)越好。

不同的噪聲起點(diǎn)（Fig 8）：η 越大，風(fēng)格化程度越大，但是內(nèi)容相關(guān)性越弱。

不同的目標(biāo)時(shí)間步 s 的取值下限比例因子（Fig 10）：更大的 γ 值帶來更低噪聲，更強(qiáng)的非對(duì)稱對(duì)抗損失產(chǎn)生更高對(duì)比度；γ=0.7 在風(fēng)格保持與細(xì)節(jié)呈現(xiàn)間取得最佳平衡。

非對(duì)稱對(duì)抗損失目標(biāo)時(shí)間步位置（Table 3、Fig 9）：當(dāng) r<s 時(shí)風(fēng)格化程度最佳，噪點(diǎn)最少。

【可擴(kuò)展性試驗(yàn)】

文章進(jìn)一步討論了 STD 方法的適用范圍，從 STD 的理論推導(dǎo)上看，該方法可用于其他任何 “基于部分噪聲的圖像 / 視頻編輯” 任務(wù)，如 inpainting 等。為了驗(yàn)證猜想，文章展示了一組使用 STD 和其他加速方法用于 inpainting 的對(duì)比圖。如圖 7，相比 LCM 和 TCD 方法，STD 的 inpainting 效果更加自然。

結(jié)語(yǔ)

文章針對(duì)基于一致性模型的圖像視頻風(fēng)格遷移加速方法，重點(diǎn)優(yōu)化了風(fēng)格相似性與美學(xué)質(zhì)量。研究發(fā)現(xiàn)前向 SDE 軌跡中不同噪聲強(qiáng)度會(huì)導(dǎo)致 PF-ODE 軌跡產(chǎn)生差異，據(jù)此提出基于特定噪聲強(qiáng)度的單軌跡蒸餾方法（STD），有效解決了訓(xùn)練與推理軌跡不對(duì)齊問題。為降低 STD 方法的訓(xùn)練成本，創(chuàng)新性引入軌跡庫(kù)機(jī)制，并采用非對(duì)稱對(duì)抗損失提升生成質(zhì)量。對(duì)比實(shí)驗(yàn)驗(yàn)證了本方法在風(fēng)格保持與美學(xué)表現(xiàn)上的優(yōu)越性，系統(tǒng)消融實(shí)驗(yàn)證實(shí)了各模塊的有效性。該方法可擴(kuò)展至部分噪聲編輯任務(wù)，文章已探索了基于 STD 的圖像修復(fù)應(yīng)用，為后續(xù)相關(guān)工作提供新思路。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 訓(xùn)練模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tfoot id="sn5wx"><strike id="sn5wx"></strike></tfoot>

<tr id="sn5wx"><strike id="sn5wx"></strike></tr>

<kbd id="sn5wx"><acronym id="sn5wx"></acronym></kbd>