NeurIPS 2025 | 北大聯(lián)合小紅書提出Uni-Instruct:ImageNet單步生圖FID進入1.0時代!
近年來,單步擴散模型因其出色的生成性能和極高的推理效率,在圖像生成、文本到視頻、圖像編輯等領(lǐng)域大放異彩。目前主流的訓(xùn)練方法是通過知識蒸餾,最小化學(xué)生模型與教師擴散模型之間的分布差異。然而,現(xiàn)有的方法主要集中在兩條平行的理論技術(shù)路線上:
- 基于 KL 散度最小化的方法(如 Diff-Instruct[1],DMD[2] 等):收斂速度快,但可能存在模式崩潰問題,進而導(dǎo)致生成性能差。
- 基于分?jǐn)?shù)散度最小化的方法(如 SIM[3],SiD[4] 等):蒸餾性能更好,但訓(xùn)練收斂較慢。
這兩條路線似乎在理論上是割裂的。那么,我們能否將它們統(tǒng)一在一個共同的理論框架下?如果可以,這個統(tǒng)一的框架能否帶來更強的模型性能?
來自北京大學(xué)、小紅書 hi lab 等機構(gòu)的華人研究者共同提出了名為 Uni-Instruct 的單步生成大一統(tǒng)理論框架,目前已被 NeurIPS 2025 接收。該框架不僅從理論上統(tǒng)一了超過 10 種現(xiàn)有的單步擴散模型蒸餾方法,更是在多項任務(wù)上取得了當(dāng)前最佳(SoTA)性能。

- 論文標(biāo)題:Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction
- 論文地址:https://arxiv.org/abs/2505.20755v4
- 代碼:https://github.com/a-little-hoof/Uni_Instruct
- 論文單位:北京大學(xué)未來技術(shù)學(xué)院、國家生物醫(yī)學(xué)成像中心、北京大學(xué)前沿交叉學(xué)科研究院、小紅書 hi-lab
- 論文作者:Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun
其中,經(jīng)過基于展開的 Jeffrey-KL 散度(Expanded Jeffrey-KL divergence)用 Uni-Instruct 蒸餾得到的一步生圖模型在 ImageNet-64 數(shù)據(jù)集上取得了歷史歷史最低 1.02 的單步生成 FID 指標(biāo),遠超了 1000 步采樣的擴散模型(參見圖 2 右表)。
核心貢獻:Uni-Instruct 理論框架
研究者們提出了一個名為 Uni-Instruct 的統(tǒng)一理論框架,其核心是創(chuàng)新的 f-散度擴散展開定理(diffusion expansion theory of the f-divergence family)。

簡單來說,該定理推廣了 De Bruijin 等式,將靜態(tài)的數(shù)據(jù)空間教師模型與單步模型之間 f-散度擴展為沿擴散過程的動態(tài)散度積分。
雖然原始的展開形式難以直接優(yōu)化,但團隊通過引入新的梯度等價定理,推導(dǎo)出了一個等價且可計算的損失函數(shù)。

最令人驚喜的是,這個最終的損失函數(shù)梯度,恰好是 Diff-Instruct(DI)梯度和 Score Implicit Matching(SIM)梯度的一個加權(quán)組合!

通過選擇不同的 f-散度函數(shù)(如 KL 散度、卡方散度等),Uni-Instruct 能夠恢復(fù)出包括 Diff-Instruct[1]、DMD[2]、f-distill[5]、SIM[3]、SiD[4] 在內(nèi)的十余種現(xiàn)有方法的損失函數(shù)。這不僅為理解現(xiàn)有工作提供了全新的高層視角,也標(biāo)志著單步擴散模型理論大一統(tǒng)。


圖注 1: Uni-Instruct 一步生成器在不同基準(zhǔn)數(shù)據(jù)集上的生成效果。左:CIFAR10(無條件);中:CIFAR10(有條件);右:ImageNet 64x64(有條件)??梢钥吹?,生成樣本的質(zhì)量和多樣性都非常出色。

圖注 2: Uni-Instruct 一步生成模型在不同基準(zhǔn)數(shù)據(jù)集上的評測效果。左:CIFAR10(無條件);右:ImageNet 64x64(有條件)??梢钥吹?,生成樣本的質(zhì)量和多樣性都非常出色。Uni-Instruct 模型在兩個評測榜單上都取得了巨大性能和效率優(yōu)勢。
實驗結(jié)果
Uni-Instruct 在多個主流基準(zhǔn)測試中取得了破紀(jì)錄的性能:
- CIFAR10:
a.無條件生成 FID 達到 1.46。
b.條件生成 FID 達到 1.38。
- ImageNet 64x64:
a.條件生成 FID 達到 1.02,效果顯著優(yōu)于采樣步數(shù)為 79 步的教師模型(1.02 vs 2.35)!
這些結(jié)果全面超越了 Diff-Instruct、Score Implicit Matching、f-distill、SiDA、DMD、Consistency Model 等之前的所有一步生成模型,甚至遠超需要 1000 步采樣的標(biāo)準(zhǔn)擴散模型。
更廣泛的應(yīng)用:文本到 3D 生成
Uni-Instruct 的威力不止于 2D 圖像。研究者們將其成功應(yīng)用于文本到 3D 生成任務(wù),作為一種知識遷移方法,用以指導(dǎo) NeRF 模型的優(yōu)化。
實驗結(jié)果表明,相比于 SDS 和 VSD 等現(xiàn)有方法,Uni-Instruct 能夠在生成 3D 內(nèi)容的質(zhì)量和多樣性上取得更優(yōu)異的效果。

圖注 3:左圖:ProlificDreamer 右圖:Uni-Instruct
總結(jié)與展望
Uni-Instruct 提供了一個堅實的理論基礎(chǔ),成功地將十余種看似不同的擴散模型蒸餾方法囊括在一個統(tǒng)一的框架之下。這種理論大一統(tǒng)不僅帶來了對高效擴散模型的深刻理解,其卓越的實證性能也為高效生成模型的未來研究開辟了新的道路。這項工作是高效生成模型領(lǐng)域的一次重要理論突破,我們期待它能激發(fā)更多關(guān)于擴散模型知識遷移和高效生成的前沿探索!
本工作由北京大學(xué)計算科學(xué)成像實驗室本科生王翼飛與博士生柏為民合作完成。本論文的通訊作者羅維儉在北京大學(xué)數(shù)學(xué)院取得博士學(xué)位,現(xiàn)供職于小紅書 hi lab 任多模態(tài)大模型研究員。末位作者為北京大學(xué)未來技術(shù)學(xué)院孫赫助理教授。



























