斯坦福與Adobe新研究,模仿蒸餾技術(shù)輕松讓200億參數(shù)圖像生成高質(zhì)量大模型
高質(zhì)量圖像生成又加速了!
斯坦福大學(xué)和 Adobe 研究院聯(lián)手,用 pi-Flow(基于策略的流模型)技術(shù),讓 200 億參數(shù)的文本到圖像大模型,在 4 步之內(nèi)就生成了媲美教師模型的高質(zhì)量、高多樣性圖片。

讓圖像生成模型少走幾步
所有玩過(guò) AI 繪畫(huà)的人都有一個(gè)共同的體驗(yàn),未蒸餾的原版大模型,點(diǎn)擊生成,看著進(jìn)度條一點(diǎn)點(diǎn)爬升,從一個(gè)模糊的噪聲,慢慢變得清晰。這個(gè)過(guò)程短則十幾秒,長(zhǎng)則幾分鐘。
模型拿到一團(tuán)純粹的隨機(jī)噪聲,然后一步一步地猜,“如果我想得到一張貓的圖片,這一步應(yīng)該把噪聲變成什么樣?”。這個(gè)過(guò)程叫“去噪”。它需要猜幾十步甚至上百步,才能把一個(gè)隨機(jī)的東西,變成一張有意義的畫(huà)。
每一步,模型都要完整地運(yùn)行一次,消耗巨大的計(jì)算資源。
于是有人想,能不能少走幾步?比如原來(lái)要走 100 步,現(xiàn)在我走 10 步、5 步,甚至 1 步,行不行?
這就是所謂的“少步采樣”(Few-Step Generation)。
但當(dāng)你強(qiáng)行減少步數(shù),問(wèn)題就來(lái)了。步子邁得太大,容易扯著。專業(yè)點(diǎn)說(shuō),這叫“離散化誤差”。
模型本來(lái)是基于一個(gè)連續(xù)的、平滑的變換過(guò)程設(shè)計(jì)的,你非要讓它大踏步地跳著走,中間的細(xì)節(jié)就全丟了。結(jié)果就是生成的圖片質(zhì)量急劇下降,要么模糊不清,要么出現(xiàn)各種奇怪的偽影。
還有“質(zhì)量-多樣性權(quán)衡”問(wèn)題。
少步生成要想圖片質(zhì)量高,生成的多樣性就得犧牲。出來(lái)的圖來(lái)來(lái)回回就那幾個(gè)樣子,失去了創(chuàng)作的驚喜感。反過(guò)來(lái),如果想讓圖片風(fēng)格多變,質(zhì)量又會(huì)變得很差。就像一個(gè)學(xué)畫(huà)畫(huà)的學(xué)生,如果只讓他快速畫(huà)幾筆,他要么只能畫(huà)出他最熟練的那一個(gè)東西,要么就畫(huà)得亂七八糟。
為了解決這個(gè)問(wèn)題,大家想了很多辦法,比如“模型蒸餾”。就是讓一個(gè)已經(jīng)訓(xùn)練好的知識(shí)淵博的“教師模型”,手把手教一個(gè)“學(xué)生模型”怎么快速拿到好結(jié)果。
但這個(gè)過(guò)程很復(fù)雜,有時(shí)候需要引入額外的判別器(GAN, 生成對(duì)抗網(wǎng)絡(luò)),或者計(jì)算復(fù)雜的雅可比向量積(JVP, Jacobian-Vector Product),工程上非常麻煩,效果也常常不盡如人意。
GMFlow 說(shuō),世界不是非黑即白
斯坦福大學(xué)和 Adobe 研究院聯(lián)手搞的一個(gè)項(xiàng)目 LakonLab,決定從根子上解決問(wèn)題。他們首先推出的 GMFlow,在 2025 年的 ICML(國(guó)際機(jī)器學(xué)習(xí)大會(huì))上亮相,直接挑戰(zhàn)了傳統(tǒng)擴(kuò)散模型和流匹配模型(Flow Matching Models)的一個(gè)基本假設(shè)。
傳統(tǒng)模型在去噪的每一步,都假設(shè)像素下一步應(yīng)該變成的樣子,符合一個(gè)簡(jiǎn)單的高斯分布。也就是說(shuō),模型會(huì)預(yù)測(cè)一個(gè)最可能的目標(biāo)均值,然后朝著那個(gè)方向走。
但真實(shí)世界復(fù)雜得多。一個(gè)像素點(diǎn)在去噪過(guò)程中,完全可以有多種同樣合理的可能性。比如,一塊區(qū)域既可以是藍(lán)天,也可以是白云。傳統(tǒng)模型強(qiáng)行讓它選一個(gè),就可能導(dǎo)致最終結(jié)果很僵硬,缺乏細(xì)節(jié)和真實(shí)感。
GMFlow 想:為什么只能有一個(gè)選項(xiàng)?
它不再預(yù)測(cè)一個(gè)單一的高斯均值,而是預(yù)測(cè)一個(gè)高斯混合分布(Gaussian Mixture, GM)。模型在每一步都會(huì)說(shuō):“這個(gè)像素點(diǎn),有 40% 的可能應(yīng)該變成這個(gè)樣子(第一個(gè)高斯分布),有 30% 的可能應(yīng)該變成那個(gè)樣子(第二個(gè)高斯分布),還有 30% 的可能……”
它為像素的演化提供了多個(gè)備選項(xiàng),并且給出了每個(gè)選項(xiàng)的概率。這一下就把模型的表達(dá)能力打開(kāi)了。它能更好地捕捉真實(shí)世界中那種模棱兩可、充滿多種可能性的狀態(tài)。這對(duì)于生成細(xì)節(jié)豐富、紋理復(fù)雜的圖像至關(guān)重要。
為了配合這個(gè)新的輸出形式,GMFlow 還設(shè)計(jì)了一套專屬的 GM-SDE(隨機(jī)微分方程)和 GM-ODE(常微分方程)求解器。這套求解器能夠精確地利用模型給出的高斯混合信息,進(jìn)行更準(zhǔn)確的采樣。即使在很少的步數(shù)下,也能有效地減少離散化誤差。
GWMFlow 還改進(jìn)了引導(dǎo)方式。傳統(tǒng)的分類器自由引導(dǎo)(Classifier-Free Guidance, CFG)是通過(guò)加強(qiáng)文本提示的影響力來(lái)提升圖像質(zhì)量,很容易用力過(guò)猛,導(dǎo)致圖像色彩過(guò)飽和、細(xì)節(jié)失真。GMFlow 提出了概率引導(dǎo)(Probabilistic Guidance),這種方式更溫和、更智能,它利用高斯混合分布的概率信息來(lái)做引導(dǎo),既提升了質(zhì)量,又避免了過(guò)飽和問(wèn)題。
GMFlow 的效果立竿見(jiàn)影。在 ImageNet 256×256 這個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上,只用 6 步采樣,它的精度(Precision)就達(dá)到了 0.942,明顯超過(guò)了之前的流匹配基線模型。
pi-Flow 把老師傅的心法學(xué)會(huì)了
如果說(shuō) GMFlow 是對(duì)模型“看世界”的方式做了升級(jí),那么 pi-Flow,就是對(duì)模型“行動(dòng)”的方式進(jìn)行了一場(chǎng)徹頭徹尾的革命。
pi-Flow 的全稱是“基于策略的流模型”(Policy-Based Flow Models)。它的核心思想,來(lái)自于一個(gè)非常聰明的類比:模仿蒸餾(Imitation Distillation)。
我們繼續(xù)用教師和學(xué)生的例子。以前的蒸餾方法,好比是教師模型(走的慢但畫(huà)得好)在每個(gè)關(guān)鍵節(jié)點(diǎn),告訴學(xué)生模型(想走的快):“你應(yīng)該走到這里”。學(xué)生模型就拼命學(xué)習(xí),記住每個(gè)節(jié)點(diǎn)的位置。但當(dāng)步數(shù)變得極少,比如從 100 步壓縮到 4 步,節(jié)點(diǎn)之間間隔巨大,學(xué)生就懵了,因?yàn)樗恢纼牲c(diǎn)之間該怎么走才是最優(yōu)路徑,只能硬著頭皮走直線,結(jié)果自然很差。
pi-Flow 換了個(gè)思路。它不讓學(xué)生模型去死記硬背那幾個(gè)關(guān)鍵節(jié)點(diǎn)的位置。
它讓學(xué)生模型學(xué)習(xí)老師傅的“心法”。
這個(gè)“心法”,在 pi-Flow 里被稱為“策略”(Policy)。

具體來(lái)說(shuō),學(xué)生模型的網(wǎng)絡(luò)不再直接輸出一個(gè)最終的去噪結(jié)果,而是輸出一個(gè)“策略”。這個(gè)策略是一個(gè)小型的、不依賴于大模型本身的計(jì)算規(guī)則。拿到這個(gè)策略后,你可以在當(dāng)前的一大步(比如從第 1 步到第 2 步)之內(nèi),再進(jìn)行多次微小的子步驟計(jì)算。
關(guān)鍵點(diǎn)在于,這些子步驟的計(jì)算,完全由這個(gè)“策略”來(lái)指導(dǎo),不需要再反復(fù)調(diào)用那個(gè)龐大、笨重的學(xué)生網(wǎng)絡(luò)。
這就像老師傅教徒弟功夫,不是教他一招一式的死套路,而是教他一套內(nèi)功心法。徒弟學(xué)會(huì)心法后,就可以根據(jù)實(shí)際情況,在一次交手中瞬息萬(wàn)變地使出無(wú)數(shù)招式,而不需要每次都停下來(lái)問(wèn)師傅“這下該怎么辦”。
這個(gè)教學(xué)過(guò)程,pi-Flow 稱之為“策略模仿蒸餾”(pi-ID)。它通過(guò)一個(gè)簡(jiǎn)單的 L2 流匹配損失函數(shù),讓學(xué)生模型生成的“策略”,在執(zhí)行完一系列子步驟后的最終軌跡,與教師模型慢悠悠走出來(lái)的精確軌跡,盡可能地對(duì)齊。

整個(gè)過(guò)程異常干凈利落。沒(méi)有花里胡哨的輔助網(wǎng)絡(luò),沒(méi)有不穩(wěn)定的對(duì)抗訓(xùn)練(GAN),也不需要計(jì)算復(fù)雜的 JVP。就是一個(gè)簡(jiǎn)單的 L2 損失,直指問(wèn)題核心。
pi-Flow 的這個(gè)設(shè)計(jì),直接打破了前面提到的“質(zhì)量-多樣性”的魔咒。
因?yàn)樗鼘W(xué)習(xí)的不是一個(gè)僵化的結(jié)果,而是一個(gè)動(dòng)態(tài)生成路徑的“方法論”。這個(gè)方法論本身就蘊(yùn)含了教師模型對(duì)于多樣性的理解。因此,學(xué)生模型在快速生成時(shí),既能保持教師級(jí)別的圖像質(zhì)量和風(fēng)格一致性,又能產(chǎn)生豐富的多樣性。
在 ImageNet 256×256 數(shù)據(jù)集上,它用 DiT(一種流行的視覺(jué) Transformer 架構(gòu))做學(xué)生模型,僅需 1 次網(wǎng)絡(luò)功能評(píng)估(1-NFE),也就是模型主體只跑一次,就能達(dá)到 2.85 的 FID(一個(gè)衡量生成圖像質(zhì)量和多樣性的核心指標(biāo),越低越好)。

LakonLab 把它用在了 FLUX.1(120 億參數(shù))和 Qwen-Image(通義千問(wèn)-Image,200 億參數(shù))這種巨無(wú)霸模型上。結(jié)果,在僅僅 4 次網(wǎng)絡(luò)評(píng)估(4 NFEs)下,pi-Flow 生成圖像的多樣性,顯著超過(guò)了當(dāng)時(shí)市面上其他的少步生成方案,比如 SenseFlow 和 Qwen-Image Lightning,同時(shí)圖像質(zhì)量幾乎和需要走很多步的教師模型看不出差別。

GMFlow 是理論基礎(chǔ),為 pi-Flow 的策略輸出提供了靈感;pi-Flow 則是將這個(gè)理論發(fā)揮到極致的工程杰作,它把教師的“知識(shí)”高效地壓縮到了學(xué)生的“策略”里。
LakonLab 基石
LakonLab 連續(xù)推出 GMFlow 和 pi-Flow,背后是斯坦福大學(xué)和 Adobe 研究院強(qiáng)大的工程能力和產(chǎn)學(xué)研協(xié)同體系。
LakonLab 本身就是一個(gè)為大規(guī)模擴(kuò)散模型實(shí)驗(yàn)而生的高性能代碼庫(kù)。它的設(shè)計(jì)目標(biāo)是要能支撐得起百億甚至千億參數(shù)級(jí)別模型的訓(xùn)練和推理。
這里面有幾個(gè)關(guān)鍵特性:
- 分布式訓(xùn)練優(yōu)化:訓(xùn)練 200 億參數(shù)的模型,單張顯卡是天方夜譚。LakonLab 深度整合了多種分布式訓(xùn)練方案,如 DDP(分布式數(shù)據(jù)處理)、FSDP(完全分片數(shù)據(jù)并行)等。這些技術(shù)能將一個(gè)巨大的模型和海量的數(shù)據(jù),拆分到成百上千張 GPU(圖形處理器)上進(jìn)行協(xié)同訓(xùn)練,極大地提高了訓(xùn)練效率。
- 權(quán)重綁定(Weight Tying):在超大模型中,通過(guò)在不同部分共享參數(shù),可以有效減少模型的總參數(shù)量和顯存占用,讓更大模型的訓(xùn)練成為可能。
- 高級(jí)流求解器:它內(nèi)置了為 GMFlow 和 pi-Flow 量身定制的求解器,如 FlowSDEScheduler 和 FlowAdapterScheduler,保證了算法能高效、精確地運(yùn)行。
- 多存儲(chǔ)后端支持:支持從本地文件系統(tǒng)、AWS S3 到 HuggingFace 的多種數(shù)據(jù)存儲(chǔ)和模型加載方式,方便研究人員在不同環(huán)境下進(jìn)行實(shí)驗(yàn)。
- 與 Diffusers 的深度集成:Diffusers 是 HuggingFace 推出的一個(gè)流行的擴(kuò)散模型庫(kù)。LakonLab 與它的集成,意味著這些前沿的技術(shù)可以很方便地被更廣泛的社區(qū)使用和驗(yàn)證。
這個(gè)強(qiáng)大的工程底座,是 GMFlow 和 pi-Flow 從理論走向現(xiàn)實(shí)的橋梁。
來(lái)看看生成效果:


pi-Flow 和 GMFlow 的出現(xiàn),為圖像生成領(lǐng)域,帶來(lái)了里程碑式的影響。



































