「流匹配」成ICML 2025超熱門主題!網(wǎng)友:都說了學(xué)物理的不準(zhǔn)轉(zhuǎn)計(jì)算機(jī)
眾所周知,第 42 屆國際機(jī)器學(xué)習(xí)大會(huì)(ICML)將于 7 月 13 日至 19 日在加拿大溫哥華盛大舉行。
在生成式 AI 領(lǐng)域,最新的前沿?zé)狳c(diǎn)已經(jīng)轉(zhuǎn)向探索更高質(zhì)量,更穩(wěn)定,更簡潔,更通用的模型形態(tài)。
流匹配(Flow Matching)技術(shù)正完美的踩中了每一個(gè)熱點(diǎn)要素。
自從 FLUX 模型發(fā)布后,能夠處理多種輸入類型的流匹配架構(gòu)逐漸成為目光焦點(diǎn)。
也因此有學(xué)者感慨,在 ICML 2025 的生成相關(guān)工作中,流匹配技術(shù)幾乎無處不在。

流匹配技術(shù)雖說在生成式 AI 領(lǐng)域是前沿研究,但其核心概念來源于流體力學(xué)。
令人驚訝的是,物理領(lǐng)域的有關(guān)概念在近些年的確為生成領(lǐng)域的研究提供了很多新方向和新成果。
甚至薛定諤橋都能用在擴(kuò)散生成領(lǐng)域!
在知乎相關(guān)技術(shù)解讀專欄《深入解析 Flow Matching 技術(shù)》下,網(wǎng)友怒評:物理學(xué)專業(yè)的不準(zhǔn)轉(zhuǎn)計(jì)算機(jī)!

- 專欄標(biāo)題:《深入解析 Flow Matching 技術(shù)》
- 專欄鏈接:https://zhuanlan.zhihu.com/p/685921518
本文參考研究者 Floor Eijkelboom 的最新推文,從原理入手,避免繁雜的數(shù)學(xué)公式,來介紹這一簡潔優(yōu)雅且高效的生成技術(shù)。
生成:噪聲映射到數(shù)據(jù)
生成工作是一個(gè)逐步具象化的過程,從一個(gè)抽象的表示開始,通過不同的生成網(wǎng)絡(luò),最終生成出具有復(fù)雜細(xì)節(jié)的真實(shí)數(shù)據(jù)。在此過程中,我們希望從一個(gè)無序的「噪聲分布」映射到不同的復(fù)雜的數(shù)據(jù)分布中,這種映射是高度非線性的,而且存在無限的可能性。

生成貓貓 由噪聲向圖像映射
從本質(zhì)上講,流匹配的核心思想非常簡單:
學(xué)習(xí)將噪聲轉(zhuǎn)化為數(shù)據(jù)。
我們首先在噪聲分布與數(shù)據(jù)分布之間選擇一種插值方式(如圖所示)。
流匹配會(huì)學(xué)習(xí)如何沿著這條插值路徑移動(dòng)每一個(gè)樣本,將起始時(shí)刻(time 0)的噪聲點(diǎn)逐步轉(zhuǎn)化為終點(diǎn)時(shí)刻(time 1)對應(yīng)的數(shù)據(jù)點(diǎn)。

流匹配是基于歸一化流(Normalizing Flows,NF)的生成模型。它通過一系列可逆的變量變換,將復(fù)雜的概率分布逐步映射為簡單的分布;同時(shí),也可以通過這些變換的逆過程,從簡單分布中生成逼真的數(shù)據(jù)樣本。
流匹配原理:流體力學(xué)
連續(xù)性方程
那么,噪聲點(diǎn)向數(shù)據(jù)點(diǎn)的差值路徑應(yīng)當(dāng)如何建立?
這個(gè)問題已經(jīng)在流體動(dòng)力學(xué)等領(lǐng)域中得到研究!
在流體中,追蹤每一個(gè)微小粒子的運(yùn)動(dòng)軌跡是明顯困難的。因此我們更關(guān)注的是:每個(gè)空間區(qū)域內(nèi)平均存在多少水?這種平均量被稱為密度。
為了研究密度的變化,物理學(xué)提供了一個(gè)重要工具:連續(xù)性方程(continuity equation)。
連續(xù)性方程建立在一個(gè)簡單而基本的原理之上:質(zhì)量既不會(huì)憑空產(chǎn)生,也不會(huì)無故消失。
這一原理不僅適用于物理質(zhì)量,同樣適用于概率質(zhì)量(probability mass)。這直接建立了物理概念與生成模型中概率分布的直接聯(lián)系。

連續(xù)性方程:同樣適用于概率質(zhì)量
直觀的理解連續(xù)性方程:
- 如果流入的密度大于流出,則該點(diǎn)密度增加;
- 如果流出大于流入,則密度減少;
- 如果兩者相等,密度保持不變(即處于平衡狀態(tài))。
這種 「總流出量」 被稱為散度(divergence)。
在物理學(xué)中,我們通常是從粒子的運(yùn)動(dòng)行為出發(fā),推導(dǎo)出整體密度的變化規(guī)律。
但流匹配正好相反!它從一開始就指定密度的變化過程 —— 即從噪聲分布逐步過渡到數(shù)據(jù)分布的插值軌跡 —— 然后去學(xué)習(xí)使這一演化成立的速度場(velocity field)。正是這個(gè)速度場,使得我們能夠從噪聲中生成新的數(shù)據(jù)樣本。
過程示意
我們先從一個(gè)簡單的情況開始 —— 只考慮一個(gè)數(shù)據(jù)點(diǎn)。
在這種情況下,我們通過從噪聲點(diǎn)到該數(shù)據(jù)點(diǎn)之間的直線路徑來定義變化過程。也就是在路徑上的每一個(gè)位置,其速度方向都直接指向目標(biāo)數(shù)據(jù)點(diǎn)。
由于這個(gè)過程是針對特定數(shù)據(jù)點(diǎn)定義的,我們稱之為條件流(conditional flow)。


流匹配的「魔法」,在于它如何處理整個(gè)數(shù)據(jù)分布。
在空間中的任意一點(diǎn),都可能會(huì)有無數(shù)條從噪聲出發(fā)、通向不同數(shù)據(jù)點(diǎn)的插值路徑穿過。而此時(shí),我們需要的總體速度場,就是這些路徑在該點(diǎn)的平均方向。


訓(xùn)練過程(學(xué)習(xí)平均插值速度場)與生成過程的示意
具體原因如下:
在空間中的任意一點(diǎn),可能存在多條從噪聲出發(fā)、通向不同數(shù)據(jù)點(diǎn)的路徑經(jīng)過它,這些路徑可能通向高概率的樣本,也可能通向低概率的樣本。
但對于這個(gè)特定位置來說,更可能處在屬于通向高概率樣本的路徑上。因此,在這個(gè)位置上,穿過它的所有路徑的平均方向正好反映了這一點(diǎn),如圖所示。

流匹配有一個(gè)對偶視角,稱為 變分流匹配(Variational Flow Matching, VFM)。
與其在每個(gè)位置上對所有路徑的速度進(jìn)行平均,VFM 的思路是:在空間中的每一點(diǎn),推斷它可能朝向的終點(diǎn)分布。這樣一來,該點(diǎn)的速度場就簡單地指向這個(gè)分布的均值。

當(dāng)變分后驗(yàn)為高斯分布時(shí),流匹配與變分流匹配是等價(jià)的。
我們從數(shù)據(jù)分布中采樣一個(gè)數(shù)據(jù)點(diǎn) x_1,從噪聲分布中采樣一個(gè)噪聲點(diǎn) x_0,并在它們之間插值得到某個(gè)中間點(diǎn) x_t。接下來流匹配學(xué)習(xí)的是:在該位置應(yīng)該朝哪個(gè)方向移動(dòng);
下方展示了對應(yīng)的偽代碼:


若對流匹配感興趣,可以參閱以下論文:

- 論文標(biāo)題:Flow Matching for Generative Modeling
- 論文鏈接:https://arxiv.org/abs/2210.02747
擴(kuò)散與流匹配的對比
一體兩面
讀到這里,不難發(fā)現(xiàn)流匹配的方法和擴(kuò)散模型的邏輯非常相似,似乎具備完全相同的前向過程。
那么擴(kuò)散模型和流匹配具有怎樣的關(guān)系呢?
MIT 副教授何愷明認(rèn)為,流匹配技術(shù)在生成模型領(lǐng)域的位置,擴(kuò)散模型是流匹配的子集:

實(shí)際上,當(dāng)采用高斯分布作為插值策略時(shí),擴(kuò)散模型其實(shí)就是一種特殊的流匹配。
這是一個(gè)好消息,這意味著你可以互換使用這兩個(gè)框架。
關(guān)于擴(kuò)散模型與流匹配的訓(xùn)練過程:
- 權(quán)重函數(shù)的一致性:訓(xùn)練中使用的權(quán)重函數(shù)十分關(guān)鍵,它決定了模型如何平衡感知數(shù)據(jù)中不同頻率成分的重要性。流匹配中的權(quán)重設(shè)計(jì)恰好與擴(kuò)散模型文獻(xiàn)中常用的訓(xùn)練權(quán)重函數(shù)高度一致。
- 噪聲調(diào)度對訓(xùn)練目標(biāo)影響較?。弘m然噪聲調(diào)度對訓(xùn)練效率存在影響,但它對最終的訓(xùn)練目標(biāo)函數(shù)本身作用不大。
- 網(wǎng)絡(luò)輸出形式的差異:流匹配提出了一種新的網(wǎng)絡(luò)輸出形式
擴(kuò)散模型與高斯流匹配(Gaussian Flow Matching)在本質(zhì)上是等價(jià)的。
但值得注意的是,高斯流匹配為生成建模領(lǐng)域帶來了兩個(gè)新的模型設(shè)定:
- 網(wǎng)絡(luò)輸出形式:流匹配提出了一種新的網(wǎng)絡(luò)輸出參數(shù)化方式,將其視為一個(gè)速度場,這與傳統(tǒng)擴(kuò)散模型中的輸出形式不同。在使用高階采樣器時(shí),這種輸出形式可能帶來性能差異,并可能影響訓(xùn)練過程中的動(dòng)態(tài)行為。
- 采樣噪聲調(diào)度:流匹配使用了一種簡單的采樣噪聲調(diào)度策略,其更新規(guī)則與 DDIM 相同。
對擴(kuò)散模型和流匹配關(guān)聯(lián)的更多信息,請參閱以下文章:

- 文章標(biāo)題:Diffusion Meets Flow Matching: Two Sides of the Same Coin
- 文章鏈接:https://diffusionflow.github.io
























