擴(kuò)散模型、最優(yōu)傳輸存在什么關(guān)系?法國(guó)數(shù)學(xué)家4頁(yè)論文引網(wǎng)友圍觀(guān)
擴(kuò)散模型和最優(yōu)傳輸之間到底存在怎樣的聯(lián)系?對(duì)很多人來(lái)說(shuō)還是一個(gè)未解之謎。
但有一點(diǎn)很清楚的是:在相似的數(shù)據(jù)集上訓(xùn)練的不同擴(kuò)散模型傾向于恢復(fù)出相似的映射關(guān)系。
這就提出一個(gè)問(wèn)題:如果這些映射關(guān)系不是最優(yōu)傳輸(OT,Optimal Transport )映射,那么它們到底在什么意義上是最優(yōu)呢?
2022 年,博科尼大學(xué)助理教授 Hugo Lavenant 與里昂第一大學(xué)教授 Filippo Santambrogio 合作,在論文《 THE FLOW MAP OF THE FOKKER-PLANCK EQUATION DOES NOT PROVIDE OPTIMAL TRANSPORT 》中探討了流模型在最優(yōu)傳輸框架中的應(yīng)用,并提供了一個(gè)反例,表明在某些情況下,流模型并不能實(shí)現(xiàn)最優(yōu)傳輸。

論文地址:https://cvgmt.sns.it/media/doc/paper/5469/counterexample_flow_v3.pdf
在這篇文章的摘要部分,作者表示,Khrulkov 和 Oseledets 在先前研究中(論文:Understanding DDPM Latent Codes Through Optimal Transport)提出了一個(gè)猜想,該猜想認(rèn)為通過(guò)積分 Fokker-Planck 方程的 Wasserstein 速度得到的 ODE 流,可以獲得一個(gè)最優(yōu)傳輸映射。
然而,在 Kim 和 Milman 的論文中《A generalization of Caffarelli’s contraction theorem via (reverse) heat flow》,這一結(jié)果被認(rèn)為是錯(cuò)誤的,但沒(méi)有提供證明。Hugo Lavenant、Filippo Santambrogio 的這篇論文正好展示了 Khrulkov 和 Oseledets 所聲稱(chēng)的結(jié)果不能成立。
但這篇文章過(guò)于晦澀難懂,全篇論文看下來(lái)幾乎都是推導(dǎo)公式且篇幅又長(zhǎng)。
為此,法國(guó)數(shù)學(xué)家 Gabriel Peyré 在論文《 Diffusion models and Optimal Transport 》中給出了一個(gè)很好的概括,文章重述了 Hugo Lavenant 和 Filippo Santambrogio 關(guān)于簡(jiǎn)潔證明的主要內(nèi)容,即一般情況下,擴(kuò)散模型不能定義最優(yōu)傳輸映射。


地址:https://github.com/mathematical-tours/mathematical-tours.github.io/blob/971ddb3aab5803c7a4abef122f878292f6a6c25d/book-sources/diffusion-models/note-diffusion-ot.pdf
接下來(lái),我們看看這篇文章講了什么內(nèi)容。
生成模型旨在在參考分布 α(通常是各向同性高斯分布)和數(shù)據(jù)分布 β 之間構(gòu)建傳輸映射 T。用 T?α 表示 α 被 T 向前推進(jìn)(如果 α 是由 Dirac 質(zhì)量在 x_i 處構(gòu)成的,那么 T?α 是由 Dirac 質(zhì)量在 T(x_i)處構(gòu)成的)。
因此,目標(biāo)是找到 T,使得 T?α = β 。很明顯,對(duì)于任何 β,這樣的映射總是存在的,但找到 T 的明確構(gòu)造方法卻出奇地困難。
這里有兩種標(biāo)準(zhǔn)方法,分別是最優(yōu)傳輸和集成擴(kuò)散過(guò)程的逆向積分伴隨的平流場(chǎng)。
最優(yōu)傳輸
最優(yōu)傳輸通過(guò)求解 Monge 問(wèn)題求出 T:

1991 年,Brenier 著名定理表明這個(gè)映射是存在的,且是唯一的,并且可以寫(xiě)成一個(gè)凸函數(shù) T =?φ 的梯度。根據(jù)質(zhì)量守恒定律,即 T?α = β ,等價(jià)于說(shuō) φ 解決了 Monge-Ampère 方程:

逆向 Flow Map
擴(kuò)散模型需要考慮 β_0 = β 和 β_∞= α =N (0,Id) 之間的差值 β_t ,求解過(guò)程定義如下:

請(qǐng)注意,使用 y 來(lái)表示空間變量,因?yàn)檠莼悄嫦蜻M(jìn)行的,即從數(shù)據(jù) β 到后一個(gè)變量 α,它收斂于 β_∞= α。

將方程寫(xiě)成離散形式:

這表明,如果已經(jīng)計(jì)算出了 β_t,那么這種演化可以根據(jù)向量場(chǎng) v 演化粒子來(lái)獲得。

映射 S_t 就是 flow map :

逆向 Flow Map 不是最優(yōu)傳輸
人們很自然地想知道逆向 Flow Map
是否是 (1) 的解。在一維情況下,S_t 定義微分同胚( diffeomorphism),因此
是單調(diào)的,
也是單調(diào)的。因此,它是凸函數(shù)的梯度,根據(jù) Brenier 定理使其最優(yōu)。如果 β 是高斯分布,直到空間旋轉(zhuǎn)以使協(xié)方差對(duì)角化,則擴(kuò)散映射由沿每個(gè)軸的單調(diào)映射定義,并且也是最優(yōu)傳輸。
Lavenant 和 Santambrogio 通過(guò)矛盾證明,一般來(lái)說(shuō),逆向 flow map 并不是最優(yōu)傳輸。他們構(gòu)造了一個(gè)接近各向同性高斯 α 的 β,但他們沒(méi)有證明 β 的猜想是錯(cuò)誤的,而是證明存在一些 t ≥ 0,使得從 α 到 β_t 的逆向 Flow Map T_t 不是最優(yōu)傳輸。他們實(shí)際上表明,對(duì)于某些 t_0 > 0,T_t 并不是所有 t ∈ (0, t_0] 的最優(yōu)傳輸。
用 S_t 表示從 β_0 = β 到 β_t 的 Flow Map。如果猜想成立,則從 α 到 β_t 的逆向 Flow Map T_t 是所有 t 的最優(yōu)傳輸。根據(jù) Flow Map 的構(gòu)成規(guī)則,該 Map 為:

并且
目標(biāo)是證明:如果 β 選擇得當(dāng)(具體來(lái)說(shuō),非常接近 α,且特定的二階和四階對(duì)數(shù)密度導(dǎo)數(shù)為 0),那么 T_t 是所有 t 的最優(yōu)傳輸會(huì)導(dǎo)致矛盾。根據(jù) Brenier 定理,T_t 是最優(yōu)傳輸意味著它是凸函數(shù)的梯度,這相當(dāng)于:

結(jié)合:
- 對(duì) (7) 對(duì) t 求微分
- 對(duì)流 ODE (4) 對(duì) x 求微分
然后在 t = 0 時(shí)評(píng)估所獲得的方程,Hugo 和 Filippo 通過(guò)顯式計(jì)算表明,這會(huì)導(dǎo)致:

利用基本性質(zhì):A、B 對(duì)稱(chēng)且 AB 對(duì)稱(chēng)
則 (8) 意味著:

為了達(dá)到矛盾,假設(shè) G (y) 和 H (y) 對(duì)于所有 y 都是可交換的。由于
并且 T 和 S 是逆最優(yōu)傳輸映射,因此將
表示為 ψ 凸。Monge-Amp`ere 方程 (2) 意味著:

為了使 β 接近 α,請(qǐng)考慮:對(duì)于較小的 ε,

在泰勒級(jí)數(shù)中展開(kāi),經(jīng)過(guò)一些計(jì)算:

著眼于 y = 0,目標(biāo)是通過(guò)設(shè)計(jì) h 來(lái)達(dá)到矛盾,使得
和
不能交換。在 0 附近,h 必須至少是 4 次多項(xiàng)式。二維情況下的一個(gè)示例是:

產(chǎn)生:


































