何愷明CVPR最新講座PPT上線:走向端到端生成建模
今年的 CVPR 已經(jīng)在美國田納西州納什維爾順利閉幕。除了交流論文、互加好友,很多參會者還參加了個非常有意思的項目 —— 追星。
這個「星」自然是學(xué)術(shù)明星。從前方發(fā)來的實況來看,MIT 副教授何愷明可能是人氣最高的那一個。他的講座全場爆滿,還有很多同學(xué)曬出了與愷明大神的合影。

其實,這次現(xiàn)身 CVPR 會場的何愷明有著多重身份,包括但不限于最佳論文獎委員會成員、「Visual Generative Modeling: What’s After Diffusion?」workshop 演講嘉賓等。

這個 workshop 聚焦的主題是擴散模型之后的視覺生成建模演進(jìn)方向。
近年來,擴散模型迅速超越了先前的方法,成為視覺生成建模中的主導(dǎo)方法,廣泛應(yīng)用于圖像、視頻、3D 物體等的生成。然而,這些模型也存在一些顯著的局限性,例如生成速度較慢、生成過程中人類干預(yù)有限,以及在模擬復(fù)雜分布(如長視頻)時面臨挑戰(zhàn)。
這個 workshop 旨在探索視覺生成建模中能夠超越擴散模型的方法,何愷明在活動中做了主題為「Towards End-to-End Generative Modeling(走向端到端生成建模)」的分享。
近日,他的個人網(wǎng)頁上傳了 workshop 的 PPT,非常值得學(xué)習(xí)。

PPT 地址:https://people.csail.mit.edu/kaiming/cvpr25talk/cvpr2025_meanflow_kaiming.pdf
走向端到端生成建模
在 PPT 前幾頁,何愷明首先帶大家回顧了識別模型(recognition model)的演進(jìn)。在 AlexNet 之前,逐層訓(xùn)練更為流行,如深度信念網(wǎng)絡(luò)(DBN)和去噪自編碼器(DAE)。但 AlexNet 之后,識別模型普遍實現(xiàn)了端到端訓(xùn)練,大大簡化了模型設(shè)計和訓(xùn)練的復(fù)雜性。





有趣的是,今天的生成模型在概念上更像是逐層訓(xùn)練:Diffusion 模型通過 T 個去噪步驟逐步生成,自回歸模型通過 T 個 token 逐步生成,它們都需要多步推理過程。這讓我們不禁思考:歷史能否在生成模型領(lǐng)域重演?

從更高層面來看,識別與生成其實是同一枚硬幣的兩面。識別可以被看作是一個「抽象」的過程:我們從豐富的原始數(shù)據(jù)(如圖像像素)出發(fā),通過網(wǎng)絡(luò)的多層處理,逐步提取出越來越抽象的特征,直到最終得到一個高度抽象的分類標(biāo)簽或嵌入。
而生成則恰恰相反,它是一個「具體化」的過程:我們從一個抽象的表示(比如一個隨機噪聲或概念向量)開始,通過網(wǎng)絡(luò)的多步轉(zhuǎn)換,逐漸將其具體化,最終生成出具有復(fù)雜細(xì)節(jié)的真實數(shù)據(jù)。

下圖更直觀地描繪了這種「抽象」與「具體化」的對應(yīng)關(guān)系。底部代表原始數(shù)據(jù),頂部代表抽象的嵌入空間。表示學(xué)習(xí)是從數(shù)據(jù)向上流動,將數(shù)據(jù)映射到嵌入。而生成建模則是從嵌入向下流動,將嵌入轉(zhuǎn)換為數(shù)據(jù)。這個過程可以被視為數(shù)據(jù)在不同抽象層次之間的「流動」。





不過,識別和生成和生成有著本質(zhì)的不同。識別任務(wù)通常有一個確定的數(shù)據(jù)到標(biāo)簽的映射,但生成任務(wù)不然:我們希望從一個簡單的「噪聲」分布映射到復(fù)雜多變的數(shù)據(jù)分布。這個映射是高度非線性的,而且存在無限的可能性。
如何有效地「構(gòu)造」這個映射,是生成模型面臨的核心挑戰(zhàn)。連續(xù)歸一化流(Continuous Normalizing Flow),尤其是其中衍生的「流匹配」(Flow Matching)技術(shù),為解決這個問題提供了有希望的方向。

在講座中,何愷明提到了流匹配方向的幾篇代表性論文:

下圖直觀地展示了 Flow Matching 在生成模型領(lǐng)域中的位置:

何愷明還介紹了流匹配的一些技術(shù)細(xì)節(jié):


講到這里,何愷明總結(jié)出了幾個關(guān)鍵點:
- 識別與生成都可以被視為數(shù)據(jù)分布之間的一種「流」。
 - Flow Matching 為訓(xùn)練生成模型提供了一種強大的方法,它能夠構(gòu)建出 ground-truth 場,這些場是隱式存在的,并且與具體的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)無關(guān)。
 - 盡管我們希望實現(xiàn)精確的積分來生成,但在實踐中,我們通常采用有限求和的近似,這與 ResNet 的離散化方法類似,或者利用數(shù)值 ODE 求解器。
 - 我們的終極目標(biāo)是實現(xiàn)前饋式的、端到端的生成建模,擺脫多步迭代的依賴。
 

接下來,何愷明介紹了他們近期提出的新方法 ——「Mean Flows for One-step Generative Modeling」。它的核心思想是追求一步到位的生成。

具體來說,論文提出了一種名為 MeanFlow 的理論框架,用于實現(xiàn)單步生成任務(wù)。其核心思想是引入一個新的 ground-truth 場來表示平均速度,而不是流匹配中常用的瞬時速度。
論文推導(dǎo)出平均速度與瞬時速度之間存在一個內(nèi)在的關(guān)系,從而作為指導(dǎo)網(wǎng)絡(luò)訓(xùn)練的原則性基礎(chǔ)。
基于這一基本概念,論文訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò)來直接建模平均速度場,并引入損失函數(shù)來獎勵網(wǎng)絡(luò)滿足平均速度和瞬時速度之間的內(nèi)在關(guān)系。
以下是該論文的技術(shù)細(xì)節(jié) :










論文所提方法的實驗結(jié)果如下。MeanFlow 與之前的單步擴散 / 流模型進(jìn)行了比較,總體而言,MeanFlow 的表現(xiàn)遠(yuǎn)超同類:它實現(xiàn)了 3.43 的 FID,與 IMM 的單步結(jié)果 7.77 相比,相對提升了 50% 以上。如果僅比較 1-NFE(而不僅僅是單步)生成,MeanFlow 與之前的最佳方法(10.60)相比,相對提升了近 70%。不難看出,該方法在很大程度上縮小了單步和多步擴散 / 流模型之間的差距。





然后,他展示了一些 1-NFE 的生成結(jié)果。

接下來,何愷明致敬了整個社區(qū)在實現(xiàn)高效、端到端生成方面所做的共同努力。他列舉了幾個主要的研究方向:
- Consistency Models (CM):包括 Song 等人的原始工作,以及后續(xù)的改進(jìn)版本如 iCT、ECT、sCM。
 - Two-time-variable Models:例如 Consistency Trajectory Models (CTM)、Flow Map Matching、Shortcut Models 和 Inductive Moment Matching。
 - Revisiting Normalizing Flows:如 TarFlow 等。
 

最后,何愷明對整個方向進(jìn)行了展望,并提出了幾個問題:
- 我們是否還在生成模型的「AlexNet 前時代」?
 - 盡管 MeanFlow 已經(jīng)取得了顯著的進(jìn)步,但它在概念上仍然受限于迭代的 Flow Matching 和擴散模型框架。
 - MeanFlow 網(wǎng)絡(luò)扮演著雙重角色:它既要構(gòu)建從噪聲到數(shù)據(jù)的理想軌跡(這些軌跡是隱式存在但需要模型去捕捉的),又要通過「粗化」或概括這些場來簡化生成過程。
 - 那么,究竟什么是真正適用于端到端生成建模的良好公式?這是一個開放性的、激動人心的研究問題。
 
















 
 
 


















 
 
 
 