偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

何愷明團(tuán)隊(duì)又發(fā)新作: MeanFlow單步圖像生成SOTA,提升達(dá)50%

人工智能 新聞
本文提出了一種名為 MeanFlow 的理論框架,用于實(shí)現(xiàn)單步生成任務(wù)。其核心思想是引入一個(gè)新的 ground-truth 場來表示平均速度,而不是流匹配中常用的瞬時(shí)速度。

這段時(shí)間,大神何愷明真是接連不斷地發(fā)布新研究。

這不,5 月 19 日,他又放出一篇新作!作者團(tuán)隊(duì)來自 CMU 以及 MIT。

圖片

  • 論文標(biāo)題:Mean Flows for One-step Generative Modeling 
  • 論文地址:https://arxiv.org/pdf/2505.13447v1

文章提出了一種名為 MeanFlow 的單步生成建??蚣?,通過引入平均速度(average velocity)的概念來改進(jìn)現(xiàn)有的流匹配方法,并在 ImageNet 256×256 數(shù)據(jù)集上取得了顯著優(yōu)于以往單步擴(kuò)散 / 流模型的結(jié)果,F(xiàn)ID 分?jǐn)?shù)達(dá)到 3.43,且無需預(yù)訓(xùn)練、蒸餾或課程學(xué)習(xí)。

生成模型旨在將先驗(yàn)分布轉(zhuǎn)換為數(shù)據(jù)分布。流匹配提供了一個(gè)直觀且概念簡單的框架,用于構(gòu)建將一個(gè)分布傳輸?shù)搅硪粋€(gè)分布的流路徑。流匹配與擴(kuò)散模型密切相關(guān),但關(guān)注的是引導(dǎo)模型訓(xùn)練的速度場。自引入以來,流匹配已在現(xiàn)代生成模型中得到廣泛應(yīng)用。

本文提出了一種名為 MeanFlow 的理論框架,用于實(shí)現(xiàn)單步生成任務(wù)。其核心思想是引入一個(gè)新的 ground-truth 場來表示平均速度,而不是流匹配中常用的瞬時(shí)速度。

文章提出使用平均速度(在時(shí)間間隔內(nèi)的位移與時(shí)間的比值)來代替流匹配中通常建模的瞬時(shí)速度。然后本文推導(dǎo)出平均速度與瞬時(shí)速度之間存在一個(gè)內(nèi)在的關(guān)系,從而作為指導(dǎo)網(wǎng)絡(luò)訓(xùn)練的原則性基礎(chǔ)。

基于這一基本概念,本文訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)來直接建模平均速度場,并引入損失函數(shù)來獎勵(lì)網(wǎng)絡(luò)滿足平均速度和瞬時(shí)速度之間的內(nèi)在關(guān)系。

本文進(jìn)一步證明,該框架可以自然地整合無分類器引導(dǎo)(CFG),并且在采樣時(shí)無需額外成本。

MeanFlow 在單步生成建模中表現(xiàn)出了強(qiáng)大的性能。在 ImageNet 256×256 數(shù)據(jù)集上,僅使用 1-NFE(Number of Function Evaluations)就達(dá)到了 3.43 的 FID 分?jǐn)?shù)。這一結(jié)果顯著優(yōu)于之前同類方法的最佳水平,相對性能提升達(dá)到 50% 到 70%(見圖 1)。

圖片

此外,MeanFlow 是一個(gè)自成一體的生成模型:它完全從頭開始訓(xùn)練,沒有任何預(yù)訓(xùn)練、知識蒸餾或課程學(xué)習(xí)。該研究大幅縮小了單步擴(kuò)散 / 流模型與多步研究之間的差距。

方法介紹

MeanFlow 核心思想是引入一個(gè)代表平均速度的新場。

平均速度 u 可表示為:

圖片

其中,u 表示平均速度,v 表示瞬時(shí)速度。u (z_t,r,t) 是一個(gè)同時(shí)依賴于 (r, t) 的場。u 的場如圖 3 所示:

圖片

平均速度 u 是瞬時(shí)速度 v 的函數(shù),即圖片,它是由 v 誘導(dǎo)的場,不依賴于任何神經(jīng)網(wǎng)絡(luò)。

進(jìn)一步的,為了得到適合訓(xùn)練的公式,本文將 Eq.(3) 改寫為:

圖片

然后兩邊對 t 求導(dǎo),把 r 看作與 t 無關(guān)的變量,得到:

圖片

其中左側(cè)的運(yùn)算采用乘積法則,右側(cè)的運(yùn)算采用微積分。重新排列項(xiàng),得到恒等式:

圖片

這個(gè)方程稱為 MeanFlow 恒等式,它描述了 v 和 u 之間的關(guān)系。

圖 1 給出了最小化損失函數(shù)的偽代碼。

圖片

單步采樣

圖片

實(shí)驗(yàn)效果如何?

實(shí)驗(yàn)是在 256×256 ImageNet 數(shù)據(jù)集上進(jìn)行的。

圖 1 中,本文將 MeanFlow 與之前的單步擴(kuò)散 / 流模型進(jìn)行了比較,如表 2(左)所示。總體而言,MeanFlow 的表現(xiàn)遠(yuǎn)超同類:它實(shí)現(xiàn)了 3.43 的 FID,與 IMM 的單步結(jié)果 7.77 相比,相對提升了 50% 以上。

如果僅比較 1-NFE(而不僅僅是單步)生成,MeanFlow 與之前的最佳方法(10.60)相比,相對提升了近 70%。不難看出,本文方法在很大程度上縮小了單步和多步擴(kuò)散 / 流模型之間的差距。

圖片

在 2-NFE 生成中,MeanFlow 實(shí)現(xiàn)了 2.20 的 FID(表 2 左下)。這一結(jié)果與多步擴(kuò)散 / 流模型的領(lǐng)先基線模型相當(dāng),即 DiT (FID 2.27)和 SiT (FID 2.15),兩者的 NFE 均為 250×2(表 2 右)。

這一結(jié)果表明,few-step 擴(kuò)散 / 流模型可以媲美其多步模型。值得注意的是,本文方法是獨(dú)立的,完全從頭開始訓(xùn)練。它無需使用任何預(yù)訓(xùn)練、蒸餾或課程學(xué)習(xí),就取得了出色的結(jié)果。

表 3 報(bào)告了在 CIFAR-10(32×32)上的無條件生成結(jié)果,本文方法與先前的方法相比具有競爭力。

圖片

表 1 為消融實(shí)驗(yàn)結(jié)果:

圖片

最后,展示一些 1-NFE 的生成結(jié)果。

圖片

更多詳情請參閱原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-12-08 14:14:00

模型訓(xùn)練

2025-03-12 14:46:06

2025-02-26 11:14:10

2025-06-05 13:35:33

MeanFlowFIDDDPM

2024-03-25 10:15:58

AI數(shù)據(jù)

2024-06-24 08:10:00

2023-07-31 11:20:18

AI研究

2025-06-20 09:14:00

2022-05-31 10:34:04

研究訓(xùn)練模型

2025-06-26 09:00:37

2025-03-24 09:08:00

2025-03-17 08:20:00

神經(jīng)網(wǎng)絡(luò)AI模型

2025-02-21 09:40:00

模型訓(xùn)練數(shù)據(jù)

2024-10-21 11:15:00

2025-02-26 13:23:08

2023-08-16 15:50:00

科學(xué)計(jì)算

2024-10-06 12:32:42

2025-06-26 08:56:59

2023-11-02 12:37:25

訓(xùn)練數(shù)據(jù)

2025-06-26 15:10:22

DeepMindAI工程團(tuán)隊(duì)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號