偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

近500頁(yè)史上最全擴(kuò)散模型修煉寶典,宋飏等人一書(shū)覆蓋三大主流視角

人工智能 新聞
關(guān)于擴(kuò)散模型的一切,宋飏等人寫(xiě)成了 460 多頁(yè)的書(shū)。

擴(kuò)散模型(Diffusion Models) ,幾乎重塑了整個(gè)生成式 AI 的版圖。從圖像到音頻,從視頻到 3D 世界。

然而,當(dāng)人們真正想理解它的原理時(shí),卻往往不得不在海量論文之間反復(fù)查找、跳轉(zhuǎn)、拼湊概念。

如果你也曾厭倦了一遍又一遍地翻閱原始論文,這本專著《The Principles of Diffusion Models》,將成為你系統(tǒng)理解擴(kuò)散模型的可靠指南與理論起點(diǎn)。

作者團(tuán)隊(duì)來(lái)自 Sony AI、OpenAI 和斯坦福大學(xué)。值得一提的是,書(shū)籍作者之一、原 OpenAI 戰(zhàn)略探索團(tuán)隊(duì)負(fù)責(zé)人宋飏(Yang Song)也在作者欄中,不過(guò),上個(gè)月,宋飏已經(jīng)加入 Meta,成為 Meta 超級(jí)智能實(shí)驗(yàn)室(MSL)研究負(fù)責(zé)人。

本書(shū)系統(tǒng)梳理了擴(kuò)散模型的發(fā)展脈絡(luò)與核心思想,并深入解析了這些模型如何工作、為何有效、以及未來(lái)將走向何方。它不僅回顧了理論起點(diǎn),也以統(tǒng)一的數(shù)學(xué)框架串聯(lián)了變分、得分與流等多種視角。

可以說(shuō),本書(shū)既是研究者的系統(tǒng)參考資料,也是初學(xué)者進(jìn)入擴(kuò)散模型世界的友好入門(mén)讀物。

書(shū)籍地址:https://arxiv.org/pdf/2510.21890

不過(guò),理解該書(shū)需要一定的基礎(chǔ)(因?yàn)?460 多頁(yè)的研究幾乎每一章都貫穿著嚴(yán)密的數(shù)學(xué)推導(dǎo)與公式展開(kāi)),主要面向具有深度學(xué)習(xí)基礎(chǔ),或具備深度生成建模初步認(rèn)識(shí)的研究人員、研究生及從業(yè)者。

通過(guò)閱讀本書(shū),讀者將能夠清晰了解到擴(kuò)散模型的起源、主要公式之間的聯(lián)系,以及當(dāng)今方法如何實(shí)現(xiàn)可控性和速度,從而催生下一代基于擴(kuò)散的生成模型:流圖模型族。此外,你還可以學(xué)到:

  • 統(tǒng)一的視角,將變分自編碼器 (VAE)、基于得分(基于能量)和基于流(歸一化流)的方法聯(lián)系起來(lái) —— 所有這些方法都可視為變量隨時(shí)間變化的簡(jiǎn)單過(guò)程。
  • 引導(dǎo)和數(shù)值求解器如何使生成過(guò)程更快、更可控。
  • 流圖模型(例如,一致性模型、一致性軌跡模型、平均流)的興起如何塑造下一代生成式人工智能。

有網(wǎng)友表示:「這是一本非常詳盡的關(guān)于擴(kuò)散模型原理的書(shū)籍。通過(guò)仔細(xì)閱讀,我們可以學(xué)習(xí)擴(kuò)散模型背后的所有核心概念?!?/span>

以下篇幅,我們將整理本文的基本內(nèi)容和結(jié)構(gòu),簡(jiǎn)要概括這一史上最全的擴(kuò)散模型理論研究的核心亮點(diǎn)。

核心內(nèi)容

與傳統(tǒng)生成模型直接學(xué)習(xí)從噪聲到數(shù)據(jù)的映射不同,擴(kuò)散模型將生成過(guò)程視為一種隨時(shí)間逐步演化的變換,通過(guò)多階段的推理不斷將粗略結(jié)構(gòu)細(xì)化為精致細(xì)節(jié)。圍繞這一核心思想,該領(lǐng)域的研究者從三種主要視角對(duì)其進(jìn)行了發(fā)展:變分方法(variational)、基于得分的方法(score-based)和基于流的方法(flow-based)—— 這些視角為理解與實(shí)現(xiàn)擴(kuò)散建模提供了互補(bǔ)的框架。

在此基礎(chǔ)上,研究者進(jìn)一步探討擴(kuò)散模型如何實(shí)現(xiàn)更高效的樣本生成、在生成過(guò)程中獲得更強(qiáng)的可控性,并推動(dòng)基于擴(kuò)散原理的獨(dú)立生成建模形式的發(fā)展。

擴(kuò)散模型的基礎(chǔ)原理

本部分回溯擴(kuò)散模型的起源,系統(tǒng)梳理塑造該領(lǐng)域的三種奠基性視角。

擴(kuò)散模型的統(tǒng)一化與原理化視角。

該圖以可視化方式展示了經(jīng)典生成建模方法 —— 變分自編碼器(VAE)、能量模型(EBM) 與歸一化流(NF)—— 與其在擴(kuò)散模型中的對(duì)應(yīng)形式之間的聯(lián)系。每一條垂直路徑代表一條概念脈絡(luò),最終匯聚于連續(xù)時(shí)間框架。這三種視角提供了不同但在數(shù)學(xué)上等價(jià)的解釋路徑,共同構(gòu)成了擴(kuò)散建模的統(tǒng)一理論圖景。

Part A:深度生成建模導(dǎo)論

本文作者在第 1 章從回顧深度生成建模的基本目標(biāo)出發(fā)。其核心任務(wù)是:給定一組數(shù)據(jù)樣本,構(gòu)建一個(gè)能夠生成新的樣本的模型,使這些生成樣本看起來(lái)仿佛來(lái)自同一個(gè)潛在的(通常未知的)數(shù)據(jù)分布。

多種方法通過(guò)不同途徑實(shí)現(xiàn)這一目標(biāo):有的顯式地通過(guò)概率模型學(xué)習(xí)數(shù)據(jù)的分布,有的則隱式地通過(guò)學(xué)習(xí)一種從噪聲到數(shù)據(jù)的變換。本文將闡述這些模型如何利用神經(jīng)網(wǎng)絡(luò)表示數(shù)據(jù)分布、如何從樣本中學(xué)習(xí),以及如何生成新的樣本。

本章最后給出了主要生成建模框架的分類體系,并突出它們的核心思想與關(guān)鍵區(qū)別,為理解后續(xù)的擴(kuò)散模型奠定基礎(chǔ)。

擴(kuò)散模型研究視角的時(shí)間線。

Part B:擴(kuò)散模型的核心視角

在前一部分介紹了深度生成建模的總體目標(biāo)與機(jī)制之后,本部分將焦點(diǎn)轉(zhuǎn)向擴(kuò)散模型 —— 這一類將生成過(guò)程視為 “從噪聲到數(shù)據(jù)的逐步轉(zhuǎn)化” 的方法。本文探討三種相互關(guān)聯(lián)的理論框架,它們都包含兩個(gè)關(guān)鍵過(guò)程:

正向過(guò)程(forward process):逐步向數(shù)據(jù)中加入噪聲;反向過(guò)程(reverse-time process):通過(guò)一系列模型近似地實(shí)現(xiàn)逐步去噪。

  • 變分視角(Variational View, 第 2 章)

源自變分自編碼器(Variational Autoencoders, VAE),該視角將擴(kuò)散過(guò)程理解為通過(guò)變分目標(biāo)學(xué)習(xí)去噪過(guò)程的建模方式,從而形成了去噪擴(kuò)散概率模型(Denoising Diffusion Probabilistic Models, DDPMs)。這一視角為擴(kuò)散建模提供了概率推斷與優(yōu)化的基礎(chǔ)。

  • 得分視角(Score-Based View, 第 3–4 章)

起源于能量模型(Energy-Based Models, EBMs),并在噪聲條件得分網(wǎng)絡(luò)(Noise Conditional Score Networks, NCSN)中得到發(fā)展。該方法通過(guò)學(xué)習(xí)得分函數(shù) —— 即對(duì)數(shù)數(shù)據(jù)密度的梯度 —— 來(lái)指導(dǎo)如何逐步去除噪聲。

在連續(xù)時(shí)間設(shè)定下,第 4 章進(jìn)一步提出 Score SDE 框架,將去噪過(guò)程描述為隨機(jī)微分方程,并指出其確定性對(duì)應(yīng)形式是常微分方程。這一視角將擴(kuò)散建模與經(jīng)典微分方程理論緊密相連,為算法分析與設(shè)計(jì)提供了堅(jiān)實(shí)的數(shù)學(xué)依據(jù)。

  • 流視角(Flow-Based View, 第 5 章)

基于歸一化流(Normalizing Flows),并由流匹配(Flow Matching)進(jìn)一步推廣。該視角將生成建模表述為一種連續(xù)的流動(dòng)變換,通過(guò) ODE 描述樣本從簡(jiǎn)單先驗(yàn)分布逐步 “運(yùn)輸” 至數(shù)據(jù)分布的過(guò)程。其演化由速度場(chǎng)控制,明確刻畫(huà)了概率質(zhì)量隨時(shí)間的變化方式。

這種基于流的表述不僅適用于從先驗(yàn)到數(shù)據(jù)的生成任務(wù),還可推廣至更一般的分布到分布(distribution-to-distribution)轉(zhuǎn)換問(wèn)題,即學(xué)習(xí)連接任意源分布與目標(biāo)分布的流動(dòng)過(guò)程。

  • 各視角的統(tǒng)一與聯(lián)系(第 6 章)

雖然上述三種視角在形式上有所不同,但第 6 章展示了它們之間的深層統(tǒng)一性:

  • 它們都通過(guò)某種條件化策略將學(xué)習(xí)目標(biāo)轉(zhuǎn)化為可處理的回歸問(wèn)題;
  • 更本質(zhì)地,它們都描述了同一個(gè)概率分布隨時(shí)間演化的過(guò)程,即從先驗(yàn)分布逐漸演化至數(shù)據(jù)分布。這種演化遵循 Fokker–Planck 方程,可視為密度的連續(xù)時(shí)間變量變換,從而在隨機(jī)與確定性表述之間保持一致性。
  • 擴(kuò)散模型與最優(yōu)傳輸?shù)穆?lián)系(第 7 章)

由于擴(kuò)散模型本質(zhì)上可視為一種分布傳輸方法,第 7 章進(jìn)一步探討其與經(jīng)典最優(yōu)傳輸理論及薛定諤橋(Schr?dinger bridge)之間的聯(lián)系 —— 后者可視為帶熵正則化的最優(yōu)傳輸問(wèn)題。

本章回顧了靜態(tài)與動(dòng)態(tài)兩種表述形式,并解釋它們與連續(xù)性方程及 Fokker–Planck 方程之間的關(guān)系。

擴(kuò)散采樣的控制與加速

在統(tǒng)一了擴(kuò)散模型的基礎(chǔ)原理之后,我們將目光轉(zhuǎn)向其高效生成的實(shí)際應(yīng)用層面。從擴(kuò)散模型中進(jìn)行采樣,本質(zhì)上相當(dāng)于求解一個(gè)微分方程。然而,這一過(guò)程通常計(jì)算代價(jià)較高。本部分重點(diǎn)探討如何通過(guò)改進(jìn)的采樣方法和學(xué)習(xí)型加速技術(shù)來(lái)提升生成的質(zhì)量、可控性與效率。

Part C:從擴(kuò)散模型中進(jìn)行采樣

擴(kuò)散模型的生成過(guò)程呈現(xiàn)出一種獨(dú)特的由粗到細(xì)逐步精化的特征:模型通過(guò)逐步去除噪聲,使生成樣本的結(jié)構(gòu)與細(xì)節(jié)逐漸變得更加連貫和清晰。

這種特性帶來(lái)了性能與效率之間的權(quán)衡:

  • 優(yōu)勢(shì):該過(guò)程允許對(duì)生成進(jìn)行細(xì)粒度的控制。通過(guò)在學(xué)習(xí)得到的、隨時(shí)間變化的速度場(chǎng)中加入引導(dǎo)項(xiàng),可以在微分方程(ODE)流動(dòng)的軌跡上施加外部約束,從而根據(jù)用戶意圖引導(dǎo)生成過(guò)程,實(shí)現(xiàn)對(duì)輸出結(jié)果的可控性。
  • 劣勢(shì):由于生成過(guò)程依賴于多步迭代積分,其采樣速度通常顯著慢于單步生成模型。

本部分重點(diǎn)探討在推理階段(inference time)提升生成性能的方法,即在無(wú)需重新訓(xùn)練模型的前提下,提高擴(kuò)散模型的生成質(zhì)量、可控性與采樣效率。

  • 引導(dǎo)式生成(第 8 章)

本章介紹了諸如分類器引導(dǎo)(classifier guidance)與無(wú)分類器引導(dǎo)(classifier-free guidance)等方法,使生成過(guò)程能夠根據(jù)用戶定義的目標(biāo)或?qū)傩赃M(jìn)行條件控制。在此基礎(chǔ)上,本文進(jìn)一步討論如何通過(guò)引入偏好數(shù)據(jù)集,使擴(kuò)散模型的生成行為與人類偏好更加一致,從而實(shí)現(xiàn)偏好對(duì)齊。

  • 基于數(shù)值求解器的快速生成(第 9 章)

通過(guò)采用先進(jìn)的數(shù)值求解器,可以在更少的反向積分步驟中近似模擬擴(kuò)散反過(guò)程,從而在顯著降低計(jì)算成本的同時(shí)保持生成質(zhì)量。這種方法在不犧牲樣本保真度與多樣性的前提下,能夠?qū)崿F(xiàn)高效、穩(wěn)定的快速采樣。

Part D:快速生成模型的學(xué)習(xí)

在改進(jìn)傳統(tǒng)采樣算法的基礎(chǔ)上,本部分進(jìn)一步探討如何直接學(xué)習(xí)能夠近似擴(kuò)散過(guò)程的快速生成模型,以實(shí)現(xiàn)高效的樣本生成。該思路的核心在于不再依賴多步積分推理,而是通過(guò)模型學(xué)習(xí)獲得對(duì)擴(kuò)散動(dòng)態(tài)的直接近似,從根本上提升生成速度與可擴(kuò)展性。

  • 基于蒸餾的方法(Distillation-Based Methods, 第 10 章)

此類方法的主要思想是:訓(xùn)練一個(gè)學(xué)生模型模仿一個(gè)已訓(xùn)練好的、較慢的教師擴(kuò)散模型的行為。

與傳統(tǒng)的模型壓縮不同,這里的目標(biāo)并非縮減教師模型的參數(shù)規(guī)模,而是讓學(xué)生模型能夠以顯著更少的積分步數(shù) —— 通常僅需幾步甚至單步 —— 重現(xiàn)教師模型的采樣軌跡或輸出分布。這種基于蒸餾的加速策略能夠在保持生成質(zhì)量與分布一致性的前提下,大幅降低生成時(shí)間,實(shí)現(xiàn)快速推理。

  • 從零開(kāi)始的學(xué)習(xí)(第 11 章)

鑒于擴(kuò)散模型的采樣過(guò)程可形式化為常微分方程的求解,該方法旨在直接從零開(kāi)始學(xué)習(xí)該 ODE 的解映射,亦即流映射(flow map),而無(wú)需依賴任何教師模型。

通過(guò)這一方式,模型可以:直接將噪聲映射為數(shù)據(jù)樣本;或者在解軌跡上執(zhí)行任意時(shí)刻到任意時(shí)刻的跳躍式生成,從而高效地模擬擴(kuò)散動(dòng)態(tài)。

這種從零學(xué)習(xí)的框架消除了多步采樣的時(shí)間瓶頸,為端到端的快速生成系統(tǒng)提供了嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)基礎(chǔ)與可行的實(shí)現(xiàn)路徑。

本書(shū)的涵蓋范圍

本書(shū)的編寫(xiě)目標(biāo)是建立具有持久價(jià)值的理論體系。從自上而下的視角出發(fā),全書(shū)圍繞一個(gè)統(tǒng)一的核心原理展開(kāi):

構(gòu)建連續(xù)時(shí)間動(dòng)力系統(tǒng),使其能夠?qū)⒁粋€(gè)簡(jiǎn)單的先驗(yàn)分布逐漸傳輸至數(shù)據(jù)分布,并確保在任意時(shí)刻,其邊緣分布與由數(shù)據(jù)向噪聲的預(yù)設(shè)正向過(guò)程所誘導(dǎo)的邊緣分布一致。

基于這一原理,本書(shū)系統(tǒng)地推導(dǎo)與闡述了擴(kuò)散模型的基本機(jī)制:

  • 構(gòu)建了支持采樣的隨機(jī)流與確定性流(stochastic and deterministic flows);
  • 說(shuō)明了如何通過(guò)引導(dǎo)機(jī)制(guidance)對(duì)生成軌跡進(jìn)行控制;
  • 并闡明了如何利用數(shù)值求解器(numerical solvers)實(shí)現(xiàn)采樣過(guò)程的加速。

在此基礎(chǔ)上,本文探討了源于擴(kuò)散原理的快速生成模型,包括基于蒸餾的方法和流映射模型。

通過(guò)這些內(nèi)容,讀者將能夠:

  • 在統(tǒng)一的理論框架下準(zhǔn)確定位新提出的研究工作;
  • 理解不同方法背后的原理邏輯與聯(lián)系;
  • 并具備設(shè)計(jì)與改進(jìn)新一代生成模型的能力。

然而,本書(shū)并不試圖成為擴(kuò)散模型領(lǐng)域的全面綜述,也不涉及以下快速演進(jìn)且依賴經(jīng)驗(yàn)的內(nèi)容:

  • 各類模型架構(gòu)設(shè)計(jì)、訓(xùn)練策略與超參數(shù)選擇;
  • 各方法間的實(shí)證性能比較,數(shù)據(jù)集與排行榜;
  • 特定領(lǐng)域或模態(tài)的應(yīng)用實(shí)例;
  • 系統(tǒng)級(jí)部署方案與大規(guī)模訓(xùn)練范式以及硬件實(shí)現(xiàn)與工程優(yōu)化。

這些主題更新迅速,更適合通過(guò)專題綜述、開(kāi)放源碼倉(cāng)庫(kù)及實(shí)現(xiàn)指南加以介紹與總結(jié)。

更多詳細(xì)信息和技術(shù)細(xì)節(jié),請(qǐng)參閱原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2019-12-23 15:23:12

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-10-17 14:15:00

模型AI

2024-01-23 11:31:24

模型AI

2024-10-24 14:40:00

AI模型

2023-04-13 13:24:38

OpenAI模型圖片

2025-01-13 07:00:00

2024-01-02 09:49:19

AI研究調(diào)查

2025-05-08 01:00:00

Nginx算法負(fù)載均衡

2023-11-23 07:41:54

因果推斷大模型

2012-07-13 10:17:33

Chaos網(wǎng)絡(luò)事件

2022-08-28 16:20:44

模型數(shù)學(xué)

2015-07-15 13:45:51

SQLServer讀書(shū)筆記

2025-01-07 08:40:00

視頻生成AI

2025-10-27 09:11:00

2024-05-17 10:00:52

系統(tǒng)監(jiān)控日志記錄性能指標(biāo)

2023-11-05 10:04:47

2011-04-02 14:49:27

2011-04-02 14:52:52

2017-04-24 16:24:23

JMeter實(shí)戰(zhàn)軟件性能測(cè)試

2019-01-02 13:34:13

Python IDEGeditEclipse
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)