偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

擴(kuò)散模型背后數(shù)學(xué)太難了,啃不動(dòng)?谷歌用統(tǒng)一視角講明白了

人工智能 新聞
擴(kuò)散模型背后的數(shù)學(xué)可是難倒了一批人。

最近一段時(shí)間,AI 作畫可謂是火的一塌糊涂。

在你驚嘆 AI 繪畫能力的同時(shí),可能還不知道的是,擴(kuò)散模型在其中起了大作用。就拿熱門模型 OpenAI 的 DALL·E 2 來說,只需輸入簡單的文本(prompt),它就可以生成多張 1024*1024 的高清圖像。

在 DALL·E 2 公布沒多久,谷歌隨后發(fā)布了 Imagen,這是一個(gè)文本到圖像的 AI 模型,它能夠通過給定的文本描述生成該場景下逼真的圖像。

就在前幾天,Stability.Ai 公開發(fā)布文本生成圖像模型 Stable Diffusion 的最新版本,其生成的圖像達(dá)到商用級別。

自 2020 年谷歌發(fā)布 DDPM 以來,擴(kuò)散模型就逐漸成為生成領(lǐng)域的一個(gè)新熱點(diǎn)。之后 OpenAI 推出 GLIDE、ADM-G 模型等,都讓擴(kuò)散模型火出圈。

很多研究者認(rèn)為,基于擴(kuò)散模型的文本圖像生成模型不但參數(shù)量小,生成的圖像質(zhì)量卻更高,大有要取代 GAN 的勢頭。

不過,擴(kuò)散模型背后的數(shù)學(xué)公式讓許多研究者望而卻步,眾多研究者認(rèn)為,其比 VAE、GAN 要難理解得多。

近日,來自 Google Research 的研究者撰文《 Understanding Diffusion Models: A Unified Perspective 》,本文以極其詳細(xì)的方式展示了擴(kuò)散模型背后的數(shù)學(xué)原理,目的是讓其他研究者可以跟隨并了解擴(kuò)散模型是什么以及它們是如何工作的。圖片

論文地址:https://arxiv.org/pdf/2208.11970.pdf至于這篇論文有多「數(shù)學(xué)」,論文作者是這樣描述的:我們以及其令人痛苦的細(xì)節(jié)(excruciating detail)展示了這些模型背后的數(shù)學(xué)。

論文共分為 6 部分,主要包括生成模型;ELBO、VAE 和分級 VAE;變分?jǐn)U散模型;基于分?jǐn)?shù)的生成模型等。

圖片

以下摘取了論文部分內(nèi)容進(jìn)行介紹:

生成模型?

給定分布中的觀察樣本 x,生成模型的目標(biāo)是學(xué)習(xí)為其真實(shí)數(shù)據(jù)分布 p(x) 進(jìn)行建模。模型學(xué)習(xí)完之后,我們就可以生成新的樣本。此外,在某些形式下,我們也可以使用學(xué)習(xí)模型來進(jìn)行評估觀察或?qū)?shù)據(jù)進(jìn)行采樣。

當(dāng)前研究文獻(xiàn)中,有幾個(gè)重要方向,本文只在高層次上簡要介紹,主要包括:GAN,其對復(fù)雜分布的采樣過程進(jìn)行建模,該過程以對抗方式學(xué)習(xí)。生成模型,我們也可稱之為「基于似然,likelihood-based」的方法,這類模型可以將高似然分配給觀察到的數(shù)據(jù)樣本,通常包括自回歸、歸一化流、VAE?;谀芰康慕?,在這種方法中,分布被學(xué)習(xí)為任意靈活的能量函數(shù),然后被歸一化。在基于分?jǐn)?shù)的生成模型中,其沒有學(xué)習(xí)對能量函數(shù)本身進(jìn)行建模,而是將基于能量模型的分?jǐn)?shù)學(xué)習(xí)為神經(jīng)網(wǎng)絡(luò)。?

在這項(xiàng)研究中,本文探索和回顧了擴(kuò)散模型,正如文中展示的那樣,它們具有基于可能性和基于分?jǐn)?shù)的解釋。

變分?jǐn)U散模型?

以簡單的方式來看,一個(gè)變分?jǐn)U散模型(Variational Diffusion Model, VDM)可以被考慮作為具有三個(gè)主要限制(或假設(shè))的馬爾可夫分層變分自編碼器(MHVAE),它們分別為:

  • 潛在維度完全等同于數(shù)據(jù)維度;
  • 每個(gè)時(shí)間步上潛在編碼器的結(jié)構(gòu)沒有被學(xué)到,它被預(yù)定義為線性高斯模型。換言之,它是以之前時(shí)間步的輸出為中心的高斯分布;
  • 潛在編碼器的高斯參數(shù)隨時(shí)間變化,過程中最終時(shí)間步 T 的潛在分布標(biāo)是準(zhǔn)高斯分布。

圖片

變分?jǐn)U散模型的視覺展示圖

此外,研究者明確維護(hù)了來自標(biāo)準(zhǔn)馬爾可夫分層變分自編碼器的分層轉(zhuǎn)換之間的馬爾可夫?qū)傩浴K麄儗σ陨先齻€(gè)主要假設(shè)的含義一一做了擴(kuò)展。

從第一個(gè)假設(shè)開始,由于符號的濫用,現(xiàn)在可以將真實(shí)數(shù)據(jù)樣本和潛在變量表示為 x_t,其中 t=0 表示真實(shí)樣本數(shù)據(jù),t ∈ [1, T] 表示相應(yīng)的潛在變量,它的層級結(jié)構(gòu)由 t 進(jìn)行索引。VDM 后驗(yàn)與 MHVAE 后驗(yàn)相同,但現(xiàn)在可以重寫為如下:

圖片

從第二個(gè)假設(shè),已知的是編碼器中每個(gè)潛在變量的分布都是以之前分層潛在變量為中心的高斯分布。與 MHVAE 不同的是,編碼器在每個(gè)時(shí)間步上的結(jié)構(gòu)沒有被學(xué)到,它被固定為一個(gè)線性高斯模型,其中均值和標(biāo)準(zhǔn)差都可以預(yù)先設(shè)置為超參數(shù)或者作為參數(shù)學(xué)得。在數(shù)學(xué)上,編碼器轉(zhuǎn)換表示為如下:

圖片

對第三個(gè)假設(shè),α_t 根據(jù)固定或可學(xué)得的 schedule 而隨時(shí)間演化,使得最終潛在變量 p(x_T) 的分布為標(biāo)準(zhǔn)高斯分布。然后可以更新 MHVAE 的聯(lián)合分布,將 VDM 的聯(lián)合分布寫為如下:

圖片

總的來說,這一系列假設(shè)描述了一個(gè)圖像隨時(shí)間演化的穩(wěn)定噪聲。研究者通過添加高斯噪聲漸進(jìn)地破壞圖像,直到最終變得與高斯噪聲完全相同。

與任何 HVAE 相似的是,VDM 可以通過最大化證據(jù)下界(Evidence Lower Bound, ELBO)來優(yōu)化,可以推導(dǎo)如下:

圖片

ELBO 的解釋過程如下圖 4 所示:

圖片

三種等價(jià)的解釋

正如之前證明的,一個(gè)變分?jǐn)U散模型可以簡單地通過學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)來訓(xùn)練,以從任意噪聲版本 x_t 及其時(shí)間索引 t 中預(yù)測原始自然圖像 x_0。但是,x_0 有兩個(gè)等價(jià)的參數(shù)化,使得可以對 VDM 展開兩種進(jìn)一步的解釋。

首先可以利用重參數(shù)化技巧。在推導(dǎo) q(x_t|x_0) 的形式時(shí),文中公式 69 可以被重新排列為如下:

圖片

將其帶入之前推導(dǎo)出的真實(shí)去噪轉(zhuǎn)換均值 μ_q(x_t, x_0),則可以重新推導(dǎo)如下:圖片

因此可以將近似去噪轉(zhuǎn)換均值 μ_θ(x_t, t) 設(shè)置為如下:

圖片

并且相應(yīng)的優(yōu)化問題變成如下:

圖片

為了推導(dǎo)出變分?jǐn)U散模型的三種常見解釋,需要求助于 Tweedie 公式,它指的是當(dāng)給定樣本時(shí),指數(shù)族分布的真實(shí)均值可以通過樣本的最大似然估計(jì)(也稱為經(jīng)驗(yàn)均值)加上一些涉及估計(jì)分?jǐn)?shù)的校正項(xiàng)來估計(jì)。

從數(shù)學(xué)上講,對于一個(gè)高斯變量 z ~ N (z; μ_z, Σ_z),Tweedie 公式表示如下:

圖片

基于分?jǐn)?shù)的生成模型

研究者已經(jīng)表明,變分?jǐn)U散模型可以簡單地通過優(yōu)化一個(gè)神經(jīng)網(wǎng)絡(luò) s_θ(x_t, t) 來學(xué)得,以預(yù)測一個(gè)得分函數(shù)? log p(x_t)。但是,推導(dǎo)中的得分項(xiàng)來自 Tweedie 公式的應(yīng)用。這并不一定為解讀得分函數(shù)究竟是什么或者它為什么值得建模提供好的直覺或洞見。?

好在可以借助另一類生成模型,即基于分?jǐn)?shù)的生成模型,來獲得這種直覺。研究者的確證明了之前推導(dǎo)出的 VDM 公式具有等價(jià)的基于分?jǐn)?shù)的生成建模公式,使得可以在這兩種解釋之間靈活切換。?

為了理解為什么優(yōu)化一個(gè)得分函數(shù)是有意義的,研究者重新審視了基于能量的模型。任意靈活的概率分布可以寫成如下形式:?

圖片

避免計(jì)算或建模歸一化常數(shù)的一種方式是使用神經(jīng)網(wǎng)絡(luò) s_θ(x) 來學(xué)習(xí)分布 p(x) 的得分函數(shù)? log p(x)。這是觀察到了公式 152 兩邊可以進(jìn)行對數(shù)求導(dǎo):?

圖片

它可以自由地表示為神經(jīng)網(wǎng)絡(luò),不涉及任何歸一化常數(shù)。通過利用真值得分函數(shù)最小化 Fisher 散度,可以優(yōu)化得分函數(shù)。?

圖片

直觀地講,得分函數(shù)在數(shù)據(jù) x 所在的整個(gè)空間上定義了一個(gè)向量場,并指向模型,具體如下圖 6 所示。

圖片

最終,研究者從訓(xùn)練目標(biāo)和抽樣過程兩方面,建立了變分?jǐn)U散模型和基于分?jǐn)?shù)的生成模型之間的顯式關(guān)聯(lián)。

更多細(xì)節(jié)內(nèi)容請參閱原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-01-07 08:40:00

視頻生成AI

2021-10-09 00:02:04

DevOps敏捷開發(fā)

2021-06-13 12:03:46

SaaS軟件即服務(wù)

2022-03-27 20:32:28

Knative容器事件模型

2022-04-27 10:14:43

進(jìn)程調(diào)度LinuxCPU

2021-06-29 11:21:41

數(shù)據(jù)安全網(wǎng)絡(luò)安全黑客

2022-07-31 20:29:28

日志系統(tǒng)

2021-03-03 21:31:24

量化投資利潤

2022-01-05 18:27:44

數(shù)據(jù)挖掘工具

2020-11-30 08:34:44

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2022-04-12 18:29:41

元數(shù)據(jù)系統(tǒng)架構(gòu)

2022-04-22 11:26:55

數(shù)據(jù)管理架構(gòu)

2021-02-14 00:21:37

區(qū)塊鏈數(shù)字貨幣金融

2022-03-16 07:58:02

OOMdubbo內(nèi)存

2022-04-15 19:48:49

上海疫情居家辦公

2021-10-17 20:38:30

微服務(wù)內(nèi)存組件

2021-08-31 19:14:38

技術(shù)埋點(diǎn)運(yùn)營

2021-12-03 18:25:56

數(shù)據(jù)指標(biāo)本質(zhì)

2021-03-25 11:24:25

爬蟲技術(shù)開發(fā)

2022-04-27 18:25:02

數(shù)據(jù)采集維度
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號