偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

擴散模型背后數(shù)學(xué)太難了,啃不動?谷歌用統(tǒng)一視角講明白了

人工智能 新聞
擴散模型背后的數(shù)學(xué)可是難倒了一批人。

最近一段時間,AI 作畫可謂是火的一塌糊涂。

在你驚嘆 AI 繪畫能力的同時,可能還不知道的是,擴散模型在其中起了大作用。就拿熱門模型 OpenAI 的 DALL·E 2 來說,只需輸入簡單的文本(prompt),它就可以生成多張 1024*1024 的高清圖像。

在 DALL·E 2 公布沒多久,谷歌隨后發(fā)布了 Imagen,這是一個文本到圖像的 AI 模型,它能夠通過給定的文本描述生成該場景下逼真的圖像。

就在前幾天,Stability.Ai 公開發(fā)布文本生成圖像模型 Stable Diffusion 的最新版本,其生成的圖像達到商用級別。

自 2020 年谷歌發(fā)布 DDPM 以來,擴散模型就逐漸成為生成領(lǐng)域的一個新熱點。之后 OpenAI 推出 GLIDE、ADM-G 模型等,都讓擴散模型火出圈。

很多研究者認為,基于擴散模型的文本圖像生成模型不但參數(shù)量小,生成的圖像質(zhì)量卻更高,大有要取代 GAN 的勢頭。

不過,擴散模型背后的數(shù)學(xué)公式讓許多研究者望而卻步,眾多研究者認為,其比 VAE、GAN 要難理解得多。

近日,來自 Google Research 的研究者撰文《 Understanding Diffusion Models: A Unified Perspective 》,本文以極其詳細的方式展示了擴散模型背后的數(shù)學(xué)原理,目的是讓其他研究者可以跟隨并了解擴散模型是什么以及它們是如何工作的。圖片

論文地址:https://arxiv.org/pdf/2208.11970.pdf至于這篇論文有多「數(shù)學(xué)」,論文作者是這樣描述的:我們以及其令人痛苦的細節(jié)(excruciating detail)展示了這些模型背后的數(shù)學(xué)。

論文共分為 6 部分,主要包括生成模型;ELBO、VAE 和分級 VAE;變分擴散模型;基于分數(shù)的生成模型等。

圖片

以下摘取了論文部分內(nèi)容進行介紹:

生成模型?

給定分布中的觀察樣本 x,生成模型的目標是學(xué)習(xí)為其真實數(shù)據(jù)分布 p(x) 進行建模。模型學(xué)習(xí)完之后,我們就可以生成新的樣本。此外,在某些形式下,我們也可以使用學(xué)習(xí)模型來進行評估觀察或?qū)?shù)據(jù)進行采樣。

當前研究文獻中,有幾個重要方向,本文只在高層次上簡要介紹,主要包括:GAN,其對復(fù)雜分布的采樣過程進行建模,該過程以對抗方式學(xué)習(xí)。生成模型,我們也可稱之為「基于似然,likelihood-based」的方法,這類模型可以將高似然分配給觀察到的數(shù)據(jù)樣本,通常包括自回歸、歸一化流、VAE。基于能量的建模,在這種方法中,分布被學(xué)習(xí)為任意靈活的能量函數(shù),然后被歸一化。在基于分數(shù)的生成模型中,其沒有學(xué)習(xí)對能量函數(shù)本身進行建模,而是將基于能量模型的分數(shù)學(xué)習(xí)為神經(jīng)網(wǎng)絡(luò)。?

在這項研究中,本文探索和回顧了擴散模型,正如文中展示的那樣,它們具有基于可能性和基于分數(shù)的解釋。

變分擴散模型?

以簡單的方式來看,一個變分擴散模型(Variational Diffusion Model, VDM)可以被考慮作為具有三個主要限制(或假設(shè))的馬爾可夫分層變分自編碼器(MHVAE),它們分別為:

  • 潛在維度完全等同于數(shù)據(jù)維度;
  • 每個時間步上潛在編碼器的結(jié)構(gòu)沒有被學(xué)到,它被預(yù)定義為線性高斯模型。換言之,它是以之前時間步的輸出為中心的高斯分布;
  • 潛在編碼器的高斯參數(shù)隨時間變化,過程中最終時間步 T 的潛在分布標是準高斯分布。

圖片

變分擴散模型的視覺展示圖

此外,研究者明確維護了來自標準馬爾可夫分層變分自編碼器的分層轉(zhuǎn)換之間的馬爾可夫?qū)傩?。他們對以上三個主要假設(shè)的含義一一做了擴展。

從第一個假設(shè)開始,由于符號的濫用,現(xiàn)在可以將真實數(shù)據(jù)樣本和潛在變量表示為 x_t,其中 t=0 表示真實樣本數(shù)據(jù),t ∈ [1, T] 表示相應(yīng)的潛在變量,它的層級結(jié)構(gòu)由 t 進行索引。VDM 后驗與 MHVAE 后驗相同,但現(xiàn)在可以重寫為如下:

圖片

從第二個假設(shè),已知的是編碼器中每個潛在變量的分布都是以之前分層潛在變量為中心的高斯分布。與 MHVAE 不同的是,編碼器在每個時間步上的結(jié)構(gòu)沒有被學(xué)到,它被固定為一個線性高斯模型,其中均值和標準差都可以預(yù)先設(shè)置為超參數(shù)或者作為參數(shù)學(xué)得。在數(shù)學(xué)上,編碼器轉(zhuǎn)換表示為如下:

圖片

對第三個假設(shè),α_t 根據(jù)固定或可學(xué)得的 schedule 而隨時間演化,使得最終潛在變量 p(x_T) 的分布為標準高斯分布。然后可以更新 MHVAE 的聯(lián)合分布,將 VDM 的聯(lián)合分布寫為如下:

圖片

總的來說,這一系列假設(shè)描述了一個圖像隨時間演化的穩(wěn)定噪聲。研究者通過添加高斯噪聲漸進地破壞圖像,直到最終變得與高斯噪聲完全相同。

與任何 HVAE 相似的是,VDM 可以通過最大化證據(jù)下界(Evidence Lower Bound, ELBO)來優(yōu)化,可以推導(dǎo)如下:

圖片

ELBO 的解釋過程如下圖 4 所示:

圖片

三種等價的解釋

正如之前證明的,一個變分擴散模型可以簡單地通過學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)來訓(xùn)練,以從任意噪聲版本 x_t 及其時間索引 t 中預(yù)測原始自然圖像 x_0。但是,x_0 有兩個等價的參數(shù)化,使得可以對 VDM 展開兩種進一步的解釋。

首先可以利用重參數(shù)化技巧。在推導(dǎo) q(x_t|x_0) 的形式時,文中公式 69 可以被重新排列為如下:

圖片

將其帶入之前推導(dǎo)出的真實去噪轉(zhuǎn)換均值 μ_q(x_t, x_0),則可以重新推導(dǎo)如下:圖片

因此可以將近似去噪轉(zhuǎn)換均值 μ_θ(x_t, t) 設(shè)置為如下:

圖片

并且相應(yīng)的優(yōu)化問題變成如下:

圖片

為了推導(dǎo)出變分擴散模型的三種常見解釋,需要求助于 Tweedie 公式,它指的是當給定樣本時,指數(shù)族分布的真實均值可以通過樣本的最大似然估計(也稱為經(jīng)驗均值)加上一些涉及估計分數(shù)的校正項來估計。

從數(shù)學(xué)上講,對于一個高斯變量 z ~ N (z; μ_z, Σ_z),Tweedie 公式表示如下:

圖片

基于分數(shù)的生成模型

研究者已經(jīng)表明,變分擴散模型可以簡單地通過優(yōu)化一個神經(jīng)網(wǎng)絡(luò) s_θ(x_t, t) 來學(xué)得,以預(yù)測一個得分函數(shù)? log p(x_t)。但是,推導(dǎo)中的得分項來自 Tweedie 公式的應(yīng)用。這并不一定為解讀得分函數(shù)究竟是什么或者它為什么值得建模提供好的直覺或洞見。?

好在可以借助另一類生成模型,即基于分數(shù)的生成模型,來獲得這種直覺。研究者的確證明了之前推導(dǎo)出的 VDM 公式具有等價的基于分數(shù)的生成建模公式,使得可以在這兩種解釋之間靈活切換。?

為了理解為什么優(yōu)化一個得分函數(shù)是有意義的,研究者重新審視了基于能量的模型。任意靈活的概率分布可以寫成如下形式:?

圖片

避免計算或建模歸一化常數(shù)的一種方式是使用神經(jīng)網(wǎng)絡(luò) s_θ(x) 來學(xué)習(xí)分布 p(x) 的得分函數(shù)? log p(x)。這是觀察到了公式 152 兩邊可以進行對數(shù)求導(dǎo):?

圖片

它可以自由地表示為神經(jīng)網(wǎng)絡(luò),不涉及任何歸一化常數(shù)。通過利用真值得分函數(shù)最小化 Fisher 散度,可以優(yōu)化得分函數(shù)。?

圖片

直觀地講,得分函數(shù)在數(shù)據(jù) x 所在的整個空間上定義了一個向量場,并指向模型,具體如下圖 6 所示。

圖片

最終,研究者從訓(xùn)練目標和抽樣過程兩方面,建立了變分擴散模型和基于分數(shù)的生成模型之間的顯式關(guān)聯(lián)。

更多細節(jié)內(nèi)容請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-01-07 08:40:00

視頻生成AI

2021-06-13 12:03:46

SaaS軟件即服務(wù)

2021-10-09 00:02:04

DevOps敏捷開發(fā)

2022-03-27 20:32:28

Knative容器事件模型

2022-04-27 10:14:43

進程調(diào)度LinuxCPU

2021-03-03 21:31:24

量化投資利潤

2022-01-05 18:27:44

數(shù)據(jù)挖掘工具

2021-06-29 11:21:41

數(shù)據(jù)安全網(wǎng)絡(luò)安全黑客

2020-11-30 08:34:44

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2022-04-22 11:26:55

數(shù)據(jù)管理架構(gòu)

2021-02-14 00:21:37

區(qū)塊鏈數(shù)字貨幣金融

2022-04-12 18:29:41

元數(shù)據(jù)系統(tǒng)架構(gòu)

2022-07-31 20:29:28

日志系統(tǒng)

2021-10-17 20:38:30

微服務(wù)內(nèi)存組件

2021-03-25 11:24:25

爬蟲技術(shù)開發(fā)

2020-11-03 07:04:39

云計算公有云私有云

2021-08-31 19:14:38

技術(shù)埋點運營

2022-04-27 18:25:02

數(shù)據(jù)采集維度

2021-12-03 18:25:56

數(shù)據(jù)指標本質(zhì)

2021-09-03 18:38:13

數(shù)據(jù)湖數(shù)據(jù)倉庫
點贊
收藏

51CTO技術(shù)棧公眾號