偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

揭秘?cái)U(kuò)散模型:深入了解DALL-E和Midjourney背后的技術(shù)

譯文 精選
人工智能
我們在本文中將揭開擴(kuò)散模型的神秘面紗,以深入了解其背后的技術(shù)。我們將討論基本概念、模型的工作原理以及訓(xùn)練方法。

譯者 | 布加迪

審校 | 重樓

本文介紹了最流行的圖像生成模型架構(gòu)之一的技術(shù)層面。

近年來,生成式AI模型已成為一顆冉冉升起的新星,尤其是隨著ChatGPT等大語言模型(LLM)產(chǎn)品閃亮登場。這類模型使用人類能夠理解的自然語言,可以處理輸入,并提供合適的輸出。由于ChatGPT等產(chǎn)品的出現(xiàn),其他形式的生成式AI也變得流行并成為主流。

由于能夠完全借助自然語言輸入生成圖像,DALL-E和Midjourney等產(chǎn)品在生成式AI熱潮中大受歡迎。這些熱門產(chǎn)品并非憑空生成圖像,相反它們依賴一種名為擴(kuò)散模型(diffusion model)的模型。

我們在本文中將揭開擴(kuò)散模型的神秘面紗,以深入了解其背后的技術(shù)。我們將討論基本概念、模型的工作原理以及訓(xùn)練方法。

擴(kuò)散模型的基礎(chǔ)知識(shí)

擴(kuò)散模型是一類屬于生成式模型的AI算法,旨在根據(jù)訓(xùn)練數(shù)據(jù)生成新數(shù)據(jù)。以擴(kuò)散模型為例,這意味著它們可以根據(jù)給定的輸入創(chuàng)建新的圖像。

然而,擴(kuò)散模型生成圖像的過程有別于通常的方法:模型在數(shù)據(jù)中添加噪聲(干擾信息),然后去除噪聲。簡單來說,擴(kuò)散模型修改圖像,然后對(duì)其進(jìn)行完善以生成最終產(chǎn)品。你可以將該模型視為去噪模型,因?yàn)樗鼤?huì)學(xué)習(xí)去除圖像中的噪聲。

擴(kuò)散模型最早正式出現(xiàn)在Sohl-Dickstein等人撰寫的2015年論文《使用非平衡熱力學(xué)的深度無監(jiān)督學(xué)習(xí)》中。該論文引入了這樣一個(gè)概念:使用一種名為受控正向擴(kuò)散的過程,將數(shù)據(jù)轉(zhuǎn)換成噪聲,然后訓(xùn)練模型來逆轉(zhuǎn)該過程,重新構(gòu)建數(shù)據(jù),這就是去噪過程。

在此基礎(chǔ)上,Ho等人撰寫的2020年論文《去噪擴(kuò)散概率模型》引入了現(xiàn)代擴(kuò)散框架,該框架可以生成高質(zhì)量圖像,其性能優(yōu)于之前的流行模型,比如生成式對(duì)抗網(wǎng)絡(luò)(GAN)。一般來說,擴(kuò)散模型包含兩個(gè)關(guān)鍵階段:

  • 正向(擴(kuò)散)過程:通過逐步添加噪聲來污染數(shù)據(jù),直到其與隨機(jī)靜態(tài)圖像難以區(qū)分。
  • 反向(去噪)過程:訓(xùn)練神經(jīng)網(wǎng)絡(luò)以迭代去除噪聲,學(xué)習(xí)如何從完全隨機(jī)的數(shù)據(jù)中重新構(gòu)建圖像數(shù)據(jù)。

不妨嘗試更好地理解擴(kuò)散模型的組件,以便有一番更清晰的認(rèn)識(shí)。

正向過程

正向過程是第一個(gè)階段,在此階段,通過添加噪聲系統(tǒng)地降低圖像質(zhì)量,直到變?yōu)殡S機(jī)靜態(tài)圖像。

正向過程是受控且迭代的,我們可以將其概括為以下步驟:

  • 從數(shù)據(jù)集中的一張圖像開始。
  • 向圖像添加少量噪聲。
  • 這個(gè)過程重復(fù)多次(可能重復(fù)數(shù)百或數(shù)千次),每次都進(jìn)一步破壞圖像。

經(jīng)過足夠多的步驟后,原始圖像將顯示為純噪聲。

上述過程通常在數(shù)學(xué)上被建模為馬爾可夫鏈,因?yàn)槊總€(gè)噪聲版本僅依賴前一個(gè)版本,而不是依賴整個(gè)步驟序列。

但是,為什么我們要逐漸將圖像變成噪聲,而不是直接將其一步變成噪聲呢?目的是讓模型能夠逐漸學(xué)習(xí)如何逆轉(zhuǎn)破壞。小的增量步驟讓模型得以學(xué)習(xí)從噪聲數(shù)據(jù)轉(zhuǎn)換成低噪聲數(shù)據(jù),這有助于它從純噪聲逐步重新構(gòu)建圖像。

為了確定每一步添加多少噪聲,可以使用噪聲調(diào)度這個(gè)概念。比如說,線性調(diào)度會(huì)隨著時(shí)間的推移逐漸引入噪聲,而余弦調(diào)度會(huì)比較緩慢地引入噪聲,并將有用的圖像特征保留更長一段時(shí)間。

以上是對(duì)正向過程的簡要概述。下面不妨了解一下反向過程。

反向過程

正向過程之后的下一個(gè)階段是將模型轉(zhuǎn)變?yōu)樯善鳎撋善鲗W(xué)習(xí)將噪聲重新轉(zhuǎn)換為圖像數(shù)據(jù)。通過迭代的小步驟,模型可以生成之前并不存在的圖像數(shù)據(jù)。

通常,反向過程是正向過程的逆過程:

  • 從純噪聲開始——一張完全隨機(jī)的由高斯噪聲組成的圖像。
  • 使用一個(gè)訓(xùn)練好的模型迭代去除噪聲,該模型試圖近似每個(gè)正向步驟的反向版本。在每個(gè)步驟中,模型使用當(dāng)前的噪聲圖像和相應(yīng)的時(shí)間步長作為輸入,根據(jù)訓(xùn)練過程中學(xué)到的知識(shí)預(yù)測如何降低噪聲。
  • 圖像逐步變得更加清晰,獲得最終的圖像數(shù)據(jù)。

這個(gè)反向過程需要經(jīng)過訓(xùn)練的模型來去除噪聲圖像。擴(kuò)散模型常采用神經(jīng)網(wǎng)絡(luò)架構(gòu)(比如U-Net),這種自動(dòng)編碼器結(jié)合了編碼器-解碼器結(jié)構(gòu)中的卷積層。在訓(xùn)練過程中,模型學(xué)習(xí)預(yù)測在正向過程中添加的噪聲成分。在每個(gè)步驟,模型還會(huì)考慮時(shí)間步長,從而根據(jù)噪聲大小調(diào)整預(yù)測結(jié)果。

該模型通常使用損失函數(shù)(比如均方誤差MSE)進(jìn)行訓(xùn)練,該函數(shù)用于衡量預(yù)測噪聲與實(shí)際噪聲之間的差異。通過在大量樣本中最小化損失,模型逐漸能夠熟練地逆轉(zhuǎn)擴(kuò)散過程。

與GAN等替代方案相比,擴(kuò)散模型提供了更高的穩(wěn)定性和更直接的生成路徑。這種逐步去噪的方法可以實(shí)現(xiàn)更具表現(xiàn)力的學(xué)習(xí),從而使訓(xùn)練更可靠、更易于解釋。

一旦模型訓(xùn)練完畢,生成新圖像的過程將遵循我們上面總結(jié)的反向過程。

文本調(diào)節(jié)

在許多文本轉(zhuǎn)圖像產(chǎn)品(比如DALL-E和Midjourney)中,這些系統(tǒng)可以使用文本提示引導(dǎo)反向過程,我們稱之為文本調(diào)節(jié)。如果整合自然語言,我們可以獲得匹配的場景,而不是隨機(jī)的視覺效果。

該過程利用預(yù)訓(xùn)練的文本編碼器來實(shí)現(xiàn),比如CLIP(對(duì)比語言-圖像預(yù)訓(xùn)練),它將文本提示轉(zhuǎn)換成向量嵌入。然后,該向量通過交叉注意力等機(jī)制被饋入到擴(kuò)散模型架構(gòu)中。交叉注意力是一種注意力機(jī)制,使模型能夠?qū)W⒂谖谋镜奶囟ú糠?,并將圖像生成過程與文本對(duì)齊。在反向過程的每一步,模型都會(huì)檢查當(dāng)前圖像狀態(tài)和文本提示,并利用交叉注意力機(jī)制將圖像與提示中的語義對(duì)齊。

這是DALL-E和Midjourney能夠根據(jù)提示生成圖像的核心機(jī)制。

DALL-E與Midjourney有何不同?

這兩款產(chǎn)品都使用擴(kuò)散模型作為基礎(chǔ),但在技術(shù)應(yīng)用上略有不同。

比如說,DALL-E采用基于CLIP的向量嵌入引導(dǎo)的擴(kuò)散模型進(jìn)行文本調(diào)節(jié)。相比之下,Midjourney采用其專有的擴(kuò)散模型架構(gòu),據(jù)稱該架構(gòu)包含一個(gè)經(jīng)過微調(diào)的圖像解碼器,針對(duì)高真實(shí)感進(jìn)行了優(yōu)化。

這兩種模型還都依賴交叉注意力機(jī)制,但它們的引導(dǎo)風(fēng)格有所不同。DALL-E強(qiáng)調(diào)通過無分類器引導(dǎo)來遵循提示,從而在無調(diào)節(jié)輸出和文本調(diào)節(jié)輸出之間取得平衡。相比之下,Midjourney傾向于優(yōu)先考慮風(fēng)格解讀,可能對(duì)無分類器引導(dǎo)采用了更高的默認(rèn)引導(dǎo)尺度。

DALL-E和Midjourney在處理提示長度和復(fù)雜性方面有所不同,DALL-E模型可以通過在提示進(jìn)入擴(kuò)散管道之前對(duì)其進(jìn)行處理來處理較長的提示,而Midjourney往往更擅長處理簡潔的提示。

兩者之間還有更多的差異,但上面這些是你應(yīng)該了解的與擴(kuò)散模型相關(guān)的差異。

結(jié)語

擴(kuò)散模型已成為DALL-E和Midjourney等現(xiàn)代文本轉(zhuǎn)圖像系統(tǒng)的基礎(chǔ)。如果利用正向和反向擴(kuò)散的基本過程,這些模型可以從隨機(jī)數(shù)據(jù)生成全新的圖像。此外,這些模型還可以使用自然語言,通過文本調(diào)節(jié)和交叉注意力等機(jī)制來引導(dǎo)結(jié)果。

原文標(biāo)題:Diffusion Models Demystified: Understanding the Tech Behind DALL-E and Midjourney,作者:Cornelius Yudha Wijaya

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2025-06-10 16:38:06

AI圖像生成系統(tǒng)擴(kuò)散模型人工智能

2022-08-31 08:54:57

AIDALL-E 2OpenAI

2024-08-21 08:00:00

2019-03-11 14:33:21

Redis內(nèi)存模型數(shù)據(jù)庫

2022-08-17 15:52:24

AI

2020-07-20 06:35:55

BashLinux

2012-02-16 11:35:34

ibmdw

2010-11-19 16:22:14

Oracle事務(wù)

2009-08-25 16:27:10

Mscomm控件

2010-07-13 09:36:25

2020-09-21 09:53:04

FlexCSS開發(fā)

2010-06-23 20:31:54

2022-08-26 13:48:40

EPUBLinux

2023-10-20 08:26:50

2023-10-06 00:04:02

2011-04-06 11:21:25

PHPPython

2023-12-14 12:46:54

訓(xùn)練數(shù)據(jù)

2018-09-04 16:20:46

MySQ索引數(shù)據(jù)結(jié)構(gòu)

2018-02-24 13:21:02

2013-04-10 11:16:19

iPad的MouseE
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)