偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

圖像生成王者不是GAN?擴(kuò)散模型最近有點(diǎn)火,效果直達(dá)SOTA

新聞 人工智能
OpenAI剛剛推出的年末新作GLIDE,又讓擴(kuò)散模型小火了一把?!霸趫D像生成上打敗GAN”的ADM-G模型也重新進(jìn)入了大眾眼中。

[[443024]]

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

 OpenAI剛剛推出的年末新作GLIDE,又讓擴(kuò)散模型小火了一把。

這個(gè)基于擴(kuò)散模型的文本圖像生成大模型參數(shù)規(guī)模更小,但生成的圖像質(zhì)量卻更高。

于是,依舊是OpenAI出品,論文標(biāo)題就直接號(hào)稱“在圖像生成上打敗GAN”的ADM-G模型也重新進(jìn)入了大眾眼中:

圖像生成王者不是GAN?擴(kuò)散模型最近有點(diǎn)火,效果直達(dá)SOTA

光看Papers with Code上基于ImageNet數(shù)據(jù)集的圖像生成模型榜單,從64 x 64到512 x 512分辨率都由這一模型占據(jù)榜首:

圖像生成王者不是GAN?擴(kuò)散模型最近有點(diǎn)火,效果直達(dá)SOTA

對(duì)比曾號(hào)稱史上最強(qiáng)圖像生成器的BigGAN-deep也不落下風(fēng),甚至還能在LSUN和ImageNet 64 × 64的圖像生成效果上達(dá)到SOTA。

圖像生成王者不是GAN?擴(kuò)散模型最近有點(diǎn)火,效果直達(dá)SOTA

有網(wǎng)友對(duì)此感嘆:前幾年圖像生成領(lǐng)域一直由GAN主導(dǎo),現(xiàn)在看來,似乎要變成擴(kuò)散模型了。

圖像生成王者不是GAN?擴(kuò)散模型最近有點(diǎn)火,效果直達(dá)SOTA

加入類別條件的擴(kuò)散模型

我們先來看看擴(kuò)散模型的定義。

這是一種新的圖像生成的方法,其名字中的“擴(kuò)散”本質(zhì)上是一個(gè)迭代過程。

具體到推理中,就是從一幅完全由噪聲構(gòu)成的圖像開始,通過預(yù)測(cè)每個(gè)步驟濾除的噪聲,迭代去噪得到一個(gè)高質(zhì)量的樣本,然后再逐步添加更多的細(xì)節(jié)。

而OpenAI的這個(gè)ADM-G模型,則是在此基礎(chǔ)上向圖像生成任務(wù)中加入了類別條件,形成了一種獨(dú)特的消融擴(kuò)散模型。

研究人員分別從以下幾個(gè)方面做了改進(jìn):

基本架構(gòu)

基于UNet結(jié)構(gòu)做了五點(diǎn)改進(jìn):

  • 在保持模型大小不變的前提下,增加深度與寬度
  • 增加注意頭(Attention Head)數(shù)量
  • 在32×32、16×16和8×8的分辨率下都使用注意力機(jī)制
  • 使用BigGAN殘差塊對(duì)激活函數(shù)進(jìn)行上采樣和下采樣
  • 將殘差連接(Residual Connections)縮小為原來的1/根號(hào)2
圖像生成王者不是GAN?擴(kuò)散模型最近有點(diǎn)火,效果直達(dá)SOTA

類別引導(dǎo)(Classifier Guidance)

在噪聲逐步轉(zhuǎn)換到信號(hào)的過程中,研究人員引入了一個(gè)預(yù)先訓(xùn)練好的分類網(wǎng)絡(luò)。

它能夠?yàn)橹虚g生成圖像預(yù)測(cè)并得到一個(gè)標(biāo)簽,也就是可以對(duì)生成的圖片進(jìn)行分類。

之后,再基于分類分?jǐn)?shù)和目標(biāo)類別之間的交叉熵?fù)p失計(jì)算梯度,用梯度引導(dǎo)下一步的生成采樣。

縮放分類梯度(Scaling Classifier Gradients)

按超參數(shù)縮放分類網(wǎng)絡(luò)梯度,以此來控制生成圖像的多樣性和精度。

比如像這樣,左邊是1.0規(guī)模大小的分類網(wǎng)絡(luò),右邊是10.0大小的分類網(wǎng)絡(luò),可以看到,右邊的生成圖像明顯類別更加一致:

圖像生成王者不是GAN?擴(kuò)散模型最近有點(diǎn)火,效果直達(dá)SOTA

也就是說,分類網(wǎng)絡(luò)梯度越高,類別就越一致,精度也越高,而同時(shí)多樣性也會(huì)變小。

生成領(lǐng)域的新熱點(diǎn)

目前,這一模型在GitHub上已有近千標(biāo)星:

圖像生成王者不是GAN?擴(kuò)散模型最近有點(diǎn)火,效果直達(dá)SOTA

而與GAN比起來,擴(kuò)散模型生成的圖像還更多樣、更復(fù)雜。

基于同樣的訓(xùn)練數(shù)據(jù)集時(shí),擴(kuò)散模型可以生成擁有全景、局部特寫、不同角度的圖像:

圖像生成王者不是GAN?擴(kuò)散模型最近有點(diǎn)火,效果直達(dá)SOTA

△左:BigGAN-deep 右:ADM

其實(shí),自2020年谷歌發(fā)表DDPM后,擴(kuò)散模型就逐漸成為了生成領(lǐng)域的一個(gè)新熱點(diǎn),

除了文章中提到的OpenAI的兩篇論文之外,還有Semantic Guidence Diffusion、Classifier-Free Diffusion Guidence等多個(gè)基于擴(kuò)散模型設(shè)計(jì)的生成模型。

擴(kuò)散模型接下來還會(huì)在視覺任務(wù)上有哪些新的應(yīng)用呢,我們來年再看。

論文鏈接:
https://arxiv.org/abs/2105.05233

開源鏈接:
https://github.com/openai/guided-diffusion

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-12-25 12:57:00

模型自然學(xué)習(xí)

2017-06-28 15:34:16

JDK模塊化Java9

2018-05-25 10:19:04

微信功能系統(tǒng)

2021-05-18 15:22:54

AI 數(shù)據(jù)人工智能

2022-04-11 14:21:49

模型視頻AI

2021-03-01 14:05:50

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2023-10-16 12:31:17

人工智能數(shù)據(jù)

2022-09-13 15:40:56

模型分析

2025-02-25 09:30:00

2024-06-28 09:20:29

2022-09-29 10:27:40

元宇宙

2024-01-16 17:17:30

模型訓(xùn)練

2025-07-02 09:21:30

2023-02-01 13:39:46

2023-10-11 12:32:26

模型訓(xùn)練

2023-04-13 15:55:00

AI開源

2023-10-29 22:25:23

模型AI

2024-11-12 13:10:49

2024-10-30 14:10:00

圖像生成模型

2024-10-29 14:40:00

圖像生成模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)