偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rp id="nhrf5"></rp>

<em id="nhrf5"></em>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

從單幅自然圖像學(xué)習(xí)擴(kuò)散模型，優(yōu)于GAN，SinDiffusion實(shí)現(xiàn)新SOTA

作者：機(jī)器之心 2022-12-25 12:57:00

人工智能新聞

與現(xiàn)有的基于 GAN 的方法相比，SinDiffusion 顯著提高了生成樣本的質(zhì)量和多樣性。

從單幅自然圖像生成圖像的技術(shù)被廣為應(yīng)用，也因此受到越來(lái)越多的關(guān)注。這一研究旨在從單幅自然圖像中學(xué)習(xí)一個(gè)無(wú)條件生成模型，通過捕獲 patch 內(nèi)部統(tǒng)計(jì)信息，生成具有相似視覺內(nèi)容的不同樣本。一旦訓(xùn)練完成，模型不僅可以生成高質(zhì)量且不限分辨率的圖像，而且還可以輕松適應(yīng)多種應(yīng)用，如圖像編輯、圖像和諧化（image harmonization）和圖像間的轉(zhuǎn)換。?

SinGAN 可以滿足上述要求，該方法可以構(gòu)建自然圖像的多個(gè)尺度，并訓(xùn)練一系列 GANs 來(lái)學(xué)習(xí)單幅圖像中 patch 的內(nèi)部統(tǒng)計(jì)信息。SinGAN 的核心思想是在漸進(jìn)增長(zhǎng)的尺度上訓(xùn)練多個(gè)模型。然而，通過這些方法生成的圖像可能不盡人意，因?yàn)樗鼈兇嬖谛》秶募?xì)節(jié)性誤差，從而導(dǎo)致生成的圖像中存在明顯的偽影現(xiàn)象(見圖 2)。

本文中，來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)、微軟亞洲研究院等機(jī)構(gòu)的研究者提出了一個(gè)新的框架——單幅圖像擴(kuò)散模型（SinDiffusion，Single-image Diffusion），以用于從單幅自然圖像中學(xué)習(xí)，其是在去噪擴(kuò)散概率模型 (DDPM，Denoising Diffusion Probabilistic Model) 的基礎(chǔ)上完成的。雖然擴(kuò)散模型是一個(gè)多步（multiple-step）生成過程，但它不存在累積誤差問題。原因是擴(kuò)散模型具有系統(tǒng)的數(shù)學(xué)公式，中間步驟的誤差可視為干擾，并且可以在擴(kuò)散過程中得到改善。?

SinDiffusion 的另一個(gè)核心設(shè)計(jì)是限制擴(kuò)散模型的感受野。該研究回顧了先前擴(kuò)散模型[7] 中常用的網(wǎng)絡(luò)結(jié)構(gòu)，發(fā)現(xiàn)它具有較強(qiáng)的性能和較深的結(jié)構(gòu)。不過該網(wǎng)絡(luò)結(jié)構(gòu)具有的感受野大到能夠覆蓋整個(gè)圖像，這導(dǎo)致模型傾向于靠記憶訓(xùn)練圖像，從而生成與訓(xùn)練圖像完全相同的圖像。為了鼓勵(lì)模型學(xué)習(xí) patch 統(tǒng)計(jì)信息而不是記憶整個(gè)圖像，研究對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了精細(xì)設(shè)計(jì)，并引入了一個(gè) patch-wise 去噪網(wǎng)絡(luò)。同之前的擴(kuò)散結(jié)構(gòu)相比，SinDiffusion 減少了原去噪網(wǎng)絡(luò)結(jié)構(gòu)中的下采樣次數(shù)和 ResBlock 數(shù)量。如此一來(lái)，SinDiffusion 可以從單幅自然圖像中學(xué)習(xí)，并且生成高質(zhì)量且多樣化的圖像(見圖 2)。

論文地址：https://arxiv.org/pdf/2211.12445.pdf
項(xiàng)目地址：https://github.com/WeilunWang/SinDiffusion?

SinDiffusion 的優(yōu)點(diǎn)在于，它能靈活運(yùn)用于各種場(chǎng)景(見圖 1)。它可以用于各種應(yīng)用，而無(wú)需對(duì)模型進(jìn)行任何重新訓(xùn)練。在 SinGAN 中，下游應(yīng)用主要通過將條件輸入預(yù)先訓(xùn)練的不同尺度的 GANs 來(lái)實(shí)現(xiàn)。因此，SinGAN 的應(yīng)用僅限于那些給定的空間對(duì)齊（spatiallyaligned）條件。與之不同的是，SinDiffusion 通過設(shè)計(jì)采樣程序可用于更廣泛的應(yīng)用。SinDiffusion 通過無(wú)條件訓(xùn)練學(xué)習(xí)預(yù)測(cè)數(shù)據(jù)分布的梯度。假設(shè)有一個(gè)描述生成圖像與條件之間相關(guān)性的評(píng)分函數(shù)(即 L?p 距離或一個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)，如 CLIP)，該研究利用相關(guān)性評(píng)分的梯度來(lái)指導(dǎo) SinDiffusion 的采樣過程。通過這種方式，SinDiffusion 能夠生成既符合數(shù)據(jù)分布又和給定條件相吻合的圖像。

研究對(duì)各種自然圖像進(jìn)行了實(shí)驗(yàn)，以此來(lái)證明提出的框架的優(yōu)勢(shì)，實(shí)驗(yàn)對(duì)象包括風(fēng)景和著名的藝術(shù)。定量和定性結(jié)果都證實(shí)了 SinDiffusion 可以產(chǎn)生高保真和多樣化的結(jié)果，而下游應(yīng)用進(jìn)一步證明了 SinDiffusion 的實(shí)用性和靈活性。

方法?

與之前研究中的漸進(jìn)式增長(zhǎng)設(shè)計(jì)不同，SinDiffusion 采用單一尺度下的單一去噪模型進(jìn)行訓(xùn)練，防止了誤差的積累。此外，該研究發(fā)現(xiàn)擴(kuò)散網(wǎng)絡(luò) patch-level 的感受野在捕獲內(nèi)部 patch 分布方面起著重要作用，并設(shè)計(jì)了一種新的去噪網(wǎng)絡(luò)結(jié)構(gòu)?；谶@兩個(gè)核心設(shè)計(jì)，SinDiffusion 從單幅自然圖像生成高質(zhì)量和多樣化的圖像。

本節(jié)其余部分的組織如下：首先回顧 SinGAN 并展示 SinDiffusion 的動(dòng)機(jī)，然后介紹了 SinDiffusion 的結(jié)構(gòu)設(shè)計(jì)。

首先簡(jiǎn)要回顧一下 SinGAN。圖 3（a）給出了 SinGAN 的生成過程。為了從單幅圖像生成不同的圖像，SinGAN 的一個(gè)關(guān)鍵設(shè)計(jì)是建立圖像金字塔，并逐步增長(zhǎng)生成的圖像的分辨率。?

圖 3(b)為 SinDiffusion 新框架。與 SinGAN 不同的是，SinDiffusion 在單一尺度上使用單一去噪網(wǎng)絡(luò)執(zhí)行多步生成過程。雖然 SinDiffusion 也采用了像 SinGAN 一樣的多步生成過程，但是生成的結(jié)果是高質(zhì)量的。這是因?yàn)閿U(kuò)散模型建立在對(duì)數(shù)學(xué)方程的系統(tǒng)推導(dǎo)的基礎(chǔ)上，中間步驟產(chǎn)生的誤差在擴(kuò)散過程中被反復(fù)細(xì)化為噪聲。

SinDiffusion?

本文研究了生成多樣性與去噪網(wǎng)絡(luò)感受野的關(guān)系——修改去噪網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)可以改變感受野，并且設(shè)計(jì)了四種感受野不同但性能相當(dāng)?shù)木W(wǎng)絡(luò)結(jié)構(gòu)，在單幅自然圖像上訓(xùn)練這些模型。圖 4 顯示了不同感受野下模型生成的結(jié)果?？梢杂^察到，感受野越小，SinDiffusion 產(chǎn)生的生成結(jié)果越多樣化，反之亦然。然而，研究發(fā)現(xiàn)極小的感受野模型并不能保持圖像的合理結(jié)構(gòu)。因此，合適的感受野對(duì)于獲取合理的 patch 統(tǒng)計(jì)信息是重要且必要的。

該研究重新設(shè)計(jì)了常用的擴(kuò)散模型，并引入了用于單幅圖像生成的 patch-wise 去噪網(wǎng)絡(luò)。圖 5 是 SinDiffusion 中 patch-wise 去噪網(wǎng)絡(luò)的概述，并且展現(xiàn)了與之前去噪網(wǎng)絡(luò)的主要區(qū)別。首先，通過減少下采樣和上采樣操作來(lái)減小去噪網(wǎng)絡(luò)的深度，從而極大地?cái)U(kuò)展了感受野。同時(shí)，去噪網(wǎng)絡(luò)中原本使用的深層注意力層被自然去除，使 SinDiffusion 成為一個(gè)完全卷積的網(wǎng)絡(luò)，適用于任意分辨率的生成。其次，通過減少每個(gè)分辨率中嵌入時(shí)間的 resblock，進(jìn)一步限制 SinDiffusion 的感受野。用這種方法得到一個(gè)帶有適當(dāng)感受野的 patch-wise 去噪網(wǎng)絡(luò)，得到了逼真且多樣的結(jié)果。

實(shí)驗(yàn)

SinDiffusion 隨機(jī)生成圖像的定性結(jié)果如圖 6 所示。

可以發(fā)現(xiàn)，在不同的分辨率下，SinDiffusion 可以生成與訓(xùn)練圖像具有相似模式的真實(shí)圖像。

此外，本文還研究了如何從單幅圖像生成高分辨率圖像的 SinDiffusion。圖 13 展示了訓(xùn)練圖像和生成的結(jié)果。訓(xùn)練圖像是一個(gè) 486 × 741 分辨率的景觀圖像，包含了豐富的組件，如云、山、草、花和一個(gè)湖。為了適應(yīng)高分辨率的圖像生成，SinDiffusion 已經(jīng)升級(jí)到增強(qiáng)版本，該版本具有更大的感受野和網(wǎng)絡(luò)能力。增強(qiáng)版的 SinDiffusion 生成了一個(gè) 486×2048 分辨率的高分辨率長(zhǎng)滾動(dòng)圖像，其生成效果結(jié)果保持訓(xùn)練圖像的內(nèi)部布局不變，且歸納出了新的內(nèi)容，見圖 13。

對(duì)比以往的方法?

表 1 展示了 SinDiffusion 與幾個(gè)具有挑戰(zhàn)性的方法（即 SinGAN， ExSinGAN， ConSinGAN 和 GPNN）相比產(chǎn)生的定量結(jié)果。與之前基于 GAN 的方法相比，SinDiffusion 在經(jīng)過逐步改進(jìn)后，達(dá)到了 SOTA 性能。值得一提，本文的研究方法極大地提高了生成圖像的多樣性，在 Places50 數(shù)據(jù)集上訓(xùn)練的 50 個(gè)模型的平均值上，本文的方法以 + 0.082 LPIPS 的評(píng)分超過了目前最具挑戰(zhàn)性的方法。

除了定量結(jié)果之外，圖 8 還展示了 Places50 數(shù)據(jù)集上的定性結(jié)果。

圖 15 給出了 SinDiffusion 和之前方法的文本引導(dǎo)圖像生成結(jié)果。

更多內(nèi)容請(qǐng)查看原論文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型自然學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<em id="xxvlh"></em>