偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICLR 2025 | 無需訓(xùn)練加速20倍,清華朱軍組提出用于圖像翻譯的擴(kuò)散橋模型推理算法DBIM

人工智能 新聞
一種名為去噪擴(kuò)散橋模型(Denoising Diffusion Bridge Models, DDBMs)的變種應(yīng)運(yùn)而生。DDBM 能夠建模兩個(gè)給定分布之間的橋接過程,從而很好地應(yīng)用于圖像翻譯、圖像修復(fù)等任務(wù)。

論文有兩位共同一作。鄭凱文為清華大學(xué)計(jì)算機(jī)系三年級(jí)博士生,何冠德為德州大學(xué)奧斯汀分校(UT Austin)一年級(jí)博士生。

擴(kuò)散模型(Diffusion Models)近年來在生成任務(wù)上取得了突破性的進(jìn)展,不僅在圖像生成、視頻合成、語音合成等領(lǐng)域都實(shí)現(xiàn)了卓越表現(xiàn),推動(dòng)了文本到圖像、視頻生成的技術(shù)革新。然而,標(biāo)準(zhǔn)擴(kuò)散模型的設(shè)計(jì)通常只適用于從隨機(jī)噪聲生成數(shù)據(jù)的任務(wù),對(duì)于圖像翻譯或圖像修復(fù)這類明確給定輸入和輸出之間映射關(guān)系的任務(wù)并不適合。

圖片

為了解決這一問題,一種名為去噪擴(kuò)散橋模型(Denoising Diffusion Bridge Models, DDBMs)的變種應(yīng)運(yùn)而生。DDBM 能夠建模兩個(gè)給定分布之間的橋接過程,從而很好地應(yīng)用于圖像翻譯、圖像修復(fù)等任務(wù)。然而,這類模型在數(shù)學(xué)形式上依賴復(fù)雜的常微分方程 / 隨機(jī)微分方程,在生成高分辨率圖像時(shí)通常需要數(shù)百步的迭代,計(jì)算效率低下,嚴(yán)重限制了其在實(shí)際中的廣泛應(yīng)用。

相比于標(biāo)準(zhǔn)擴(kuò)散模型,擴(kuò)散橋模型的推理過程額外涉及初始條件相關(guān)的線性組合和起始點(diǎn)的奇異性,無法直接應(yīng)用標(biāo)準(zhǔn)擴(kuò)散模型的推理算法。為此,清華大學(xué)朱軍團(tuán)隊(duì)提出了一種名為擴(kuò)散橋隱式模型(DBIM)的算法,無需額外訓(xùn)練即可顯著加速擴(kuò)散橋模型的推理。

圖片

  • 論文標(biāo)題:Diffusion Bridge Implicit Models
  • 論文鏈接:https://arxiv.org/abs/2405.15885
  • 代碼倉庫:https://github.com/thu-ml/DiffusionBridge

方法介紹

DBIM 的核心思想是對(duì)擴(kuò)散橋模型進(jìn)行推廣,提出了一類非馬爾科夫擴(kuò)散橋(non-Markovian Diffusion Bridges)。這種新的橋接過程不僅與原來的 DDBM 擁有相同的邊緣分布與訓(xùn)練目標(biāo),而且能夠通過減少隨機(jī)性,實(shí)現(xiàn)從隨機(jī)到確定性的靈活可控的采樣過程。

具體而言,DBIM 在模型推理過程中引入了一個(gè)方差控制參數(shù) ρ,使得生成過程能夠在隨機(jī)采樣與確定性采樣之間自由切換。當(dāng)完全采用確定性推理模式時(shí),DBIM 能夠直接以隱式的形式表示生成過程。這種思想是標(biāo)準(zhǔn)擴(kuò)散模型的著名推理算法 DDIM 在擴(kuò)散橋模型上的推廣與拓展。

圖片

更進(jìn)一步,DBIM 算法可以導(dǎo)出擴(kuò)散橋的一種全新的常微分方程(ODE)表達(dá)形式,相較于 DDBM 論文中的常微分方程形式更加簡潔有效。

圖片

在此基礎(chǔ)上,作者首次提出了針對(duì)擴(kuò)散橋模型的高階數(shù)值求解方法,進(jìn)一步提升了推理的精度與效率。

圖片

此外,為了避免確定性采樣過程中出現(xiàn)的初始奇異性問題,作者提出了一種「啟動(dòng)噪聲」(booting noise)機(jī)制,即僅在初始步驟中加入適當(dāng)隨機(jī)噪聲,從而保證了模型的生成多樣性,并同時(shí)保留了對(duì)數(shù)據(jù)的編碼與語義插值能力。

圖片

實(shí)驗(yàn)結(jié)果

作者在經(jīng)典的圖像翻譯和圖像修復(fù)任務(wù)上進(jìn)行了如下實(shí)驗(yàn):

  • 在 Edges→Handbags(64×64)和 DIODE-Outdoor(256×256)圖像翻譯任務(wù)中,DBIM 僅需 20 步推理即可達(dá)到甚至超越 DDBM 模型 118 步推理的生成質(zhì)量。當(dāng)推理步數(shù)增至 100 步時(shí),DBIM 進(jìn)一步提升生成質(zhì)量,在更高分辨率任務(wù)上全面領(lǐng)先。

圖片

  • 在更具挑戰(zhàn)的 ImageNet 256×256 圖像修復(fù)任務(wù)中,DBIM 僅需 20 步推理便顯著超越了傳統(tǒng)擴(kuò)散橋模型 500 步推理的效果,實(shí)現(xiàn)了超過 25 倍的推理加速。在 100 步推理時(shí),DBIM 進(jìn)一步刷新了這一任務(wù)的 FID 記錄。

圖片

圖片

通過參數(shù) η 控制采樣過程中的隨機(jī)性大小,論文發(fā)現(xiàn)確定性采樣模式在低步數(shù)時(shí)具備顯著優(yōu)勢(shì),而適當(dāng)增加隨機(jī)性能夠在較高步數(shù)下進(jìn)一步提升生成多樣性與 FID 指標(biāo)。這與標(biāo)準(zhǔn)擴(kuò)散模型推理的性質(zhì)相似。

圖片

此外,高階采樣器能夠在不同采樣步數(shù)下一致提升生成質(zhì)量,增強(qiáng)圖像細(xì)節(jié)。

圖片

論文所用訓(xùn)練、推理代碼及模型文件均已開源。如果你對(duì) DBIM 感興趣,想要深入了解它的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果,可訪問論文原文和 GitHub 倉庫。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-07-02 09:21:30

2025-06-30 08:42:00

模型訓(xùn)練AI

2023-06-30 13:48:00

算法AI

2025-07-08 09:10:00

2025-03-27 09:47:23

訓(xùn)練模型AI

2025-10-23 09:02:12

2022-11-14 14:08:39

計(jì)算機(jī)模型

2025-07-14 08:51:00

2023-12-23 23:08:21

語音數(shù)據(jù)

2025-02-10 08:40:00

訓(xùn)練數(shù)據(jù)模型

2025-02-24 13:40:00

模型生成訓(xùn)練

2025-04-25 09:05:00

2025-07-07 08:56:00

2024-10-12 10:57:39

2023-01-05 09:33:37

視覺模型訓(xùn)練

2022-03-14 10:53:12

谷歌模型研究

2023-05-30 14:17:00

模型推理

2025-02-27 14:10:00

模型AI訓(xùn)練

2025-05-27 15:28:11

模型訓(xùn)練AI

2021-11-15 10:00:22

模型人工智能NLP
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)