偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

何愷明帶隊新作「分形生成模型」:逐像素建模高分辨率圖像、效率提升4000倍

人工智能
這次構(gòu)建了一種全新的生成模型。類似于數(shù)學(xué)中的分形,研究者推出了一種被稱為分形生成模型(Fractal Generative Models)的自相似分形架構(gòu)。

這才過幾天,大神何愷明又放出一篇新論文!

這次構(gòu)建了一種全新的生成模型。類似于數(shù)學(xué)中的分形,研究者推出了一種被稱為分形生成模型(Fractal Generative Models)的自相似分形架構(gòu)。

在計算機科學(xué)領(lǐng)域,它的核心是模塊化概念,比如深度神經(jīng)網(wǎng)絡(luò)由作為模塊化單元的原子「層」構(gòu)建而成。同樣地,現(xiàn)代生成模型(如擴散模型和自回歸模型)由原子「生成步驟」構(gòu)建而成,每個步驟都由深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)。

通過將復(fù)雜函數(shù)抽象為這些原子構(gòu)建塊,模塊化使得可以通過組合這些模塊來創(chuàng)建更復(fù)雜的系統(tǒng)?;谶@一概念,研究者提出將生成模型本身抽象為一個模塊,以開發(fā)更高級的生成模型。一作 Tianhong Li 為 MIT 博士后研究員、二作 Qinyi Sun 為 MIT 本科生(大三)。

  • 論文標(biāo)題:Fractal Generative Models
  • 論文地址:https://arxiv.org/pdf/2502.17437v1
  • GitHub 地址:https://github.com/LTH14/fractalgen

具體來講,研究者提出的分形生成模型通過在其內(nèi)部遞歸調(diào)用同類生成模型來構(gòu)建。這種遞歸策略產(chǎn)生了一個生成框架,在下圖 1 中展示了其跨不同模塊級別的具有自相似性的復(fù)雜架構(gòu)。

如前文所述,本文分形生成模型類似于數(shù)學(xué)中的分形概念。分形是使用被稱為「生成器」的遞歸規(guī)則構(gòu)建的自相似模式。同樣地,本文框架也是通過在生成模型中調(diào)用生成模型的遞歸過程構(gòu)建的,并在不同層次上表現(xiàn)出自相似性。因此,研究者將其命名為「分形生成模型」。

本文的分形生成模型的靈感來自于生物神經(jīng)網(wǎng)絡(luò)和自然數(shù)據(jù)中觀察到的分形特性。與自然的分形結(jié)構(gòu)類似,研究者設(shè)計的關(guān)鍵組件是定義遞歸生成規(guī)則的生成器,比如這樣的生成器可以是自回歸模型,如圖 1 所示。在此實例中,每個自回歸模型都由本身就是自回歸模型的模塊組成。

具體而言,每個父自回歸塊都會生成多個子自回歸塊,每個子塊都會進一步生成更多自回歸塊。由此產(chǎn)生的架構(gòu)在不同級別上表現(xiàn)出類似分形的自相似模式。

在實驗環(huán)節(jié),研究者在一個具有挑戰(zhàn)性的測試平臺上(逐像素圖像生成)檢驗了這個分形實例。結(jié)果顯示,本文的分形框架在這一具有挑戰(zhàn)性的重要任務(wù)上表現(xiàn)出色,它不僅可以逐像素生成原始圖像,同時實現(xiàn)了準(zhǔn)確的似然估計和高生成質(zhì)量,效果如下圖 2 所示。

研究者希望這一充滿潛力的的結(jié)果能夠激勵大家進一步研究分形生成模型的設(shè)計和應(yīng)用,最終在生成建模中建立一種全新的范式。

有人評論道,「分形生成模型代表了AI領(lǐng)域一個令人興奮的前沿。自回歸模型的遞歸性質(zhì)反映了學(xué)習(xí)如何反映自然模式。這不僅僅是理論,它是通往更豐富、適應(yīng)性更強的AI系統(tǒng)的途徑?!?/p>

image.pngimage.png

圖源:https://x.com/abhivendra/status/1894421316012577231

一、分形生成模型詳解

研究者表示,分形生成模型的關(guān)鍵思路是「從現(xiàn)有的原子生成模塊中遞歸地構(gòu)建更高級的生成模型。」

具體來講,該分形生成模型將一個原子生成模塊用作了參數(shù)分形生成器。這樣一來,神經(jīng)網(wǎng)絡(luò)就可以直接從數(shù)據(jù)中「學(xué)習(xí)」遞歸規(guī)則。通過將指數(shù)增長的分形輸出與神經(jīng)生成模塊相結(jié)合,分形框架可以對高維非序列數(shù)據(jù)進行建模。

接下來,研究者展示了如何通過將自回歸模型用作分形生成器來構(gòu)建分形生成模型。他們將自回歸模型用作了說明性原子模塊,以演示分形生成模型的實例化,并用來對高緯數(shù)據(jù)分布進行建模。

假設(shè)每個自回歸模型中的序列長度是一個可管理的常數(shù) k,并使隨機變量的總數(shù)為 N = k^n,其中 n = log_k (N) 表示分形框架中的遞歸級別數(shù)。然后,分形框架的第一個自回歸級別將聯(lián)合分布劃分為 k 個子集,每個子集包含 k^n?1 個變量。

在形式上,研究者進行了如下解耦:

接著每個具有 k^n?1 個變量的條件分布 p (???|???) 由第二個遞歸級別的自回歸模型建模,并依此類推。

研究者表示,通過遞歸地調(diào)用這種分而治之(divide-and-conquer)的過程,分形框架可以使用 n 級自回歸模型高效地處理 k^n 個變量的聯(lián)合分布,并且每個模型都對可管理的序列長度 k 進行操作。

這種遞歸過程代表了一種標(biāo)準(zhǔn)的分而治之策略。通過遞歸地解耦聯(lián)合分布,本文分形自回歸架構(gòu)不僅相較于單個大型自回歸模型顯著降低了計算成本,而且還捕獲了數(shù)據(jù)中的內(nèi)在層次結(jié)構(gòu)。從概念上講,只要數(shù)據(jù)表現(xiàn)出可以分而治之的組織結(jié)構(gòu),就可以在該分形框架內(nèi)自然地對其進行建模。

二、實現(xiàn):圖像生成實例化

研究者展示了分形自回歸架構(gòu)如何用于解決具有挑戰(zhàn)性的逐像素圖像生成任務(wù)。

1. 架構(gòu)概覽

如下圖 3 所示,每個自回歸模型將上一級的生成器的輸出作為其輸入,并為下一級生成器生成了多個輸出。該模型還獲取一張圖像(也可以是原始圖像的 patch),將其分割成 patch,并將它們嵌入以形成一個 transformer 模型的輸入序列。這些 patch 也被饋送到相應(yīng)的下一級生成器。

接下來,transformer 模型將上一個生成器的輸出作為單獨的 token,放在圖像 token 的前面?;诖私M合序列,transformer 為下一級生成器生成多個輸出。

研究者將第一級生成器 g_0 的序列長度設(shè)置為 256,將原始圖像分成 16 × 16 個 patch。然后,第二級生成器對每個 patch 進行建模,并進一步將它們細分為更小的 patch,并繼續(xù)遞歸執(zhí)行此過程。為了管理計算成本,他們逐步減少較小 patch 的寬度和 transformer 塊的數(shù)量,這樣做是因為對較小 patch 進行建模通常比對較大 patch 更容易。

在最后一級,研究者使用一個非常輕量級的 transformer 來自回歸地建模每個像素的 RGB 通道,并在預(yù)測中應(yīng)用 256 路交叉熵損失。

不同遞歸級別和分辨率下,每個 transformer 的精確配置和計算成本如下表 1 所示。值得注意的是,通過本文的分形設(shè)計,建模分辨率為 256×256 圖像的計算成本僅為建模分辨率為 64×64 圖像的兩倍。

本文方法支持不同的自回歸設(shè)計。研究者主要考慮了兩種變體:光柵順序、類 GPT 的因果 transformer (AR) 和隨機順序、類 BERT 的雙向 transformer (MAR),具體如下圖 6 所示。

2. 尺度空間自回歸模型

最近,一些模型已經(jīng)提出為自回歸圖像生成執(zhí)行下一尺度(next-scale)預(yù)測。這些尺度空間自回歸模型與本文方法的一個主要區(qū)別是:它們使用單個自回歸模型來逐尺度地預(yù)測 token。

相比之下,本文分形框架采用分而治之的策略,使用生成式子模塊對原始像素進行遞歸建模。另一個關(guān)鍵區(qū)別在于計算復(fù)雜性:尺度空間自回歸模型在生成下一尺度 token 的整個序列時需要執(zhí)行完全注意力操作,這會導(dǎo)致計算復(fù)雜性大大增加。

舉例而言,在生成分辨率為 256×256 的圖像時,在最后一個尺度上,尺度空間自回歸模型每個注意力塊中的注意力矩陣大小為 (256 ×256)^2 即 4,294,967,296。相比之下,本文方法在對像素 (4×4) 相互依賴性進行建模時對非常小的 patch 執(zhí)行注意力,其中每個 patch 的注意力矩陣只有 (4 × 4)^2 = 256,導(dǎo)致總注意力矩陣大小為 (64 × 64) × (4 × 4)^2 = 1,048,576 次操作。

這種減少使得本文方法在最精細分辨率下的計算效率提高了 4000 倍,從而首次能夠逐像素建模高分辨率圖像。

3. 長序列建模

之前大多數(shù)關(guān)于逐像素生成的研究都將問題表述為長序列建模,并利用語言建模的方法來解決。與這些方法不同,研究者將此類數(shù)據(jù)視為由多個元素組成的集合(而不是序列),并采用分而治之的策略以遞歸方式對具有較少元素的較小子集進行建模。

這種方法的動機是觀察到大部分數(shù)據(jù)都呈現(xiàn)出了近乎分形的結(jié)構(gòu)。圖像由子圖像組成,分子由子分子組成,生物神經(jīng)網(wǎng)絡(luò)由子網(wǎng)絡(luò)組成。因此,設(shè)計用于處理此類數(shù)據(jù)的生成模型應(yīng)該由本身就是生成模型的子模塊組成。

三、實驗結(jié)果

本文在 ImageNet 數(shù)據(jù)集上進行了實驗,圖像分辨率分別為 64×64 和 256×256。評估包括無條件和類條件圖像生成,涵蓋模型的各個方面,如似然估計、保真度、多樣性和生成質(zhì)量。

因此,本文報告了負對數(shù)似然(NLL)、Frechet Inception Distance(FID)、Inception Score(IS)、精度(Precision)和調(diào)回率(Recall)以及可視化結(jié)果,以全面評估分形框架。

似然估計。本文首先在無條件 ImageNet 64×64 生成任務(wù)上進行了評估,以檢驗其似然估計能力。為了驗證分形框架的有效性,本文比較了不同分形層級數(shù)量下框架的似然估計性能,如表 2 所示。

再來看生成質(zhì)量評估。研究者在分辨率為 256×256 的類條件圖像生成這一挑戰(zhàn)性任務(wù)上,使用四個分形級別對 FractalMAR 進行了評估。指標(biāo)包括了 FID、Inception Score、精度和召回率,具體如下表 4 所示。

值得注意的是,本文方法實現(xiàn)了強大的 Inception Score 和精度,表明它能夠生成具有高保真度和細粒度細節(jié)的圖像,如下圖 4 所示。

最后是條件逐像素預(yù)測評估。

研究者進一步使用圖像編輯中的常規(guī)任務(wù)來檢驗本文方法的條件逐像素預(yù)測性能。下圖 5 提供了幾個具體示例,包括修復(fù)、去除修復(fù)、取消裁剪和類條件編輯。

結(jié)果顯示,本文方法可以根據(jù)未遮蔽區(qū)域來準(zhǔn)確預(yù)測被遮蔽的像素,還可以有效地從類標(biāo)簽中捕獲高級語義并將其反映在預(yù)測像素中。

更多實驗結(jié)果參閱原論文。

責(zé)任編輯:趙寧寧 來源: 機器之心
相關(guān)推薦

2025-02-26 13:23:08

2025-03-24 09:08:00

2025-05-21 13:53:49

模型生成AI

2025-02-05 12:41:21

線性新范式分辨率

2012-01-05 16:08:57

佳能激光打印機

2023-02-16 07:30:55

圖形編輯器屏幕開發(fā)

2025-04-28 09:10:00

2011-11-14 13:30:27

惠普掃描儀

2020-09-21 16:11:04

Adobe 軟件平臺

2022-12-05 15:27:52

VR技術(shù)

2024-06-05 09:26:50

2023-10-27 08:30:52

傳輸接口刷新率

2023-12-08 14:14:00

模型訓(xùn)練

2011-10-31 17:12:42

激光打印機評測

2024-06-24 08:10:00

2025-03-06 00:00:05

DPIHD開發(fā)

2012-01-17 10:35:31

惠普掃描儀

2011-10-28 15:52:22

激光打印機評測

2018-11-16 09:50:46

Windows 10高分辨率屏幕截圖

2022-03-23 10:44:02

圖像訓(xùn)練框架
點贊
收藏

51CTO技術(shù)棧公眾號