何愷明ResNet級神作,分形生成模型計算效率狂飆4000倍!清華校友一作
圖像生成建模全新范式來了。
你是否曾凝視過雪花的精致對稱,或驚嘆于樹枝的無窮分支?
這些都是大自然中的「分形」。早在1983年,數(shù)學(xué)家Mandelbrot就揭示了這一現(xiàn)象。
而如今,何愷明團隊將這一概念注入AI,重磅提出「分形生成模型」(fractal generative models),將GenAI模型的模塊化層次提升到全新的高度。
論文鏈接:https://arxiv.org/abs/2502.17437
類似于數(shù)學(xué)中的分形,它采用了「遞歸結(jié)構(gòu)」,遞歸調(diào)用原子生成模塊,構(gòu)建了新型的生成模型,形成了自相似的分形架構(gòu)。
具體來說,每個生成模塊內(nèi)部包含了更小的生成模塊,而這些小模塊內(nèi)又嵌套著更小的模塊。
這也并非憑空想象,科學(xué)研究早已證明,大腦的神經(jīng)網(wǎng)絡(luò)正是分形的杰作。人類大腦同樣是通過模塊化遞歸,將微型神經(jīng)網(wǎng)絡(luò)組合成更大的網(wǎng)絡(luò)。
在像素級圖像生成上,研究團隊驗證了新方法的強大——
「分形生成模型」首次將逐像素建模的精細分辨率的計算效率,提升了4000倍。
分形生成模不僅是一種新模型,更是生成建模領(lǐng)域的全新范式。
它將AI設(shè)計與自然界奧秘合二為一,或許通往真正智能道路,就是更深入理解、模擬自然界已有的設(shè)計模式。
這篇神作一出世,便有網(wǎng)友表示,何愷明的ResNet 2?
還有大佬稱,「分形生成模型代表了AI領(lǐng)域一個激動人心的新前沿。自回歸模型的遞歸特性,就是在學(xué)習(xí)模仿大自然的模式。
這不僅僅是理論,而是一條通往更豐富、更具適應(yīng)性AI系統(tǒng)的道路」。
自然界終極設(shè)計模式,「分形」無處不在
計算機科學(xué)的核心概念之一是模塊化。
現(xiàn)代生成模型(如擴散模型和自回歸模型)是由基本的「生成步驟」組成的,而每個步驟本身都是由深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)的。
將復(fù)雜的功能抽象成基本模塊,通過組合這些模塊來構(gòu)建更復(fù)雜的系統(tǒng)。這就是模塊化方法。
基于這一理念,研究團隊提出將生成模型本身作為一個模塊,從而開發(fā)更高級的生成模型。
新方法受到了生物神經(jīng)網(wǎng)絡(luò)和自然數(shù)據(jù)中觀察到的分形特性的啟發(fā)。
與自然分形結(jié)構(gòu)類似,設(shè)計的關(guān)鍵組件是定義遞歸生成規(guī)則的「生成器」。
例如,生成器可以是一個自回歸模型,如圖1所示。在這種實例化中,每個自回歸模型由本身也是自回歸模型的模塊組成。具體來說,每個父自回歸模塊生成多個子自回歸模塊,而每個子模塊進一步生成更多的自回歸模塊。
最終的架構(gòu)在不同層次上展現(xiàn)出類似分形的自相似模式,如圖1所示。
圖1:分形生成模型
在這個實例中,使用自回歸模型作為分形生成器。在自回歸模型中,遞歸調(diào)用自回歸模型,構(gòu)建了一個具有不同層級之間自相似性的類似分形的框架。
動機和直覺
從簡單的遞歸規(guī)則中,分形可以產(chǎn)生復(fù)雜的模式。
這也是分形生成模型的核心思想:利用現(xiàn)有的原子生成模塊,遞歸地構(gòu)建成更高級的生成模型。
在分形幾何中,這些規(guī)則通常被稱為「生成器」。
通過不同的生成器,分形方法可以構(gòu)建許多自然模式,如云、山脈、雪花和樹枝,并且和更復(fù)雜的系統(tǒng)有關(guān),如生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)、非線性動力學(xué)和混沌系統(tǒng)。
Mathworld中不同的分形模式
形式上,分形生成器g_i,指定了如何基于上一級生成器的輸出xi,生成下一級生成器的新數(shù)據(jù)集。
例如,如圖1所示,生成器可以通過在每個灰色框內(nèi)遞歸調(diào)用類似的生成器來構(gòu)建分形。
由于每個生成器層級可以從單個輸入生成多個輸出,在僅需要線性遞歸層級的情況下,分形框架可以實現(xiàn)生成輸出的指數(shù)級增長。
這特別適合用相對較少的生成器層級,來建模高維數(shù)據(jù)。
「分形生成模型」核心架構(gòu)
分而治之
在理論上,生成模型就是建模多個高維隨機變量的聯(lián)合分布,但直接用單一的自回歸模型建模,在計算上是不可行的。
為了解決這個問題,采用了分而治之的策略。
關(guān)鍵模塊化是將自回歸模型抽象為一個模塊化單元,用于建模概率分布p(x∣c)。
通過這種模塊化,可以在多個下一級自回歸模型的基礎(chǔ)上構(gòu)建一個更強大的自回歸模型。
假設(shè)每個自回歸模型中的序列長度是一個可管理的常數(shù)k,并且總隨機變量數(shù)N=k^n,其中n=log?_k(N)表示框架中的遞歸層級數(shù)。
分形框架的第一層自回歸模型將聯(lián)合分布劃分為k個子集,每個子集包含k^{n?1}個變量。形式上,我們將聯(lián)合分布分解為:
每個包含k^{n?1}個變量的條件分布p(?∣??),由第二層遞歸的自回歸模型建模,以此類推。
通過遞歸調(diào)用這種分而治之的過程,分形框架可以使用n層自回歸模型,高效地處理k^n個變量的聯(lián)合分布。
架構(gòu)實例
如圖3所示,每個自回歸模型將上一層生成器的輸出作為輸入,并為下一層生成器生成多個輸出。
它還接受一張圖像(可以是原始圖像的一部分),將其切分成多個patch,并將這些patch嵌入以形成Transformer模型的輸入序列。這些patch也會被傳遞給相應(yīng)的下一層生成器。
然后,Transformer將上一層生成器的輸出作為一個獨立的token,放置在圖像token之前。
基于合并的序列,Transformer生成多個輸出,供下一層生成器使用。
遵循領(lǐng)域內(nèi)模型中的常見做法,將第一個生成器g_0的序列長度設(shè)置為256,將原始圖像劃分為16×16的patch。
然后,第二層生成器對每個patch進行建模,并進一步將這些patch細分為更小的patch,遞歸地繼續(xù)這一過程。
為了管理計算成本,逐漸減少較小patch的Transformer寬度和Transformer塊的數(shù)量,因為對較小的patch建模,通常比較大的patch更容易。
在最后一級,使用非常輕量的Transformer,以自回歸方式建模每個像素的RGB通道,并對預(yù)測應(yīng)用256路交叉熵損失。
值得注意的是,分形設(shè)計建模256×256圖像的計算,成本僅為建模64×64圖像的兩倍。
實現(xiàn)
采用寬度優(yōu)先的方式,端到端訓(xùn)練原始圖像像素。
在訓(xùn)練過程中,每個自回歸模型從上一層的自回歸模型接收輸入,并為下一層自回歸模型生成一組輸出作為輸入。這個過程一直持續(xù)到最終層級,在那里圖像被表示為像素序列。
最后的模型使用每個像素的輸出,以自回歸的方式預(yù)測RGB通道。
對預(yù)測的logits計算交叉熵損失(將RGB值視為從0到255的離散整數(shù)),并通過所有層級的自回歸模型,進行反向傳播,從而端到端地訓(xùn)練整個分形框架。
分形模型以逐像素的方式生成圖像,按照深度優(yōu)先的順序遍歷分形架構(gòu),如圖2所示。
這里,以下文中的MAR的隨機順生成方案為例。
論文鏈接:https://arxiv.org/abs/2406.11838
第一層:自回歸模型捕捉16×16圖像patch之間的相互依賴關(guān)系,并在每一步根據(jù)已知的圖像patch生成下一層的輸出。
第二層:模型利用這些輸出,對每個16×16圖像patch內(nèi)4×4圖像patch之間的相互依賴關(guān)系建模。
類似地,第三層自回歸模型建模每個4×4圖像patch內(nèi)的像素之間的相互依賴關(guān)系。
最后,從自回歸預(yù)測的RGB logits中,最頂層的自回歸模型采樣出實際的RGB值。
與尺度空間自回歸模型的關(guān)系
尺度空間自回歸模型(Scale-space Autoregressive Models),與分形方法之間的一個主要區(qū)別在于:它們使用單一的自回歸模型,按尺度逐步預(yù)測token。
相較之下,分形框架采用了分而治之的策略,通過生成子模塊遞歸地建模原始像素。
另一個關(guān)鍵區(qū)別在于計算復(fù)雜度:尺度空間自回歸模型在生成下一個尺度的token時,需要對整個序列執(zhí)行全注意力操作,這導(dǎo)致計算復(fù)雜度顯著更高。
舉個栗子,當(dāng)生成256×256分辨率的圖像時,在最后一個尺度下,尺度空間自回歸模型中每個注意力patch的注意力矩陣大小為(256 × 256)2 = 4,294,967,296。
而新方法在建模像素間依賴關(guān)系時,對非常小的圖patch(4×4)進行注意力操作,其中每個圖patch的注意力矩陣僅為(4 × 4)2 = 256,從而使得總的注意力矩陣大小為(64 × 64) × (4 × 4)2 = 1,048,576次操作。
這種縮減使得分形方法在最精細的分辨率下,比傳統(tǒng)方法計算效率提高了4000倍,從而首次實現(xiàn)了像素逐像素建模高分辨率圖像。
與長序列建模的關(guān)系
大多數(shù)關(guān)于逐像素生成的前期研究,將問題表述為長序列建模,并利用語言建模中的方法來解決這個問題。
然而,許多數(shù)據(jù)類型的內(nèi)在結(jié)構(gòu),包括但不限于圖像,超出了單一維度的序列。
與這些方法不同,研究團隊將這類數(shù)據(jù)視為由多個元素組成的集合(而非序列),并采用分治策略遞歸地對包含較少元素的子集進行建模。
這一方法的動機來源于對這些數(shù)據(jù)的觀察——大量數(shù)據(jù)展現(xiàn)出近似分形結(jié)構(gòu):
圖像由子圖像組成,
分子由子分子組成,
生物神經(jīng)網(wǎng)絡(luò)由子網(wǎng)絡(luò)組成。
因此,旨在處理這類數(shù)據(jù)的生成模型應(yīng)當(dāng)由子模塊組成,而這些子模塊本身也是生成模型。
實驗結(jié)果
研究人員在ImageNet數(shù)據(jù)集上,對「分形生成模型」進行了廣泛的實驗,分別使用64×64和256×256的分辨率。
評估包括無條件和類別條件圖像生成,涵蓋了模型的多個方面,如似然估計、保真度、多樣性和生成質(zhì)量。
似然估計
研究人員首先在ImageNet 64×64無條件生成任務(wù)上展開評估,以檢驗其似然估計的能力。
為了考察分形框架的有效性,他們比較了不同分形層級數(shù)量下框架的似然估計性能,如下表2所示。
使用單個自回歸模型,對整個64×64×3=12,288像素序列建模會產(chǎn)生過高的計算成本,讓訓(xùn)練變得不可行。
此外,先對整個像素序列然后對RGB通道建模的兩級分形框架,需要的計算量是三級分形模型的十多倍。
在表5中,進一步將分形框架與其他基于似然的模型進行了比較。
分形生成模型,同時使用因果自回歸和掩碼自回歸分形生成器實現(xiàn),取得了強大的似然性能。
特別是,它實現(xiàn)了每維3.14比特的負對數(shù)似然,顯著優(yōu)于此前最佳的自回歸模型(每維3.40比特),并且與SOTA模型相比有著強大得競爭力。
這些發(fā)現(xiàn)證明了,分形框架在具有挑戰(zhàn)性的逐像素圖像生成任務(wù)上的有效性,突顯了其在建模高維非序列數(shù)據(jù)分布方面的潛力。
生成質(zhì)量
此外,研究人員還使用「四級分形結(jié)構(gòu)」評估了FractalMAR在256×256分辨率下,在具有挑戰(zhàn)性的類別條件圖像生成任務(wù)上的表現(xiàn)。
如下表4中,F(xiàn)ractalMAR-H實現(xiàn)了6.15的FID,以及348.9的IS。
在單個Nvidia H100 PCIe GPU上以1024的批大小評估時,平均每張圖像的生成時間為1.29秒。
值得注意的是,新方法在IS和精確率上,具備了顯著優(yōu)勢,表明其能夠生成具有高保真度和精細細節(jié)的圖像,這一點在圖4中也得到了展示。
然而,其FID、召回率相對較弱,與其他方法相比,生成的樣本多樣性較低。
研究人員推測,這是由于以逐像素方式對近200,000個像素進行建模的巨大挑戰(zhàn)所致。
此外,研究人員進一步觀察到一個有前景的Scaling趨勢:
將模型規(guī)模從1.86億參數(shù)增加到8.48億參數(shù),顯著改善了FID(從11.80降至6.15)和召回率(從0.29提升至0.46)。
他們預(yù)期,進一步增加參數(shù)規(guī)模,可能會進一步縮小FID和召回率的差距。
條件逐像素預(yù)測
進一步地,作者通過圖像編輯的常規(guī)任務(wù),檢驗了分形方法的條件逐像素預(yù)測性能。
如下圖5中的幾個示例,包括修復(fù)(inpainting)、外延(outpainting)、基于掩碼外延(uncropping)和類別條件編輯。
結(jié)果顯示,分享方法能夠基于未掩碼區(qū)域,準(zhǔn)確預(yù)測被掩碼的像素。
此外,它能夠有效地從類別標(biāo)簽中捕捉高層語義信息,并反映在預(yù)測的像素中。
這一點在類別條件編輯示例中得到了展示,其中模型通過條件化狗的類別標(biāo)簽,將貓的臉替換成了狗的臉。這些結(jié)果證明了,新方法在給定已知條件下預(yù)測未知數(shù)據(jù)的有效性。
更廣泛地說,通過逐像素生成數(shù)據(jù),新方法提供了一個相比擴散模型或在潛空間運作的生成模型,更易于人類理解的生成過程。
這種可解釋的生成過程不僅讓我們能夠更好地理解數(shù)據(jù)是如何生成的,還提供了一種控制和交互生成的方式。
未來,這些能力在視覺內(nèi)容創(chuàng)作、建筑設(shè)計和藥物發(fā)現(xiàn)等應(yīng)用中,尤為重要。
作者介紹
Tianhong Li(黎天鴻)
黎天鴻目前是MIT CSAIL(麻省理工學(xué)院計算機科學(xué)與人工智能實驗室)的博士后研究員,師從何愷明教授。
在此之前,他獲得了MIT博士、碩士學(xué)位,導(dǎo)師是Dina Katabi教授。他本科畢業(yè)于清華大學(xué)姚班計算機科學(xué)專業(yè)。
黎天鴻的研究興趣主要集中在表示學(xué)習(xí)、生成模型,以及這兩者之間的協(xié)同效應(yīng)。他的目標(biāo)是構(gòu)建能夠理解和建模,超越人類感知的智能視覺系統(tǒng)。
他也非常喜歡烹飪,這種熱愛程度幾乎和做研究一樣。
有趣的是,在個人主頁里,他列出了一些自己最喜歡的菜譜。
Qinyi Sun
Qinyi Sun目前是麻省理工學(xué)院(MIT)電氣工程與計算機科學(xué)系(EECS)本科生,師從何愷明教授。
Lijie Fan
Lijie Fan目前是谷歌DeepMind研究科學(xué)家。
他于2024年獲得了MIT計算機科學(xué)專業(yè)博士學(xué)位,于2018年獲得了清華大學(xué)計算機科學(xué)學(xué)士學(xué)位。
他的個人研究重點在生成模型和合成數(shù)據(jù)。
何愷明
何愷明目前是麻省理工學(xué)院(MIT)電氣工程與計算機科學(xué)系(EECS)的副教授,于2024年2月加入。
他本人的研究重點是,構(gòu)建能夠從復(fù)雜世界中學(xué)習(xí)表示并發(fā)展智能的計算機模型,研究的長期目標(biāo)是用更強大的AI來增強人類智能。
何愷明最為人熟知的研究是深度殘差網(wǎng)絡(luò)(ResNets)。ResNets的影響力不僅限于計算機視覺領(lǐng)域,它的設(shè)計思想被廣泛應(yīng)用于現(xiàn)代深度學(xué)習(xí)模型中。
無論是自然語言處理中的Transformer(如GPT、ChatGPT),還是強化學(xué)習(xí)中的AlphaGo Zero,甚至是蛋白質(zhì)結(jié)構(gòu)預(yù)測的AlphaFold,殘差連接都成為了這些模型的核心組件之一。
除了ResNets,何愷明在計算機視覺領(lǐng)域的貢獻同樣令人矚目。他提出的Faster R-CNN和Mask R-CNN,極大地推動了目標(biāo)檢測和圖像分割技術(shù)的發(fā)展。
在加入MIT之前,他于2016年-2024年在Facebook AI研究院(FAIR)擔(dān)任研究科學(xué)家,2011年-2016年在微軟亞洲研究院(MSRA)擔(dān)任研究員。
此前,他于2011年在香港中文大學(xué)獲得博士學(xué)位,2007年在清華大學(xué)獲得學(xué)士學(xué)位。