出圈的Sora帶火DiT,連登GitHub熱榜,已進(jìn)化出新版本SiT
雖然已經(jīng)發(fā)布近一周時(shí)間,OpenAI 視頻生成大模型 Sora 的影響仍在繼續(xù)!
其中,Sora 研發(fā)負(fù)責(zé)人之一 Bill Peebles 與紐約大學(xué)助理教授謝賽寧撰寫(xiě)的 DiT(擴(kuò)散 Transformer)論文《Scalable Diffusion Models with Transformers》被認(rèn)為是此次 Sora 背后的重要技術(shù)基礎(chǔ)之一。該論文被 ICCV 2023 接收。

- 論文地址:https://arxiv.org/pdf/2212.09748v2.pdf
- GitHub 地址:https://github.com/facebookresearch/DiT
這兩天,DiT 論文和 GitHub 項(xiàng)目的熱度水漲船高,重新收獲大量關(guān)注。
論文出現(xiàn)在 PapersWithCode 的 Trending Research 榜單上,星標(biāo)數(shù)量已近 2700;還登上了 GitHub Trending 榜單,星標(biāo)數(shù)量每日數(shù)百增長(zhǎng),Star 總量已超 3000。

來(lái)源:https://paperswithcode.com/

來(lái)源:https://github.com/facebookresearch/DiT
這篇論文最早的版本是 2022 年 12 月,2023 年 3 月更新了第二版。當(dāng)時(shí),擴(kuò)散模型在圖像生成方面取得了驚人的成果,幾乎所有這些模型都使用卷積 U-Net 作為主干。
因此,論文的目的是探究擴(kuò)散模型中架構(gòu)選擇的意義,并為未來(lái)的生成模型研究提供經(jīng)驗(yàn)基線。該研究表明,U-Net 歸納偏置對(duì)擴(kuò)散模型的性能不是至關(guān)重要的,并且可以很容易地用標(biāo)準(zhǔn)設(shè)計(jì)(如 transformer)取代。
具體來(lái)說(shuō),研究者提出了一種基于 transformer 架構(gòu)的新型擴(kuò)散模型 DiT,并訓(xùn)練了潛在擴(kuò)散模型,用對(duì)潛在 patch 進(jìn)行操作的 Transformer 替換常用的 U-Net 主干網(wǎng)絡(luò)。他們通過(guò)以 Gflops 衡量的前向傳遞復(fù)雜度來(lái)分析擴(kuò)散 Transformer (DiT) 的可擴(kuò)展性。

研究者嘗試了四種因模型深度和寬度而異的配置:DiT-S、DiT-B、DiT-L 和 DiT-XL。

他們發(fā)現(xiàn),通過(guò)增加 Transformer 深度 / 寬度或增加輸入 token 數(shù)量,具有較高 Gflops 的 DiT 始終具有較低的 FID。

除了良好的可擴(kuò)展性之外,DiT-XL/2 模型在 class-conditional ImageNet 512×512 和 256×256 基準(zhǔn)上的性能優(yōu)于所有先前的擴(kuò)散模型,在后者上實(shí)現(xiàn)了 2.27 的 FID SOTA 數(shù)據(jù)。

質(zhì)量、速度、靈活性更好的 SiT
此外,DiT 還在今年 1 月迎來(lái)了升級(jí)!謝賽寧及團(tuán)隊(duì)推出了 SiT(Scalable Interpolant Transformer,可擴(kuò)展插值 Tranformer),相同的骨干實(shí)現(xiàn)了更好的質(zhì)量、速度和靈活性。
謝賽寧表示,SiT 超越了標(biāo)準(zhǔn)擴(kuò)散并通過(guò)插值來(lái)探索更廣闊的設(shè)計(jì)空間。

該論文標(biāo)題為《SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers》。

- 論文地址:https://arxiv.org/pdf/2401.08740.pdf
- GitHub 地址:https://github.com/willisma/SiT
簡(jiǎn)單來(lái)講,SiT 將靈活的插值框架集成到了 DiT 中,從而能夠?qū)D像生成中的動(dòng)態(tài)傳輸進(jìn)行細(xì)微的探索。SiT 在 ImageNet 256 的 FID 為 2.06,將基于插值的模型推向了新的高度。

論文一作、紐約大學(xué)本科生 Nanye Ma 對(duì)這篇論文進(jìn)行了解讀。本文認(rèn)為,隨機(jī)插值為擴(kuò)散和流提供了統(tǒng)一的框架。但又注意到, 基于 DDPM(去噪擴(kuò)散概率模型)的 DiT 與較新的基于插值的模型之間存在性能差異。因此,研究者想要探究性能提升的來(lái)源是什么?

他們通過(guò)設(shè)計(jì)空間中的一系列正交步驟,逐漸地從 DiT 模型過(guò)渡到 SiT 模型來(lái)解答這一問(wèn)題。同時(shí)仔細(xì)評(píng)估了每個(gè)遠(yuǎn)離擴(kuò)散模型的舉措對(duì)性能的影響。
研究者發(fā)現(xiàn),插值和采樣器對(duì)性能的影響最大。當(dāng)將插值(即分布路徑)從方差保留切換到線性以及將采樣器從確定性切換到隨機(jī)性時(shí),他們觀察到了巨大的改進(jìn)。

對(duì)于隨機(jī)采樣,研究者表明擴(kuò)散系數(shù)不需要在訓(xùn)練和采樣之間綁定,在推理時(shí)間方面可以有很多選擇。同時(shí)確定性和隨機(jī)采樣器在不同的計(jì)算預(yù)算下各有其優(yōu)勢(shì)。

最后,研究者將 SiT 描述為連續(xù)、速度可預(yù)測(cè)、線性可調(diào)度和 SDE 采樣的模型。與擴(kuò)散模型一樣,SiT 可以實(shí)現(xiàn)性能提升,并且優(yōu)于 DiT。

更多關(guān)于 DiT 和 SiT 的內(nèi)容請(qǐng)參閱原始論文。





























