偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

出圈的Sora帶火DiT,連登GitHub熱榜,已進(jìn)化出新版本SiT

人工智能 新聞
Sora 研發(fā)負(fù)責(zé)人之一 Bill Peebles 與紐約大學(xué)助理教授謝賽寧撰寫的 DiT(擴(kuò)散 Transformer)論文《Scalable Diffusion Models with Transformers》被認(rèn)為是此次 Sora 背后的重要技術(shù)基礎(chǔ)之一。

雖然已經(jīng)發(fā)布近一周時(shí)間,OpenAI 視頻生成大模型 Sora 的影響仍在繼續(xù)!

其中,Sora 研發(fā)負(fù)責(zé)人之一 Bill Peebles 與紐約大學(xué)助理教授謝賽寧撰寫的 DiT(擴(kuò)散 Transformer)論文《Scalable Diffusion Models with Transformers》被認(rèn)為是此次 Sora 背后的重要技術(shù)基礎(chǔ)之一。該論文被 ICCV 2023 接收。


  • 論文地址:https://arxiv.org/pdf/2212.09748v2.pdf
  • GitHub 地址:https://github.com/facebookresearch/DiT

這兩天,DiT 論文和 GitHub 項(xiàng)目的熱度水漲船高,重新收獲大量關(guān)注。

論文出現(xiàn)在 PapersWithCode 的 Trending Research 榜單上,星標(biāo)數(shù)量已近 2700;還登上了 GitHub Trending 榜單,星標(biāo)數(shù)量每日數(shù)百增長,Star 總量已超 3000。

來源:https://paperswithcode.com/

來源:https://github.com/facebookresearch/DiT

這篇論文最早的版本是 2022 年 12 月,2023 年 3 月更新了第二版。當(dāng)時(shí),擴(kuò)散模型在圖像生成方面取得了驚人的成果,幾乎所有這些模型都使用卷積 U-Net 作為主干。

因此,論文的目的是探究擴(kuò)散模型中架構(gòu)選擇的意義,并為未來的生成模型研究提供經(jīng)驗(yàn)基線。該研究表明,U-Net 歸納偏置對(duì)擴(kuò)散模型的性能不是至關(guān)重要的,并且可以很容易地用標(biāo)準(zhǔn)設(shè)計(jì)(如 transformer)取代。

具體來說,研究者提出了一種基于 transformer 架構(gòu)的新型擴(kuò)散模型 DiT,并訓(xùn)練了潛在擴(kuò)散模型,用對(duì)潛在 patch 進(jìn)行操作的 Transformer 替換常用的 U-Net 主干網(wǎng)絡(luò)。他們通過以 Gflops 衡量的前向傳遞復(fù)雜度來分析擴(kuò)散 Transformer (DiT) 的可擴(kuò)展性。

研究者嘗試了四種因模型深度和寬度而異的配置:DiT-S、DiT-B、DiT-L 和 DiT-XL。

他們發(fā)現(xiàn),通過增加 Transformer 深度 / 寬度或增加輸入 token 數(shù)量,具有較高 Gflops 的 DiT 始終具有較低的 FID。

除了良好的可擴(kuò)展性之外,DiT-XL/2 模型在 class-conditional ImageNet 512×512 和 256×256 基準(zhǔn)上的性能優(yōu)于所有先前的擴(kuò)散模型,在后者上實(shí)現(xiàn)了 2.27 的 FID SOTA 數(shù)據(jù)。

質(zhì)量、速度、靈活性更好的 SiT

此外,DiT 還在今年 1 月迎來了升級(jí)!謝賽寧及團(tuán)隊(duì)推出了 SiT(Scalable Interpolant Transformer,可擴(kuò)展插值 Tranformer),相同的骨干實(shí)現(xiàn)了更好的質(zhì)量、速度和靈活性。

謝賽寧表示,SiT 超越了標(biāo)準(zhǔn)擴(kuò)散并通過插值來探索更廣闊的設(shè)計(jì)空間。

該論文標(biāo)題為《SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers》。


  • 論文地址:https://arxiv.org/pdf/2401.08740.pdf
  • GitHub 地址:https://github.com/willisma/SiT

簡單來講,SiT 將靈活的插值框架集成到了 DiT 中,從而能夠?qū)D像生成中的動(dòng)態(tài)傳輸進(jìn)行細(xì)微的探索。SiT 在 ImageNet 256 的 FID 為 2.06,將基于插值的模型推向了新的高度。

論文一作、紐約大學(xué)本科生 Nanye Ma 對(duì)這篇論文進(jìn)行了解讀。本文認(rèn)為,隨機(jī)插值為擴(kuò)散和流提供了統(tǒng)一的框架。但又注意到, 基于 DDPM(去噪擴(kuò)散概率模型)的 DiT 與較新的基于插值的模型之間存在性能差異。因此,研究者想要探究性能提升的來源是什么?

他們通過設(shè)計(jì)空間中的一系列正交步驟,逐漸地從 DiT 模型過渡到 SiT 模型來解答這一問題。同時(shí)仔細(xì)評(píng)估了每個(gè)遠(yuǎn)離擴(kuò)散模型的舉措對(duì)性能的影響。

研究者發(fā)現(xiàn),插值和采樣器對(duì)性能的影響最大。當(dāng)將插值(即分布路徑)從方差保留切換到線性以及將采樣器從確定性切換到隨機(jī)性時(shí),他們觀察到了巨大的改進(jìn)。

對(duì)于隨機(jī)采樣,研究者表明擴(kuò)散系數(shù)不需要在訓(xùn)練和采樣之間綁定,在推理時(shí)間方面可以有很多選擇。同時(shí)確定性和隨機(jī)采樣器在不同的計(jì)算預(yù)算下各有其優(yōu)勢(shì)。

最后,研究者將 SiT 描述為連續(xù)、速度可預(yù)測、線性可調(diào)度和 SDE 采樣的模型。與擴(kuò)散模型一樣,SiT 可以實(shí)現(xiàn)性能提升,并且優(yōu)于 DiT。

更多關(guān)于 DiT 和 SiT 的內(nèi)容請(qǐng)參閱原始論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2019-12-04 15:00:04

GitHub 技術(shù)開源

2024-07-31 15:10:31

2013-12-10 16:00:46

金和移動(dòng)OA

2022-09-20 15:24:09

程序員項(xiàng)目

2020-12-10 15:07:56

Windows 10Windows微軟

2011-08-01 15:35:51

GlassFishJava 7

2023-10-20 12:45:00

AI數(shù)據(jù)

2023-02-22 15:02:52

GitHub指南

2023-12-21 14:18:42

統(tǒng)信UOS操作系統(tǒng)

2009-06-17 09:24:34

學(xué)習(xí)strutsStruts新版本

2010-02-23 17:44:48

Python 3.0

2023-10-10 07:19:07

Github開源庫系統(tǒng)

2011-03-21 13:51:28

FirefoxMozilla進(jìn)度

2023-04-19 08:14:24

2015-03-13 11:26:57

兩會(huì)云計(jì)算云概念

2015-07-22 16:29:06

2015-02-05 16:59:36

平安WiFiiOS

2024-01-04 14:46:10

AI開發(fā)者GPT

2019-12-26 15:31:17

騰訊框架開源

2015-10-13 16:02:49

升級(jí)Windows 10微軟
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)