偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DALL·E發(fā)布兩天就被復(fù)現(xiàn)?官方論文沒(méi)出,大神們就在復(fù)現(xiàn)了

新聞 人工智能
沒(méi)想到,OpenAI剛公布DALL·E,就已經(jīng)有人在復(fù)現(xiàn)了。雖然還是個(gè)半成品,不過(guò)大體框架已經(jīng)搭建好了,一位第三方作者Philip Wang正在施工中。

 本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

沒(méi)想到,OpenAI剛公布DALL·E,就已經(jīng)有人在復(fù)現(xiàn)了。

DALL·E發(fā)布兩天就被復(fù)現(xiàn)?官方論文沒(méi)出,大神們就在復(fù)現(xiàn)了

雖然還是個(gè)半成品,不過(guò)大體框架已經(jīng)搭建好了,一位第三方作者Philip Wang正在施工中。

DALL·E是前兩天剛公布的文字轉(zhuǎn)圖像網(wǎng)絡(luò)框架,目前只公布了項(xiàng)目結(jié)果,甚至連官方論文都還沒(méi)出。

論文還沒(méi)出,就開始復(fù)現(xiàn)了

論文復(fù)現(xiàn)的依據(jù),來(lái)自一位叫做Yannic Kilcher的博主制作的油管視頻。

他在視頻中,對(duì)DALL·E的原理結(jié)構(gòu)進(jìn)行了猜測(cè)。

DALL·E發(fā)布兩天就被復(fù)現(xiàn)?官方論文沒(méi)出,大神們就在復(fù)現(xiàn)了

他表示,這些猜測(cè)并不代表真實(shí)情況,也許DALL·E的論文出來(lái)后,會(huì)顛覆他的預(yù)想。

Yannic認(rèn)為,DALL·E應(yīng)該是VQ-VAE模型、和類似于GPT-3的語(yǔ)言模型的結(jié)合。

GPT-3這類語(yǔ)言模型,有著非常強(qiáng)大的語(yǔ)言建模能力,可以對(duì)輸入的文字描述進(jìn)行很好的拆分理解。

[[374674]]

而VAE模型,則是一種強(qiáng)大的圖像生成Transformer,在訓(xùn)練完成后,模型會(huì)去掉編碼器(encoder)的部分,只留下解碼器,用于生成圖像。

將二者結(jié)合的話,就能像下圖中的那個(gè)小方塊一樣,將輸入的各種物體,根據(jù)理解的文字,結(jié)合成具有實(shí)際意義的一幅畫面。

例如,輸入人、太陽(yáng)和樹,模型就能輸出“太陽(yáng)下,樹底坐著一個(gè)人”所描繪的圖像。

DALL·E發(fā)布兩天就被復(fù)現(xiàn)?官方論文沒(méi)出,大神們就在復(fù)現(xiàn)了

要怎么實(shí)現(xiàn)?

先簡(jiǎn)單分析一下VQ-VAE的模型原理。

與VAE相似,這也是一個(gè)Transformer結(jié)構(gòu)的模型,編碼器對(duì)圖像進(jìn)行編碼后,將編碼數(shù)據(jù)送入隱空間,解碼器再?gòu)碾[空間中,對(duì)圖像進(jìn)行重構(gòu)。

相比于VAE,VQ-VAE隱變量的每一維都是離散整數(shù),也就是說(shuō),它的隱空間其實(shí)是一個(gè)編碼簿(codebook),包含提取出的各種向量信息。

DALL·E發(fā)布兩天就被復(fù)現(xiàn)?官方論文沒(méi)出,大神們就在復(fù)現(xiàn)了

在DALL·E里,這個(gè)編碼簿,本質(zhì)上可以等價(jià)為一個(gè)詞匯表(vocabulary)。

這個(gè)詞匯表,專門用來(lái)存儲(chǔ)對(duì)圖像的各種描述。

對(duì)輸入圖像進(jìn)行編碼時(shí),本質(zhì)上是將圖像分成各種像素塊。

期間,會(huì)產(chǎn)生各種各樣的圖像信息。

假設(shè)天藍(lán)色的格子,包含“天空”的描述信息,那么在重建時(shí),解碼器讀取到“天空”信息,就會(huì)分配頂端的一系列像素,用來(lái)生成天空。

DALL·E發(fā)布兩天就被復(fù)現(xiàn)?官方論文沒(méi)出,大神們就在復(fù)現(xiàn)了

在完成VQ-VAE的訓(xùn)練后,模型就得到了一個(gè)只有解碼器看得懂的編碼簿。

屆時(shí),將由類似于GPT-3的語(yǔ)言模型,對(duì)輸入的文字進(jìn)行解碼,轉(zhuǎn)換成只有編碼簿才能看懂的向量信息。

然后,編碼簿會(huì)將這些信息進(jìn)行排序,依次列出每個(gè)像素塊應(yīng)該生成的數(shù)據(jù),并告訴解碼器。

解碼器會(huì)合成這些像素?cái)?shù)據(jù),得到最終的圖像。

DALL·E發(fā)布兩天就被復(fù)現(xiàn)?官方論文沒(méi)出,大神們就在復(fù)現(xiàn)了

為了實(shí)現(xiàn)這樣的目標(biāo),既要對(duì)類似于GPT-3的語(yǔ)言模型進(jìn)行訓(xùn)練,也要提前對(duì)VQ-VAE模型進(jìn)行預(yù)訓(xùn)練。

而且,還需要對(duì)二者融合后的模型進(jìn)行訓(xùn)練。

這位作者復(fù)現(xiàn)的DALL·E,也是依據(jù)這個(gè)視頻解析的原理復(fù)現(xiàn)的。

有關(guān)項(xiàng)目本身

目前,DALL·E的復(fù)現(xiàn)項(xiàng)目還沒(méi)有完成,作者仍然在加工中(WIP),不過(guò)已經(jīng)有700多個(gè)Star。

DALL·E發(fā)布兩天就被復(fù)現(xiàn)?官方論文沒(méi)出,大神們就在復(fù)現(xiàn)了

作者希望寫出一個(gè)PyTorch版本的DALL·E,現(xiàn)在的框架中,已經(jīng)包含了VAE的訓(xùn)練、CLIP的訓(xùn)練,以及VAE和CLIP融合后的模型預(yù)訓(xùn)練。

此外,還包括DALL·E的訓(xùn)練、和將預(yù)訓(xùn)練VAE模型融合進(jìn)DALL·E模型中的部分。

上述模塊訓(xùn)練完成后,就能用DALL·E來(lái)做文字生成圖像了。

DALL·E發(fā)布兩天就被復(fù)現(xiàn)?官方論文沒(méi)出,大神們就在復(fù)現(xiàn)了

目前,作者正在進(jìn)行DALL·E模塊部分的代碼復(fù)現(xiàn)。

作者承諾,完成DALL·E的部分后,會(huì)把CLIP模型也一起補(bǔ)上。

作者介紹

[[374678]]

Philip Wang,本碩畢業(yè)于康奈爾大學(xué),博士畢業(yè)于密歇根大學(xué)醫(yī)學(xué)院。

他的研究興趣是AI(深度學(xué)習(xí)方向),以及醫(yī)療健康,目前GitHub上已有1.7k個(gè)followers。

關(guān)于DALL·E本身,視頻解析博主Yannic也表示,之所以能取得這么好的效果,并不全是因?yàn)槟P驮O(shè)計(jì)。

DALL·E發(fā)布兩天就被復(fù)現(xiàn)?官方論文沒(méi)出,大神們就在復(fù)現(xiàn)了

DALL·E,極可能也像GPT-3一樣,用了樣本量龐大的數(shù)據(jù)集,來(lái)對(duì)模型進(jìn)行訓(xùn)練。

網(wǎng)友表示,難以想象訓(xùn)練這個(gè)玩意所用的GPU數(shù)量,氣候又要變暖了。

DALL·E發(fā)布兩天就被復(fù)現(xiàn)?官方論文沒(méi)出,大神們就在復(fù)現(xiàn)了

所以要想完全復(fù)現(xiàn)這個(gè)項(xiàng)目,最難的其實(shí)是硬件部分?(手動(dòng)狗頭)

項(xiàng)目地址:
https://github.com/lucidrains/DALLE-pytorch

DALL·E視頻解析:
https://www.youtube.com/watch?v=j4xgkjWlfL4

 

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-03-06 13:12:21

AI技術(shù)論文

2025-03-10 09:30:00

2023-06-19 13:44:00

AI3D

2023-12-06 13:56:24

智能數(shù)據(jù)

2021-04-25 15:35:30

開源技術(shù) 軟件

2024-04-08 08:03:00

ChatGPTOpenAI大語(yǔ)言模型

2024-04-15 12:54:39

2023-09-21 10:31:06

人工智能模型

2021-02-01 09:04:42

Python 項(xiàng)目distutils

2025-05-06 09:09:37

2020-11-03 10:09:46

機(jī)器學(xué)習(xí)論文代碼

2025-02-20 15:32:28

2011-05-09 00:13:17

Windows Pho微軟

2023-09-29 18:46:06

谷歌AI代碼

2023-10-23 09:25:08

模型AI

2022-05-30 14:04:23

Log4j遠(yuǎn)程代碼漏洞

2009-07-02 08:45:25

網(wǎng)易魔獸

2011-08-10 09:18:05

亞馬遜彈性計(jì)算云故障

2024-03-04 09:15:00

AI模型

2011-06-10 15:47:26

SEO優(yōu)化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)