偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

清華唐杰團隊造了個“中文ai設(shè)計師”,效果超Dall·E

新聞 人工智能
最近清華大學(xué)唐杰團隊打造了一個“中文版Dall·E”——CogView,它可以將中文文字轉(zhuǎn)圖像。

[[402579]]

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

要說2021年OpenAI最熱最有創(chuàng)意的產(chǎn)品,那么非Dall·E莫屬了,這是一個可以從“AI設(shè)計師”,只要給它一段文字,就能按要求生成圖像。但可惜的是Dall·E并不支持中文。

現(xiàn)在好了,最近清華大學(xué)唐杰團隊打造了一個“中文版Dall·E”——CogView,它可以將中文文字轉(zhuǎn)圖像。

CogView可以生成現(xiàn)實中真實存在場景,如“一條小溪在山澗流淌”:

清華唐杰團隊造了個“中文AI設(shè)計師”,效果超Dall·E,可在線試玩

也可以制造不存在的虛擬事物,如“貓豬”:

清華唐杰團隊造了個“中文AI設(shè)計師”,效果超Dall·E,可在線試玩

有時候還有點黑色幽默,如“一個心酸的博士生”:

清華唐杰團隊造了個“中文AI設(shè)計師”,效果超Dall·E,可在線試玩

CogView現(xiàn)在還提供了試玩網(wǎng)頁,你可以在那里輸入任何文字去轉(zhuǎn)成圖形,不像OpenAI的Dall·E只提供幾個關(guān)鍵詞修改選項。

清華唐杰團隊造了個“中文AI設(shè)計師”,效果超Dall·E,可在線試玩

能指定畫風(fēng),能設(shè)計服裝

CogView的能力可不僅僅是從文字輸入圖像,它還能處理不同微調(diào)策略的下游任務(wù),例如風(fēng)格學(xué)習(xí)、超分辨率、文本圖像排名和時裝設(shè)計。

在使用CogView的時候,可以加入不同風(fēng)格限定,從而生成不同的繪畫效果。在微調(diào)期間,圖像對應(yīng)的文本也是“XX風(fēng)格的圖像”。

清華唐杰團隊造了個“中文AI設(shè)計師”,效果超Dall·E,可在線試玩

CogView設(shè)計的服裝也像模像樣,看起來就像電商展示頁,沒有虛假痕跡。

清華唐杰團隊造了個“中文AI設(shè)計師”,效果超Dall·E,可在線試玩

原理

CogView是一個帶有VQ-VAE分詞器40億參數(shù)的Transfomer,它的總體結(jié)構(gòu)如下:

清華唐杰團隊造了個“中文AI設(shè)計師”,效果超Dall·E,可在線試玩

CogView使用GPT模型處理離散字典上的token序列。然后將學(xué)習(xí)過程分為兩個階段:編碼器和解碼器學(xué)習(xí)最小化重建損失,單個GPT通過串聯(lián)文本優(yōu)化兩個負(fù)對數(shù)似然 (NLL) 損失。

結(jié)果是,第一階段退化為純離散自動編碼器,作為圖像tokenizer將圖像轉(zhuǎn)換為標(biāo)記序列;第二階段的GPT承擔(dān)了大部分建模任務(wù)。

圖像tokenizer的訓(xùn)練非常重要,方法有最近鄰映射、Gumbel采樣、softmax逼近三種,Dall·E使用的是第三種,而對于CogView來說三者差別不大。

CogView的主干是一個單向Transformer,共有48層、40個注意力頭、40億參數(shù),隱藏層的大小為2560。

在訓(xùn)練中,作者發(fā)現(xiàn)CogView有兩種不穩(wěn)定性:溢出(以NaN損失為特征)和下溢(以發(fā)散損失為特征),然后他們提出了用PB-Relax、Sandwich-LN來解決它們。

清華唐杰團隊造了個“中文AI設(shè)計師”,效果超Dall·E,可在線試玩

最后,CogView在MS COCO實現(xiàn)了最低的FID,其性能優(yōu)于以前基于GAN的模型和以及類似的Dall·E。

清華唐杰團隊造了個“中文AI設(shè)計師”,效果超Dall·E,可在線試玩

而在人工評估的測試中,CogView被選為最好的概率為37.02%,遠遠超過其他基于GAN的模型,已經(jīng)可以與Ground Truth(59.53%)競爭。

清華唐杰團隊造了個“中文AI設(shè)計師”,效果超Dall·E,可在線試玩

另外作者已經(jīng)放出了GitHub項目頁,不過目前還沒有代碼,感興趣的朋友可以關(guān)注一下等代碼放出。

論文地址:
https://arxiv.org/abs/2105.13290

試用Demo:
https://lab.aminer.cn/cogview/index.html

GitHub頁:
https://github.com/THUDM/CogView

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-09-09 09:29:03

AI 數(shù)據(jù)模型

2023-09-21 10:31:06

人工智能模型

2023-12-29 13:47:00

AI奧特曼

2013-01-18 17:00:20

設(shè)計師創(chuàng)業(yè)團隊

2022-05-24 14:47:55

AI技術(shù)

2024-01-09 08:00:00

人工智能工具設(shè)計師

2023-04-19 15:15:02

辦公AI

2022-08-31 08:54:57

AIDALL-E 2OpenAI

2023-10-10 13:42:56

訓(xùn)練數(shù)據(jù)

2025-06-04 08:10:59

2022-09-13 15:56:48

AI創(chuàng)造藝術(shù)谷歌

2015-07-27 15:26:47

設(shè)計

2019-12-10 16:50:01

人工智能設(shè)計Philipe Sta

2022-08-17 15:52:24

AI

2018-04-16 08:30:07

AI設(shè)計師蘇寧

2023-10-23 09:25:08

模型AI

2013-09-09 15:29:50

設(shè)計師圖標(biāo)集

2023-10-11 19:00:59

AIAdobe圖像

2023-05-06 09:34:15

MetaAI

2018-10-16 09:54:59

代碼開發(fā)AI
點贊
收藏

51CTO技術(shù)棧公眾號