偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Midjourney勁敵來了! 谷歌StyleDrop王牌「定制大師」引爆AI藝術(shù)圈

人工智能 新聞
Midjourney強(qiáng)敵來了!谷歌定制大師StyleDrop,將一張圖片作為參考,不論多復(fù)雜的藝術(shù)風(fēng)格都能復(fù)刻。

谷歌StyleDrop一出,瞬間在網(wǎng)上刷屏了。

給定梵高的星空,AI化身梵高大師,對這種抽象風(fēng)格頂級理解后,做出無數(shù)幅類似的畫作。

圖片

再來一張卡通風(fēng),想要繪制的物體呆萌了許多。

圖片

甚至,它還能精準(zhǔn)把控細(xì)節(jié),設(shè)計(jì)出原風(fēng)格的logo。

圖片

StyleDrop的魅力在于,只需要一張圖作為參考,無論多么復(fù)雜的藝術(shù)風(fēng)格,都能解構(gòu)再復(fù)刻。

網(wǎng)友紛紛表示,又是淘汰設(shè)計(jì)師的那種AI工具。

StyleDrop爆火研究便是來自谷歌研究團(tuán)隊(duì)最新出品。

圖片

論文地址:https://arxiv.org/pdf/2306.00983.pdf

現(xiàn)在,有了StyleDrop這樣的工具,不但可以更可控地繪畫,還可以完成之前難以想象的精細(xì)工作,比如繪制logo。

就連英偉達(dá)科學(xué)家將其稱為「現(xiàn)象級」成果。

圖片

「定制」大師

論文作者介紹道,StyleDrop的靈感來源Eyedropper(吸色/取色工具)。

同樣,StyleDrop同樣希望大家可以快速、毫不費(fèi)力地從單個/少數(shù)參考圖像中「挑選」樣式,以生成該樣式的圖像。

圖片

一只樹懶能夠有18種風(fēng)格:

圖片

一只熊貓有24種風(fēng)格:

圖片

小朋友畫的水彩畫,StyleDrop完美把控,甚至連紙張的褶皺都還原出來了。

不得不說,太強(qiáng)了。

圖片

還有StyleDrop參考不同風(fēng)格對英文字母的設(shè)計(jì):

圖片

同樣是梵高風(fēng)的字母。

圖片

還有線條畫。線條畫是對圖像的高度抽象,對畫面生成構(gòu)成合理性要求非常高,過去的方法一直很難成功。

圖片

原圖中奶酪陰影的筆觸還原到每種圖片的物體上。

圖片

參考安卓LOGO創(chuàng)作。

圖片

此外,研究人員還拓展了StyleDrop的能力,不僅能定制風(fēng)格,結(jié)合DreamBooth,還能定制內(nèi)容。

比如,還是梵高風(fēng),給小柯基生成類似風(fēng)格的畫作:

圖片

再來一個,下面這只柯基有種埃及金字塔上的「獅身人面像」的感覺。

圖片

如何工作?

StyleDrop基于Muse構(gòu)建,由兩個關(guān)鍵部分組成:

一個是生成視覺Transformer的參數(shù)有效微調(diào),另一個是帶反饋的迭代訓(xùn)練。

之后,研究人員再從兩個微調(diào)模型中合成圖像。

Muse是一種基于掩碼生成圖像Transformer最新的文本到圖像的合成模型。它包含兩個用于基礎(chǔ)圖像生成(256 × 256)和超分辨率(512 × 512或1024 × 1024)的合成模塊。

圖片

每個模塊都由一個文本編碼器T,一個transformer G,一個采樣器S,一個圖像編碼器E和解碼器D組成。

T將文本提示t∈T映射到連續(xù)嵌入空間E。G處理文本嵌入e∈E以生成視覺token序列的對數(shù)l∈L。S通過迭代解碼從對數(shù)中提取視覺token序列v∈V,該迭代解碼運(yùn)行幾步的transformer推理,條件是文本嵌入e和從前面步驟解碼的視覺token。

最后,D將離散token序列映射到像素空間I??偟膩碚f,給定一個文本提示t,圖像I的合成如下:

圖片

圖2是一個簡化了的Muse transformer層的架構(gòu),它進(jìn)行了部分修改,為的是支持參數(shù)高效微調(diào)(PEFT)與適配器。

使用L層的transformer處理在文本嵌入e的條件下以綠色顯示的視覺token序列。學(xué)習(xí)參數(shù)θ被用于構(gòu)建適配器調(diào)優(yōu)的權(quán)重。

圖片

為了訓(xùn)練θ,在許多情況下,研究人員可能只給出圖片作為風(fēng)格參考。

研究人員需要手動附加文本提示。他們提出了一個簡單的、模板化的方法來構(gòu)建文本提示,包括對內(nèi)容的描述,后面跟著描述風(fēng)格的短語。

例如,研究人員在表1中用「貓」描述一個對象,并附加「水彩畫」作為風(fēng)格描述。

圖片

在文本提示中包含內(nèi)容和風(fēng)格的描述至關(guān)重要,因?yàn)樗兄趶娘L(fēng)格中分離出內(nèi)容,這是研究人員的主要目標(biāo)。

圖3則是帶反饋的迭代訓(xùn)練。

當(dāng)在單一風(fēng)格參考圖像(橙色框)上進(jìn)行訓(xùn)練時(shí),StyleDrop生成的一些圖像可能會展示出從風(fēng)格參考圖像中提取出的內(nèi)容(紅色框,圖像背景中含有與風(fēng)格圖像類似的房子)。

其他圖像(藍(lán)色框)則能更好地從內(nèi)容中拆分出風(fēng)格。對StyleDrop進(jìn)行好樣本(藍(lán)色框)的迭代訓(xùn)練,結(jié)果在風(fēng)格和文本保真度之間取得了更好的平衡(綠色框)。

圖片

這里研究人員還用到了兩個方法:

-CLIP得分

該方法用于測量圖像和文本的對齊程度。因此,它可以通過測量CLIP得分(即視覺和文本CLIP嵌入的余弦相似度)來評估生成圖像的質(zhì)量。

研究人員可以選擇得分最高的CLIP圖像。他們稱這種方法為CLIP反饋的迭代訓(xùn)練(CF)。

在實(shí)驗(yàn)中,研究人員發(fā)現(xiàn),使用CLIP得分來評估合成圖像的質(zhì)量是提高召回率(即文本保真度)的有效方式,而不會過多損失風(fēng)格保真度。

然而從另一方面看,CLIP得分可能不能完全與人類的意圖對齊,也無法捕捉到微妙的風(fēng)格屬性。

-HF

人工反饋(HF)是一種將用戶意圖直接注入到合成圖像質(zhì)量評估中的更直接的方式。

在強(qiáng)化學(xué)習(xí)的LLM微調(diào)中,HF已經(jīng)證明了它的強(qiáng)大和有效。

HF可以用來補(bǔ)償CLIP得分無法捕捉到微妙風(fēng)格屬性的問題。

目前,已有大量研究關(guān)注了文本到圖像的擴(kuò)散模型的個性化問題,以合成包含多種個人風(fēng)格的圖像。

研究人員展示了如何以簡單的方式將DreamBooth和StyleDrop結(jié)合起來,從而使風(fēng)格和內(nèi)容都能實(shí)現(xiàn)個性化。

這是通過從兩個修改后的生成分布中采樣來完成的,分別由風(fēng)格的θs和內(nèi)容的θc指導(dǎo),分別是在風(fēng)格和內(nèi)容參考圖像上獨(dú)立訓(xùn)練的適配器參數(shù)。

與現(xiàn)有的成品不同,該團(tuán)隊(duì)的方法不需要在多個概念上對可學(xué)習(xí)的參數(shù)進(jìn)行聯(lián)合訓(xùn)練,這就帶來了更大的組合能力,因?yàn)轭A(yù)訓(xùn)練的適配器是分別在單個主題和風(fēng)格上進(jìn)行訓(xùn)練的。

研究人員的整體采樣過程遵循等式(1)的迭代解碼,每個解碼步驟中采樣對數(shù)的方式有所不同。

設(shè)t為文本提示,c為無風(fēng)格描述符的文本提示,在步驟k計(jì)算對數(shù)如下:

圖片

圖片

其中:γ用于平衡StyleDrop和DreamBooth——如果γ為0,我們得到StyleDrop,如果為1,我們得到DreamBooth。

通過合理設(shè)置γ,我們就可以得到合適的圖像。

實(shí)驗(yàn)設(shè)置

目前為止,還沒有對文本-圖像生成模型的風(fēng)格調(diào)整進(jìn)行廣泛的研究。

因此,研究人員提出了一個全新實(shí)驗(yàn)方案:

-數(shù)據(jù)收集

研究者收集了幾十張不同風(fēng)格的圖片,從水彩和油畫,平面插圖,3D渲到不同材質(zhì)的雕塑。

-模型配置

研究人員使用適配器調(diào)優(yōu)基于Muse的StyleDrop 。對于所有實(shí)驗(yàn),使用Adam優(yōu)化器更新1000步的適配器權(quán)重,學(xué)習(xí)速率為0.00003。除非另有說明,研究人員使用StyleDrop來表示第二輪模型,該模型在10多個帶有人工反饋的合成圖像上進(jìn)行訓(xùn)練。

-評估

研究報(bào)告的定量評估基于CLIP,衡量風(fēng)格一致性和文本對齊。此外,研究人員進(jìn)行了用戶偏好研究,以評估風(fēng)格一致性和文本對齊。

如圖,研究人員收集的18個不同風(fēng)格的圖片,StyleDrop處理的結(jié)果。

可以看到,StyleDrop能夠捕捉各種樣式的紋理、陰影和結(jié)構(gòu)的細(xì)微差別,能夠比以前更好地控制風(fēng)格。

圖片

為了進(jìn)行比較,研究人員還介紹了DreamBooth在Imagen上的結(jié)果,DreamBooth在Stable Diffusion上的LoRA實(shí)現(xiàn)和文本反演的結(jié)果。

圖片

具體結(jié)果如表所示,圖像-文本對齊(Text)和視覺風(fēng)格對齊(Style)的人類評分(上)和CLIP評分(下)的評價(jià)指標(biāo)。

圖片

(a) DreamBooth,(b) StyleDrop,和 (c) DreamBooth + StyleDrop的定性比較:

圖片

這里,研究人員應(yīng)用了上面提到的CLIP分?jǐn)?shù)的兩個指標(biāo)——文本和風(fēng)格得分。

對于文本得分,研究人員測量圖像和文本嵌入之間的余弦相似度。對于風(fēng)格得分,研究人員測量風(fēng)格參考和合成圖像嵌入之間的余弦相似度。

研究人員為190個文本提示生成總共1520個圖像。雖然研究人員希望最終得分能高一些,但其實(shí)這些指標(biāo)并不完美。

而迭代訓(xùn)練(IT)提高了文本得分,這符合研究人員的目標(biāo)。

然而,作為權(quán)衡,它們在第一輪模型上的風(fēng)格得分有所降低,因?yàn)樗鼈兪窃诤铣蓤D像上訓(xùn)練的,風(fēng)格可能因選擇偏見而偏移。

Imagen上的DreamBooth在風(fēng)格得分上不及StyleDrop(HF的0.644對比0.694)。

研究人員注意到,Imagen上的DreamBooth的風(fēng)格得分增加并不明顯(0.569 → 0.644),而Muse上的StyleDrop的增加更加明顯(0.556 →0.694)。

研究人員分析,Muse上的風(fēng)格微調(diào)比Imagen上的更有效。

另外,在細(xì)粒度控制上, StyleDrop捕捉微妙的風(fēng)格差異,如顏色偏移,層次,或銳角的把控。

圖片

網(wǎng)友熱評

要是設(shè)計(jì)師有了StyleDrop,10倍速工作效率,已經(jīng)起飛。

圖片

AI一天,人間10年,AIGC正在以光速發(fā)展,那種晃瞎人眼的光速!

圖片

工具只是順應(yīng)了潮流,該被淘汰的已經(jīng)早被淘汰了。

圖片

對于制作Logo來說這個工具比Midjourney好用得多。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2017-09-20 16:22:35

谷歌

2024-03-04 08:20:00

谷歌架構(gòu)AI

2025-05-06 00:35:33

2014-06-10 09:34:08

2018-03-30 08:33:47

PythonAI與機(jī)器學(xué)習(xí)IT外包

2015-02-11 10:48:33

谷歌

2024-07-29 08:00:00

模型論文

2023-09-01 10:13:15

AI藝術(shù)

2024-02-20 13:45:15

AI藝術(shù)家版權(quán)

2023-05-18 14:08:31

AI開源

2025-05-15 09:17:00

2025-02-13 09:00:00

2010-01-07 09:51:56

谷歌勁敵

2015-06-03 17:25:01

戴爾云計(jì)算

2023-06-27 09:33:46

開源代碼

2025-01-03 13:00:00

AI訓(xùn)練數(shù)據(jù)

2015-08-04 17:20:58

微軟小冰

2020-02-11 17:39:16

人工智能香水制造

2025-05-28 18:41:30

AI視頻生成
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號