偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Midjourney勁敵來了！谷歌StyleDrop王牌「定制大師」引爆AI藝術(shù)圈

作者：新智元 2023-06-05 09:48:19

人工智能新聞

Midjourney強(qiáng)敵來了！谷歌定制大師StyleDrop，將一張圖片作為參考，不論多復(fù)雜的藝術(shù)風(fēng)格都能復(fù)刻。

谷歌StyleDrop一出，瞬間在網(wǎng)上刷屏了。

給定梵高的星空，AI化身梵高大師，對(duì)這種抽象風(fēng)格頂級(jí)理解后，做出無數(shù)幅類似的畫作。

再來一張卡通風(fēng)，想要繪制的物體呆萌了許多。

甚至，它還能精準(zhǔn)把控細(xì)節(jié)，設(shè)計(jì)出原風(fēng)格的logo。

StyleDrop的魅力在于，只需要一張圖作為參考，無論多么復(fù)雜的藝術(shù)風(fēng)格，都能解構(gòu)再復(fù)刻。

網(wǎng)友紛紛表示，又是淘汰設(shè)計(jì)師的那種AI工具。

StyleDrop爆火研究便是來自谷歌研究團(tuán)隊(duì)最新出品。

論文地址：https://arxiv.org/pdf/2306.00983.pdf

現(xiàn)在，有了StyleDrop這樣的工具，不但可以更可控地繪畫，還可以完成之前難以想象的精細(xì)工作，比如繪制logo。

就連英偉達(dá)科學(xué)家將其稱為「現(xiàn)象級(jí)」成果。

「定制」大師

論文作者介紹道，StyleDrop的靈感來源Eyedropper（吸色/取色工具）。

同樣，StyleDrop同樣希望大家可以快速、毫不費(fèi)力地從單個(gè)/少數(shù)參考圖像中「挑選」樣式，以生成該樣式的圖像。

一只樹懶能夠有18種風(fēng)格：

一只熊貓有24種風(fēng)格：

小朋友畫的水彩畫，StyleDrop完美把控，甚至連紙張的褶皺都還原出來了。

不得不說，太強(qiáng)了。

還有StyleDrop參考不同風(fēng)格對(duì)英文字母的設(shè)計(jì)：

同樣是梵高風(fēng)的字母。

還有線條畫。線條畫是對(duì)圖像的高度抽象，對(duì)畫面生成構(gòu)成合理性要求非常高，過去的方法一直很難成功。

原圖中奶酪陰影的筆觸還原到每種圖片的物體上。

參考安卓LOGO創(chuàng)作。

此外，研究人員還拓展了StyleDrop的能力，不僅能定制風(fēng)格，結(jié)合DreamBooth，還能定制內(nèi)容。

比如，還是梵高風(fēng)，給小柯基生成類似風(fēng)格的畫作：

再來一個(gè)，下面這只柯基有種埃及金字塔上的「獅身人面像」的感覺。

如何工作？

StyleDrop基于Muse構(gòu)建，由兩個(gè)關(guān)鍵部分組成：

一個(gè)是生成視覺Transformer的參數(shù)有效微調(diào)，另一個(gè)是帶反饋的迭代訓(xùn)練。

之后，研究人員再從兩個(gè)微調(diào)模型中合成圖像。

Muse是一種基于掩碼生成圖像Transformer最新的文本到圖像的合成模型。它包含兩個(gè)用于基礎(chǔ)圖像生成(256 × 256)和超分辨率(512 × 512或1024 × 1024)的合成模塊。

每個(gè)模塊都由一個(gè)文本編碼器T，一個(gè)transformer G，一個(gè)采樣器S，一個(gè)圖像編碼器E和解碼器D組成。

T將文本提示t∈T映射到連續(xù)嵌入空間E。G處理文本嵌入e∈E以生成視覺token序列的對(duì)數(shù)l∈L。S通過迭代解碼從對(duì)數(shù)中提取視覺token序列v∈V，該迭代解碼運(yùn)行幾步的transformer推理，條件是文本嵌入e和從前面步驟解碼的視覺token。

最后，D將離散token序列映射到像素空間I?？偟膩碚f，給定一個(gè)文本提示t，圖像I的合成如下：

圖2是一個(gè)簡(jiǎn)化了的Muse transformer層的架構(gòu)，它進(jìn)行了部分修改，為的是支持參數(shù)高效微調(diào)（PEFT）與適配器。

使用L層的transformer處理在文本嵌入e的條件下以綠色顯示的視覺token序列。學(xué)習(xí)參數(shù)θ被用于構(gòu)建適配器調(diào)優(yōu)的權(quán)重。

為了訓(xùn)練θ，在許多情況下，研究人員可能只給出圖片作為風(fēng)格參考。

研究人員需要手動(dòng)附加文本提示。他們提出了一個(gè)簡(jiǎn)單的、模板化的方法來構(gòu)建文本提示，包括對(duì)內(nèi)容的描述，后面跟著描述風(fēng)格的短語。

例如，研究人員在表1中用「貓」描述一個(gè)對(duì)象，并附加「水彩畫」作為風(fēng)格描述。

在文本提示中包含內(nèi)容和風(fēng)格的描述至關(guān)重要，因?yàn)樗兄趶娘L(fēng)格中分離出內(nèi)容，這是研究人員的主要目標(biāo)。

圖3則是帶反饋的迭代訓(xùn)練。

當(dāng)在單一風(fēng)格參考圖像（橙色框）上進(jìn)行訓(xùn)練時(shí)，StyleDrop生成的一些圖像可能會(huì)展示出從風(fēng)格參考圖像中提取出的內(nèi)容（紅色框，圖像背景中含有與風(fēng)格圖像類似的房子）。

其他圖像（藍(lán)色框）則能更好地從內(nèi)容中拆分出風(fēng)格。對(duì)StyleDrop進(jìn)行好樣本（藍(lán)色框）的迭代訓(xùn)練，結(jié)果在風(fēng)格和文本保真度之間取得了更好的平衡（綠色框）。

這里研究人員還用到了兩個(gè)方法：

-CLIP得分

該方法用于測(cè)量圖像和文本的對(duì)齊程度。因此，它可以通過測(cè)量CLIP得分（即視覺和文本CLIP嵌入的余弦相似度）來評(píng)估生成圖像的質(zhì)量。

研究人員可以選擇得分最高的CLIP圖像。他們稱這種方法為CLIP反饋的迭代訓(xùn)練（CF）。

在實(shí)驗(yàn)中，研究人員發(fā)現(xiàn)，使用CLIP得分來評(píng)估合成圖像的質(zhì)量是提高召回率（即文本保真度）的有效方式，而不會(huì)過多損失風(fēng)格保真度。

然而從另一方面看，CLIP得分可能不能完全與人類的意圖對(duì)齊，也無法捕捉到微妙的風(fēng)格屬性。

-HF

人工反饋（HF）是一種將用戶意圖直接注入到合成圖像質(zhì)量評(píng)估中的更直接的方式。

在強(qiáng)化學(xué)習(xí)的LLM微調(diào)中，HF已經(jīng)證明了它的強(qiáng)大和有效。

HF可以用來補(bǔ)償CLIP得分無法捕捉到微妙風(fēng)格屬性的問題。

目前，已有大量研究關(guān)注了文本到圖像的擴(kuò)散模型的個(gè)性化問題，以合成包含多種個(gè)人風(fēng)格的圖像。

研究人員展示了如何以簡(jiǎn)單的方式將DreamBooth和StyleDrop結(jié)合起來，從而使風(fēng)格和內(nèi)容都能實(shí)現(xiàn)個(gè)性化。

這是通過從兩個(gè)修改后的生成分布中采樣來完成的，分別由風(fēng)格的θs和內(nèi)容的θc指導(dǎo)，分別是在風(fēng)格和內(nèi)容參考圖像上獨(dú)立訓(xùn)練的適配器參數(shù)。

與現(xiàn)有的成品不同，該團(tuán)隊(duì)的方法不需要在多個(gè)概念上對(duì)可學(xué)習(xí)的參數(shù)進(jìn)行聯(lián)合訓(xùn)練，這就帶來了更大的組合能力，因?yàn)轭A(yù)訓(xùn)練的適配器是分別在單個(gè)主題和風(fēng)格上進(jìn)行訓(xùn)練的。

研究人員的整體采樣過程遵循等式(1)的迭代解碼，每個(gè)解碼步驟中采樣對(duì)數(shù)的方式有所不同。

設(shè)t為文本提示，c為無風(fēng)格描述符的文本提示，在步驟k計(jì)算對(duì)數(shù)如下：

其中：γ用于平衡StyleDrop和DreamBooth——如果γ為0，我們得到StyleDrop，如果為1，我們得到DreamBooth。

通過合理設(shè)置γ，我們就可以得到合適的圖像。

實(shí)驗(yàn)設(shè)置

目前為止，還沒有對(duì)文本-圖像生成模型的風(fēng)格調(diào)整進(jìn)行廣泛的研究。

因此，研究人員提出了一個(gè)全新實(shí)驗(yàn)方案：

-數(shù)據(jù)收集

研究者收集了幾十張不同風(fēng)格的圖片，從水彩和油畫，平面插圖，3D渲到不同材質(zhì)的雕塑。

-模型配置

研究人員使用適配器調(diào)優(yōu)基于Muse的StyleDrop 。對(duì)于所有實(shí)驗(yàn)，使用Adam優(yōu)化器更新1000步的適配器權(quán)重，學(xué)習(xí)速率為0.00003。除非另有說明，研究人員使用StyleDrop來表示第二輪模型，該模型在10多個(gè)帶有人工反饋的合成圖像上進(jìn)行訓(xùn)練。

-評(píng)估

研究報(bào)告的定量評(píng)估基于CLIP，衡量風(fēng)格一致性和文本對(duì)齊。此外，研究人員進(jìn)行了用戶偏好研究，以評(píng)估風(fēng)格一致性和文本對(duì)齊。

如圖，研究人員收集的18個(gè)不同風(fēng)格的圖片，StyleDrop處理的結(jié)果。

可以看到，StyleDrop能夠捕捉各種樣式的紋理、陰影和結(jié)構(gòu)的細(xì)微差別，能夠比以前更好地控制風(fēng)格。

為了進(jìn)行比較，研究人員還介紹了DreamBooth在Imagen上的結(jié)果，DreamBooth在Stable Diffusion上的LoRA實(shí)現(xiàn)和文本反演的結(jié)果。

具體結(jié)果如表所示，圖像-文本對(duì)齊（Text）和視覺風(fēng)格對(duì)齊（Style）的人類評(píng)分（上）和CLIP評(píng)分（下）的評(píng)價(jià)指標(biāo)。

(a) DreamBooth，(b) StyleDrop，和 (c) DreamBooth + StyleDrop的定性比較：

這里，研究人員應(yīng)用了上面提到的CLIP分?jǐn)?shù)的兩個(gè)指標(biāo)——文本和風(fēng)格得分。

對(duì)于文本得分，研究人員測(cè)量圖像和文本嵌入之間的余弦相似度。對(duì)于風(fēng)格得分，研究人員測(cè)量風(fēng)格參考和合成圖像嵌入之間的余弦相似度。

研究人員為190個(gè)文本提示生成總共1520個(gè)圖像。雖然研究人員希望最終得分能高一些，但其實(shí)這些指標(biāo)并不完美。

而迭代訓(xùn)練（IT）提高了文本得分，這符合研究人員的目標(biāo)。

然而，作為權(quán)衡，它們?cè)诘谝惠喣Ｐ蜕系娘L(fēng)格得分有所降低，因?yàn)樗鼈兪窃诤铣蓤D像上訓(xùn)練的，風(fēng)格可能因選擇偏見而偏移。

Imagen上的DreamBooth在風(fēng)格得分上不及StyleDrop（HF的0.644對(duì)比0.694）。

研究人員注意到，Imagen上的DreamBooth的風(fēng)格得分增加并不明顯（0.569 → 0.644），而Muse上的StyleDrop的增加更加明顯（0.556 →0.694）。

研究人員分析，Muse上的風(fēng)格微調(diào)比Imagen上的更有效。

另外，在細(xì)粒度控制上， StyleDrop捕捉微妙的風(fēng)格差異，如顏色偏移，層次，或銳角的把控。

網(wǎng)友熱評(píng)

要是設(shè)計(jì)師有了StyleDrop，10倍速工作效率，已經(jīng)起飛。

AI一天，人間10年，AIGC正在以光速發(fā)展，那種晃瞎人眼的光速！

工具只是順應(yīng)了潮流，該被淘汰的已經(jīng)早被淘汰了。

對(duì)于制作Logo來說這個(gè)工具比Midjourney好用得多。

責(zé)任編輯：張燕妮來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營