偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<wbr id="vrgif"><var id="vrgif"></var></wbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

六大訣竅幫你釋放擴散模型的創(chuàng)造力原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2025-2-20 10:10

瀏覽

0收藏

本文將介紹提升擴散模型質(zhì)量的六種方法，從而幫助終端用戶達到畫家級的精準作圖水平。

簡介

Stable Diffusion模型1.5/2.0/2.1/XL 1.0版本、DALL-E模型、Imagen模型……在過去幾年中，擴散模型在圖像生成方面展現(xiàn)出了驚人的質(zhì)量。然而，雖然這些模型在通用概念上產(chǎn)生了高質(zhì)量的圖像，但它們卻難以為更專業(yè)的查詢生成高質(zhì)量的圖像，例如生成訓練數(shù)據(jù)集中不常見的特定風格的圖像。

我們可以在大量圖像上重新訓練整個模型，從頭開始解釋解決問題所需的概念。這聽起來并不實用。首先，我們需要大量的圖像來實現(xiàn)這個想法；其次，這實在是太昂貴和耗時了。

然而，有一些解決方案，只要有少量圖像和一個小時的微調(diào)，擴散模型就能在新的概念上產(chǎn)生合理的質(zhì)量。

接下來，我將介紹Dreambooth、Lora、超網(wǎng)絡、文本反轉、IP適配器和ControlNets等廣泛用于定制和條件擴散模型的方法。

擴散架構

在深入研究有助于調(diào)節(jié)擴散模型的各種方法之前，讓我們首先回顧一下什么是擴散模型。

六大訣竅幫你釋放擴散模型的創(chuàng)造力-AI.x社區(qū)

擴散過程可視化示意圖（圖片由作者本人提供）

擴散模型的最初想法是訓練一個模型，以便從噪聲中重建連貫圖像。在訓練階段，我們逐漸添加少量高斯噪聲（正向過程），然后通過優(yōu)化模型來預測噪聲，從而迭代地重建圖像，減去噪聲，最終達到更接近目標圖像（反向過程）。

圖像損壞（Image Corruption）的原始想法已經(jīng)演變成一種更實用、更輕量的架構，其中首先將圖像壓縮到潛在空間，并在低維空間中執(zhí)行所有添加噪聲的操作。

為了將文本信息添加到擴散模型中，我們首先將其通過文本編碼器（通常是?CLIP??）以便產(chǎn)生潛在嵌入，然后將其注入具有交叉注意層的模型中。

1.Dreambooth與相關論文和代碼實現(xiàn)

六大訣竅幫你釋放擴散模型的創(chuàng)造力-AI.x社區(qū)

Dreambooth可視化（可訓練塊用紅色標記，圖片由作者本人提供）

這個想法是取一個罕見的單詞；通常使用{SKS}單詞，然后教模型將單詞{SKS}映射到我們想要學習的特征。例如，這可能是模型從未見過的風格，如梵高。我們會展示他的十幾幅畫作，并微調(diào)到短語“一幅{SKS}風格的靴子畫”。我們可以類似地個性化生成，例如，學習如何在一組自拍照中生成特定人的圖像，例如“山中的{SKS}”。

為了保持在預訓練階段學到的信息，Dreambooth通過將原始模型生成的文本圖像對添加到微調(diào)集，以便鼓勵模型不要偏離原始的預訓練版本太多。

何時使用，何時不使用

Dreambooth在所有方法中都能產(chǎn)生最佳質(zhì)量；但是，由于整個模型都已更新，該技術可能會影響已學過的概念。訓練計劃還限制了模型可以理解的概念數(shù)量。這種訓練方法比較耗時，差不多需要1-2小時。如果我們決定一次引入幾個新概念，那么我們需要存儲兩個模型檢查點（【譯者注】模型檢查點是指在模型訓練過程中定期保存的模型狀態(tài)快照，包括模型的權重、配置和優(yōu)化器的狀態(tài)等信息），這會浪費大量空間。

2.文本反轉與相關論文和代碼實現(xiàn)

六大訣竅幫你釋放擴散模型的創(chuàng)造力-AI.x社區(qū)

文本反轉可視化（可訓練塊用紅色標記，圖片由作者本人提供）

文本反轉方法背后的假設是，存儲在擴散模型的潛在空間中的知識非常龐大。因此，我們想要用擴散模型重現(xiàn)的風格或條件已經(jīng)為它所知，但我們沒有訪問它的符號（token）。因此，我們不是微調(diào)模型以便在輸入“{SKS}風格”的稀有詞時重現(xiàn)所需的輸出，而是優(yōu)化文本嵌入以產(chǎn)生所需的輸出。

何時使用，何時不使用

文本反轉方法占用的空間非常小，因為只會存儲符號。訓練速度也相對較快，平均訓練時間為20-30分鐘。然而，它也有缺點——因為我們正在微調(diào)一個引導模型產(chǎn)生特定風格的特定向量，所以它不會超越這種風格。

3.LoRA與相關論文和代碼實現(xiàn)

六大訣竅幫你釋放擴散模型的創(chuàng)造力-AI.x社區(qū)

LoRA可視化（可訓練塊標記為紅色，圖片由作者本人提供）

低秩自適應（Low-Rank Adaptions：LoRA）方法是為大型語言模型提出的，并首先??由SimoRyu改編為擴散模型??。LoRA的最初想法是，我們可以將一小部分新權重與原始模型混合，這些權重將使用類似的稀有符號（token）方法針對任務進行微調(diào)，而不是對整個模型進行微調(diào)，這可能相當昂貴。

在擴散模型中，秩分解應用于交叉注意層，負責合并提示和圖像信息。這些層中的權重矩陣WO、WQ、WK和WV均應用了LoRA。

何時使用，何時不使用

LoRA方法的訓練時間非常短（5-15分鐘）——與整個模型相比，我們只更新了少量參數(shù)，而且與Dreambooth不同，它們占用的空間要小得多。然而，使用LoRA進行微調(diào)的小型模型與DreamBooth相比質(zhì)量較差。

4.超網(wǎng)絡與相關論文和代碼實現(xiàn)

六大訣竅幫你釋放擴散模型的創(chuàng)造力-AI.x社區(qū)

超網(wǎng)絡可視化（訓練塊用紅色標記，圖片由作者本人提供）

從某種意義上說，超網(wǎng)絡方法是LoRA的擴展。我們不是學習會直接改變模型輸出的相對較小的嵌入，而是訓練一個能夠預測這些新注入的嵌入權重的單獨網(wǎng)絡。

讓模型預測特定概念的嵌入，我們可以教超網(wǎng)絡幾個概念——將同一模型重復用于多個任務。

何時使用和不使用

超網(wǎng)絡方法不專注于單一風格，而是能夠產(chǎn)生大量內(nèi)容，通常不會產(chǎn)生像其他方法那樣好的質(zhì)量，并且可能需要大量時間來訓練。從優(yōu)點方面來看，它們可以比其他單概念微調(diào)方法存儲更多的概念。

5.IP適配器與相關論文和代碼實現(xiàn)

六大訣竅幫你釋放擴散模型的創(chuàng)造力-AI.x社區(qū)

IP適配器可視化（可訓練塊標記為紅色，圖片由作者本人提供）

IP適配器方法不是用文本提示來控制圖像生成，而是提出了一種使用圖像來控制生成的方法，而無需對底層模型進行任何更改。

IP適配器方法背后的核心思想是，使用一種解耦的交叉注意機制，允許將源圖像與文本和生成的圖像特征相結合。這是通過添加單獨的交叉注意層來實現(xiàn)的，允許模型學習特定于圖像的特征。

何時使用，何時不使用

IP適配器方法屬于輕量級的，適應性強且速度快。然而，它們的性能在很大程度上取決于訓練數(shù)據(jù)的質(zhì)量和多樣性。IP適配器通常更適合提供我們希望在生成的圖像中看到的風格屬性（例如Mark Chagall的畫作圖像），但可能無法控制精確的細節(jié)，例如姿勢。

6.ControlNets與相關論文和代碼實現(xiàn)

六大訣竅幫你釋放擴散模型的創(chuàng)造力-AI.x社區(qū)

ControlNet可視化（可訓練塊用紅色標記，圖片由作者本人提供）

ControlNet論文提出了一種將文本到圖像模型的輸入擴展到任何模態(tài)的方法，從而可以對生成的圖像進行細粒度控制。

在原始公式中，ControlNet是預訓練擴散模型的編碼器，它將提示、噪聲和控制數(shù)據(jù)（例如深度圖、地標等）作為輸入。為了指導生成，ControlNet的中間級別隨后被添加到凍結擴散模型的激活中。

注入是通過零卷積實現(xiàn)的，其中1×1卷積的權重和偏差被初始化為零，并在訓練過程中逐漸學習有意義的變換。這類似于LoRA的訓練方式——以0初始化，從恒等函數(shù)開始學習。

何時使用，何時不使用

當我們想要控制輸出結構時，例如通過地標、深度圖或邊緣圖，ControlNets方法是首選方案。由于需要更新整個模型權重，訓練可能很耗時；但是，這些方法也允許通過剛性控制信號進行最佳的細粒度控制。

總結

DreamBooth技術：針對自定義風格的主題對模型進行全面微調(diào)，控制水平高；但是，訓練需要很長時間，并且僅適用于一種目的。
文本反轉技術：基于嵌入的新概念學習，控制水平低，但訓練速度快。
LoRA技術：針對新風格/角色的輕量級模型微調(diào)，控制水平中等，但訓練速度快。
超網(wǎng)絡技術：單獨的模型來預測給定控制請求的LoRA權重。更多風格的控制水平較低，需要時間訓練。
IP適配器技術：通過參考圖像進行柔和的風格/內(nèi)容指導，中等水平的風格控制，輕量級且高效。
ControlNet技術：通過姿勢、深度和邊緣進行控制非常精確；但是，需要更長的訓練時間。
最佳實踐推薦：為了獲得最佳效果，結合使用IP適配器及其更柔和的風格指導和用于姿勢和對象排列的ControlNet方法可產(chǎn)生最佳效果。

譯者介紹

朱先忠，51CTO社區(qū)編輯，51CTO專家博客、講師，濰坊一所高校計算機教師，自由編程界老兵一枚。

原文標題：?Six Ways to Control Style and Content in Diffusion Models??，作者：Aliaksei Mikhailiuk

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

盤點六大Devin替代方案：自動化你的編程任務

51CTO技術棧 ? 6536瀏覽 ? 0回復
AI大模型的“心臟”算力王者歸來

數(shù)字化助推器 ? 3805瀏覽 ? 0回復
谷歌出手整頓大模型“健忘癥”！反饋注意力機制幫你“更新”上下文，大模型無限記憶力時代將至

51CTO技術棧 ? 4556瀏覽 ? 0回復
六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架

duhorse ? 3511瀏覽 ? 0回復
大模型應用的六種架構模式，你知道幾種？

玄姐聊AGI ? 5488瀏覽 ? 0回復
MSRA：視覺生成六大技術問題

Crystalcxt ? 2226瀏覽 ? 0回復
【創(chuàng)新一夏學習季】熱浪升溫，創(chuàng)新一夏，釋放開發(fā)潛能

AI.x社區(qū)官方賬號 ? 52.9w瀏覽 ? 39回復
年中復盤：大模型六小虎生存現(xiàn)狀盤點

51CTO技術棧 ? 6145瀏覽 ? 0回復
【智匯金秋創(chuàng)造季】智匯成海，致敬開發(fā)者的“超級碼力”！

AI.x社區(qū)官方賬號 ? 33.0w瀏覽 ? 148回復
LLM 分布式訓練六大關鍵技術介紹

Baihai_IDP ? 3102瀏覽 ? 0回復
ChatGPT 的創(chuàng)造力大幅提升，驚艷無比！

丟翅膀的魚 ? 2034瀏覽 ? 0回復
Google 的六大人工智能更新 – 2024 年綜述

Halo咯咯 ? 4470瀏覽 ? 0回復
微軟亞洲研究院2025六大預測：AI Agents 將顛覆傳統(tǒng)工作模式

AIGC新知 ? 2550瀏覽 ? 0回復
只需幾步，大模型幫你做好PPT

zhishan15 ? 2561瀏覽 ? 0回復
DeepSeek太給力了！自家的大模型秘方開源到底！國產(chǎn)大模型雄起

51CTO技術棧 ? 2844瀏覽 ? 0回復
構建大模型 Agent 應用六個框架對比剖析

玄姐聊AGI ? 2568瀏覽 ? 0回復
開發(fā)者值得關注的六大AI調(diào)試工具

51CTO內(nèi)容精選 ? 1873瀏覽 ? 0回復
Gemma 3：采用Docker Model Runner釋放GenAI的潛力

51CTO內(nèi)容精選 ? 1859瀏覽 ? 0回復
剛剛結束的谷歌I/O大會，從六大維度重塑科技未來

算家計算 ? 772瀏覽 ? 0回復

51CTO內(nèi)容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

建立基于AI的知識體系：面向企業(yè)需求的LlamaIndex與Apache Tika 53分鐘前發(fā)布
一文詳解Character AI：實用指南+ ChatGPT、Gemini對比分析 1天前發(fā)布

熱門推薦

如何在本地運行量化版的DeepSeek-R1-0528？ 0回復

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復

AI Agents開源工具棧全解析~ 0回復

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復

上一篇：一文說清楚分布式思維狀態(tài)：由事件驅(qū)動的多智能體系統(tǒng)

下一篇：如何使用Java設計一套多智能體系統(tǒng)

社區(qū)精華內(nèi)容

目錄

<pre id="dv5ig"><sup id="dv5ig"></sup></pre>

<ruby id="dv5ig"><button id="dv5ig"></button></ruby>