偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

ControlNet作者新作：AI繪畫能分圖層了！項目未開源就斬獲660 Star

作者：量子位 2024-03-01 12:33:14

人工智能新聞

給一句prompt，用Stable Diffusion可以直接生成單個或多個透明圖層（PNG）！

“絕不是簡單的摳圖?！?/strong>

ControlNet作者最新推出的一項研究受到了一波高度關(guān)注——

給一句prompt，用Stable Diffusion可以直接生成單個或多個透明圖層（PNG）！

例如來一句：

頭發(fā)凌亂的女性，在臥室里。
Woman with messy hair, in the bedroom.

可以看到，AI不僅生成了符合prompt的完整圖像，就連背景和人物也能分開。

而且把人物PNG圖像放大細(xì)看，發(fā)絲那叫一個根根分明。

再看一個例子：

燃燒的柴火，在一張桌子上，在鄉(xiāng)下。
Burning firewood, on a table, in the countryside.

同樣，放大“燃燒的火柴”的PNG，就連火焰周邊的黑煙都能分離出來：

這就是ControlNet作者提出的新方法——LayerDiffusion，允許大規(guī)模預(yù)訓(xùn)練的潛在擴散模型（Latent Diffusion Model）生成透明圖像。

值得再強調(diào)一遍的是，LayerDiffusion絕不是摳圖那么簡單，重點在于生成。

正如網(wǎng)友所說：

這是現(xiàn)在動畫、視頻制作最核心的工序之一。這一步能夠過，可以說SD一致性就不再是問題了。

還有網(wǎng)友以為類似這樣的工作并不難，只是“順便加個alpha通道”的事，但令他意外的是：

結(jié)果這么久才有出來的。

那么LayerDiffusion到底是如何實現(xiàn)的呢？

PNG，現(xiàn)在開始走生成路線了

LayerDiffusion的核心，是一種叫做潛在透明度（latent transparency）的方法。

簡單來說，它可以允許在不破壞預(yù)訓(xùn)練潛在擴散模型（如Stable Diffusion）的潛在分布的前提下，為模型添加透明度。

在具體實現(xiàn)上，可以理解為在潛在圖像上添加一個精心設(shè)計過的小擾動（offset），這種擾動被編碼為一個額外的通道，與RGB通道一起構(gòu)成完整的潛在圖像。

為了實現(xiàn)透明度的編碼和解碼，作者訓(xùn)練了兩個獨立的神經(jīng)網(wǎng)絡(luò)模型：一個是潛在透明度編碼器（latent transparency encoder），另一個是潛在透明度解碼器（latent transparency decoder）。

編碼器接收原始圖像的RGB通道和alpha通道作為輸入，將透明度信息轉(zhuǎn)換為潛在空間中的一個偏移量。

而解碼器則接收調(diào)整后的潛在圖像和重建的RGB圖像，從潛在空間中提取出透明度信息，以重建原始的透明圖像。

為了確保添加的潛在透明度不會破壞預(yù)訓(xùn)練模型的潛在分布，作者提出了一種“無害性”（harmlessness）度量。

這個度量通過比較原始預(yù)訓(xùn)練模型的解碼器對調(diào)整后潛在圖像的解碼結(jié)果與原始圖像的差異，來評估潛在透明度的影響。

在訓(xùn)練過程中，作者還使用了一種聯(lián)合損失函數(shù)（joint loss function），它結(jié)合了重建損失（reconstruction loss）、身份損失（identity loss）和判別器損失（discriminator loss）。

它們的作用分別是：

重建損失：用于確保解碼后的圖像與原始圖像盡可能相似；
身份損失：用于確保調(diào)整后的潛在圖像能夠被預(yù)訓(xùn)練的解碼器正確解碼；
判別器損失：則是用于提高生成圖像的真實感。

通過這種方法，任何潛在擴散模型都可以被轉(zhuǎn)換為透明圖像生成器，只需對其進行微調(diào)以適應(yīng)調(diào)整后的潛在空間。

潛在透明度的概念還可以擴展到生成多個透明圖層，以及與其他條件控制系統(tǒng)結(jié)合，實現(xiàn)更復(fù)雜的圖像生成任務(wù)，如前景/背景條件生成、聯(lián)合圖層生成、圖層內(nèi)容的結(jié)構(gòu)控制等。

值得一提的是，作者還展示了如何把ControlNet引入進來，豐富LayerDiffusion的功能：

與傳統(tǒng)摳圖的區(qū)別

至于LayerDiffusion與傳統(tǒng)摳圖上的區(qū)別，我們可以簡單歸整為以下幾點。

原生生成 vs. 后處理

LayerDiffusion是一種原生的透明圖像生成方法，它直接在生成過程中考慮并編碼透明度信息。這意味著模型在生成圖像的同時就創(chuàng)建了透明度通道（alpha channel），從而產(chǎn)生了具有透明度的圖像。

傳統(tǒng)的摳圖方法通常涉及先生成或獲取一個圖像，然后通過圖像編輯技術(shù)（如色鍵、邊緣檢測、用戶指定的遮罩等）來分離前景和背景。這種方法通常需要額外的步驟來處理透明度，并且可能在復(fù)雜背景或邊緣處產(chǎn)生不自然的過渡。

潛在空間操作 vs. 像素空間操作

LayerDiffusion在潛在空間（latent space）中進行操作，這是一個中間表示，它允許模型學(xué)習(xí)并生成更復(fù)雜的圖像特征。通過在潛在空間中編碼透明度，模型可以在生成過程中自然地處理透明度，而不需要在像素級別上進行復(fù)雜的計算。

傳統(tǒng)的摳圖技術(shù)通常在像素空間中進行，這可能涉及到對原始圖像的直接編輯，如顏色替換、邊緣平滑等。這些方法可能在處理半透明效果（如火焰、煙霧）或復(fù)雜邊緣時遇到困難。

數(shù)據(jù)集和訓(xùn)練

LayerDiffusion使用了一個大規(guī)模的數(shù)據(jù)集進行訓(xùn)練，這個數(shù)據(jù)集包含了透明圖像對，使得模型能夠?qū)W習(xí)到生成高質(zhì)量透明圖像所需的復(fù)雜分布。

傳統(tǒng)的摳圖方法可能依賴于較小的數(shù)據(jù)集或者特定的訓(xùn)練集，這可能限制了它們處理多樣化場景的能力。

靈活性和控制

LayerDiffusion提供了更高的靈活性和控制能力，因為它允許用戶通過文本提示（text prompts）來指導(dǎo)圖像的生成，并且可以生成多個圖層，這些圖層可以被混合和組合以創(chuàng)建復(fù)雜的場景。

傳統(tǒng)的摳圖方法可能在控制方面更為有限，尤其是在處理復(fù)雜的圖像內(nèi)容和透明度時。

質(zhì)量比較

用戶研究顯示，LayerDiffusion生成的透明圖像在大多數(shù)情況下（97%）被用戶偏好，這表明其生成的透明內(nèi)容在視覺上與商業(yè)透明資產(chǎn)相當(dāng)，甚至可能更優(yōu)。

傳統(tǒng)的摳圖方法可能在某些情況下無法達(dá)到同樣的質(zhì)量，尤其是在處理具有挑戰(zhàn)性的透明度和邊緣時。

總而言之，LayerDiffusion提供的是一種更先進且靈活的方法來生成和處理透明圖像。

它在生成過程中直接編碼透明度，并且能夠產(chǎn)生高質(zhì)量的結(jié)果，這在傳統(tǒng)的摳圖方法中是很難實現(xiàn)的。

關(guān)于作者

正如我們剛才提到的，這項研究的作者之一，正是大名鼎鼎的ControlNet的發(fā)明人——張呂敏。

他本科就畢業(yè)于蘇州大學(xué)，大一的時候就發(fā)表了與AI繪畫相關(guān)的論文，本科期間更是發(fā)了10篇頂會一作。

目前張呂敏在斯坦福大學(xué)攻讀博士，但他為人可以說是非常低調(diào)，連Google Scholar都沒有注冊。

就目前來看，LayerDiffusion在GitHub中并沒有開源，但即便如此也擋不住大家的關(guān)注，已經(jīng)斬獲660星。

畢竟張呂敏也被網(wǎng)友調(diào)侃為“時間管理大師”，對LayerDiffusion感興趣的小伙伴可以提前mark一波了。

責(zé)任編輯：張燕妮來源：量子位

模型訓(xùn)練

分享到微信

微信掃碼分享

分享到微博

相關(guān)推薦

ControlNet作者又出新作：百萬數(shù)據(jù)訓(xùn)練，AI圖像生成迎來圖層設(shè)計
有人表示：「等待已久的AI圖像創(chuàng)建功能終于迎來了圖層！」

2024-03-04 00:10:00

AI 模型

ControlNet star量破萬！2023年，AI繪畫殺瘋了？
入2023年，一個名為ControlNet的模型將AI繪畫水平推向了新的高峰。

2023-03-02 14:00:03

AI 繪畫

ControlNet作者新作爆火：P照片換背景不求人，AI打光完美融入
用于操縱圖像照明效果的ICLight，全稱lmposingConsistentLight。上傳任意一張圖，系統(tǒng)會自動分離人物等主體，選擇光源位置，填上提示詞，就能毫無破綻的融入新環(huán)境了！

2024-05-11 07:00:00

AI IC-Light P照片換背景

ControlNet作者新作：AI打光玩得更溜了！細(xì)節(jié)保留能力遠(yuǎn)高于SD1.5
ICLight是此前張呂敏開發(fā)的圖像處理工具，可以通過AI技術(shù)精確控制圖像中的光照效果。而此次的V2版本則是一系列基于FLUX的ICLight型號，具有16通道VAE和原生高分辨率。

2024-11-05 13:21:37

5.4 萬 Star 全部歸零，項目作者：十分后悔
經(jīng)過不斷地迭代和改進，HTTPie如今已經(jīng)成為了GitHub平臺上最受歡迎的API工具之一，并擁有超過5.4萬Star和1千多Watch。這個擁有如此高Star數(shù)量的項目，卻因意外導(dǎo)致5.4萬個Star全部歸零。

2022-04-16 21:20:59

HTTPie Star GitHub

只需1%參數(shù)，效果超越ControlNet，新AI繪畫控制大師來襲
研究人員在評估了不同大小的控制模型后發(fā)現(xiàn)，控制模型甚至不必和2.6B參數(shù)的StableDiffusionXL基礎(chǔ)網(wǎng)絡(luò)大小一樣。

2023-09-23 12:52:57

模型淑娟

ControlNet組合拳效果驚人，顛覆AI繪畫游戲規(guī)則
StableDiffusion，相信很多友友們都已經(jīng)很熟悉了，是根據(jù)輸入提示的文本，就可以快速出圖的AI作畫神器。

2023-02-22 17:38:17

AI

ICLR 驚現(xiàn)[10,10,10,10]滿分論文，ControlNet 作者新作，Github 5.8k 顆星
這篇征服了列位審稿人的論文，正是ControlNet作者張呂敏的新作ICLight。我們很少看到一篇論文，能夠讓四位審稿人給出高度一致的「Rating:10:strongaccept,shouldbehighlightedattheconference」。

2024-12-02 09:00:00

我的RAG開源項目300+star了，十分適合新手入門（日志級詳細(xì)拆解）
作者在Github上開源的一個RAG練手項目，總共解決了22個issues。結(jié)合過去幾個月的項目實踐，我重新對項目做了輕量化重構(gòu)，降低資源消耗與部署門檻。

2025-05-28 05:00:00

RAG LLM AI

別再問“分庫分表”了，再問就崩潰了！
在談?wù)摂?shù)據(jù)庫架構(gòu)和數(shù)據(jù)庫優(yōu)化的時候，我們經(jīng)常會聽到分庫分表，分庫分表其實涉及到很多難題，今天我們來匯總一下數(shù)據(jù)庫分庫分表解決方案。

2019-12-17 09:29:02

數(shù)據(jù)庫架構(gòu)分庫分表

ControlNet作者新項目爆火：僅一張圖生成25秒繪畫全過程！不到一天GitHub攬星600+
除了直接生成25秒的從線稿到上色的視頻，還有其它玩法。

2024-07-10 12:41:40

數(shù)據(jù)訓(xùn)練

《Python 機器學(xué)習(xí)》作者新作：從頭開始構(gòu)建大型語言模型，代碼已開源
最近，SebastianRaschka在GitHub上開源了這本新書對應(yīng)的代碼庫。

2024-06-24 07:50:00

代碼機器學(xué)習(xí)

ChatGPT核心方法可用于AI繪畫，效果飛升47%，通訊作者：已跳槽OpenAI
RLHF，全稱“ReinforcementLearningfromHumanFeedback”，是OpenAI和DeepMind于2017年合作開發(fā)的一種強化學(xué)習(xí)技術(shù)。

2023-02-27 13:57:43

ChatGPT AI 繪畫

我沒有前端經(jīng)驗，但1天就搞定了開源項目主頁
前段時間打算為自己的開源項目做一個主頁，一方面有個好的門面能提升項目的關(guān)注度，一方面也能對項目所涉及的資源做一個整合。

2020-10-14 11:33:11

前端開源技術(shù)

ChatGPT + AI繪畫 = 王炸！
ChatGPT作為自然語言處理技術(shù)，可以為AI繪畫提供更多信息和創(chuàng)意，幫助畫家表達(dá)自己的創(chuàng)意，未來的繪畫藝術(shù)將更加多彩和精彩！

2023-05-06 08:23:36

ChatGPT 自然語言技術(shù)

有了這個開源項目，小白也能搭建電商系統(tǒng)
今天，筆者要和大家分享一個快速發(fā)展的開源電子商務(wù)平臺——Saleor，基于Python和Django開發(fā)。根據(jù)創(chuàng)建者介紹，最新的重大更新引入了一個由GraphQLAPI驅(qū)動，前端模塊化使用React和Typescript。

2021-07-08 11:47:02

Saleor 開源電子商務(wù)平臺

當(dāng) AI 邂逅繪畫藝術(shù)，能迸發(fā)出怎樣的火花？
?本文從技術(shù)興趣出發(fā)，對多模態(tài)圖像生成技術(shù)與經(jīng)典工作進行介紹，最后探索如何使用多模態(tài)圖像生成進行神奇的AI繪畫藝術(shù)創(chuàng)作。

2022-09-08 08:08:16

AI 模態(tài)圖像 Transforme

Qwen開源版Banana來了！原生支持ControlNet
Qwen推出了新圖像編輯模型——QwenImageEdit2509。

2025-09-24 08:57:13

AI 開源模型

10個Star上萬的Vue開源項目
Vue是一套多用途且高性能的js框架。與眾不同的是，Vue被設(shè)計為可以從下向上逐層應(yīng)用。Github上有很多vue相關(guān)的好項目，以下就是今日推薦。

2020-11-05 14:12:16

Vue 開源項目 js框架

Github 上 Star 最多的個人 Spring Boot 開源學(xué)習(xí)項目
2016年，在一次技術(shù)調(diào)研的過程中認(rèn)識到了SpringBoot，試用之后便一發(fā)不可收拾的愛上它。

2019-02-28 10:18:44

GitHub 技術(shù)開源

相似話題

機器學(xué)習(xí)
2040內(nèi)容

深度學(xué)習(xí)
1705內(nèi)容

自然語言處理
 110內(nèi)容

語音識別
 107內(nèi)容
全部話題

同話題下的熱門內(nèi)容

告別GPT！最強AI編程神器Cursor自研核心模型，速度快4倍，AI創(chuàng)業(yè)公司大佬：這是我用過最瘋狂的模型之一！網(wǎng)友：性價比不俗一夜之間，Claude猛轉(zhuǎn)向！Coding轉(zhuǎn)向白領(lǐng)，Anthropic內(nèi)部負(fù)責(zé)人自曝設(shè)計思路，開發(fā)只是小切片，目標(biāo)是所有復(fù)雜領(lǐng)域 OpenAI、Claude、通義、智譜、月暗，甚至谷歌，為什么全選擇Pytorch？早期論文成員爆料：LLM太笨重了，需要微型化 DeepSeek-OCR：用視覺模態(tài)給長文本“瘦身”，大模型處理效率再突破 LangChain V1.0 深度解析：手把手帶你跑通全新智能體架構(gòu)Cursor 2.0來了！可視化的Claude Code？掌握RAG系統(tǒng)的七個優(yōu)秀GitHub存儲庫剛剛，Kimi開源新架構(gòu)，開始押注線性注意力

相關(guān)專題更多

戴爾在線研討會：從“模型驅(qū)動”到“數(shù)據(jù)驅(qū)動”的智算架構(gòu)創(chuàng)新

看懂惠普 ZBookX 移動工作站的設(shè)計美學(xué)與效能突破

2025-10-11 13:42:35

技術(shù)薈萃 | 親身體驗 | 交流盛宴

2025-04-23 08:49:09

我收藏的內(nèi)容

微博

QQ

微信

復(fù)制鏈接

微信掃碼分享

51CTO業(yè)務(wù)

媒體
51CTO CIOAge HC3i Techplur
社區(qū)
51CTO博客軟考社區(qū)鴻蒙開發(fā)者社區(qū)AI.x社區(qū)
教育
51CTO學(xué)堂精培企業(yè)培訓(xùn)CTO訓(xùn)練營

51CTO學(xué)堂

51CTO學(xué)堂企業(yè)版

51CTO官微

51CTO

關(guān)于我們&條款

關(guān)于我們

新聞動態(tài)

站點地圖

意見反饋

English

用戶協(xié)議

隱私協(xié)議

北京市海淀區(qū)中關(guān)村南1條甲1號ECO中科愛克大廈6-7層

北京市公安局海淀分局備案編號：110108002980號
營業(yè)執(zhí)照京ICP備09067568號

Copyright ? 2005-2025 51CTO.COM 京ICP證060544 版權(quán)所有未經(jīng)許可請勿轉(zhuǎn)載

營業(yè)執(zhí)照出版物經(jīng)營許可證

友情鏈接

新浪科技騰訊科技網(wǎng)易科技鳳凰科技驅(qū)動科技科技行者 TechWeb 艾瑞網(wǎng)站長之家速途網(wǎng)中國經(jīng)濟新聞網(wǎng)IT之家工聯(lián)網(wǎng)極客公園 236視頻會議中國IDC圈企業(yè)網(wǎng)D1Net 投資界次方元火山引擎

51CTO技術(shù)棧公眾號

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

在線客服

媒體
51CTO CIOAge HC3i

社區(qū)
51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育
51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

感谢您访问我们的网站，您可能还对以下资源感兴趣：
偷偷摘套内射激情视频