偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

CVPR 2025 | 字節(jié)提出個(gè)性化多人圖像生成新方法ID-Patch,可生成多人合影、姿勢(shì)可控

人工智能 新聞
今天給大家介紹的由字節(jié)跳動(dòng)和密歇根州立大學(xué)提出的個(gè)性化多身份圖像生成方法ID-Patch,對(duì)于身份泄露、ID一致保持,模型推理速度等都給我們帶來(lái)了一些驚喜。

相信擴(kuò)散模型(DMs)大家一定都不陌生了,目前已經(jīng)成為文本生成圖像的核心方法,憑借強(qiáng)大的圖像生成能力,正重塑藝術(shù)創(chuàng)作、廣告設(shè)計(jì)、社交媒體內(nèi)容生產(chǎn)格局?,F(xiàn)在,用一段文字生成個(gè)性化頭像都不算啥新鮮事兒了。

不過(guò)仍然會(huì)有這樣一個(gè)問(wèn)題,目前我們看到的基于人物的文生圖大多還是生成一個(gè)人的,對(duì)于多人同時(shí)生成的目前還沒(méi)有很好的樣例。然而這些場(chǎng)景又會(huì)經(jīng)常出現(xiàn)在我們的生活中,舉個(gè)例子:

  • 朋友缺席聚會(huì),能不能“補(bǔ)全”一張全員到齊的合影?
  • 廣告里,能不能自由搭配多位虛擬角色,講個(gè)精彩的多人物故事?

目前對(duì)于個(gè)性化多人圖像生成仍然面臨很大的技術(shù)挑戰(zhàn)。比如最大的難點(diǎn)就是身份特征泄露,明明是兩個(gè)人,結(jié)果生成的面容卻“融合”在一起,讓人傻傻分不清。而且,用戶還希望能精準(zhǔn)指定每個(gè)人的位置和動(dòng)作,讓構(gòu)圖更自然、互動(dòng)更有趣。一旦位置出錯(cuò),可能生成的圖像就慘不忍睹了!

圖片

今天給大家介紹的由字節(jié)跳動(dòng)和密歇根州立大學(xué)提出的個(gè)性化多身份圖像生成方法ID-Patch,對(duì)于身份泄露、ID一致保持,模型推理速度等都給我們帶來(lái)了一些驚喜。下面展示的結(jié)果為該方法與最先進(jìn)的多身份生成方法的比較:

圖片從左到右:條件輸入,OMG(InstantID)、InstantFamily 和 ID-Patch。OMG 未能保留中間人的發(fā)型,并為右邊女性的手部創(chuàng)建了偽影。InstantFamily 存在 ID 泄露問(wèn)題,導(dǎo)致中間人 ID 不正確。ID-Patch保留了每個(gè)人的詳細(xì)身份信息。此外,ID-Patch 比 OMG 快 7 倍,并且計(jì)算開(kāi)銷比 InstantFamily 更少。

效果展示

使用 ID-Patch 生成任意姿勢(shì)圖像使用 ID-Patch 生成任意姿勢(shì)圖像即插即用:Canny Edge即插即用:Canny Edge姿勢(shì)條件生成

姿勢(shì)條件生成

相關(guān)鏈接

  • 論文:https://arxiv.org/abs/2411.13632
  • 主頁(yè):https://byteaigc.github.io/ID-Patch/
  • 模型:https://huggingface.co/ByteDance/ID-Patch
  • 試用:https://huggingface.co/spaces/ByteDance/ID-Patch-SDXL

論文介紹

圖片

綜合個(gè)性化的小組照片并指定每個(gè)身份的位置的能力具有巨大的創(chuàng)造潛力。盡管這種圖像在視覺(jué)上具有吸引力,但它對(duì)現(xiàn)有技術(shù)提出了重大挑戰(zhàn)。一個(gè)持續(xù)的問(wèn)題是身份(ID)泄漏,其中注入的面部特征彼此干擾,導(dǎo)致較低的面部相似,定位不正確和視覺(jué)偽像?,F(xiàn)有方法受到限制,例如依賴分割模型,增加運(yùn)行時(shí)或ID泄漏的可能性很高。

為了應(yīng)對(duì)這些挑戰(zhàn),論文提出了ID-PATCH,這是一種新穎的方法,可以在身份和2D位置之間提供牢固的關(guān)聯(lián)。該方法從相同的面部特征生成一個(gè)ID補(bǔ)丁和ID嵌入:ID補(bǔ)丁位于條件圖像上以進(jìn)行精確的空間控制,而ID嵌入與文本嵌入式集成以確保高相似。實(shí)驗(yàn)結(jié)果表明,ID-PATCH超過(guò)了跨指標(biāo)的基線方法,例如面部ID相似,ID位置關(guān)聯(lián)的準(zhǔn)確性和生成效率。

方法概述

圖片ID-Patch管道。給定文本提示(例如,兩個(gè)人握手),n個(gè)臉部圖像和位置,我們與n ID。我們?yōu)槊總€(gè)ID提取面部功能,然后將其投影到ID補(bǔ)丁和ID嵌入中。 ID補(bǔ)丁在黑色上渲染 帆布(或添加在姿勢(shì)圖像的頂部)根據(jù)面部位置并發(fā)送到控制網(wǎng)中以控制生成的位置 面孔。 ID嵌入插件被附加到文本嵌入中,以通過(guò)擴(kuò)散模型提供詳細(xì)的面部信息,并通過(guò) 跨注意。

ID嵌入的有效性。沒(méi)有ID嵌入,可以區(qū)分兩個(gè)人,但相似之處很低。合并ID嵌入可顯著改善
臉相似

ID嵌入的有效性。沒(méi)有ID嵌入,可以區(qū)分兩個(gè)人,但相似之處很低。合并ID嵌入可顯著改善 臉相似

ID-PATCH結(jié)合姿勢(shì)條件。提供
(a)中的用戶ID映像,我們的方法只能生成結(jié)果
鼻尖位置的規(guī)格如(b)所示。合并
帶有姿勢(shì)圖像的ID補(bǔ)?。–)增強(qiáng)了對(duì)
產(chǎn)生的結(jié)果如(d)所示,沒(méi)有產(chǎn)生任何計(jì)算開(kāi)銷。

ID-PATCH結(jié)合姿勢(shì)條件。提供 (a)中的用戶ID映像,我們的方法只能生成結(jié)果 鼻尖位置的規(guī)格如(b)所示。合并 帶有姿勢(shì)圖像的ID補(bǔ)?。–)增強(qiáng)了對(duì) 產(chǎn)生的結(jié)果如(d)所示,沒(méi)有產(chǎn)生任何計(jì)算開(kāi)銷。

兩階段訓(xùn)練以提高定位魯棒性。
給定(a)中的姿勢(shì)和ID條件,單級(jí)訓(xùn)練不能
完全防止面部定位問(wèn)題不正確。例如,在
(b)這個(gè)人被錯(cuò)誤地放在中央底部的位置,
產(chǎn)生不可分割的結(jié)果。 (c)引入了兩個(gè)階段訓(xùn)練以解決此問(wèn)題。從第一行可以看出
圖,與這些方法相比
來(lái)自單階段訓(xùn)練。我們的實(shí)驗(yàn)結(jié)果證明了這一點(diǎn)
解決ID泄漏問(wèn)題至關(guān)重要。

兩階段訓(xùn)練以提高定位魯棒性。 給定(a)中的姿勢(shì)和ID條件,單級(jí)訓(xùn)練不能 完全防止面部定位問(wèn)題不正確。例如,在 (b)這個(gè)人被錯(cuò)誤地放在中央底部的位置, 產(chǎn)生不可分割的結(jié)果。 (c)引入了兩個(gè)階段訓(xùn)練以解決此問(wèn)題。從第一行可以看出 圖,與這些方法相比 來(lái)自單階段訓(xùn)練。我們的實(shí)驗(yàn)結(jié)果證明了這一點(diǎn) 解決ID泄漏問(wèn)題至關(guān)重要。

實(shí)驗(yàn)結(jié)果

與姿勢(shì)條件生成基線的比較,紅色虛線盒突出顯示了具有低身份的實(shí)例
相似。在第1行中,OMG無(wú)法保留第三個(gè)女人的臉部形狀(從左到右),因?yàn)樗牡谝浑A段導(dǎo)致沖突
帶有此ID的臉部形狀。由于第三名女性的ID泄漏,瞬間家庭會(huì)產(chǎn)生第二個(gè)人。在第2行,
OMG不會(huì)為紅色盒子中的兩個(gè)人生成正確的發(fā)型和準(zhǔn)確的面部特征,而瞬時(shí)生成
紅色框中的錯(cuò)誤ID。
相似。在第1行中,OMG無(wú)法保留第三個(gè)女人的臉部形狀(從左到右),因?yàn)樗牡谝浑A段導(dǎo)致沖突
帶有此ID的臉部形狀。由于第三名女性的ID泄漏,瞬間家庭會(huì)產(chǎn)生第二個(gè)人。在第2行,
OMG不會(huì)為紅色盒子中的兩個(gè)人生成正確的發(fā)型和準(zhǔn)確的面部特征,而瞬時(shí)生成
紅色框中的錯(cuò)誤ID。與姿勢(shì)條件生成基線的 相似。在第1行中,OMG無(wú)法保留第三個(gè)女人的臉部形狀(從左到右),因?yàn)樗牡谝浑A段導(dǎo)致沖突 帶有此ID的臉部形狀。由于第三名女性的ID泄漏,瞬間家庭會(huì)產(chǎn)生第二個(gè)人。在第2行, OMG不會(huì)為紅色盒子中的兩個(gè)人生成正確的發(fā)型和準(zhǔn)確的面部特征,而瞬時(shí)生成 紅色框中的錯(cuò)誤ID。與姿勢(shì)條件生成基線的比較,紅色虛線盒突出顯示了具有低身份的實(shí)例 相似。在第1行中,OMG無(wú)法保留第三個(gè)女人的臉部形狀(從左到右),因?yàn)樗牡谝浑A段導(dǎo)致沖突 帶有此ID的臉部形狀。由于第三名女性的ID泄漏,瞬間家庭會(huì)產(chǎn)生第二個(gè)人。在第2行, OMG不會(huì)為紅色盒子中的兩個(gè)人生成正確的發(fā)型和準(zhǔn)確的面部特征,而瞬時(shí)生成 紅色框中的錯(cuò)誤ID。

更多結(jié)果

圖片圖片圖片

結(jié)論

ID-PATCH顯著增強(qiáng)了身份相似之處和位置生成。通過(guò)將每個(gè)身份功能嵌入獨(dú)特的補(bǔ)丁并利用ControlNet準(zhǔn)確地放置在指定的空間位置,有效的減少了ID泄漏。該方法與其他條件信號(hào)(例如姿勢(shì))無(wú)縫集成 控制。

ID-PATCH這項(xiàng)工作為未來(lái)鋪平了道路 多ID圖像生成中的探索。潛在的未來(lái)研究方向包括利用多個(gè)圖像 來(lái)自不同角度的同一個(gè)人的進(jìn)一步增強(qiáng)身份相似和同時(shí)控制 使用補(bǔ)丁技術(shù)的位置和面部表情。

責(zé)任編輯:張燕妮 來(lái)源: AIGC Studio
相關(guān)推薦

2025-01-10 10:15:00

AI視覺(jué)模型

2025-02-21 09:35:00

3DAI生成

2021-11-26 18:37:39

技術(shù)人工智能計(jì)算機(jī)

2025-04-10 09:38:37

2025-02-25 10:04:10

2023-11-30 13:04:56

LCM圖像

2025-01-24 12:11:21

AI圖像生成模型

2024-04-08 12:18:57

訓(xùn)練AI

2025-04-03 09:27:44

2015-01-14 14:43:31

豌豆莢移動(dòng)搜索應(yīng)用內(nèi)搜索

2023-04-25 17:13:03

模型AI

2025-05-12 08:25:00

2025-01-08 09:15:00

2024-11-08 09:30:00

2025-03-25 12:53:16

2024-06-19 12:54:26

2025-01-07 10:20:00

模型圖像生成數(shù)據(jù)

2024-09-03 14:10:00

模型測(cè)試

2024-12-30 07:11:00

大型視覺(jué)語(yǔ)言模型VLMs人工智能

2025-01-10 14:00:00

3D模型生成
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)