偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

CVPR 2025 | 字節(jié)提出個性化多人圖像生成新方法ID-Patch,可生成多人合影、姿勢可控

人工智能 新聞
今天給大家介紹的由字節(jié)跳動和密歇根州立大學(xué)提出的個性化多身份圖像生成方法ID-Patch,對于身份泄露、ID一致保持,模型推理速度等都給我們帶來了一些驚喜。

相信擴散模型(DMs)大家一定都不陌生了,目前已經(jīng)成為文本生成圖像的核心方法,憑借強大的圖像生成能力,正重塑藝術(shù)創(chuàng)作、廣告設(shè)計、社交媒體內(nèi)容生產(chǎn)格局?,F(xiàn)在,用一段文字生成個性化頭像都不算啥新鮮事兒了。

不過仍然會有這樣一個問題,目前我們看到的基于人物的文生圖大多還是生成一個人的,對于多人同時生成的目前還沒有很好的樣例。然而這些場景又會經(jīng)常出現(xiàn)在我們的生活中,舉個例子:

  • 朋友缺席聚會,能不能“補全”一張全員到齊的合影?
  • 廣告里,能不能自由搭配多位虛擬角色,講個精彩的多人物故事?

目前對于個性化多人圖像生成仍然面臨很大的技術(shù)挑戰(zhàn)。比如最大的難點就是身份特征泄露,明明是兩個人,結(jié)果生成的面容卻“融合”在一起,讓人傻傻分不清。而且,用戶還希望能精準(zhǔn)指定每個人的位置和動作,讓構(gòu)圖更自然、互動更有趣。一旦位置出錯,可能生成的圖像就慘不忍睹了!

圖片

今天給大家介紹的由字節(jié)跳動和密歇根州立大學(xué)提出的個性化多身份圖像生成方法ID-Patch,對于身份泄露、ID一致保持,模型推理速度等都給我們帶來了一些驚喜。下面展示的結(jié)果為該方法與最先進的多身份生成方法的比較:

圖片從左到右:條件輸入,OMG(InstantID)、InstantFamily 和 ID-Patch。OMG 未能保留中間人的發(fā)型,并為右邊女性的手部創(chuàng)建了偽影。InstantFamily 存在 ID 泄露問題,導(dǎo)致中間人 ID 不正確。ID-Patch保留了每個人的詳細身份信息。此外,ID-Patch 比 OMG 快 7 倍,并且計算開銷比 InstantFamily 更少。

效果展示

使用 ID-Patch 生成任意姿勢圖像使用 ID-Patch 生成任意姿勢圖像即插即用:Canny Edge即插即用:Canny Edge姿勢條件生成

姿勢條件生成

相關(guān)鏈接

  • 論文:https://arxiv.org/abs/2411.13632
  • 主頁:https://byteaigc.github.io/ID-Patch/
  • 模型:https://huggingface.co/ByteDance/ID-Patch
  • 試用:https://huggingface.co/spaces/ByteDance/ID-Patch-SDXL

論文介紹

圖片

綜合個性化的小組照片并指定每個身份的位置的能力具有巨大的創(chuàng)造潛力。盡管這種圖像在視覺上具有吸引力,但它對現(xiàn)有技術(shù)提出了重大挑戰(zhàn)。一個持續(xù)的問題是身份(ID)泄漏,其中注入的面部特征彼此干擾,導(dǎo)致較低的面部相似,定位不正確和視覺偽像。現(xiàn)有方法受到限制,例如依賴分割模型,增加運行時或ID泄漏的可能性很高。

為了應(yīng)對這些挑戰(zhàn),論文提出了ID-PATCH,這是一種新穎的方法,可以在身份和2D位置之間提供牢固的關(guān)聯(lián)。該方法從相同的面部特征生成一個ID補丁和ID嵌入:ID補丁位于條件圖像上以進行精確的空間控制,而ID嵌入與文本嵌入式集成以確保高相似。實驗結(jié)果表明,ID-PATCH超過了跨指標(biāo)的基線方法,例如面部ID相似,ID位置關(guān)聯(lián)的準(zhǔn)確性和生成效率。

方法概述

圖片ID-Patch管道。給定文本提示(例如,兩個人握手),n個臉部圖像和位置,我們與n ID。我們?yōu)槊總€ID提取面部功能,然后將其投影到ID補丁和ID嵌入中。 ID補丁在黑色上渲染 帆布(或添加在姿勢圖像的頂部)根據(jù)面部位置并發(fā)送到控制網(wǎng)中以控制生成的位置 面孔。 ID嵌入插件被附加到文本嵌入中,以通過擴散模型提供詳細的面部信息,并通過 跨注意。

ID嵌入的有效性。沒有ID嵌入,可以區(qū)分兩個人,但相似之處很低。合并ID嵌入可顯著改善
臉相似

ID嵌入的有效性。沒有ID嵌入,可以區(qū)分兩個人,但相似之處很低。合并ID嵌入可顯著改善 臉相似

ID-PATCH結(jié)合姿勢條件。提供
(a)中的用戶ID映像,我們的方法只能生成結(jié)果
鼻尖位置的規(guī)格如(b)所示。合并
帶有姿勢圖像的ID補丁(C)增強了對
產(chǎn)生的結(jié)果如(d)所示,沒有產(chǎn)生任何計算開銷。

ID-PATCH結(jié)合姿勢條件。提供 (a)中的用戶ID映像,我們的方法只能生成結(jié)果 鼻尖位置的規(guī)格如(b)所示。合并 帶有姿勢圖像的ID補?。–)增強了對 產(chǎn)生的結(jié)果如(d)所示,沒有產(chǎn)生任何計算開銷。

兩階段訓(xùn)練以提高定位魯棒性。
給定(a)中的姿勢和ID條件,單級訓(xùn)練不能
完全防止面部定位問題不正確。例如,在
(b)這個人被錯誤地放在中央底部的位置,
產(chǎn)生不可分割的結(jié)果。 (c)引入了兩個階段訓(xùn)練以解決此問題。從第一行可以看出
圖,與這些方法相比
來自單階段訓(xùn)練。我們的實驗結(jié)果證明了這一點
解決ID泄漏問題至關(guān)重要。

兩階段訓(xùn)練以提高定位魯棒性。 給定(a)中的姿勢和ID條件,單級訓(xùn)練不能 完全防止面部定位問題不正確。例如,在 (b)這個人被錯誤地放在中央底部的位置, 產(chǎn)生不可分割的結(jié)果。 (c)引入了兩個階段訓(xùn)練以解決此問題。從第一行可以看出 圖,與這些方法相比 來自單階段訓(xùn)練。我們的實驗結(jié)果證明了這一點 解決ID泄漏問題至關(guān)重要。

實驗結(jié)果

與姿勢條件生成基線的比較,紅色虛線盒突出顯示了具有低身份的實例
相似。在第1行中,OMG無法保留第三個女人的臉部形狀(從左到右),因為它的第一階段導(dǎo)致沖突
帶有此ID的臉部形狀。由于第三名女性的ID泄漏,瞬間家庭會產(chǎn)生第二個人。在第2行,
OMG不會為紅色盒子中的兩個人生成正確的發(fā)型和準(zhǔn)確的面部特征,而瞬時生成
紅色框中的錯誤ID。
相似。在第1行中,OMG無法保留第三個女人的臉部形狀(從左到右),因為它的第一階段導(dǎo)致沖突
帶有此ID的臉部形狀。由于第三名女性的ID泄漏,瞬間家庭會產(chǎn)生第二個人。在第2行,
OMG不會為紅色盒子中的兩個人生成正確的發(fā)型和準(zhǔn)確的面部特征,而瞬時生成
紅色框中的錯誤ID。與姿勢條件生成基線的 相似。在第1行中,OMG無法保留第三個女人的臉部形狀(從左到右),因為它的第一階段導(dǎo)致沖突 帶有此ID的臉部形狀。由于第三名女性的ID泄漏,瞬間家庭會產(chǎn)生第二個人。在第2行, OMG不會為紅色盒子中的兩個人生成正確的發(fā)型和準(zhǔn)確的面部特征,而瞬時生成 紅色框中的錯誤ID。與姿勢條件生成基線的比較,紅色虛線盒突出顯示了具有低身份的實例 相似。在第1行中,OMG無法保留第三個女人的臉部形狀(從左到右),因為它的第一階段導(dǎo)致沖突 帶有此ID的臉部形狀。由于第三名女性的ID泄漏,瞬間家庭會產(chǎn)生第二個人。在第2行, OMG不會為紅色盒子中的兩個人生成正確的發(fā)型和準(zhǔn)確的面部特征,而瞬時生成 紅色框中的錯誤ID。

更多結(jié)果

圖片圖片圖片

結(jié)論

ID-PATCH顯著增強了身份相似之處和位置生成。通過將每個身份功能嵌入獨特的補丁并利用ControlNet準(zhǔn)確地放置在指定的空間位置,有效的減少了ID泄漏。該方法與其他條件信號(例如姿勢)無縫集成 控制。

ID-PATCH這項工作為未來鋪平了道路 多ID圖像生成中的探索。潛在的未來研究方向包括利用多個圖像 來自不同角度的同一個人的進一步增強身份相似和同時控制 使用補丁技術(shù)的位置和面部表情。

責(zé)任編輯:張燕妮 來源: AIGC Studio
相關(guān)推薦

2025-01-10 10:15:00

AI視覺模型

2025-02-21 09:35:00

3DAI生成

2021-11-26 18:37:39

技術(shù)人工智能計算機

2025-04-10 09:38:37

2025-02-25 10:04:10

2023-11-30 13:04:56

LCM圖像

2025-01-24 12:11:21

AI圖像生成模型

2025-08-20 07:06:23

2024-04-08 12:18:57

訓(xùn)練AI

2025-04-03 09:27:44

2023-04-25 17:13:03

模型AI

2015-01-14 14:43:31

豌豆莢移動搜索應(yīng)用內(nèi)搜索

2024-11-08 09:30:00

2025-01-08 09:15:00

2025-03-25 12:53:16

2025-05-12 08:25:00

2024-06-19 12:54:26

2024-09-03 14:10:00

模型測試

2024-12-30 07:11:00

大型視覺語言模型VLMs人工智能

2025-01-07 10:20:00

模型圖像生成數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號