實(shí)時(shí)高保真人臉編輯方法PersonaMagic,可根據(jù)肖像無縫生成新角色、風(fēng)格或場景圖像。
本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
今天給大家介紹的是一個(gè)高保真實(shí)時(shí)人臉編輯方法PersonaMagic,通過分階段的文本條件調(diào)節(jié)和動(dòng)態(tài)嵌入學(xué)習(xí)來優(yōu)化人臉定制。該技術(shù)利用時(shí)序動(dòng)態(tài)的交叉注意力機(jī)制,能夠在不同階段有效捕捉人臉特征,從而在生成個(gè)性化圖像時(shí)最大程度地保留身份信息。通過對比實(shí)驗(yàn),PersonaMagic在定量和定性評估中均優(yōu)于現(xiàn)有的最先進(jìn)方法,展現(xiàn)出其在多種場景和風(fēng)格下的靈活性與魯棒性。
PersonaMagic 可根據(jù)用戶提供的肖像無縫生成新角色、風(fēng)格或場景的圖像。通過通過串聯(lián)平衡策略學(xué)習(xí)階段調(diào)節(jié)嵌入,該方法可以準(zhǔn)確捕捉和表示看不見的概念,忠實(shí)地創(chuàng)建與提供的提示相符的角色,同時(shí)最大限度地減少身份扭曲。
相關(guān)鏈接
- 論文:http://arxiv.org/abs/2412.15674v1
- 代碼:https://github.com/xzhe-Vision/PersonaMagic
論文介紹
PersonaMagic:采用串聯(lián)平衡的階段調(diào)節(jié)高保真面部定制
摘要
個(gè)性化圖像生成在將內(nèi)容適應(yīng)新概念方面取得了重大進(jìn)展。然而,仍然存在一個(gè)持續(xù)的挑戰(zhàn):平衡看不見的概念的準(zhǔn)確重建與根據(jù)提示進(jìn)行編輯的需求,特別是在處理面部特征的復(fù)雜細(xì)微差別時(shí)。在本研究中,我們深入研究了文本到圖像調(diào)節(jié)過程的時(shí)間動(dòng)態(tài),強(qiáng)調(diào)了階段劃分在引入新概念方面的關(guān)鍵作用。我們提出了 PersonaMagic,這是一種專為高保真面部定制而設(shè)計(jì)的階段調(diào)節(jié)生成技術(shù)。使用一個(gè)簡單的 MLP 網(wǎng)絡(luò),我們的方法在特定的時(shí)間步長間隔內(nèi)學(xué)習(xí)一系列嵌入來捕捉面部概念。此外,我們開發(fā)了一種串聯(lián)平衡機(jī)制,可以調(diào)整文本編碼器中的自我注意響應(yīng),平衡文本描述和身份保存,從而改善這兩個(gè)領(lǐng)域。大量實(shí)驗(yàn)證實(shí)了 PersonaMagic 在定性和定量評估方面都優(yōu)于最先進(jìn)的方法。此外,它的穩(wěn)健性和靈活性在非面部領(lǐng)域得到了驗(yàn)證,并且它還可以作為增強(qiáng)預(yù)訓(xùn)練個(gè)性化模型性能的有價(jià)值的插件。
方法
流程概述。 給定一張圖像,我們在動(dòng)態(tài)階段學(xué)習(xí)一系列嵌入以有效地捕獲身份信息,同時(shí)在靜態(tài)階段使用固定嵌入。提出的 TE 策略應(yīng)用于文本編碼器,確保個(gè)性化結(jié)果與文本描述進(jìn)一步對齊。
被忽視的語義導(dǎo)致注意力圖不理想。注意力權(quán)重標(biāo)注在交叉注意力圖的左下角。
所提出的串聯(lián)平衡的圖示。
結(jié)果
與最先進(jìn)的方法對名人的定性比較。
與非名人的最先進(jìn)方法進(jìn)行定性比較。
訓(xùn)練期間使用和不使用 Lte 的定制結(jié)果。注意權(quán)重在交叉注意圖的左下角標(biāo)注。
不同模型變體的定性消融研究。
該方法可以應(yīng)用于各種下游任務(wù)。從上到下:本地化定制、 表達(dá)修改和組合生成。
PersonaMagic 可以適應(yīng)非面部領(lǐng)域,展示了其超越面部內(nèi)容的通用性。
將PersonaMagic集成到預(yù)訓(xùn)練的個(gè)性化模型中,可以改善結(jié)果中的面部細(xì)節(jié)。
結(jié)論
文中介紹的PersonaMagic是一種高保真人臉定制技術(shù),它利用基于綜合分析的階段調(diào)節(jié)文本調(diào)節(jié)策略。引入了一個(gè)輕量級網(wǎng)絡(luò),通過動(dòng)態(tài)詞嵌入來實(shí)現(xiàn)這種調(diào)節(jié)機(jī)制,有效地捕獲身份信息,同時(shí)避免過度擬合。此外,文中提出了一個(gè)串聯(lián)平衡損失來解決文本對齊和身份保存之間的權(quán)衡。大量實(shí)驗(yàn)證明了該方法與最先進(jìn)的方法相比具有卓越的性能,在保真度和可編輯性方面都表現(xiàn)出色,并展示了其在各種下游定制任務(wù)中的有效性。