偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法

發(fā)布于 2024-6-28 10:23
瀏覽
0收藏

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2406.17100


今天和大家一起學(xué)習(xí)的是對現(xiàn)實(shí)生活中生成的人臉細(xì)節(jié)進(jìn)行優(yōu)化的工作。擴(kuò)散模型(DMs)在根據(jù)文本描述生成想象力豐富的圖像方面取得了顯著的成功。然而,在處理現(xiàn)實(shí)生活中復(fù)雜細(xì)節(jié)的場景時,它們很可能會表現(xiàn)不佳。文本到圖像生成中低質(zhì)量、不真實(shí)的人臉是其中最突出的問題之一,這限制了DMs在實(shí)際應(yīng)用中的廣泛應(yīng)用。為了解決這一問題,本文首先通過人類標(biāo)注者評估了幾種流行預(yù)訓(xùn)練DM生成的人臉質(zhì)量,然后評估了現(xiàn)有度量方法(如ImageReward、人類偏好分?jǐn)?shù)、美學(xué)評分預(yù)測器和人臉質(zhì)量評估)與人類判斷之間的一致性。觀察到現(xiàn)有度量方法可能無法令人滿意地量化人臉質(zhì)量,開發(fā)了一種名為Face Score(FS)的新度量方法,通過在DM生成的(好、壞)人臉對數(shù)據(jù)集上便宜地應(yīng)用修復(fù)流程來對ImageReward進(jìn)行微調(diào)。廣泛的研究表明,F(xiàn)S與人類評估具有較高的一致性。


另一方面,F(xiàn)S為改進(jìn)DM生成人臉開辟了新的可能性。為了實(shí)現(xiàn)這一目標(biāo),在Stable Diffusion V1.5和Realistic Vision V5.1等預(yù)訓(xùn)練DM上引入了一個指導(dǎo)損失,用于在前述人臉對的去噪軌跡上進(jìn)行微調(diào)。直觀地說,這種損失將壞的人臉的軌跡推向好的人臉的軌跡。全面的實(shí)驗(yàn)驗(yàn)證了本文方法在提高人臉質(zhì)量的同時保持了通用能力的有效性。

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)


更多的隨機(jī)人臉圖像和相應(yīng)的人臉得分遞增。我們可以觀察到這樣一個趨勢: 分?jǐn)?shù)越高表示面部生成的質(zhì)量越好:

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

主要貢獻(xiàn):

  • 首次對DMs的不良人臉問題進(jìn)行了調(diào)查,并系統(tǒng)評估了一系列圖像質(zhì)量度量方法來量化人臉質(zhì)量。
  • 提出了Face Score來更好地量化生成的人臉質(zhì)量,并顯示其在比現(xiàn)有度量方法更高的優(yōu)勢。
  • 提出了指導(dǎo)損失,用于微調(diào)DMs以生成更高質(zhì)量的人臉,并在SD1.5和RV5.1上驗(yàn)證了其有效性。

人類對生成的人臉圖像的偏好

本節(jié)首先暴露現(xiàn)有DMs存在的不良人臉問題,并測試現(xiàn)有的圖像度量方法在量化合成圖像的人臉質(zhì)量方面的效果。然后,開發(fā)了Face Score(FS)作為一種更合格的度量方法,用于評估生成的人臉圖像的合理性和美學(xué)吸引力。

不良的人臉問題

DMs在生成復(fù)雜細(xì)節(jié),尤其是逼真的人臉和手部時遇到的困難已經(jīng)不再新鮮。如下圖1所示,由RV5.1和SDXL生成的圖像通常包含扭曲的人臉。這個問題可能源于模型訓(xùn)練中人臉數(shù)據(jù)的稀缺,或者是人臉區(qū)域相對于整個圖像來說很小,但需要包含復(fù)雜的細(xì)節(jié)。通常情況下,為了生成帶有人臉的圖像,常見做法是基于無分類器引導(dǎo)(CFG)技術(shù)引入負(fù)面提示,以增加生成高質(zhì)量人臉的可能性。

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

下圖2顯示了與此相關(guān)的結(jié)果,可以看到負(fù)面提示確實(shí)有助于提高人臉質(zhì)量,但生成的人臉仍然不令人滿意。實(shí)踐者可以通過基于DMs的修補(bǔ)技術(shù)專門重新生成人臉區(qū)域,但由于現(xiàn)有DMs在生成人臉方面的基本問題,生成的人臉仍可能質(zhì)量較低。

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

現(xiàn)有DMs的評估

接下來,對三種流行的DMs進(jìn)行了詳細(xì)的人臉生成質(zhì)量手動評估:SD1.5,RV5.1和SDXL。采用以下流程進(jìn)行評估:

  • 從MS-COCO 2017 5K驗(yàn)證數(shù)據(jù)集中選擇與人類主體相關(guān)的1k提示,其中包括室內(nèi)外人物中心場景和單人/多人場景的描述;
  • 對于每個提示,使用這三種DMs生成一個圖像三元組(見下圖3),如果任何圖像中沒有有效的人臉,則丟棄該三元組;
  • 引入五名人類標(biāo)注者,分別基于人臉質(zhì)量對每個提示的圖像三元組進(jìn)行排名;最佳圖像得分為3分,最差圖像得分為1分;
  • 根據(jù)多數(shù)投票整合標(biāo)注結(jié)果。

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

為了確定五名標(biāo)注者的偏好一致性并使標(biāo)注結(jié)果更具說服力,研究者們計算了在五名標(biāo)注者中超過三名選擇相同標(biāo)簽的頻率,以量化標(biāo)注者的一致性,得到了93.3%的一致性。整合標(biāo)注結(jié)果進(jìn)一步有助于減少個體偏見的影響,并與人群偏好達(dá)成一致。上圖3展示了一個帶標(biāo)注的圖像三元組示例,下表1顯示了對三種DMs的人類偏好統(tǒng)計數(shù)據(jù)。如圖所示,盡管RV5.1的人臉質(zhì)量還不夠好(見上圖2),但仍略優(yōu)于體積更大的SDXL,這加強(qiáng)了對現(xiàn)有DMs不良人臉問題的關(guān)注。另一方面,SD1.5明顯落后于另外兩種DMs。

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

現(xiàn)有度量方法的評估

一個好的度量方法可以實(shí)現(xiàn)對生成物的人臉質(zhì)量的自動、可擴(kuò)展評估,避免人工標(biāo)注的昂貴和耗時過程,并為新模型的開發(fā)鋪平道路。因此,研究者們進(jìn)一步調(diào)查了現(xiàn)有的圖像度量方法在生成的人臉上與人類偏好的一致性。關(guān)注了ImageReward(IR)、Human Preference Score(HPS)、Aesthetic Score Predictor(ASP)和Face Quality Assessment(FQA),這些方法在文本到圖像生成中評估人類偏好或美學(xué)質(zhì)量方面非常流行。直觀上,HPS和IR側(cè)重于全局圖像而非局部區(qū)域,因此它們不適合評估生成的人臉質(zhì)量。因此,還開發(fā)了它們的變體,即LocalHPS和LocalIR,其中使用檢測器檢測局部人臉區(qū)域,并將其送入帶有默認(rèn)提示“一個人臉”的原始評分流程中,以進(jìn)行特定人臉評估。


研究者們主要關(guān)注度量方法在不同圖像上的相對關(guān)系而非絕對數(shù)值。因此,構(gòu)建了一個包含大約3k個帶標(biāo)注的圖像三元組的小數(shù)據(jù)集,每個三元組形成兩個成對比較。對于度量方法的評估,計算了基于數(shù)據(jù)對比中的度量方法排名與人類排名的二元排名準(zhǔn)確率。將結(jié)果列在下表2中??梢杂^察到,IR和ASP的表現(xiàn)不佳,可能是因?yàn)樗鼈兏雨P(guān)注全局圖像特征,而LocalIR表現(xiàn)稍好一些。FQA的表現(xiàn)也很差,因?yàn)樗挥脕碓u估人臉圖像的識別適用性,因此在評估生成的人臉的人類偏好時可能存在偏差。HPS和LocalHPS在度量方法中表現(xiàn)最好。然而,高達(dá)75.31%的準(zhǔn)確率仍然有很大的提升空間。

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

人工合成人臉圖像的新度量指標(biāo):Face Score

根據(jù)以上發(fā)現(xiàn),旨在開發(fā)一種新的度量方法,用于量化合成人臉圖像的質(zhì)量/人類偏好。將這種度量稱為Face Score(FS),并期望它能夠與生成的人臉的合理性和美學(xué)吸引力相關(guān)聯(lián)。為了實(shí)現(xiàn)這一目標(biāo),自動化和可擴(kuò)展地構(gòu)建了一組關(guān)于人臉圖像的偏好數(shù)據(jù)集,并基于此進(jìn)行模型微調(diào)來獲得FS。


數(shù)據(jù)集構(gòu)建雖然開源的人類偏好數(shù)據(jù)集可以用于訓(xùn)練涉及度量的評估模型,但它們并非專門用于人臉。另一方面,由于標(biāo)注過程既昂貴又耗時,而收集的人類標(biāo)注數(shù)量有限,因此生成的數(shù)據(jù)主要用于評估而非模型訓(xùn)練。為了解決這些問題,本文提出了一個基于現(xiàn)成預(yù)訓(xùn)練DMs修補(bǔ)能力的人臉偏好數(shù)據(jù)集收集pipeline。具體而言

  • 在LAION數(shù)據(jù)集中包含人臉的自然圖像中,使用檢測器檢測人臉區(qū)域,獲得人臉masks M;
  • 使用圖像修復(fù)pipeline對人臉區(qū)域進(jìn)行重繪。

下圖6的中間列中繪制了該過程。

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)


定量比較首先,報告了FS在表2中對人類標(biāo)注圖像進(jìn)行排名的準(zhǔn)確率。發(fā)現(xiàn)與現(xiàn)有的度量方法相比,F(xiàn)S獲得了最佳的準(zhǔn)確率,因此可以作為評估合成圖像中人臉的更好的度量方法在下圖5展示了一些隨機(jī)選擇的人臉圖像及其對應(yīng)的FS,這表明人臉的合理性和美學(xué)吸引力與FS呈正相關(guān)。為了展示評估人臉質(zhì)量的普適性,在下表中報告了不同開源和封閉源文本到圖像擴(kuò)散模型的FS。這些模型以與測試集相同的方式生成圖像。觀察到PGV2.5獲得了最佳的FS。這是有道理的,因?yàn)槠渥髡呗暦Q其圖像質(zhì)量優(yōu)于MJ。還得出結(jié)論,模型的人臉生成質(zhì)量與整體生成質(zhì)量呈正相關(guān)。

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

改進(jìn)DMs生成人臉質(zhì)量的微調(diào)方法

本節(jié)詳細(xì)闡述了提出的指導(dǎo)損失以微調(diào)DMs,以及一些關(guān)鍵的優(yōu)化策略。


只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

然后,最小化以下的指導(dǎo)損失:

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)


除了指導(dǎo)損失,還提供了關(guān)于模型優(yōu)化的兩個關(guān)鍵因素的見解如下。


  • 時間步長。圖7中可視化了采樣過程中人臉圖像的演變,并注意到在采樣的早期階段,布局和顏色被渲染出來,但細(xì)節(jié)尚未顯現(xiàn)。隨著采樣過程的進(jìn)行,細(xì)節(jié)逐漸恢復(fù)和完善。這啟示保持前向時間步t相對較小,以避免在過于嘈雜的狀態(tài)上浪費(fèi)優(yōu)化努力。從圖7中可以觀察到,更細(xì)致的細(xì)節(jié)大約在推理過程中部分中期出現(xiàn),因此經(jīng)驗(yàn)性地取t~U[1,0.5T]來微調(diào)DMs,其中U[a,b]表示區(qū)間[a,b]上的均勻分布。

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

自注意層。直覺上,DMs中的交叉注意力層捕捉圖像和文本之間的關(guān)聯(lián),而自注意力層處理圖像內(nèi)部的相互依賴關(guān)系?;诖?,特別優(yōu)化DMs中U-Net的自注意力層參數(shù),以提升人臉質(zhì)量。

結(jié)果與分析

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

消融實(shí)驗(yàn)

之前討論過時間步長和自注意層對于細(xì)節(jié)生成以及人臉生成的重要性。使用RV5.1和DINO特征距離度量進(jìn)行了以下消融研究。


時間步長。為了證明選擇相對較小時間步長進(jìn)行微調(diào)的有效性,在保持其他條件不變的情況下,額外進(jìn)行了從所有時間步長中隨機(jī)選擇的微調(diào)DMs的實(shí)驗(yàn)。從下表6中可以看出,在人臉質(zhì)量比較中,僅考慮相對較小的時間步長更為有效。這是因?yàn)殡S著時間步長的減小并接近零,細(xì)節(jié)生成過程開始,專注于這些細(xì)節(jié)有助于更好地生成細(xì)節(jié)和人臉。關(guān)于時間步長的更多消融研究將包含在補(bǔ)充材料中。

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

自注意力層。理論上,自注意力層對人臉生成具有更大的影響。為了在實(shí)驗(yàn)中證明這一點(diǎn),將Ours-DINO與全面微調(diào)進(jìn)行了比較。從上表6中可以看出,具有自注意力微調(diào)的Ours-DINO優(yōu)于全面微調(diào),證明了自注意力在生成細(xì)節(jié)方面起著重要作用。自注意力不僅增強(qiáng)了圖像質(zhì)量,還促進(jìn)了更精細(xì)細(xì)節(jié)的生成。

結(jié)論

本文關(guān)注了擴(kuò)散模型中出現(xiàn)的不良人臉生成問題,并討論了可能的原因及緩解方法。評估了流行的擴(kuò)散模型在人臉生成質(zhì)量上的表現(xiàn),并評估了現(xiàn)有基于圖像的度量標(biāo)準(zhǔn)在評估合成圖像質(zhì)量時的有效性,但在人臉評估方面遇到了不理想的結(jié)果。為了填補(bǔ)這一領(lǐng)域的空白,本文提出了一個由人類評估標(biāo)注的排名數(shù)據(jù)集,以及一個大規(guī)模的(好、壞)人臉對數(shù)據(jù)集,后者是在沒有標(biāo)注的情況下隱式構(gòu)建的。


除了數(shù)據(jù)集,還開發(fā)了一種名為Face Score的新指標(biāo),專門用于評估合成圖像中人臉的合理性和美觀程度,該指標(biāo)是在人臉對數(shù)據(jù)集上訓(xùn)練的。基于這樣的指標(biāo),還提出了一種通過修正軌跡實(shí)現(xiàn)更好人臉生成的微調(diào)方法。通過完整工作流程,幫助更好地使文本到圖像生成與人類對人臉生成的偏好相一致。


盡管該方法可以推廣到細(xì)節(jié)生成,但本文只關(guān)注人臉生成質(zhì)量。未來的研究需要解決其他細(xì)節(jié)生成問題,如與手部質(zhì)量相關(guān)的問題。此外,還可以探索更多的距離度量和指導(dǎo)損失的形式選擇,這些將留作未來的工作。

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法-AI.x社區(qū)

本文轉(zhuǎn)自 AI生成未來 ,作者:Zhenyi Liao等


原文鏈接:??https://mp.weixin.qq.com/s/PtFql1ht8vVoBfDGuk-xlQ??

標(biāo)簽
已于2024-6-28 10:42:51修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦