偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DiffusionReward:通過獎勵反饋學(xué)習(xí)增強(qiáng)盲臉修復(fù) 原創(chuàng)

發(fā)布于 2025-5-30 06:37
瀏覽
0收藏

摘要

獎勵反饋學(xué)習(xí)(ReFL)最近在各種生成任務(wù)中展現(xiàn)出了巨大的潛力,能夠使模型輸出與人類偏好保持一致。在這項(xiàng)工作中,我們首次將ReFL框架引入盲臉修復(fù)任務(wù),稱之為DiffusionReward。DiffusionReward有效地克服了基于擴(kuò)散的方法的局限性,這些方法通常無法生成逼真的面部細(xì)節(jié),并且身份一致性較差。我們框架的核心是面部獎勵模型(FRM),它使用精心注釋的數(shù)據(jù)進(jìn)行訓(xùn)練。FRM提供反饋信號,在指導(dǎo)修復(fù)網(wǎng)絡(luò)的優(yōu)化過程中起著關(guān)鍵作用。特別是,我們的ReFL框架將梯度流納入現(xiàn)成的面部修復(fù)方法的去噪過程中,以指導(dǎo)模型參數(shù)的更新。指導(dǎo)梯度由三個方面共同決定:(i)確保修復(fù)后面部感知質(zhì)量的FRM;(ii)作為保障以保持生成多樣性的正則化項(xiàng);(iii)維持面部保真度的結(jié)構(gòu)一致性約束。此外,F(xiàn)RM在整個過程中進(jìn)行動態(tài)優(yōu)化。它不僅確保修復(fù)網(wǎng)絡(luò)與真實(shí)面部流形精確對齊,還有效防止了獎勵破解。在合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,我們的方法優(yōu)于最先進(jìn)的方法,顯著提高了身份一致性和面部細(xì)節(jié)。源代碼、數(shù)據(jù)和模型可在https://github.com/01NeuralNinja/DiffusionReward獲取。


DiffusionReward:通過獎勵反饋學(xué)習(xí)增強(qiáng)盲臉修復(fù)-AI.x社區(qū)

圖1:基于擴(kuò)散的人臉恢復(fù)方法存在的問題示例。經(jīng)過ReFL增強(qiáng)后,基礎(chǔ)模型中的問題得到顯著緩解。左側(cè)展示原始擴(kuò)散方法的缺陷,右側(cè)展示經(jīng)過Reward Feedback Learning優(yōu)化后的改進(jìn)結(jié)果。

引言

真實(shí)場景中捕獲的人臉圖像常遭受復(fù)雜多樣的退化,如模糊、壓縮偽影、噪聲和低分辨率。盲人臉恢復(fù)(BFR)旨在從這些退化輸入中恢復(fù)高質(zhì)量(HQ)圖像。由于低質(zhì)量(LQ)輸入存在大量信息丟失且退化過程通常未知,BFR本質(zhì)上是一個高度不適定問題。因此,對于任何給定的LQ人臉,理論上存在包含無限可能高質(zhì)量解的空間。從這個廣闊解空間中準(zhǔn)確重建HQ人臉圖像仍是一個未解決的挑戰(zhàn),特別是在照片真實(shí)感、自然度和身份保持方面。

擴(kuò)散模型憑借其卓越的生成能力已成為BFR的強(qiáng)大范式。這些模型利用訓(xùn)練期間獲取的豐富視覺先驗(yàn),以LQ圖像作為條件輸入,通過迭代去噪逐步重建高保真人臉。然而,這些預(yù)訓(xùn)練擴(kuò)散模型通常在通用領(lǐng)域圖像上訓(xùn)練,缺乏足夠的人臉特定先驗(yàn)知識,導(dǎo)致恢復(fù)的面部圖像常缺乏細(xì)節(jié)特征(如圖1左)。面部先驗(yàn)的缺失不僅削弱了細(xì)節(jié)恢復(fù)質(zhì)量,還加劇了映射模糊性(圖1中)。此外,Stable Diffusion模型主要針對文本到圖像生成任務(wù)訓(xùn)練,而非需要嚴(yán)格保真度的圖像恢復(fù)任務(wù),可能導(dǎo)致恢復(fù)過程中偏離原始身份特征(圖1右)。

獎勵反饋學(xué)習(xí)(ReFL)是一種已在文本到圖像生成等領(lǐng)域驗(yàn)證的優(yōu)化范式。它利用基于人類偏好訓(xùn)練的獎勵模型來指導(dǎo)潛在擴(kuò)散模型的微調(diào),提升生成輸出的質(zhì)量、真實(shí)感和用戶對齊度。本工作將ReFL應(yīng)用于BFR任務(wù)以解決上述擴(kuò)散基人臉恢復(fù)方法的局限。對于現(xiàn)成的擴(kuò)散基人臉恢復(fù)方法,ReFL框架創(chuàng)新性地將其潛在擴(kuò)散去噪過程重新解釋為參數(shù)化迭代生成器。通過這種參數(shù)化,ReFL能夠應(yīng)用額外的優(yōu)化約束,從而對預(yù)訓(xùn)練人臉恢復(fù)模型的參數(shù)進(jìn)行細(xì)粒度調(diào)整。

我們精心構(gòu)建的人臉獎勵模型(FRM)是評估恢復(fù)人臉質(zhì)量的關(guān)鍵組件。針對ReFL訓(xùn)練中常見的獎勵作弊問題(即恢復(fù)模型利用獎勵模型的"漏洞"而非真正提升圖像感知質(zhì)量),我們提出了FRM的動態(tài)更新策略。此外,我們還引入兩個約束來進(jìn)一步提升恢復(fù)性能:結(jié)構(gòu)一致性約束確?;謴?fù)圖像的面部結(jié)構(gòu)與原始身份緊密對齊;權(quán)重正則化項(xiàng)限制當(dāng)前參數(shù)與初始值的偏離程度,保持基礎(chǔ)模型的生成能力。

 主要貢獻(xiàn):

● 首次將ReFL引入BFR領(lǐng)域,為擴(kuò)散基人臉恢復(fù)模型定制優(yōu)化機(jī)制

● 設(shè)計(jì)數(shù)據(jù)標(biāo)注流程構(gòu)建能準(zhǔn)確評估人臉圖像感知質(zhì)量的FRM,并提出動態(tài)更新策略防止獎勵作弊

● 引入結(jié)構(gòu)一致性約束和權(quán)重正則化兩項(xiàng)約束

● 所提DiffusionReward框架顯著提升基礎(chǔ)模型的人臉恢復(fù)質(zhì)量,達(dá)到最先進(jìn)性能

解決問題

論文主要解決的是"盲人臉恢復(fù)"任務(wù)中的一個關(guān)鍵問題:如何讓AI修復(fù)的模糊或低質(zhì)量人臉照片看起來更真實(shí)自然,同時(shí)保持人物身份特征不變

當(dāng)手機(jī)拍的人臉照片因?yàn)楣饩€差、鏡頭抖動或壓縮變得模糊、有噪點(diǎn)時(shí),傳統(tǒng)修復(fù)方法要么修出來的臉太假(像塑料娃娃),要么把張三的臉修成李四的樣子。這篇論文提出的"DiffusionReward"系統(tǒng),核心是讓AI在修復(fù)過程中像學(xué)生考試一樣,有個"評分老師"(人臉獎勵模型FRM)實(shí)時(shí)打分:

1.真實(shí)性評分:比如修復(fù)的皮膚紋理不能像橡皮泥,毛孔、皺紋等細(xì)節(jié)要自然(如圖1左,傳統(tǒng)方法修復(fù)的臉部像打了過度磨皮,而新方法能保留真實(shí)膚質(zhì))

2.身份一致性監(jiān)督:修復(fù)后必須還是同一個人。例如輸入一張模糊的周杰倫照片,不能修成陳奕迅的樣子(如圖1右,傳統(tǒng)方法可能改變五官比例)

3.防作弊機(jī)制:防止AI為了刷高分走捷徑(比如給所有人臉加上同樣的虛假雀斑或高光,雖然能騙過評分系統(tǒng)但實(shí)際很假)

例如:

·老照片修復(fù):一張20年前褪色的畢業(yè)照,AI修復(fù)后既能看清每個人的五官細(xì)節(jié),又不會把班長修成副班長的模樣

·監(jiān)控視頻增強(qiáng):便利店攝像頭拍到的模糊嫌疑人臉,修復(fù)后既能還原真實(shí)面部特征(如疤痕、胡須),又不會扭曲原本的面部結(jié)構(gòu)

·直播美顏優(yōu)化:避免直播美顏過度導(dǎo)致所有主播變成"網(wǎng)紅臉",而是保留個人特色的自然美化

本質(zhì)上,這項(xiàng)技術(shù)讓AI在"修圖"時(shí)兼顧"修得清晰"和"修得對",就像一個有藝術(shù)修養(yǎng)的修圖師,既懂技術(shù)又理解什么是"真實(shí)的美麗"。

方法

研究人員發(fā)現(xiàn),當(dāng)前最好的人臉修復(fù)AI(基于擴(kuò)散模型)雖然能大致修復(fù)模糊或損壞的人臉照片,但存在三個明顯問題:修復(fù)后的皮膚紋理不夠真實(shí)自然、有時(shí)會產(chǎn)生奇怪的偽影、最嚴(yán)重的是可能會改變原來的人臉身份特征。這就好比一個修圖師雖然能修復(fù)老照片,但修完后可能把爺爺?shù)恼掌薜孟襦従哟笫濉?/p>

為了解決這些問題,研究人員設(shè)計(jì)了一套"獎勵反饋"學(xué)習(xí)系統(tǒng)。這個系統(tǒng)的核心思想是模仿人類教學(xué)中的"表揚(yáng)-糾正"機(jī)制。首先,他們訓(xùn)練了一個專門評判人臉質(zhì)量的AI模型(FRM),這個模型就像一位嚴(yán)格的美術(shù)老師,能判斷修復(fù)后的人臉是否真實(shí)自然。然后,在原有修復(fù)AI工作時(shí),這個"老師"會實(shí)時(shí)給出評分,并通過特殊的算法不斷調(diào)整修復(fù)AI的參數(shù),讓它朝著更真實(shí)、更保持原貌的方向改進(jìn)。

具體實(shí)現(xiàn)上,研究人員做了幾個關(guān)鍵設(shè)計(jì):第一是構(gòu)建了一個包含近2萬張人臉的大數(shù)據(jù)集,并采用人工標(biāo)注+AI輔助的方式,為每張修復(fù)效果圖打上質(zhì)量評分;第二是在優(yōu)化過程中設(shè)置了多重保障機(jī)制,既鼓勵A(yù)I追求高質(zhì)量修復(fù),又防止它為了得高分而投機(jī)取巧(比如產(chǎn)生不自然的統(tǒng)一紋理);第三是加入了人臉結(jié)構(gòu)一致性檢查,確保修復(fù)過程不會改變原本的眼睛、鼻子等關(guān)鍵特征的位置關(guān)系。

這種方法最大的創(chuàng)新點(diǎn)是讓修復(fù)AI在保持原有強(qiáng)大生成能力的同時(shí),學(xué)會更符合人類審美的修復(fù)方式。就像教畫家在保持個人風(fēng)格的基礎(chǔ)上,畫出更符合解剖學(xué)的人像。實(shí)驗(yàn)證明,經(jīng)過這種訓(xùn)練后的AI,其修復(fù)效果在真實(shí)感和身份保持度上都明顯提升,特別是在處理嚴(yán)重模糊或損壞的照片時(shí)優(yōu)勢更加明顯。


DiffusionReward:通過獎勵反饋學(xué)習(xí)增強(qiáng)盲臉修復(fù)-AI.x社區(qū)

圖2:面部獎勵模型的訓(xùn)練框架。我們首先訓(xùn)練一個支持向量機(jī)(SVM)[6]分類器用于自動標(biāo)注。該分類器使用度量向量(v1, v2)和已標(biāo)注的監(jiān)督信號進(jìn)行訓(xùn)練(左圖)。面部獎勵模型基于CLIP[32]架構(gòu)(右圖),其中圖像編碼器EI的最后20層和文本編碼器Et的最后11層是可訓(xùn)練的,其余參數(shù)則被凍結(jié)。s1和s2表示分?jǐn)?shù),由圖像嵌入和文本嵌入之間的相似度推導(dǎo)而來(例如,)。

DiffusionReward框架的核心原理可以通過圖2和圖3的協(xié)同作用來深入理解。整個系統(tǒng)建立在獎勵反饋學(xué)習(xí)(ReFL)機(jī)制上,通過精心設(shè)計(jì)的人臉獎勵模型(FRM)與擴(kuò)散模型的深度交互,實(shí)現(xiàn)對盲人臉恢復(fù)過程的精準(zhǔn)調(diào)控。

圖2展示了人臉獎勵模型的訓(xùn)練流程,這是整個系統(tǒng)的質(zhì)量評估中樞。研究人員首先構(gòu)建了一個包含近2萬張多樣化人臉的數(shù)據(jù)集,通過LLaVA模型為每張圖像生成文本描述,形成圖文配對。隨后采用三種不同的盲恢復(fù)方法生成退化圖像的恢復(fù)版本,最終構(gòu)建包含原始高質(zhì)量圖像和恢復(fù)圖像的偏好數(shù)據(jù)集。在標(biāo)注階段,創(chuàng)新性地采用人工標(biāo)注與自動化標(biāo)注結(jié)合的混合策略:人工標(biāo)注3600對圖像后,訓(xùn)練SVM分類器自動標(biāo)注剩余數(shù)據(jù)。這個分類器通過分析SSIM、PSNR等六種圖像質(zhì)量指標(biāo)的組合特征來預(yù)測人類偏好?;谶@些標(biāo)注數(shù)據(jù),框架對CLIP架構(gòu)的HPSv2模型進(jìn)行微調(diào),通過調(diào)整圖像編碼器最后20層和文本編碼器最后11層的參數(shù),使模型能夠準(zhǔn)確評估恢復(fù)人臉與文本描述的匹配度。這種設(shè)計(jì)使得FRM不僅能判斷圖像質(zhì)量,還能理解面部特征與語義描述的對應(yīng)關(guān)系。

圖3則揭示了ReFL訓(xùn)練框架如何將FRM的反饋轉(zhuǎn)化為對擴(kuò)散模型的優(yōu)化力量。該系統(tǒng)將現(xiàn)有人臉恢復(fù)模型的去噪過程重新參數(shù)化為可微分的生成模塊,在最后一個去噪步驟施加多重約束。FRM提供的獎勵信號通過反向傳播形成梯度,引導(dǎo)模型生成更符合人類偏好的面部細(xì)節(jié)。為防止模型過度迎合獎勵分?jǐn)?shù)而產(chǎn)生虛假特征(即獎勵作弊),框架引入了三重保護(hù)機(jī)制:結(jié)構(gòu)一致性約束通過LPIPS度量和小波變換的低頻成分保持,確保恢復(fù)圖像與輸入圖像的身份特征對齊;權(quán)重正則化約束則像"錨點(diǎn)"一樣限制參數(shù)更新幅度,保留預(yù)訓(xùn)練模型的生成多樣性優(yōu)勢。最具創(chuàng)新性的是動態(tài)更新策略——每經(jīng)過10次生成器訓(xùn)練,就用當(dāng)前模型輸出的恢復(fù)圖像更新FRM,形成兩者相互促進(jìn)的協(xié)同進(jìn)化。這種設(shè)計(jì)使得FRM能持續(xù)適應(yīng)生成模型的變化,始終將優(yōu)化方向約束在真實(shí)人臉流形空間內(nèi)。


DiffusionReward:通過獎勵反饋學(xué)習(xí)增強(qiáng)盲臉修復(fù)-AI.x社區(qū)

圖3:我們的ReFL訓(xùn)練框架。(左圖)我們引入多個約束條件以優(yōu)化生成模塊gθ,包括Lreward、Lreg和Lstruct(詳見3.3節(jié))。(右圖)為提高訓(xùn)練效率,這些約束條件僅應(yīng)用于最后一個去噪步驟。

兩個模塊的協(xié)同工作形成了閉環(huán)優(yōu)化系統(tǒng):FRM作為"質(zhì)量評判官"不斷提供改進(jìn)方向,擴(kuò)散模型作為"畫家"根據(jù)反饋調(diào)整筆觸,而動態(tài)更新機(jī)制則確保這種互動不會陷入自我欺騙的怪圈。在實(shí)際應(yīng)用中,這種機(jī)制顯著改善了擴(kuò)散模型在面部紋理細(xì)節(jié)恢復(fù)上的不足。例如對皮膚毛孔、眉毛毛發(fā)等高頻細(xì)節(jié)的還原更加逼真,同時(shí)避免了常見的人工平滑效應(yīng)。對于身份特征的保護(hù)也更為可靠,即使在大姿態(tài)或遮擋情況下,恢復(fù)結(jié)果仍能保持與原始身份的連貫性。這種技術(shù)突破使得基于擴(kuò)散模型的人臉恢復(fù)從"大致相似"提升到了"細(xì)節(jié)精確"的新層次,為實(shí)際應(yīng)用提供了更可靠的解決方案。

實(shí)驗(yàn)結(jié)果

本研究首先在合成數(shù)據(jù)集CelebA-Test上進(jìn)行了全面量化評估,共采用11項(xiàng)指標(biāo)衡量不同方法的性能表現(xiàn)。如表1所示,當(dāng)將DiffusionReward框架應(yīng)用于兩種基礎(chǔ)模型(OSEDiff和DiffBIR)時(shí),括號內(nèi)的數(shù)值變化清晰表明該方法在幾乎所有指標(biāo)上均實(shí)現(xiàn)了性能提升。與當(dāng)前最先進(jìn)方法相比,經(jīng)過我們框架增強(qiáng)的OSEDiff(+ours)和DiffBIR(+ours)在Degradation評分、唇部運(yùn)動距離(LMD)、美學(xué)評分及FaceReward等核心指標(biāo)上均占據(jù)領(lǐng)先地位,這證實(shí)了ReFL框架不僅能提升人臉的感知質(zhì)量,還能有效保持身份一致性。視覺對比結(jié)果(圖4)進(jìn)一步顯示,我們的方法在身份一致性保持和皮膚紋理細(xì)節(jié)還原方面具有顯著優(yōu)勢,恢復(fù)的面部特征更貼近真實(shí)人臉的復(fù)雜紋理分布。


DiffusionReward:通過獎勵反饋學(xué)習(xí)增強(qiáng)盲臉修復(fù)-AI.x社區(qū)

針對真實(shí)場景數(shù)據(jù)集的測試結(jié)果(表2)表明,在LFW-Test和WebPhoto-Test這兩個具有挑戰(zhàn)性的真實(shí)退化數(shù)據(jù)集上,DiffusionReward框架對基礎(chǔ)模型的美學(xué)評分和圖像質(zhì)量指標(biāo)MUSIQ均有明顯提升。特別值得注意的是,OSEDiff(+ours)在兩個數(shù)據(jù)集的所有對比方法中均取得最佳性能。圖5展示的定性對比中可以看到,基礎(chǔ)模型在處理真實(shí)世界退化時(shí)經(jīng)常產(chǎn)生面部細(xì)節(jié)過度平滑的問題,而我們的方法成功克服了這一缺陷,生成的人臉不僅具有更豐富的細(xì)節(jié),還保持了自然的視覺效果。這種改進(jìn)在復(fù)雜光照條件和重度壓縮偽影的場景中尤為明顯。


DiffusionReward:通過獎勵反饋學(xué)習(xí)增強(qiáng)盲臉修復(fù)-AI.x社區(qū)


DiffusionReward:通過獎勵反饋學(xué)習(xí)增強(qiáng)盲臉修復(fù)-AI.x社區(qū)

消融研究部分通過系統(tǒng)性的組件分析揭示了ReFL框架各要素的作用機(jī)制。如表3所示,當(dāng)使用原始HPSv2獎勵模型替代我們專門設(shè)計(jì)的FRM時(shí),F(xiàn)RM在人工標(biāo)注測試集上的偏好預(yù)測準(zhǔn)確率顯著高出24.73%(87.78% vs 63.05%),這直接轉(zhuǎn)化為生成質(zhì)量的明顯優(yōu)勢。表4的消融實(shí)驗(yàn)將框架分解為四個關(guān)鍵組件:結(jié)構(gòu)一致性約束(SC)、權(quán)重正則化(WR)、獎勵反饋(Rwd)和獎勵模型更新(RU)。結(jié)果顯示僅使用SC和WR的Variant 1雖然改善了身份保持(LMD指標(biāo)提升),但導(dǎo)致感知質(zhì)量(MUSIQ)下降,生成的面部存在過度平滑現(xiàn)象。加入Rwd形成的Variant 2在感知質(zhì)量上獲得顯著改進(jìn),恢復(fù)了更精細(xì)的面部細(xì)節(jié)。而移除WR的Variant 3則出現(xiàn)生成能力退化,表現(xiàn)為頭發(fā)細(xì)節(jié)丟失等問題。圖6(c)的視覺示例清晰展示了獎勵作弊現(xiàn)象——Variant 2生成的面部出現(xiàn)痤瘡樣偽影,而引入RU機(jī)制的完整框架成功消除了這類異常模式。


DiffusionReward:通過獎勵反饋學(xué)習(xí)增強(qiáng)盲臉修復(fù)-AI.x社區(qū)


DiffusionReward:通過獎勵反饋學(xué)習(xí)增強(qiáng)盲臉修復(fù)-AI.x社區(qū)

在討論獎勵作弊現(xiàn)象時(shí),圖13通過兩種典型模式展示了人臉恢復(fù)任務(wù)中的這一特殊問題。Style 1表現(xiàn)為嚴(yán)重的風(fēng)格化傾向,生成人臉呈現(xiàn)統(tǒng)一的"繪畫感"外觀;Style 2則顯示為持續(xù)存在的非自然瑕疵,如重復(fù)皮膚紋理。右圖的流形空間示意圖形象化地解釋了這一現(xiàn)象:紅色原點(diǎn)代表初始狀態(tài),橙色獎勵作弊點(diǎn)雖然獲得高分但偏離真實(shí)人臉流形,綠色理想點(diǎn)則實(shí)現(xiàn)了質(zhì)量提升與流形保持的平衡。這種分析為動態(tài)更新策略的必要性提供了理論依據(jù),說明固定獎勵模型會導(dǎo)致優(yōu)化過程陷入局部最優(yōu)。


DiffusionReward:通過獎勵反饋學(xué)習(xí)增強(qiáng)盲臉修復(fù)-AI.x社區(qū)

值得注意的是,該方法目前主要針對擴(kuò)散模型架構(gòu)驗(yàn)證,在GAN或Transformer等架構(gòu)上的適用性仍有待探索。盡管ReFL原則具有普適性,但將其擴(kuò)展到其他架構(gòu)可能需要調(diào)整獎勵反饋的整合方式,這也是未來研究的重要方向。所有實(shí)驗(yàn)均在NVIDIA L20 GPU環(huán)境下完成,訓(xùn)練采用Adam優(yōu)化器,基礎(chǔ)模型分別選擇代表單步推理(OSEDiff)和多步推理(DiffBIR)的兩種擴(kuò)散范式,確保了方法在不同類型擴(kuò)散模型上的泛化能力。


本文轉(zhuǎn)載自??AIRoobt?? ,作者:AIRoobt

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-5-30 06:37:39修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦