偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集

發(fā)布于 2024-4-22 13:17
瀏覽
0收藏

拖動(dòng)式圖像編輯是一種新型的、用戶交互式的圖像編輯方法。


通過設(shè)置起始點(diǎn)與目標(biāo)點(diǎn),用戶可以將圖像的內(nèi)容拖動(dòng)至指定位置,得到合理的圖像結(jié)果。


當(dāng)前的拖動(dòng)式編輯基于GAN或者diffusion模型。然而這些方法或受限于GAN模型本身的生成能力,或在diffusion模型上無法得到穩(wěn)定且高質(zhì)量的結(jié)果。


小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)

論文地址:??https://arxiv.org/abs/2404.07206??

項(xiàng)目地址:??https://gooddrag.github.io/??


最近,西安交通大學(xué)和麥克馬斯特大學(xué)的研究人員提出的一種全新GoodDrag方法包含一種Alternating Drag and Denoising(AlDD)的用于拖動(dòng)式編輯的框架和information-preserving motion supervision,有效提高了基于diffusion模型的拖動(dòng)編輯的圖像質(zhì)量。


值得注意的是,GoodDrag遵循簡約的設(shè)計(jì)原則(如無必要,勿增實(shí)體):AlDD只需要改變計(jì)算順序,而不增加任何計(jì)算;information-preserving的改進(jìn)則只需要巧妙地對(duì)損失中的一項(xiàng)進(jìn)行改動(dòng)。這種簡潔性極大提升了方法的泛化能力,也為未來研究提供了扎實(shí)的基準(zhǔn)。


此外,研究人員還建立了包含不同類型拖動(dòng)編輯任務(wù)的新數(shù)據(jù)集Drag100,并采用新的指標(biāo)對(duì)拖動(dòng)編輯結(jié)果的準(zhǔn)確性和圖形質(zhì)量進(jìn)行評(píng)估。


小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)

方法概述

1. 拖動(dòng)編輯


基本的拖動(dòng)編輯將一組起始點(diǎn)pi對(duì)應(yīng)的圖像內(nèi)容拖動(dòng)至對(duì)應(yīng)的目標(biāo)點(diǎn)qi,其主要過程分為兩部,動(dòng)作監(jiān)督和當(dāng)前點(diǎn)追蹤。


動(dòng)作監(jiān)督對(duì)當(dāng)前的latent code進(jìn)行更新后,得到一步拖動(dòng)后的新latent code


小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)


此時(shí),圖像上對(duì)應(yīng)的內(nèi)容發(fā)生了變化,起始點(diǎn)對(duì)應(yīng)的圖像內(nèi)容不一定隨著隨著拖動(dòng)路勁改變,可能發(fā)生偏離,因此我們需要對(duì)當(dāng)前點(diǎn)進(jìn)行追蹤,得到新的當(dāng)前點(diǎn)。


小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)

  


2. AlDD框架


A stitch in time saves nine (小洞不補(bǔ),大洞吃苦)


小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)


當(dāng)前基于diffusion的拖動(dòng)編輯方法將所有的拖動(dòng)操作集中在diffusion去噪的某一步上,然后通過去噪進(jìn)行修復(fù)并得到拖動(dòng)后的結(jié)果。


當(dāng)大量的拖動(dòng)編輯加入時(shí),造成的擾動(dòng)可能過大,從而使diffusion無法修復(fù)。我們提出的AlDD框架交替進(jìn)行拖動(dòng)編輯和diffusion去噪,有效抵抗拖動(dòng)所帶來的累積擾動(dòng),從而得到高質(zhì)量的圖像。

小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)

簡單實(shí)驗(yàn)證明累積誤差會(huì)對(duì)diffusion的去噪生成造成影響。圖中未單步denoise加入多個(gè)高斯噪聲和多步denoise過程每次加入一個(gè)高斯噪聲,當(dāng)大量誤差累積時(shí),diffusion無法恢復(fù)原圖,相反,每次少量的擾動(dòng)可以被diffusion的去噪過程修復(fù)。


3. Information-Preserving Motion Supervision


過去基于GAN或者diffusion的拖動(dòng)編輯將當(dāng)前追蹤點(diǎn)所對(duì)應(yīng)的patch作為下一步motion supervision的目標(biāo)。


然而,這樣的做法忽視了拖動(dòng)編輯可能是不充分的;或者隨著編輯,當(dāng)前patch的內(nèi)容由于累積誤差發(fā)生了偏離。以偏離的patch作為motion supervision目標(biāo)會(huì)進(jìn)一步導(dǎo)致誤差累積,從而進(jìn)入惡性循環(huán)。


文中提出的Information-Preserving Motion Supervision,總是以當(dāng)前diffusion的time stpe的feature中起始點(diǎn)的patch作為目標(biāo),從而進(jìn)一步避免累積誤差對(duì)Motion Supervision造成干擾。


小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)


研究人員設(shè)計(jì)了新的動(dòng)作監(jiān)督式,此處pi^0所對(duì)應(yīng)的特征總是作為動(dòng)作監(jiān)督目標(biāo)。


小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)


此圖中,Information-Preserving Motion Supervision隨著拖動(dòng)編輯進(jìn)行,其點(diǎn)對(duì)應(yīng)的圖像總是和原圖像的起始點(diǎn)相符,而非Information-Preserving Motion Supervision則隨著拖動(dòng)Motion Supervision次數(shù)增加,對(duì)應(yīng)的目標(biāo)逐漸偏離原來的圖像內(nèi)容,從而導(dǎo)致結(jié)果不佳。

全新基準(zhǔn)數(shù)據(jù)集Drag100

拖動(dòng)編輯是一種新型的圖像編輯手段,缺乏相應(yīng)的數(shù)據(jù)集和定量評(píng)估方法。我們引入新的數(shù)據(jù)集Drag100,拖動(dòng)準(zhǔn)確性指數(shù)Dragging Accuracy Index (DAI)和圖像質(zhì)量評(píng)估分?jǐn)?shù)Gemini Score (GScore)。


盡管最近的基于diffusion拖動(dòng)文章提供了一些數(shù)據(jù)集,Drag100不僅僅考慮圖像內(nèi)容種類的不同,還考慮拖動(dòng)任務(wù)的不同。拖動(dòng)編輯大致包含以下幾,移動(dòng),旋轉(zhuǎn),縮放,內(nèi)容消除和內(nèi)容生成。


小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)

小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)


我們比較不同的圖像質(zhì)量評(píng)估指標(biāo)和GScore與人眼判別的相關(guān)性。對(duì)不同的指標(biāo),我們分別計(jì)算與問卷人眼圖像質(zhì)量判斷結(jié)果的Spearman’s rank correlation coefficient(斯皮爾曼等級(jí)相關(guān)系數(shù))。最后的平均結(jié)果如下,GScore表現(xiàn)出高度的正相關(guān),遠(yuǎn)優(yōu)于其他圖像質(zhì)量評(píng)估指標(biāo)。


小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)


另一方面,為了在開放數(shù)據(jù)集上評(píng)估生成圖片的圖像質(zhì)量,我們嘗試傳統(tǒng)NoReference Image Quality Assessment (NR-IQA)方法,發(fā)現(xiàn)此類方法和人眼對(duì)圖像質(zhì)量的評(píng)估相關(guān)性較差。


因此,采用大型多模態(tài)模型,引入基于Gemini模型的GScore,以替代大范圍測(cè)試時(shí)對(duì)人眼評(píng)估的依賴。我們通過問卷證明了GScore與人眼評(píng)判具有較高的相關(guān)性。

實(shí)驗(yàn)結(jié)果

GoodDrag的拖動(dòng)編輯效果在拖動(dòng)精確度和圖像質(zhì)量在定性和定量上都超過了現(xiàn)有方法。


部分圖像結(jié)果:


小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)


小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)

DAI在Drag100上的結(jié)果如下,DragDiffusion*增加了DragDiffusion默認(rèn)的拖動(dòng)編輯次數(shù):


小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)

評(píng)估圖像質(zhì)量的GScore如下

小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)

此外,研究人員還進(jìn)行實(shí)驗(yàn)驗(yàn)證AlDD和Information-Preserving Motion Supervision的有效性。


下圖為是否采用AlDD框架的比較,使用AlDD可以保留原圖的細(xì)致紋理,而非AlDD則會(huì)使圖像失真。

小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)


Information-Preserving Motion Supervision可以進(jìn)一步保證圖像質(zhì)量,也會(huì)導(dǎo)致拖動(dòng)編輯的難度上升,因此我們對(duì)每次動(dòng)作監(jiān)督進(jìn)行小learning rate的多次重復(fù)。不采用Information-Preserving Motion Supervision會(huì)導(dǎo)致目標(biāo)偏離,從而拖動(dòng)編輯失敗。


小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)

以下熱力圖和折線圖進(jìn)一步說明Information-Preserving Motion Supervision的必要性。在當(dāng)前的追蹤時(shí),Information-Preserving Motion Supervision可以使追蹤區(qū)域更敏感,如以下熱力圖(以歸一化)所示,Information-Preserving Motion Supervision方法使黑色區(qū)域更小,更具鋒度,從而提高追蹤的準(zhǔn)確性。


小洞不補(bǔ),大洞吃苦:西交、麥馬開源全新「拖動(dòng)式編輯」框架&數(shù)據(jù)集-AI.x社區(qū)


同時(shí)折線圖反映了用于追蹤的特征和原特征數(shù)值上的差異,Information-Preserving Motion Supervision有效保留了原特征的內(nèi)容。

總結(jié)

GoodDrag探索了基于diffusion模型對(duì)拖動(dòng)編輯造成影響的因素。設(shè)計(jì)了AlDD框架和Information-Preserving Motion Supervision,有效提高了拖動(dòng)編輯的準(zhǔn)確性和圖像質(zhì)量。


此外還為拖動(dòng)編輯提供了新的數(shù)據(jù)集Drag100,以及評(píng)估準(zhǔn)確性DAI和評(píng)估圖像質(zhì)量的GScore。


GoodDrag現(xiàn)已開源,提供多種簡易運(yùn)行方式,支持用戶使用自己的圖片進(jìn)行嘗試:https://gooddrag.github.io/


本文轉(zhuǎn)自 新智元,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/xBeo_O9-eh7DflqNdadPlQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦