阿里達(dá)摩院提出開源AI圖片上色模型DDColor:可以為黑白照片、人物、動(dòng)漫風(fēng)景等一鍵上色!
本文經(jīng)AIGC Studio公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
DDColor 可以為歷史黑白老照片提供生動(dòng)自然的著色。它甚至可以對(duì)動(dòng)漫游戲中的風(fēng)景進(jìn)行著色/重新著色,將您的動(dòng)畫風(fēng)景轉(zhuǎn)變?yōu)楸普娴默F(xiàn)實(shí)生活風(fēng)格!

相關(guān)鏈接
- 項(xiàng)目:github.com/piddnad/DDColor
- Demo:replicate.com/piddnad/ddcolor
- 論文:arxiv.org/abs/2212.11613
論文閱讀

摘要
圖像著色是一個(gè)具有挑戰(zhàn)性的問題,由于 多模態(tài)不確定性和高病態(tài)性。直接 訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)通常會(huì)導(dǎo)致錯(cuò)誤 語義色彩和色彩豐富度低。雖然基于轉(zhuǎn)換器的方法可以提供更好的結(jié)果,但它們經(jīng)常依賴 在人工設(shè)計(jì)的先驗(yàn)上,泛化能力差,而且會(huì)引入色差效應(yīng)。
為了解決這些問題,我們提出了一個(gè)端到端 圖像著色用雙解碼器方法。我們的方法包括一個(gè)像素解碼器和一個(gè)基于查詢的顏色 譯碼器。前者恢復(fù)圖像的空間分辨率 而后者則利用豐富的視覺特征進(jìn)行細(xì)化 顏色查詢,從而避免手工制作的先驗(yàn)
我們兩個(gè)解碼器一起工作,以建立之間的相關(guān)性 通過交叉注意進(jìn)行顏色和多尺度語義表征,顯著緩解了顏色出血效應(yīng)。此外,還引入了一種簡(jiǎn)單而有效的色彩損失來增強(qiáng)色彩的豐富度。大量的實(shí)驗(yàn)表明,DDColor在數(shù)量上都比現(xiàn)有的最先進(jìn)的作品具有優(yōu)越的性能 和定性。
方法

視覺對(duì)比。新的著色方法DDColor,能夠產(chǎn)生更自然的著色效果 與現(xiàn)有方法相比,在包含多個(gè)對(duì)象和不同背景的復(fù)雜場(chǎng)景中進(jìn)行生動(dòng)的著色。

方法概述
我們提出的模型DDColor以端到端的方式對(duì)灰度圖像xL進(jìn)行著色。我們首先使用骨干網(wǎng)絡(luò)提取其特征,然后將其輸入到像素解碼器中以恢復(fù)空間結(jié)構(gòu) 圖像的。同時(shí),顏色解碼器對(duì)不同尺度的視覺特征進(jìn)行顏色查詢,學(xué)習(xí)語義感知的顏色表示
結(jié)構(gòu)
彩色解碼器塊。以圖像特征和顏色查詢作為輸入,顏色解碼器塊建立相關(guān)性 通過交叉注意、自我注意和前饋操作在語義和顏色表征之間進(jìn)行。
簡(jiǎn)而言之,DDColor使用多尺度視覺特征來優(yōu)化可學(xué)習(xí)的顏色標(biāo)記(即顏色查詢),并在自動(dòng)圖像著色上實(shí)現(xiàn)最先進(jìn)的性能。
實(shí)驗(yàn)
DDColor可以為歷史黑白老照片提供生動(dòng)自然的著色。

它甚至可以對(duì)動(dòng)畫游戲中的風(fēng)景進(jìn)行著色/重新著色,將您的動(dòng)畫風(fēng)景轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)生活中的風(fēng)格!

總結(jié)
在這項(xiàng)工作中,我們提出了一種端到端圖像著色方法。DDColor的關(guān)鍵在于兩個(gè)解碼器的設(shè)計(jì):顏色解碼器,它通過使用基于查詢的轉(zhuǎn)換器來學(xué)習(xí)語義感知的顏色查詢產(chǎn)生多尺度視覺特征以優(yōu)化顏色查詢。我們的方法在這兩方面都超越了以前的方法性能和生成現(xiàn)實(shí)和語義一致的著色的能力。































