都在談端到端的輸出,怎么提高端到端輸入的質(zhì)量?
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
文章:RMFA-Net: A Neural ISP for Real RAW to RGB Image Reconstruction
鏈接:https://arxiv.org/abs/2406.11469
問題引出
圖像信號(hào)處理器(ISP)是一種專門設(shè)計(jì)的系統(tǒng),用于從CMOS傳感器捕獲的原始數(shù)據(jù)重建RGB圖像?,F(xiàn)有ISP系統(tǒng)是基于傳統(tǒng)算法的,依賴于對(duì)傳感器的深入理解和復(fù)雜的調(diào)試,這限制了它們?cè)谧詣?dòng)駕駛和機(jī)器人等領(lǐng)域的適用性。雖然在基于人眼視覺的標(biāo)準(zhǔn)下,傳統(tǒng)算法取得了較好的效果,但在視覺感知系統(tǒng)中無(wú)法很好適配?;谏疃葘W(xué)習(xí)的ISP算法作為一種具有顯著潛力和多功能性的方法出現(xiàn)。近年來(lái),越來(lái)越多的人對(duì)開發(fā)基于學(xué)習(xí)的算法以設(shè)計(jì)高效且高性能的ISP算法產(chǎn)生了興趣,這些算法可以針對(duì)特定領(lǐng)域的需求量身定制。
然而,現(xiàn)有算法并未充分考慮raw數(shù)據(jù)的特定特性,如黑電平和CFA,這可能會(huì)在處理不當(dāng)時(shí)對(duì)紋理和顏色產(chǎn)生負(fù)面影響。此外,raw數(shù)據(jù)中的不均勻曝光也未被仔細(xì)考慮,導(dǎo)致對(duì)比度和亮度信息無(wú)法準(zhǔn)確恢復(fù)?,F(xiàn)有算法在數(shù)據(jù)處理的時(shí)候,破壞了原始數(shù)據(jù)中的高頻信息,導(dǎo)致高頻細(xì)節(jié)難以回復(fù),同時(shí)會(huì)帶來(lái)模糊等問題。本文介紹了RMFA-Net以解決這些問題。我們進(jìn)行顯示黑電平校正以減輕暗場(chǎng)景中的顏色偏移。為了保留高頻信息并防止錯(cuò)位,我們提出了一種新的三通道分離模式。為了解決不均勻曝光的問題,我們個(gè)基于Retinex理論的設(shè)計(jì)了色調(diào)映射模塊,從而最終獲得更好的圖像效果。
框架介紹
Figure 1 RMFA-Net網(wǎng)絡(luò)結(jié)構(gòu)
圖1(a)提供了本文所提出的深度學(xué)習(xí)架構(gòu)的示意圖。該網(wǎng)絡(luò)分為三個(gè)主要部分:輸入模塊,RMFA模塊棧,以及輸出模塊。輸入模塊接受大小為256 × 256 × 3的圖像作為輸入,并將深度從3擴(kuò)展到統(tǒng)一的寬度。在這一部分中,使用了兩個(gè)卷積層,卷積核大小為3 × 3。需要注意的是,tanh函數(shù)被用來(lái)將結(jié)果映射到區(qū)間(?1, 1) 。第二部分由多個(gè)RMFA模塊組成。第三部分是輸出模塊,其中使用一個(gè)卷積層,緊接著是sigmoid激活函數(shù)來(lái)生成輸出。
關(guān)鍵組件介紹
RMFA模塊
RMFA模塊是我們模型的基本構(gòu)建塊,如圖1(b)所示。其包含幾個(gè)子模塊:
- 高頻信息提取分支:這個(gè)子分支專注于從輸入數(shù)據(jù)中提取高頻信息。它利用大小為1 × 1的卷積核來(lái)捕捉圖像中的細(xì)節(jié)。通過使用較小的卷積核,網(wǎng)絡(luò)能夠有效地捕捉高頻紋理并保留重建圖像中的復(fù)雜細(xì)節(jié)。
- 低頻分支:這個(gè)子分支負(fù)責(zé)捕獲輸入數(shù)據(jù)中的低頻信息。它利用大小為3×3的較大卷積核來(lái)捕捉更廣泛的特征并平滑圖像。較大的卷積核允許網(wǎng)絡(luò)捕獲低頻紋理,例如整體色彩和色調(diào)變化,并確保重建的圖像保持視覺上的美觀
- 色調(diào)映射模塊:模塊紋理模塊和色調(diào)映射模塊的輸出首先被連接在一起。隨后,使用一個(gè)卷積層將特征圖的數(shù)量映射到原始深度寬度。
- 注意力模塊。RMFA模塊的最后添加了channel attention和spatial attention模塊。同時(shí)添加了skip connection連接。
作為一個(gè)多功能的構(gòu)建塊,RMFA模塊可以無(wú)縫地集成到各種架構(gòu)中,增強(qiáng)我們模型的靈活性和適應(yīng)性
通道模式
Figure 2:3通道模式
如圖2所示,在之前的工作中,通常的做法是將4通道模式,在這種模式下,綠色通道進(jìn)一步分為Gr和Gb通道。這種額外的分離相當(dāng)于對(duì)綠色通道進(jìn)行下采樣,這會(huì)破壞raw數(shù)據(jù)中的高頻信息。
此外,4通道模式會(huì)引起像素錯(cuò)位。如圖2(a)中的黑框所示,四個(gè)通道中相同位置的像素實(shí)際上對(duì)應(yīng)于原始raw數(shù)據(jù)中的2×2鄰域。這種錯(cuò)位可能導(dǎo)致模糊,影響圖像質(zhì)量
本文設(shè)計(jì)了一種新方法,如圖2(c)所示。我們將Bayer raw數(shù)據(jù)分為三個(gè)通道(R、G、B),每個(gè)通道保留raw數(shù)據(jù)的大小。對(duì)于未采樣的像素,我們用1填充。因此,G通道的采樣率保持不變,盡可能保留高頻紋理信息。我們相信這種方法將更有助于網(wǎng)絡(luò)準(zhǔn)確地重建高頻信息。
量化指標(biāo)
我們?cè)诠_數(shù)據(jù)集上測(cè)試我們的效果,PSNR和SSIM兩個(gè)指標(biāo)都超越了sota結(jié)果+1db。同時(shí)我們網(wǎng)絡(luò)參數(shù)也控制在較小的范圍內(nèi)。如表1所示
Table 1:結(jié)果對(duì)比
總結(jié)
在本文中,我們提出了名為RMFA-Net的Neural ISP網(wǎng)絡(luò),這是一種用于RAW到RGB圖像重建的新型深度學(xué)習(xí)模型。我們?cè)诠_數(shù)據(jù)集上證明了我們算法的有效性。其在PSNR和SSIM等圖像指標(biāo)超過了sota結(jié)果1個(gè)Db。RMFA-Net在重建亮度、顏色、紋理和整體圖像細(xì)節(jié)方面有著更為出色的表現(xiàn)。
此外,我們還提供了一些額外的細(xì)節(jié)和結(jié)果,包括數(shù)據(jù)處理細(xì)節(jié)、網(wǎng)絡(luò)結(jié)構(gòu)細(xì)節(jié)、各處理模塊作用對(duì)比分析等。這些額外信息進(jìn)一步證明了我們方法的有效性和實(shí)用性。我們希望我們的工作能夠啟發(fā)未來(lái)關(guān)于Neural ISP系統(tǒng)的研究