一張快照就能還原出一段視頻!AAAI 2023論文提出快照壓縮成像新算法
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
隨著光學(xué)算法發(fā)展,如今我們用低維傳感器也能“捕獲”高維信號了。
舉個例子,這是我們用2D傳感器拍到的一張“照片”,看起來充滿了噪聲數(shù)據(jù):
然而,正是通過這張“照片”所包含的數(shù)據(jù),我們就能還原出一段動態(tài)的視頻來!
聽起來很神奇,但通過一種名叫快照壓縮成像(Snapshot Compressive Imaging, SCI)的方法,確實(shí)能實(shí)現(xiàn)。
這種方法能將高維數(shù)據(jù)作為二維測量進(jìn)行采樣, 從而實(shí)現(xiàn)高效地獲取高維視覺信號。
以相機(jī)為例,雖然它是2D傳感器,但如果想辦法在相機(jī)鏡頭后加個數(shù)字微鏡器件測量設(shè)備 (Digital Micromirror Devices,DMD,這是一種能精確地控制光源的器件),就有辦法使普通的相機(jī)對高維數(shù)據(jù)進(jìn)行降維測量,得到簡易的的2D數(shù)據(jù),再還原出高維3D的視覺信號。
比如,普通的相機(jī)幀率很低,一秒最多只能拍幾十張照片(假設(shè)能拍30張)。
當(dāng)我們想拍攝高速運(yùn)動的物體時,只要給普通相機(jī)加上這個數(shù)字微鏡器件,它就會沿時間維度壓縮視頻信號,每拍到一張照片就能還原出來幾幀甚至幾十幀照片(也就是還原出來一段視頻)。
假設(shè)我們給數(shù)字微鏡器件預(yù)設(shè)的壓縮率是10,那么,現(xiàn)在拍一張照片就能還原出來10張照片(或者說是一段包含了10幀照片的視頻),而相機(jī)的幀率也直接翻了10倍,變成一秒能拍300張照片。
現(xiàn)在問題來了,要如何從這些含有噪聲的壓縮低維測量數(shù)據(jù)中,盡可能高效地恢復(fù)原始高維信號呢?
隨著深度學(xué)習(xí)發(fā)展,各種重建算法也都被提了出來,然而這些算法重建信號的準(zhǔn)確性和穩(wěn)定性仍然不夠好。
為此,來自港大、中科院和西湖大學(xué)的研究人員,提出了一種用于視頻快照壓縮成像的Deep Equilibrium Models(DEQ)方法,目前已被AAAI 2023收錄:
這種方法不僅提升了重建準(zhǔn)確度和穩(wěn)定性,還進(jìn)一步優(yōu)化了內(nèi)存占用空間——
算法在訓(xùn)練和測試中只需要常數(shù)級內(nèi)存,即:在使用深度學(xué)習(xí)時,它所消耗的內(nèi)存空間不隨網(wǎng)絡(luò)深度變化(而在使用傳統(tǒng)優(yōu)化方法時,它所消耗的內(nèi)存空間不隨迭代次數(shù)變化)。
一起來看看。
快照壓縮成像難點(diǎn)是什么?
受益于新穎光學(xué)硬件和成像算法的設(shè)計,快照壓縮成像(Snapshot Compressive Imaging, SCI)系統(tǒng)可以在一次快照測量中,將高維數(shù)據(jù)作為二維測量進(jìn)行采樣, 從而實(shí)現(xiàn)高效地獲取高維視覺信號。
如圖1所示,SCI系統(tǒng)可以分為兩個部分,硬件編碼和軟件解碼:
△圖1. 快照壓縮成像系統(tǒng)使用低維傳感器在快照測量中捕獲高維數(shù)據(jù)
以拍攝視頻為例,通過硬件編碼,SCI系統(tǒng)對視頻數(shù)據(jù)進(jìn)行采樣,在時間維度上壓縮;此后,采用算法來重建原始的高維視頻數(shù)據(jù)。
這里考慮視頻SCI系統(tǒng),如視頻1所示,視頻上半部分展示的是SCI系統(tǒng)硬件部分得到的壓縮測量,視頻下半部分是使用該論文提出的算法恢復(fù)出來的視頻結(jié)果。
顯然,整個成像過程中需要求解一個逆問題:如何從含噪聲的壓縮測量中恢復(fù)視頻。
盡管目前已經(jīng)有很多重建方法可以求解SCI成像的逆問題,但這些方法各有缺陷,如圖2所示:?
△圖2. SCI重建的現(xiàn)有方法和主要問題
其中,傳統(tǒng)的優(yōu)化算法(a)性能有限。
而隨著深度學(xué)習(xí)的發(fā)展,端到端的深度網(wǎng)絡(luò)(b)和unfolding方法(c)雖然能提高性能,但不可避免地隨著層網(wǎng)絡(luò)深度的增加而遭受不斷增長的內(nèi)存占用需求,并且需要精心地設(shè)計模型。
即插即用(PnP)框架(d)雖然享受數(shù)據(jù)驅(qū)動正則化和靈活迭代優(yōu)化的優(yōu)點(diǎn),但是這種算法必須通過適當(dāng)?shù)膮?shù)設(shè)置來保證準(zhǔn)確的結(jié)果,甚至需要采用一些復(fù)雜的策略來獲得令人滿意的性能。
相比于其他方法,論文提出了新算法DE-RNN和DE-GAP,來保證重建結(jié)果的準(zhǔn)確性和穩(wěn)定性,其重建結(jié)果的性能可以收斂到一個較高水平,如圖3所示:
△圖3. DE-GAP與其他方法重建結(jié)果對比
通常來說,以往方法如RNN和PnP的重建結(jié)果不穩(wěn)定,甚至在長期迭代中性能變差。
但DE-GAP重建結(jié)果卻能隨著迭代次數(shù)的增加保持性能的提升,并最終收斂到穩(wěn)定的結(jié)果。
這是怎么做到的?
引入先進(jìn)模型提升性能
為了解決以往方法存在的問題、實(shí)現(xiàn)更先進(jìn)的SCI重建,這篇論文首次提出了一種新思路——
使用DEQ模型,解決視頻SCI重建的逆問題。
DEQ模型在2019年被首次提出,主要應(yīng)用于自然語言處理中的大規(guī)模長序列語言處理任務(wù)。
如圖4所示,DEQ模型可以通過牛頓迭代法等求根方法,在前向傳播和反向傳播的過程中直接求解出不動點(diǎn),從而僅使用常數(shù)級內(nèi)存就等效實(shí)現(xiàn)了無窮深網(wǎng)絡(luò):
△圖4. DEQ模型的求解不動點(diǎn)方法(左)和常數(shù)級內(nèi)存占用(右)
(圖4出自論文:S. Bai et al, “Deep equilibrium models”, NeurIPS 2019.)
具體來說,這篇論文首次將DEQ模型應(yīng)用于兩個現(xiàn)有的視頻SCI重建框架:RNN和PnP。
效果也非常不錯,RNN相當(dāng)于僅使用常數(shù)級內(nèi)存實(shí)現(xiàn)了無窮深網(wǎng)絡(luò),PnP等效于實(shí)現(xiàn)了無窮多迭代優(yōu)化步驟,并且在迭代優(yōu)化過程中直接求解不動點(diǎn)。
如圖5所示,論文為RNN和PnP分別設(shè)計了結(jié)合DEQ模型的迭代函數(shù),這里x是重建結(jié)果,y是壓縮測量,Φ是測量矩陣:
△圖5. RNN和PnP分別結(jié)合DEQ模型后的迭代函數(shù)
(具體推導(dǎo)過程和前后向傳播的細(xì)節(jié)請見論文)
實(shí)驗(yàn)結(jié)果如何?
論文在六個經(jīng)典的SCI數(shù)據(jù)集和真實(shí)數(shù)據(jù)上都進(jìn)行了實(shí)驗(yàn),相較以往的方法,整體重建結(jié)果都要更好。
如表1顯示,平均而言,這種方法在PSNR實(shí)現(xiàn)了大約0.1dB的改善,SSIM實(shí)現(xiàn)了大約0.04的改善。SSIM的改進(jìn)表明,這種方法可以重建具有相對精細(xì)結(jié)構(gòu)的圖像:
△表1. 視頻SCI重建的六個經(jīng)典數(shù)據(jù)集上不同算法的PSNR(dB)和SSIM
圖6則是經(jīng)典數(shù)據(jù)集上不同算法的重建結(jié)果對比,在一些細(xì)節(jié)的呈現(xiàn)上更加流暢清晰:
△圖6
圖7則是真實(shí)數(shù)據(jù)上不同算法的重建結(jié)果對比,效果相比之下也要更好:
△圖7
更多實(shí)驗(yàn)結(jié)果可見論文。
目前論文代碼已開源,感興趣的小伙伴們可以用起來了~
(文末還附上了作者的講解視頻,深入淺出)
論文地址:
??https://arxiv.org/pdf/2201.06931??
代碼地址:
??https://github.com/IndigoPurple/DEQSCI??
論文講解視頻by作者:
英語:https://www.bilibili.com/video/BV1X54y1g7D9/
中文:https://www.bilibili.com/video/BV1V54y137QK/
塑料粵語:https://www.bilibili.com/video/BV1224y1G7ee/