圖像超分辨新SOTA!南洋理工提出InvSR,利用大模型圖像先驗提高SR性能,登上Huggingface熱門項目
南洋理工大學(xué)的研究者們提出了一種基于擴散反演的新型圖像超分辨率 (SR) 技術(shù),可以利用大型預(yù)訓(xùn)練擴散模型中蘊含的豐富圖像先驗來提高 SR 性能。
該方法的核心是一個深度噪聲預(yù)測器,用于估計前向擴散過程的最佳噪聲圖。一旦訓(xùn)練完成,這個噪聲預(yù)測器就可以用來初始化沿擴散軌跡的部分采樣過程,從而生成理想的高分辨率結(jié)果。
相關(guān)鏈接
- 論文:https://arxiv.org/pdf/2412.09013
- 代碼:https://github.com/zsyOAOA/InvSR
- 主頁:https://replicate.com/zsyoaoa/invsr
- 試用:https://huggingface.co/spaces/OAOA/InvSR
論文介紹
在兩個真實示例中,論文提出的方法與最近最先進的基于擴散的方法進行了定性比較,其中采樣步驟數(shù)以“方法名稱-步驟”格式注釋。在第一個示例的子標題中以紅色突出顯示了運行時間(以毫秒為單位),該示例在 A100 GPU 上的 ×4(128 → 512)SR 任務(wù)上進行了測試。該方法提供了一種高效靈活的采樣機制,允許用戶根據(jù)降級類型或其特定要求自由調(diào)整采樣步驟數(shù)。在第一個示例中,主要因模糊而降級,多步采樣優(yōu)于單步采樣,因為它可以逐步恢復(fù)更精細的細節(jié)。相反,在第二個具有嚴重噪聲的示例中,單個采樣步驟足以獲得令人滿意的結(jié)果,而額外的步驟可能會放大噪聲并引入不必要的偽影。
方法介紹
提出的方法的推理流程,其中 {τi}Si=1表示反演時間步長。請注意,預(yù)測的噪聲圖zτS 與 LR 圖像表現(xiàn)出明顯的相關(guān)性,表明其統(tǒng)計分布具有非零均值特性。
效果展示
真實世界圖像超分辨率
AIGC 圖像增強
不同方法對 RealSet80 數(shù)據(jù)集中兩個典型真實示例的視覺結(jié)果。為了清晰比較,對于基于擴散的方法,采樣步驟數(shù)以“方法名稱-步驟”格式注釋。
限制
InvSR 需要進行平鋪操作來生成高分辨率圖像,這將大大增加推理時間。 由于 InvSR 的生成特性,有時無法保持 100% 的保真度。 InvSR 有時無法在復(fù)雜的現(xiàn)實場景下生成完美的細節(jié)。
結(jié)論
論文提出了一種基于擴散反演的新型 SR 方法 InvSR。該方法引入了一個噪聲預(yù)測網(wǎng)絡(luò),旨在估計最佳噪聲圖,從而能夠構(gòu)建預(yù)訓(xùn)練擴散模型的中間狀態(tài)作為起始采樣點。這種設(shè)計在兩個方面很有吸引力:首先,InvSR 可以充分利用預(yù)訓(xùn)練擴散模型中封裝的先驗知識,從而促進 SR 性能。其次,InvSR 提供了一種靈活的采樣策略,能夠通過結(jié)合噪聲預(yù)測器的時間相關(guān)架構(gòu)從擴散模型的各種中間狀態(tài)開始。這種靈活性允許用戶根據(jù)退化類型或其特定要求自由調(diào)整采樣步驟。即使將采樣步驟減少到只有一個,InvSR 仍然表現(xiàn)出比最近的一步基于擴散的方法顯著的優(yōu)勢,表明其有效性和效率。