英偉達(dá)開源「Imaginaire」:九大圖像及視頻合成方法
圖像和視頻等視覺數(shù)據(jù)的生成是機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域重要的研究問題之一。近幾年,英偉達(dá)提出了 SPADE、MUNIT 等多個(gè)圖像及視頻合成模型。
近日,英偉達(dá)又開源了一個(gè)新的 PyTorch 庫「Imaginaire」,共包含 9 種英偉達(dá)開發(fā)的圖像及視頻合成方法。
項(xiàng)目地址:https://github.com/NVlabs/imaginaire
這九種方法分別為:
有監(jiān)督的圖像到圖像轉(zhuǎn)換
1、pix2pixHD
2、SPADE/GauGAN
無監(jiān)督的圖像到圖像轉(zhuǎn)換
1、UNIT
2、MUNIT
3、FUNIT
4、COCO-FUNIT
視頻到視頻轉(zhuǎn)換
1、vid2vid
2、fs-vid2vid
3、wc-vid2vid
pix2pixHD
「pix2pixHD」是 pix2pix 的升級(jí)版本,具備高分辨率圖像和語義處理功能,主要解決了深度圖像合成編輯中的質(zhì)量及分辨率問題。

項(xiàng)目主頁:https://tcwang0509.github.io/pix2pixHD/

論文鏈接:https://arxiv.org/pdf/1711.11585.pdf
在這篇論文中,來自英偉達(dá)和 UC 伯克利的研究者提出了一種使用條件 GAN 從語義標(biāo)簽圖上合成高分辨率照片級(jí)逼真圖像的方法。此前,條件 GAN 已經(jīng)有了很廣泛的應(yīng)用,但生成結(jié)果均為低分辨率并與現(xiàn)實(shí)差異較大。因此,研究者使用了一種新的對(duì)抗損失、多尺度生成器和判別器架構(gòu)來生成 2048x1024 的結(jié)果。此外,研究者為該框架擴(kuò)展了兩個(gè)附加功能。首先,合并了對(duì)象實(shí)例分割信息,實(shí)現(xiàn)了刪除 / 添加對(duì)象和更改對(duì)象類別等操作;其次,提出了一種在相同輸入下生成多種結(jié)果的方法,讓使用者可以編輯對(duì)象外觀。該論文被 CVPR 2018 接收。
SPADE/GauGAN
在 GTC 2019 上,英偉達(dá)展示了一款交互應(yīng)用「GauGAN」。它可以輕松地將粗糙的涂鴉變成逼真的杰作,令人嘆為觀止,效果堪比真人攝影師作品。GauGAN 應(yīng)用主要使用的技術(shù),就是英偉達(dá)的 SPADE。

項(xiàng)目主頁:https://nvlabs.github.io/SPADE/

論文地址:https://arxiv.org/pdf/1903.07291.pdf
在這篇論文中,來自 UC 伯克利、英偉達(dá)、MIT CSALL 的研究者提出了一種空間自適應(yīng)歸一化方法,在給定輸入語義布局的情況下,實(shí)現(xiàn)了一種簡單有效的逼真圖像合成層。以前的方法直接將語義布局作為輸入提供給深度網(wǎng)絡(luò),然后通過卷積、歸一化和非線性層處理深度網(wǎng)絡(luò)。實(shí)驗(yàn)表明,這種方法并不是最優(yōu)的,因?yàn)闅w一化層傾向于「洗去」語義信息。為了解決這個(gè)問題,研究者提出使用輸入布局,通過空間自適應(yīng)的、學(xué)習(xí)的轉(zhuǎn)換來調(diào)節(jié)歸一化層中的激活函數(shù)。在幾個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上的實(shí)驗(yàn)表明,與現(xiàn)有方法相比,該方法在視覺保真度和與輸入布局的對(duì)齊方面具有優(yōu)勢(shì)。最后,該模型允許用戶控制合成圖像的語義和風(fēng)格。該論文被 CVPR 2019 接收為 Oral 論文。
UNIT
項(xiàng)目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/unit

論文地址:https://arxiv.org/abs/1703.00848
UNIT(Unsupervised image-to-image translation)旨在通過使用來自單個(gè)域中邊緣分布的圖像來學(xué)習(xí)不同域中圖像的聯(lián)合分布。由于要達(dá)到給定的邊緣分布需要一個(gè)聯(lián)合分布的無限集,因此如果沒有其他假設(shè),就無法從邊緣分布推斷聯(lián)合分布。為了解決這個(gè)問題,研究者提出了一個(gè)共享潛在空間的假設(shè),并提出了一個(gè)基于耦合 GAN 的無監(jiān)督圖像到圖像轉(zhuǎn)換框架。
MUNIT
無監(jiān)督圖像到圖像轉(zhuǎn)換是計(jì)算機(jī)視覺領(lǐng)域一個(gè)重要而富有挑戰(zhàn)的問題:給定源域(source domain)中的一張圖像,需要在沒有任何配對(duì)圖像數(shù)據(jù)的情況下,學(xué)習(xí)出目標(biāo)域(target domain)中其對(duì)應(yīng)圖像的條件分布。雖然條件分布是多模態(tài)的,但此前方法都引入了過于簡化的假設(shè),而將其作為一個(gè)確定性的一對(duì)一映射,因此無法在特定的源域圖像中生成富有多樣性的輸出結(jié)果。
項(xiàng)目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/munit

論文地址:https://arxiv.org/abs/1804.04732
在這篇論文中,康奈爾大學(xué)和英偉達(dá)的研究者提出了多模態(tài)無監(jiān)督圖像到圖像轉(zhuǎn)換 MUNT 框架。研究者假設(shè),圖像表征可以分解為一個(gè)具有域不變性(domain-invariant)的內(nèi)容碼(content code)和一個(gè)能刻畫域特有性質(zhì)的風(fēng)格碼(style code)。為了將圖像轉(zhuǎn)化到另一個(gè)域中,研究者將:1. 原圖像的內(nèi)容碼,2. 從目標(biāo)域中隨機(jī)抽取的某個(gè)風(fēng)格碼 進(jìn)行重組,并分析了 MUNT 框架,并建立了相應(yīng)的理論結(jié)果。大量實(shí)驗(yàn)表明,將 MUNT 與其他 SOTA 方法相比具備優(yōu)越性。最后,通過引入一個(gè)風(fēng)格圖像(style image)樣例,使用者可以利用 MUNT 來控制轉(zhuǎn)化的輸出風(fēng)格。
FUNIT
項(xiàng)目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/funit

論文地址:https://arxiv.org/abs/1905.01723
雖然此前無監(jiān)督圖像到圖像轉(zhuǎn)換算法在很多方面都非常成功,尤其是跨圖像類別的復(fù)雜外觀轉(zhuǎn)換,但根據(jù)先驗(yàn)知識(shí)從新一類少量樣本中進(jìn)行泛化的能力依然無法做到。具體來說,如果模型需要在某些類別上執(zhí)行圖像轉(zhuǎn)換,那么這些算法需要所有類別的大量圖像作為訓(xùn)練集。也就是說,它們不支持 few-shot 泛化??傮w而言有以下兩方面的限制:
其一,這些方法通常需要在訓(xùn)練時(shí)看到目標(biāo)類的大量圖像;
其二,用于一個(gè)轉(zhuǎn)換任務(wù)的訓(xùn)練模型在測(cè)試時(shí)無法應(yīng)用于另一個(gè)轉(zhuǎn)換任務(wù)。
在這篇論文中,英偉達(dá)的研究者提出一種 Few-shot 無監(jiān)督圖像到圖像轉(zhuǎn)換(FUNIT)框架。該框架旨在學(xué)習(xí)一種新穎的圖像到圖像轉(zhuǎn)換模型,從而利用目標(biāo)類的少量圖像將源類圖像映射到目標(biāo)類圖像。也就是說,該模型在訓(xùn)練階段從未看過目標(biāo)類圖像,卻被要求在測(cè)試時(shí)生成一些目標(biāo)類圖像。
COCO-FUNIT
項(xiàng)目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/coco_funit

論文地址:https://nvlabs.github.io/COCO-FUNIT/paper.pdf
COCO-FUNIT 之前的圖像到圖像變換模型在模擬不可見域的外觀時(shí)很難保留輸入圖像的結(jié)構(gòu),這被稱為內(nèi)容丟失問題。當(dāng)輸入圖像和示例圖像中對(duì)象的姿勢(shì)有較大差異時(shí),這個(gè)問題尤其嚴(yán)重。為了解決這個(gè)問題,研究者提出了一種新的 few-shot 的圖像變換模型,即 COCO-FUNIT。
vid2vid
2018 年,英偉達(dá)聯(lián)合 MIT CSAIL 開發(fā)出了直接視頻到視頻的轉(zhuǎn)換系統(tǒng)。該系統(tǒng)不僅能用語義分割掩碼視頻合成真實(shí)街景視頻,分辨率達(dá)到 2K,能用草圖視頻合成真實(shí)人物視頻,還能用姿態(tài)圖合成真人舞蹈視頻。此外,在語義分割掩碼輸入下,只需換個(gè)掩碼顏色,該系統(tǒng)就能直接將街景中的樹變成建筑。
項(xiàng)目主頁:https://tcwang0509.github.io/vid2vid/

論文地址:https://arxiv.org/abs/1808.06601
在這篇論文中,來自英偉達(dá)和 MIT 的研究者提出了一種新型的生成對(duì)抗網(wǎng)絡(luò)框架下的視頻到視頻合成方法。通過精心設(shè)計(jì)生成器和判別器架構(gòu),結(jié)合空間 - 時(shí)間對(duì)抗目標(biāo)函數(shù),研究者在多種輸入視頻格式下生成了高分辨率、時(shí)間連貫的照片級(jí)視頻,其中多種形式的輸入包括分割掩碼、草圖和姿態(tài)圖。在多個(gè)基準(zhǔn)上的實(shí)驗(yàn)結(jié)果表明,相對(duì)于強(qiáng)基線,本文方法更具優(yōu)越性,該模型可以合成長達(dá) 30 秒的 2K 分辨率街景視頻,與當(dāng)前最佳的視頻合成方法相比具備顯著的優(yōu)勢(shì)。研究者將該方法應(yīng)用到未來視頻預(yù)測(cè)中,表現(xiàn)均超越其他方法。該論文被 NeurIPS 2018 接收。
Few-shot vid2vid
「vid2vid」旨在將人體姿態(tài)或分割掩模等輸入的語義視頻,轉(zhuǎn)換為逼真的輸出視頻,但它依然存在以下兩種局限:其一,現(xiàn)有方法極其需要數(shù)據(jù)。訓(xùn)練過程中需要大量目標(biāo)人物或場(chǎng)景的圖像;其二,學(xué)習(xí)到的模型泛化能力不足。姿態(tài)到人體(pose-to-human)的 vid2vid 模型只能合成訓(xùn)練集中單個(gè)人的姿態(tài),不能泛化到訓(xùn)練集中沒有的其他人。
2019 年,英偉達(dá)又推出了新的「few-shot vid2vid」框架,僅借助少量目標(biāo)示例圖像就能合成之前未見過的目標(biāo)或場(chǎng)景的視頻,在跳舞、頭部特寫、街景等場(chǎng)景中都能得到逼真的結(jié)果。

項(xiàng)目主頁:https://nvlabs.github.io/few-shot-vid2vid/

論文地址:https://arxiv.org/pdf/1910.12713.pdf
在這篇論文中,英偉達(dá)的研究者提出了一種 few-shot vid2vid 框架,該框架在測(cè)試時(shí)通過利用目標(biāo)主體的少量示例圖像,學(xué)習(xí)對(duì)以前未見主體或場(chǎng)景的視頻進(jìn)行合成。
借助于一個(gè)利用注意力機(jī)制的新型網(wǎng)絡(luò)權(quán)重生成模塊,few-shot vid2vid 模型實(shí)現(xiàn)了在少樣本情況下的泛化能力。研究者進(jìn)行了大量的實(shí)驗(yàn)驗(yàn)證,并利用人體跳舞、頭部特寫和街景等大型視頻數(shù)據(jù)集與強(qiáng)基準(zhǔn)做了對(duì)比。
實(shí)驗(yàn)結(jié)果表明,英偉達(dá)提出的 few-shot vid2vid 框架能夠有效地解決現(xiàn)有方法存在的局限性。該論文被 NeurIPS 2019 接收。
World Consistent vid2vid
「World Consistent vid2vid」是英偉達(dá)在 2020 年 7 月推出的一種視頻到視頻合成方法。vid2vid 視頻編碼方法能夠?qū)崿F(xiàn)短時(shí)間的時(shí)間一致性,但在長時(shí)間的情況下不能時(shí)間一致性。這是因?yàn)閷?duì) 3D 世界渲染方式缺乏了解,并且只能根據(jù)過去的幾幀來生成每一幀。
項(xiàng)目主頁:https://nvlabs.github.io/wc-vid2vid/

論文地址:https://arxiv.org/pdf/2007.08509.pdf
在這篇論文中,英偉達(dá)的研究者引入了一個(gè)新的視頻渲染框架,該框架能夠在渲染過程中有效利用過去生成的所有幀,來改善后續(xù)視頻的合成效果。研究者利用「制導(dǎo)圖像」,并進(jìn)一步提出了一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以利用存儲(chǔ)在制導(dǎo)圖像中的信息。一系列實(shí)驗(yàn)結(jié)果表明,該方法具備良好表現(xiàn),輸出視頻在 3D 世界渲染上是一致的。



































