如何利用深度學(xué)習(xí)制作專業(yè)水準(zhǔn)的照片?
機(jī)器學(xué)習(xí) (ML) 在許多目標(biāo)明確的領(lǐng)域都表現(xiàn)卓越。答案非對即錯(cuò)的任務(wù)有助于訓(xùn)練過程,也可使算法實(shí)現(xiàn)其預(yù)期目標(biāo),無論是正確識別圖像中的物體,還是將一種語言適當(dāng)?shù)胤g成另一種語言。不過,有些領(lǐng)域并沒有客觀的評估標(biāo)準(zhǔn)。例如,一張照片是否美麗要按其美學(xué)價(jià)值進(jìn)行衡量,而美學(xué)價(jià)值是一個(gè)非常主觀化的概念。
▲ 一張加拿大賈斯珀國家公園的專業(yè)照片
為了探究機(jī)器學(xué)習(xí)能否學(xué)習(xí)主觀性概念,我們引入了一個(gè)用于藝術(shù)內(nèi)容創(chuàng)作的實(shí)驗(yàn)性深度學(xué)習(xí)系統(tǒng):
https://arxiv.org/abs/1707.03491
該系統(tǒng)可模仿一個(gè)專業(yè)攝影師的工作流程,瀏覽來自 Google 街景的全景照片,并搜索最佳構(gòu)圖,然后進(jìn)行各種后期處理操作以制作一張具有美感的圖像。我們的虛擬攝影師“瀏覽”了大約 4 萬張全景照片(拍攝地為阿爾卑斯山、加拿大班夫公園和賈斯珀國家公園、加利福尼亞州大蘇爾以及黃石公園等),并據(jù)此制作出令人印象深刻的照片,根據(jù)專業(yè)攝影師的評判,有些照片甚至接近專業(yè)水準(zhǔn)。
訓(xùn)練模型
盡管可使用 AVA 等數(shù)據(jù)集對美學(xué)進(jìn)行建模,但單純用它來提升照片品質(zhì)可能會(huì)使照片欠缺某些美感,如照片過度飽和。不過,利用監(jiān)督式學(xué)習(xí)正確地學(xué)習(xí)美學(xué)的多個(gè)要素可能需要一個(gè)標(biāo)注數(shù)據(jù)集,而該數(shù)據(jù)集很難收集。
我們的方法只依賴于專業(yè)品質(zhì)的照片集,無需在之前/之后進(jìn)行圖像比對,也無需任何額外的標(biāo)簽。該方法自動(dòng)將美學(xué)分解成多個(gè)要素,每個(gè)要素都通過一個(gè)耦合的圖像操作產(chǎn)生的反面示例進(jìn)行單獨(dú)學(xué)習(xí)。通過使這些圖像操作保持“半正交”,我們可以通過快速并且可分離的優(yōu)化來改善照片的構(gòu)圖、飽和度/HDR 水平及戲劇性光線。
全景照片
上圖是一張全景照片 (a) 被剪裁成 (b),飽和度和 HDR 強(qiáng)度在 (c) 中得到提升,(d) 中則應(yīng)用了戲劇性蒙版。每一步都根據(jù)所學(xué)習(xí)的一個(gè)美學(xué)要素完成。
傳統(tǒng)圖像濾鏡可用于生成飽和度、HDR 細(xì)節(jié)和構(gòu)圖的反面訓(xùn)練示例。我們也引入了一個(gè)名為戲劇性蒙版的特殊操作,它是在學(xué)習(xí)戲劇性光線的概念時(shí)創(chuàng)建的。反面示例是通過應(yīng)用一組圖像濾鏡(隨機(jī)修改專業(yè)照片的亮度,降低照片質(zhì)量)而生成的。我們使用生成式對抗網(wǎng)絡(luò) (GAN) 進(jìn)行訓(xùn)練,其中生成式模型創(chuàng)建一個(gè)蒙版來修復(fù)反面示例的光照,而判別式模型則設(shè)法區(qū)分已提升品質(zhì)的照片和真正的專業(yè)水準(zhǔn)照片。與固定形狀的濾鏡(如 vignette)不同,戲劇性蒙版可感知照片內(nèi)容并據(jù)此相應(yīng)地調(diào)節(jié)照片亮度。GAN 訓(xùn)練的競爭特性將促使這些建議逐步改善。您可以閱讀我們的論文,了解此訓(xùn)練的詳細(xì)信息:
https://arxiv.org/abs/1707.03491
成果
下面展示了我們的系統(tǒng)通過 Google 街景制作的一些照片。正如您所看到的,通過應(yīng)用經(jīng)過訓(xùn)練的美學(xué)濾鏡產(chǎn)生了一些戲劇性效果(包括本文開頭所使用的圖片!)
▲ 加拿大賈斯珀國家公園
▲ 瑞士因特拉肯
▲ 意大利 Park Parco delle Orobie Bergamasche。
▲ 加拿大賈斯珀國家公園
專業(yè)評估
為了判斷我們的算法有多么成功,我們設(shè)計(jì)了一個(gè)類似“圖靈測試”的實(shí)驗(yàn):我們將我們制作的照片與其他不同品質(zhì)的照片混在一起,并將它們展示給多位專業(yè)攝影師。要求這些攝影師為每張照片的品質(zhì)打分,評分標(biāo)準(zhǔn)如下:
- 隨手一拍的照片,根本不考慮構(gòu)圖和光線等。
- 沒有攝影背景的普通大眾拍攝的好照片。沒有突出的藝術(shù)特色。
- 半專業(yè)水準(zhǔn)。有明顯藝術(shù)性的優(yōu)秀照片。拍照者正朝著專業(yè)攝影師發(fā)展。
- 專業(yè)水準(zhǔn)。
下圖中,每條曲線分別顯示了專業(yè)攝影師給預(yù)測分?jǐn)?shù)在特定范圍內(nèi)的照片的評分。對于我們制作的預(yù)測分?jǐn)?shù)很高的照片,約有 40% 的照片獲得的評分在“半專業(yè)水準(zhǔn)”到“專業(yè)水準(zhǔn)”之間。
▲ 專業(yè)攝影師為具有不同預(yù)測分?jǐn)?shù)的照片給出的評分
未來工作
街景全景照片可作為我們項(xiàng)目的測試平臺。將來,這種技術(shù)甚至能夠幫助您在現(xiàn)實(shí)世界里拍出更好的照片。我們編譯了一個(gè)照片展示平臺,用以展示令我們滿意的照片:
https://google.github.io/creatism
如果您看到您喜歡的照片,您點(diǎn)擊它即可顯示附近街景的全景照片。假如您當(dāng)時(shí)就在那里舉著相機(jī),您能拍出相同水準(zhǔn)的照片嗎?
致謝
這項(xiàng)工作由 Google Research 的機(jī)器感知工程師 Hui Fang 和 Meng Zhang 合作完成。我們在此感謝 Vahid Kazemi,感謝他前期在使用 Inception 網(wǎng)絡(luò)預(yù)測 AVA 分?jǐn)?shù)方面的工作,也感謝 Sagarika Chalasani、Nick Beato、Bryan Klingner 和 Rupert Breheny,感謝他們在處理 Google 街景全景照片方面給予的幫助。同時(shí)我們要感謝 Peyman Milanfar、Tomas Izo、Christian Szegedy、Jon Barron 和 Sergey Ioffe,感謝他們建設(shè)性的評價(jià)和評論。最后我們?nèi)f分感謝匿名的專業(yè)攝影師們,感謝他們的無私奉獻(xiàn)!
【本文是51CTO專欄機(jī)構(gòu)“谷歌開發(fā)者”的原創(chuàng)稿件,轉(zhuǎn)載請聯(lián)系原作者(微信公眾號:Google_Developers)】