用A4紙當(dāng)屏幕「播放」宮崎駿動(dòng)畫(huà),隨意抖動(dòng)都毫無(wú)破綻
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
你有什么端菜小妙招嗎?怎么晃都不撒的那種!
如果沒(méi)有的話,不妨看看這個(gè):無(wú)論怎么動(dòng),盤(pán)子和食物都安然無(wú)恙。
Emmm……其實(shí)細(xì)看的話應(yīng)該還是能發(fā)現(xiàn),這并不是什么端菜妙招(對(duì)不起~),這個(gè)盤(pán)子和熱狗也沒(méi)有被粘起來(lái),而是后期合成的。
這群把AI合成圖像玩出花來(lái)的研究者們,分別來(lái)自香港中文大學(xué)、浙江大學(xué),和英偉達(dá)。
除了“空降”一盤(pán)熱狗,他們還把宮崎駿的《龍貓》搬到了一張白紙上,而且任意彎折、移動(dòng)都不影響播放。
而這張白紙其實(shí)并沒(méi)有經(jīng)過(guò)特殊處理,我們看到的“畫(huà)中畫(huà)”也是AI合成的。
不過(guò)——“眾所周知,視頻不能P,所以這是真的!”(手動(dòng)狗頭)
此外,這些人還給嗶哩嗶哩小電視的眼睛和嘴巴換了個(gè)色兒。
現(xiàn)在,相關(guān)論文已被圖形學(xué)頂會(huì)SIGGRAPH Asia 2022收錄。
下面就來(lái)看看他們具體是如何實(shí)現(xiàn)這些神操作的。
用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)在紙上放視頻
要弄清楚怎么在紙上放連續(xù)動(dòng)畫(huà),不妨先從簡(jiǎn)單點(diǎn)兒的一張圖說(shuō)起:
如何將抖動(dòng)紙張上的一幅畫(huà)換成另一幅畫(huà),并且讓人基本看不出P圖痕跡?
第一步是收集各種素材。就拿梵高的《星空》來(lái)舉例子,首先要在不同的角度、光照條件、抖動(dòng)情況下拍攝這幅圖。
然后就到了關(guān)鍵一步:需要一個(gè)AI來(lái)預(yù)測(cè)《星空》在各視頻畫(huà)面中的光流,并將其替換成其他的圖片。
這里簡(jiǎn)單說(shuō)下光流是個(gè)什么東西:在計(jì)算機(jī)視覺(jué)中,光流就是個(gè)關(guān)于物體運(yùn)動(dòng)的概念,可表示為連續(xù)兩幀圖像中,代表同一目標(biāo)的像素點(diǎn)的位移量。
為了達(dá)到絲滑逼真的視覺(jué)效果,研究者們提出了一個(gè)新框架NeuralMarker,來(lái)捕捉標(biāo)志物到參考圖像的密集對(duì)應(yīng)關(guān)系。
從這個(gè)框架名字里的Neural就可以看出,它和神經(jīng)網(wǎng)絡(luò)有一定關(guān)系。
此前,其他AI模型大都是通過(guò)特征匹配和指定圖像來(lái)建立稀疏的對(duì)應(yīng)關(guān)系。不過(guò)這些稀疏的特征標(biāo)記只能支持平面中的簡(jiǎn)單變化,而當(dāng)圖片動(dòng)起來(lái)后,這些標(biāo)記就無(wú)法識(shí)別了。
比如說(shuō),把動(dòng)態(tài)的《星空》變成日本名畫(huà)《神奈川沖浪里》,就是醬紫的:
這里面,只有NeuralMarker成功了,而這個(gè)模型成功的關(guān)鍵因素在于它的兩個(gè)組件和一個(gè)標(biāo)記評(píng)估方法:
1、FlyingMarkers捕捉幾何變化
其一,要處理好像素點(diǎn)級(jí)別的密集對(duì)應(yīng)關(guān)系,運(yùn)動(dòng)調(diào)節(jié)器(motion regressor)就得能夠?qū)崟r(shí)捕捉各種幾何變化。
研究者以拍攝的素材、一些人為標(biāo)記,以及合成的參考圖像作為數(shù)據(jù)集,訓(xùn)練出一個(gè)叫FlyingMarkers的工具。
在FlyingMarkers的輔助下,運(yùn)動(dòng)調(diào)節(jié)器就能可以為各種形變編碼,從了捕捉到絕大多數(shù)幾何變化了。
2、SED+SfM捕捉亮度色彩變化
除了幾何變化外,顏色和亮度變化也是至關(guān)重要的。
研究者指出,在訓(xùn)練模型的數(shù)據(jù)集中,連續(xù)的動(dòng)畫(huà)外觀變化并不算大;而最終是要求把一張圖換成另一張圖,這是外觀差異就很明顯了。
所以,他們提出了一個(gè)對(duì)稱極距損失 (Symmetric Epipolar Distance ,SED)的概念,并結(jié)合運(yùn)動(dòng)結(jié)構(gòu)(Structure-from-Motion,SfM)技術(shù),根據(jù)相機(jī)的拍攝角度來(lái)約束密集對(duì)應(yīng)關(guān)系的預(yù)測(cè)。
這樣,即使原圖是在較暗光線下拍攝的,也可以有不錯(cuò)的生成效果。(雖然還達(dá)不到環(huán)境光漸變的效果)
3、DVL-Markers評(píng)估
此外,研究人員還提出了一種新的標(biāo)記對(duì)應(yīng)評(píng)估方法:DVL-Markers,用來(lái)評(píng)估真實(shí)拍攝圖片中的像素塊與模型包含的標(biāo)記之間的對(duì)應(yīng)關(guān)系。
并從幾何形變、相機(jī)視角,和光照三個(gè)方向進(jìn)行評(píng)估。
研究者們測(cè)試后發(fā)現(xiàn),有了DVL-Markers,這個(gè)AI模型的圖像質(zhì)量評(píng)估指標(biāo):SSIM(結(jié)構(gòu)相似性)和PSNR(峰值信噪比)表現(xiàn)都優(yōu)于同類模型,并且任務(wù)成功率達(dá)到了100%。
有了這些工具的加持,NeuralMarker也可以搞定在紙上播放視頻這種事了。
(話說(shuō),既然都能在紙上放視頻了,那之后投影儀對(duì)不準(zhǔn)的問(wèn)題是不是也有望解決了?)
看到這里,大伙兒應(yīng)該覺(jué)得這個(gè)AI挺溜了吧,不過(guò)這還沒(méi)完——
前文提到的“端盤(pán)子妙招”,其實(shí)是這群研究者把NeuralMarker和NeRF結(jié)合起來(lái)了,直接在二維的圖片上加了一個(gè)三維物體。
當(dāng)然,研究人員也坦言,NeuralMarker還有一些局限性和發(fā)展空間,比如圖片前面有遮擋物時(shí),這個(gè)AI就不再這么智能了。
對(duì)此,他們表示,將在訓(xùn)練的數(shù)據(jù)集中隨機(jī)加入遮擋物,來(lái)讓這個(gè)AI變得更聰明。
論文地址:?https://arxiv.org/abs/2209.08896?