給我一張圖,生成30秒視頻!
AI又進(jìn)階了?
而且是一張圖生成連貫30秒視頻的那種。

emm....這質(zhì)量是不是有點(diǎn)太糊了
要知道這只是從單個(gè)圖像(第一幀)生成的,而且沒(méi)有任何顯示的幾何信息。
這是DeepMind最近提出的一種基于概率幀預(yù)測(cè)的圖像建模和視覺(jué)任務(wù)的通用框架——Transframer。
簡(jiǎn)單講,就是用Transframer來(lái)預(yù)測(cè)任意幀的概率。
這些幀可以以一個(gè)或者多個(gè)帶標(biāo)注的上下文幀為條件,既可以是先前的視頻幀、時(shí)間標(biāo)記或者攝像機(jī)標(biāo)記的視圖場(chǎng)景。
Transframer架構(gòu)
先來(lái)看看這個(gè)神奇的Transframer的架構(gòu)是怎么運(yùn)作的。

論文地址就貼在下面了,感興趣的童鞋可以看看~https://arxiv.org/abs/2203.09494
為了估計(jì)目標(biāo)圖像上的預(yù)測(cè)分布,我們需要一個(gè)能夠生產(chǎn)多樣化、高質(zhì)量輸出的表達(dá)生成模型。
盡管DC Transformer在單個(gè)圖像域上的結(jié)果可以滿(mǎn)足需求,但并非以我們需要的多圖像文本集 {(In,an)}n 為條件。
因此,我們對(duì)DC Transformer進(jìn)行了擴(kuò)展,以啟用圖像和注釋條件預(yù)測(cè)。
我們替換了DC Transformer 的Vision-Transformer風(fēng)格的編碼器,該編碼器使用多幀 U-Net 架構(gòu)對(duì)單個(gè)DCT圖像進(jìn)行操作,用于處理一組帶注釋的幀以及部分隱藏的目標(biāo)DCT圖像。
下面看看Transframer架構(gòu)是如何工作的。
(a)Transframer將DCT圖像(a1和a2)以及部分隱藏的目標(biāo)DCT圖像(aT)和附加注釋作為輸入,由多幀U-Net編碼器處理。接下來(lái),U-Net輸出通過(guò)交叉注意力傳遞給DC-Transformer解碼器,該解碼器則自動(dòng)回歸生成與目標(biāo)圖像的隱藏部分對(duì)應(yīng)的DCT Token序列(綠色字母)。(b)多幀U-Net block由NF-Net卷積塊、多幀自注意力塊組成,它們?cè)谳斎霂g交換信息和 Transformer式的殘差MLP。

再來(lái)看看處理圖像輸入的Multi-Frame U-Net。
U-Net的輸入是由N個(gè)DCT幀和部分隱藏目標(biāo)DCT幀組成的序列,注釋信息以與每個(gè)輸入幀相關(guān)聯(lián)的向量的形式提供。
U-Net的核心組件是一個(gè)計(jì)算塊,它首先將一個(gè)共享的NF-ResNet 卷積塊應(yīng)用于每個(gè)輸入幀,然后應(yīng)用一個(gè)Transformer樣式的自我注意塊來(lái)聚合跨幀的信息。(圖2 b)
NF-ResNet塊由分組卷積和擠壓和激發(fā)層組成,旨在提高TPU的性能。
下面,圖(a)比較了RoboNet (128x128) 和KITTI視頻的絕對(duì)和殘差DCT表征的稀疏性。
由于RoboNet由只有少數(shù)運(yùn)動(dòng)元素的靜態(tài)視頻組成,因此殘差幀表征的稀疏性顯著增加。
而KITTI視頻通常具有移動(dòng)攝像頭,導(dǎo)致連續(xù)幀中幾乎所有地方都存在差異。
但在這種情況下,稀疏性小帶來(lái)的好處也隨之弱化。

多視覺(jué)任務(wù)強(qiáng)者
通過(guò)一系列數(shù)據(jù)集和任務(wù)的測(cè)試,結(jié)果顯示Transframer可以應(yīng)用在多個(gè)廣泛任務(wù)上。
其中就包括視頻建模、新視圖合成、語(yǔ)義分割、對(duì)象識(shí)別、深度估計(jì)、光流預(yù)測(cè)等等。

視頻建模
通過(guò)Transframer在給定一系列輸入視頻幀的情況下預(yù)測(cè)下一幀。
研究人員分別在KITTI和RoboNet兩個(gè)數(shù)據(jù)集上,訓(xùn)練了Transframer在視頻生成上的性能如何。

對(duì)于KITTI,給定5個(gè)上下文幀和25采樣幀,結(jié)果顯示,Transframer模型在所有指標(biāo)上的性能都有所提高,其中LPIPS和FVD的改進(jìn)是最顯而易見(jiàn)的。

在RoboNet上,研究人員給定2個(gè)上下文幀和10個(gè)采樣幀,分別以64x64 和 128x128 的分辨率進(jìn)行訓(xùn)練,最終也取得了非常好的結(jié)果。


視圖合成
在視圖合成方面,研究者通過(guò)提供相機(jī)視圖作為表 1(第 3 行)中描述的上下文和目標(biāo)注釋?zhuān)约?統(tǒng)一采樣多個(gè)上下文視圖,直到指定的最大值。
通過(guò)提供1-2個(gè)上下文視圖,在ShapeNet 基準(zhǔn)上評(píng)估模型Transframer,明顯優(yōu)于PixelNeRF和SRN。

此外在數(shù)據(jù)集Objectron進(jìn)行評(píng)估后,可以看出當(dāng)給定單個(gè)輸入視圖時(shí),模型會(huì)產(chǎn)生連貫的輸出,但會(huì)遺漏一些特征,比如交叉的椅子腿。
當(dāng)給出1個(gè)上下文視圖,以128×128分辨率合成的視圖如下:


當(dāng)再給出2個(gè)上下文視圖,以128×128分辨率合成的視圖如下:


多視覺(jué)任務(wù)
不同的計(jì)算機(jī)視覺(jué)任務(wù)通常使用復(fù)雜的架構(gòu)和損失函數(shù)來(lái)處理。
這里,研究人員在8個(gè)不同的任務(wù)和數(shù)據(jù)集上使用相同的損失函數(shù)聯(lián)合訓(xùn)練了Transframer模型。
這8個(gè)任務(wù)分別是:?jiǎn)蝹€(gè)圖像的光流預(yù)測(cè)、對(duì)象分類(lèi)、檢測(cè)和分割、語(yǔ)義分割(在2個(gè)數(shù)據(jù)集上)、未來(lái)幀預(yù)測(cè)和深度估計(jì)。

結(jié)果顯示,Transframer學(xué)會(huì)在完全不同的任務(wù)中生成不同的樣本,在某些任務(wù)中,比如 Cityscapes,該模型產(chǎn)生了質(zhì)量上好的輸出。
但是,在未來(lái)幀預(yù)測(cè)和邊界框檢測(cè)等任務(wù)上的模型輸出質(zhì)量參差不齊,這表明在此設(shè)置中建模更具挑戰(zhàn)性。
?































