固定參數(shù)的模型有多大潛力?港中文、上海AI Lab等提出高效視頻理解框架EVL
視覺基礎(chǔ)模型近兩年取得了矚目發(fā)展。從一方面而言,基于大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)的預(yù)訓(xùn)練已經(jīng)給模型預(yù)置了大量的語義概念,從而具有良好的泛化性能;但另一方面,為充分利用大規(guī)模數(shù)據(jù)集帶來的模型尺寸增長,使得相關(guān)模型在遷移到下游任務(wù)時面臨著低效率問題,尤其是對于需要處理多幀的視頻理解模型。
- 論文鏈接:https://arxiv.org/abs/2208.03550
- 代碼鏈接:https://github.com/OpenGVLab/efficient-video-recognition
基于上述兩方面特點,來自香港中文大學(xué)、上海人工智能實驗室等機(jī)構(gòu)的研究者提出了高效的視頻理解遷移學(xué)習(xí)框架 EVL,通過固定骨干基礎(chǔ)模型的權(quán)重,節(jié)省了訓(xùn)練計算量和內(nèi)存消耗;同時通過利用多層次、細(xì)粒度的中間特征,盡可能保持了傳統(tǒng)端到端微調(diào)的靈活性。
下圖 1 展示了 EVL 方法在視頻理解數(shù)據(jù)集 Kinetics-400 上的結(jié)果。實驗顯示,本文方法在節(jié)省訓(xùn)練開銷的同時,仍然充分發(fā)掘了視覺基礎(chǔ)模型在視頻理解任務(wù)中的潛力。
圖 1:Kinetics-400 識別精度比較,橫軸為推理計算量,縱軸為精度。
方法
算法的總體示意圖如圖 2(a)所示。對于一個視頻樣本,我們?nèi)∑渲械?T 幀輸入一個圖像識別網(wǎng)絡(luò)(以 CLIP 為例)并提取特征。與傳統(tǒng)方法相比,我們從圖像識別網(wǎng)絡(luò)的最后幾層中提取多層、未池化的特征,從而獲取更豐富、更細(xì)粒度的圖像信息;并且圖像識別網(wǎng)絡(luò)的參數(shù)權(quán)重在視頻學(xué)習(xí)中始終保持固定。隨后,多層特征圖依次輸入一個 Transformer 解碼器進(jìn)行視頻級信息聚合。經(jīng)多層解碼后的 [CLS] 特征將用于生成最終的分類預(yù)測。
如圖 2(b)所示,由于 Transformer 解碼器聚合特征時的無序性,我們在網(wǎng)絡(luò)中添加了額外的時序信息建模模塊,以更好地提取位置有關(guān)的細(xì)粒度時序信息。具體而言,我們添加 3 種額外的位置有關(guān)時序信息:第一是時間位置嵌入(Position Embeddings),第二是時間維度深度可分卷積(Depthwise Convolution),第三是相鄰幀間的注意力信息。對于幀間注意力信息,我們從圖像識別網(wǎng)絡(luò)中提取對應(yīng)層的 Query 和 Key 特征,并在相鄰幀之間計算注意力圖(不同于圖像識別網(wǎng)絡(luò)中,注意力圖是由來自同一幀內(nèi)的 Query 和 Key 特征得到)。所得的注意力圖能顯式地反映出相鄰幀之間物體的位置變化。注意力圖經(jīng)過線性投影后得到反應(yīng)物體位移特征的向量組,并以逐元素相加的形式融合入圖像特征中。
圖 2:EVL 算法結(jié)構(gòu)圖。(a)總體結(jié)構(gòu),(b)時序信息建模模塊。
圖 3:幀間注意力特征的數(shù)學(xué)表達(dá)。
實驗
在圖 1 和表 1 中,我們引用了之前視頻理解中的部分重要方法。盡管著力于減小訓(xùn)練開銷,我們的方法仍然能在精度方面領(lǐng)先于現(xiàn)有方法(相同計算量下)。
表 2 中我們展示了固定骨干網(wǎng)絡(luò)帶來的訓(xùn)練開銷降低。內(nèi)存方面,在 V100 16GB GPU 上,固定骨干網(wǎng)絡(luò)可以使單卡 batch size 最高達(dá)到 64,而端到端訓(xùn)練則只能達(dá)到 8;時間方面,固定骨干網(wǎng)絡(luò)可以節(jié)省 3 至 4 倍的訓(xùn)練時間。
表 3 中我們展示了細(xì)粒度特征圖對識別性能的提升。多層的未經(jīng)池化特征使得我們在固定骨干網(wǎng)絡(luò)權(quán)值時仍然能保持相當(dāng)程度的靈活性。使用未經(jīng)池化的特征帶來的提升最為顯著(大約 3%),其次,使用多層解碼器和中間層特征也能分別帶來大約 1% 的性能提升。
最后我們在表 4 中展示了細(xì)粒度時序信息模塊的效果。盡管細(xì)粒度時序信息對 Kinetics-400 的性能影響有限,但它們對于 Something-Something-v2 的性能十分重要:3 種細(xì)粒度時序信息模塊在 Kinetics-400 和 Something-Something-v2 上分別合計帶來大約 0.5% 和大約 14% 的性能提升。
表 1:Kinetics-400 上與現(xiàn)有方法的對比結(jié)果
表 2:固定骨干網(wǎng)絡(luò)權(quán)重帶來的訓(xùn)練開銷降低
表 3:細(xì)粒度特征圖對精度的影響
表 4:細(xì)粒度時序信息建模在不同數(shù)據(jù)集上的效果
總結(jié)
本文提出了 EVL 視頻理解學(xué)習(xí)框架,首次展示了固定的圖像骨干網(wǎng)絡(luò)在視頻理解問題上的巨大潛力,也使得高性能的視頻理解對于計算資源有限的研究群體更加友好。我們也相信隨著視覺基礎(chǔ)模型在質(zhì)量及規(guī)模上的提升,我們的方法能為后續(xù)的輕量級遷移學(xué)習(xí)算法研究提供參考。