谷歌推出多模態(tài)Vid2Seq，理解視頻IQ在線，字幕君不會下線了｜CVPR 2023

作者：新智元 2023-03-20 13:58:06

人工智能新聞

華人博士和谷歌科學(xué)家最新提出了預(yù)訓(xùn)練視覺語言模型Vid2Seq，可以分辨和描述一段視頻中的多個事件。這篇論文已被CVPR 2023接收。

最近，來自谷歌的研究員提出了一種用于描述多事件視頻的預(yù)訓(xùn)練視覺語言模型——Vid2Seq，目前已被CVPR23接收。

在以前，理解視頻內(nèi)容是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，因?yàn)橐曨l通常包含在不同時間尺度發(fā)生的多個事件。

比如，一個雪橇手將狗拴在雪橇上、然后狗開始跑的視頻涉及一個長事件（狗拉雪橇）和一個短事件（狗被拴在雪橇上）。

而促進(jìn)視頻理解研究的一種方法是，通過密集視頻標(biāo)注任務(wù)，該任務(wù)包括在一分鐘長的視頻中對所有事件進(jìn)行時間定位和描述。

論文地址：https://arxiv.org/abs/2302.14115

Vid2Seq架構(gòu)用特殊的時間標(biāo)記增強(qiáng)了語言模型，使其能夠在同一輸出序列中無縫預(yù)測事件邊界和文本描述。

為了對這個統(tǒng)一的模型進(jìn)行預(yù)訓(xùn)練，研究者通過將轉(zhuǎn)錄的語音的句子邊界重新表述為偽事件邊界，并將轉(zhuǎn)錄的語音句子作為偽事件的標(biāo)注，來利用未標(biāo)記的旁白視頻。

Vid2Seq模型概述

由此產(chǎn)生的Vid2Seq模型在數(shù)以百萬計(jì)的旁白視頻上進(jìn)行了預(yù)訓(xùn)練，提高了各種密集視頻標(biāo)注基準(zhǔn)的技術(shù)水平，包括YouCook2、ViTT和ActivityNet Captions。

Vid2Seq還能很好地適用于few-shot的密集視頻標(biāo)注設(shè)置、視頻段落標(biāo)注任務(wù)和標(biāo)準(zhǔn)視頻標(biāo)注任務(wù)。

用于密集視頻標(biāo)注的視覺語言模型

多模態(tài)Transformer架構(gòu)已經(jīng)刷新了各種視頻任務(wù)的SOTA，比如動作識別。然而，要使這樣的架構(gòu)適應(yīng)在長達(dá)幾分鐘的視頻中聯(lián)合定位和標(biāo)注事件的復(fù)雜任務(wù)，并不簡單。

為了實(shí)現(xiàn)這一目標(biāo)，研究者用特殊的時間標(biāo)記（如文本標(biāo)記）來增強(qiáng)視覺語言模型，這些時間標(biāo)記代表視頻中離散的時間戳，類似于空間領(lǐng)域的Pix2Seq。

對于給定的視覺輸入，所產(chǎn)生的Vid2Seq模型既可以接受輸入，也可以生成文本和時間標(biāo)記的序列。

首先，這使Vid2Seq模型能夠理解轉(zhuǎn)錄的語音輸入的時間信息，它被投射為單一的標(biāo)記序列。其次，這使Vid2Seq能夠聯(lián)合預(yù)測密集的事件標(biāo)注，并在視頻中以時間為基礎(chǔ)，同時生成單一的標(biāo)記序列。

Vid2Seq架構(gòu)包括一個視覺編碼器和一個文本編碼器，它們分別對視頻幀和轉(zhuǎn)錄的語音輸入進(jìn)行編碼。產(chǎn)生的編碼隨后被轉(zhuǎn)發(fā)到文本解碼器，該解碼器自動預(yù)測密集事件標(biāo)注的輸出序列，以及它們在視頻中的時間定位。該架構(gòu)初始化時有一個強(qiáng)大的視覺主干和一個強(qiáng)大的語言模型。

對視頻進(jìn)行大規(guī)模預(yù)?訓(xùn)練

由于任務(wù)的密集性，為密集的視頻標(biāo)注手動收集注釋的成本特別高。

因此，研究者使用了無標(biāo)簽的解說視頻對Vid2Seq模型進(jìn)行預(yù)訓(xùn)練，這些視頻在規(guī)模上很容易獲得。他們還使用了YT-Temporal-1B數(shù)據(jù)集，其中包括1800萬個涵蓋廣泛領(lǐng)域的旁白視頻。

研究者使用轉(zhuǎn)錄的語音句子及其相應(yīng)的時間戳作為監(jiān)督，這些句子被投射為單一的token序列。

然后用一個生成目標(biāo)對Vid2Seq進(jìn)行預(yù)訓(xùn)練，該目標(biāo)教導(dǎo)解碼器僅僅預(yù)測給定視覺輸入的轉(zhuǎn)錄的語音序列，以及一個鼓勵多模態(tài)學(xué)習(xí)的去噪目標(biāo)，要求模型在有噪聲的轉(zhuǎn)錄語音序列和視覺輸入的情況下預(yù)測掩碼。特別是，通過隨機(jī)掩蓋跨度的token，把噪聲添加到語音序列中。

下游任務(wù)的基準(zhǔn)測室結(jié)果

由此產(chǎn)生的預(yù)訓(xùn)練的Vid2Seq模型可以通過一個簡單的最大似然目標(biāo)在下游任務(wù)中進(jìn)行微調(diào)，該目標(biāo)使用教師強(qiáng)迫（即在給定先前的基礎(chǔ)真實(shí)token的情況下預(yù)測下一個token）。

經(jīng)過微調(diào)，Vid2Seq在三個標(biāo)準(zhǔn)的下游密集視頻標(biāo)注基準(zhǔn)（ActivityNet Captions、YouCook2和ViTT）和兩個視頻剪輯標(biāo)注基準(zhǔn)（MSR-VTT、MSVD）上超越了SOTA。

在論文中，還有額外的消融研究、定性結(jié)果，以及在few-shot設(shè)置和視頻段落標(biāo)注任務(wù)中的結(jié)果。

定性測試

結(jié)果表明，Vid2Seq可以預(yù)測有意義的事件邊界和標(biāo)注，而且預(yù)測的標(biāo)注和邊界與轉(zhuǎn)錄的語音輸入有很大的不同（這也表明輸入中視覺標(biāo)記的重要性）。

下一個例子有關(guān)于烹飪食譜中的一系列指令，是Vid2Seq對YouCook2驗(yàn)證集的密集事件標(biāo)注預(yù)測的例子：

接下來是Vid2Seq對ActivityNet Captions驗(yàn)證集的密集事件標(biāo)注預(yù)測的例子，在所有這些視頻中，都沒有轉(zhuǎn)錄的語音。

不過還是會有失敗的案例，比如下面標(biāo)紅的這個畫面，Vid2Seq說是一個人對著鏡頭脫帽致敬。

對標(biāo)SOTA

表5將Vid2Seq與最先進(jìn)的密集視頻標(biāo)注方法進(jìn)行了比較：Vid2Seq在YouCook2、ViTT 和ActivityNet Captions這三個數(shù)據(jù)集上刷新了SOTA。

Vid2Seq在YouCook2和ActivityNet Captions上的SODA指標(biāo)比PDVC和UEDVC分別提高了3.5和0.3分。且E2ESG在Wikihow上使用域內(nèi)純文本預(yù)訓(xùn)練，而Vid2Seq優(yōu)于這一方法。這些結(jié)果表明，預(yù)訓(xùn)練的Vid2Seq模型具有很強(qiáng)的密集事件標(biāo)注能力。

表6評估了密集視頻標(biāo)注模型的事件定位性能。與YouCook2和ViTT相比，Vid2Seq在處理密集視頻標(biāo)注作為單一序列生成任務(wù)時更勝一籌。

然而，與PDVC和UEDVC相比，Vid2Seq在ActivityNet Captions上表現(xiàn)不佳。與這兩種方法相比，Vid2Seq整合了較少的關(guān)于時間定位的先驗(yàn)知識，而另兩種方法包括特定的任務(wù)組件，如事件計(jì)數(shù)器或單獨(dú)為定位子任務(wù)訓(xùn)練一個模型。

實(shí)現(xiàn)細(xì)節(jié)

架構(gòu)

視覺時間transformer編碼器、文本編碼器和文本解碼器都有12層，12個頭，嵌入維度768，MLP隱藏維度2048。

文本編碼器和解碼器的序列在預(yù)訓(xùn)練時被截?cái)嗷蛱畛錇長=S=1000個token，在微調(diào)期間，S=1000和L=256個token。在推理過程中，使用波束搜索解碼，跟蹤前4個序列并應(yīng)用0.6的長度歸一化。

訓(xùn)練

作者使用Adam優(yōu)化器，β=(0.9, 0.999)，沒有權(quán)重衰減。

在預(yù)訓(xùn)練期間，使用1e^-4的學(xué)習(xí)率，在前1000次迭代中線性預(yù)熱（從0開始），并在其余迭代中保持不變。

在微調(diào)期間，使用3e^-4的學(xué)習(xí)率，在前10%的迭代中線性預(yù)熱（從0開始），其余90%的迭代中保持余弦衰減（降至0）。過程中，使用32個視頻的批處理量，并在16個TPU v4芯片上分割。

作者對YouCook2進(jìn)行了40次epoch調(diào)整，對ActivityNet Captions和ViTT進(jìn)行了20次epoch調(diào)整，對MSR-VTT進(jìn)行了5次epoch調(diào)整，對MSVD進(jìn)行了10次epoch調(diào)整。

結(jié)論

谷歌提出的Vid2Seq，是一種用于密集視頻標(biāo)注的新型視覺語言模型，它可以有效地在無標(biāo)簽的旁白視頻上進(jìn)行大規(guī)模的預(yù)訓(xùn)練，并在各種下游密集視頻標(biāo)注的基準(zhǔn)上取得了SOTA的結(jié)果。

作者介紹

論文一作：Antoine Yang?

Antoine Yang是法國國立計(jì)算機(jī)及自動化研究院Inria和巴黎高等師范學(xué)校école Normale Supérieure的WILLOW團(tuán)隊(duì)的三年級博士生，導(dǎo)師為Antoine Miech, Josef Sivic, Ivan Laptev和Cordelia Schmid。

目前的研究重點(diǎn)是學(xué)習(xí)用于視頻理解的視覺語言模型。他于2019年在華為諾亞方舟實(shí)驗(yàn)室實(shí)習(xí)，在2020年獲得了巴黎綜合理工學(xué)院的工程學(xué)位和巴黎薩克雷國立大學(xué)的數(shù)學(xué)、視覺和學(xué)習(xí)碩士學(xué)位，2022年在谷歌研究院實(shí)習(xí)。

責(zé)任編輯：張燕妮來源：新智元