偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

螞蟻多模態(tài)團(tuán)隊(duì)在視頻多模態(tài)方向的技術(shù)探索

人工智能 算法
本文將分享螞蟻多模態(tài)認(rèn)知團(tuán)隊(duì)過去一年在視頻多模態(tài)檢索領(lǐng)域的研究成果。文章主要圍繞如何提升視頻文本語義檢索效果,及如何高效地進(jìn)行視頻同源檢索這兩項(xiàng)研究工作展開。

一、概述

視頻多模態(tài)檢索在螞蟻內(nèi)部有著廣泛的應(yīng)用。視頻多模態(tài)檢索具體包括兩個方向,一個是視頻-文本的語義檢索,另外一個是視頻-視頻的同源檢索。

圖片

視頻-文本的語義檢索方向旨在通過文本檢索與其語義相近的視頻,其檢索文本未必在檢索到的視頻描述中直接出現(xiàn),但檢索視頻的內(nèi)容與檢索文本需要保證語義相關(guān)。例如,在支付寶的搜索欄中,用戶期望通過文本檢索出與之相關(guān)的視頻內(nèi)容;在安全防控場景中,可通過文本檢索來查找安全防控場景中的敏感視頻。檢索文本通常是短文本。

另一方向是視頻-視頻的同源檢索。同源檢索可以實(shí)現(xiàn)在視頻底庫查找與查詢視頻相關(guān)的片段,在實(shí)際場景中有著廣泛應(yīng)用。例如在進(jìn)行視頻采購時,可以避免采購到已有視頻,從而降低采購成本;在視頻版權(quán)保護(hù)中,當(dāng)用戶提供一段短視頻時,需要通過對海量視頻底庫檢索來判斷該視頻是否存在侵權(quán)。

圖片

快速提升視頻-文本語義檢索的方法包括:視頻-文本預(yù)訓(xùn)練、關(guān)注難樣本和引入細(xì)粒度。關(guān)于視頻-文本預(yù)訓(xùn)練方面,我們在 MSRVTT 文本視頻檢索數(shù)據(jù)集上使用 r@sum 指標(biāo)來衡量語義檢索算法效果,其中 r@sum 指標(biāo)將 top1-recall(r@1),top-5 recall (r@5) 和 top-10 recall(r@10)的指標(biāo)相加得到。通過采用視頻-文本預(yù)訓(xùn)練的手段,我們在 r@sum 指標(biāo)上實(shí)現(xiàn)了 24.5% 的提升;隨后引入關(guān)注難樣本,成功提高了 r@sum 8.1%;引入細(xì)粒度識別技術(shù),可以提升 r@sum 2.8%。除此之外,在視頻的同源檢索領(lǐng)域,我們自主研發(fā)了視頻侵權(quán)檢測方法?;诖朔椒ǎ晒?jié)省了 85% 的存儲量,并且在侵權(quán)檢索中能夠?qū)崿F(xiàn) 18 倍的速度提升,同時,檢索效果相較于傳統(tǒng)的視頻檢索方法,在 top1 F1-score 上有 2.78% 的提升。接下來,將圍繞著視頻-文本 語義檢索 和 視頻-視頻 同源檢索兩大方向,詳細(xì)闡述我們的提升方法。

二、視頻-文本語義檢索

在過去的一年里,我們在視頻文本語義檢索方向進(jìn)行了三個方面的研究,以提高視頻-文本的語義檢索效果,分別為:視頻-文本預(yù)訓(xùn)練、關(guān)注難樣本以及引入細(xì)粒度。

1. 視頻-文本預(yù)訓(xùn)練

第一個關(guān)鍵性進(jìn)展是視頻-文本預(yù)訓(xùn)練技術(shù)。在展開相關(guān)介紹前,先介紹下“視頻-文本預(yù)訓(xùn)練”的含義。

圖片

預(yù)訓(xùn)練是正式 finetune 前的階段,它主要是利用大規(guī)模且無監(jiān)督的視頻-文本對數(shù)據(jù)進(jìn)行語義對齊訓(xùn)練,以提升下游任務(wù)的表征能力。通過預(yù)訓(xùn)練,我們期望模型能在各類下游任務(wù)上取得良好的表現(xiàn)。在具體的應(yīng)用中,常見的下游任務(wù)包括視頻-文本檢索(video-text retrieval)、VQA(video question answering)、視頻描述生成(video captioning)等。

在理解預(yù)訓(xùn)練任務(wù)之前,需要了解兩個概念,一個是視頻-文本 pair 數(shù)據(jù)從何而來,另一個則是如何理解視頻所對應(yīng)的文本。通常一個視頻會對應(yīng)兩個文本來源,其一是視頻所對應(yīng)的標(biāo)題描述,這個描述通常是對整個視頻內(nèi)容的概述,比如短視頻 app 中每個視頻對應(yīng)的標(biāo)題文本;另外一個來源是每段視頻配備的音頻,并通過語音識別(ASR)技術(shù),將音頻所對應(yīng)的文本識別出來。根據(jù) ASR 的起止時間區(qū)間,可將其對應(yīng)的視頻片段視為當(dāng)前時間片段的 ASR 文本,進(jìn)而建立起視頻和文本的關(guān)聯(lián)關(guān)系。我們基于以上兩種關(guān)聯(lián)數(shù)據(jù)構(gòu)建大規(guī)模無監(jiān)督的視頻-文本對,并在此數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。然后將預(yù)訓(xùn)練后的模型作為各項(xiàng)下游任務(wù)的初始化模型,可以顯著提高下游任務(wù)的效果。

圖片

國內(nèi)大多數(shù)短視頻場景主要面向中文用戶,當(dāng)前在中文視頻-文本預(yù)訓(xùn)練方面,我們主要面臨兩大挑戰(zhàn)。首先,缺少公開可用的中文視頻-文本預(yù)訓(xùn)練數(shù)據(jù)集,學(xué)術(shù)界通常使用的數(shù)據(jù)集大多為英文文本,例如 HowTo100M 和 WebVid 等,難以獲取公開的中文視頻-文本預(yù)訓(xùn)練數(shù)據(jù)集,鑒于此,我們構(gòu)建出了業(yè)界首個開放訪問的中文視頻-文本預(yù)訓(xùn)練數(shù)據(jù)集,該項(xiàng)成果已于 2023 年的 CVPR 上發(fā)表。其次模型設(shè)計時需關(guān)注跨模態(tài)交互,以實(shí)現(xiàn)視頻和文本之間更深度的交互與融合,從而提升視頻-文本檢索的效果。我們提出了一種加強(qiáng)視頻-文本跨模態(tài)交互的新型模型,即 SNP-S3,該工作已發(fā)表于 2023 年的 IEEE T-CSVT 期刊上。

首先來介紹第一部分的主要研究成果。我們提出了業(yè)界首個公開發(fā)布的中文視頻-文本預(yù)訓(xùn)練數(shù)據(jù)集,通過在該數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,能夠顯著提升中文視頻文本檢索模型的效果。

圖片

主要工作包括三部分:首先構(gòu)建了大規(guī)模的公開中文視頻-文本數(shù)據(jù)集 CNVid-3.5M;其次采用有效的數(shù)據(jù)處理方法,過濾掉那些匹配度不高的視頻和文本對數(shù)據(jù),顯著提高了數(shù)據(jù)質(zhì)量;最后我們在 CNVid-3.5M 上進(jìn)行中文預(yù)訓(xùn)練,驗(yàn)證了我們提出的 CNVid-3.5M 可以顯著提升中文視頻-文本預(yù)訓(xùn)練的效果,并建立了該數(shù)據(jù)集上的 benchmark。整個過程如上圖所示。

圖片

接下來介紹數(shù)據(jù)集的構(gòu)造過程。我們從多個中文視頻網(wǎng)站上收集原始視頻。在收集視頻時,我們會特別關(guān)注當(dāng)前視頻的類別、主題,并盡力保持各個類別與主題間的均衡性。我們成功構(gòu)建了 450 萬個原始的中文視頻-文本對。上圖展示了視頻對應(yīng)的文本關(guān)鍵詞所生成的詞云。

圖片

在收集完數(shù)據(jù)后,緊接著是數(shù)據(jù)清洗的工作,將數(shù)據(jù)集中相對低質(zhì)量的視頻-文本對進(jìn)行過濾。原始的視頻-文本對并不是嚴(yán)格在語義上對齊的。例如,存在于當(dāng)前視頻中的視覺信號與該視頻背景音樂音頻轉(zhuǎn)換而來的文本,可能并無明確的語義關(guān)聯(lián)性,而且引入背景音樂音頻的文本可能會作為污染訓(xùn)練數(shù)據(jù)。因此,我們盡可能地把不相關(guān)的這些視頻-文本對過濾掉。為了實(shí)現(xiàn)這一目標(biāo),我們提出了使用圖文預(yù)訓(xùn)練模型進(jìn)行視頻數(shù)據(jù)清洗的方法。具體實(shí)施步驟如下:首先我們利用訓(xùn)練好的圖文相關(guān)性模型 CLIP,評估當(dāng)前文本與視頻中每一幀關(guān)鍵幀之間的相關(guān)性,并將關(guān)鍵幀之間的相關(guān)性進(jìn)行聚合得到整體相關(guān)性,通過對整體相關(guān)性設(shè)定閾值,來濾除相關(guān)性較低的視頻。至此,我們過濾掉接近 100w 低質(zhì)的視頻-文本對,保留了約 350 萬條中文視頻-文本對。

圖片

上圖中展示了我們構(gòu)建的 CNVid-3.5M 數(shù)據(jù)集的基本指標(biāo)統(tǒng)計。截至當(dāng)前分享時間,我們所構(gòu)建的中文 350 萬的 CNVid-3.5M 是當(dāng)前業(yè)界最大的公開的中文視頻-文本預(yù)訓(xùn)練數(shù)據(jù)集。

圖片

接下來我們基于 CNVid-3.5M 數(shù)據(jù)集構(gòu)建了 Benchmark,以觀察各種不同架構(gòu)的模型在我們構(gòu)建的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的效果是否有提升。

圖片

上圖展示了三個階段的詳細(xì)實(shí)驗(yàn)結(jié)果。在構(gòu)建數(shù)據(jù)集的過程中,使用我們搜集構(gòu)建的原始數(shù)據(jù)集進(jìn)行視頻-文本預(yù)訓(xùn)練,結(jié)果顯示在翻譯后的中文 MSRVT 數(shù)據(jù)集的表現(xiàn)上,經(jīng)過預(yù)訓(xùn)練后與預(yù)訓(xùn)練前相比,總的 R@SUM 指標(biāo)有了 17.7% 的顯著提升。同時,表格中也揭示了在我們的過濾階段,將 450 萬數(shù)據(jù)過濾為 350 萬時,雖然預(yù)訓(xùn)練數(shù)據(jù)量有所減少,但整體上模型的效果反而有所增強(qiáng)。

圖片

中文視頻-文本預(yù)訓(xùn)練的第二個難點(diǎn)是在模型設(shè)計上,需要關(guān)注跨模態(tài)的交互,針對這個問題我們提出了增強(qiáng)視頻-文本跨模態(tài)交互的模型 SNP-S3。S3 指的是重要的語義信息的增強(qiáng),其針對傳統(tǒng)預(yù)訓(xùn)練的以下兩個缺點(diǎn)設(shè)計。

圖片

傳統(tǒng)預(yù)訓(xùn)練任務(wù),一般是在跨模態(tài) encoder 上面,直接去用 mask language modeling 任務(wù)做預(yù)訓(xùn)練,另外一個常見的預(yù)訓(xùn)練任務(wù)是做全局的 Vision-Text Matching 的任務(wù)。如上圖所示,傳統(tǒng)的 Mask Language Model (MLM)任務(wù)存在的一個問題是,當(dāng) mask 的 token 是文本當(dāng)中不太重要的詞時,比如量詞 a,模型甚至可以不去看視頻相關(guān)的內(nèi)容,通過語法的知識就能夠把當(dāng)前 mask 的詞直接復(fù)原出來。但是當(dāng) mask 的詞是關(guān)鍵詞時,模型就必須看到當(dāng)前視頻,才能夠知道 mask 的詞是什么。比如男孩穿著一件紅色的衣服,如果把紅色 mask 掉,模型沒有看到視覺輸入的話是沒有辦法去重建的。通過強(qiáng)迫模型必須要基于給定的視覺輸入去推理 mask 的文本內(nèi)容這種方式,增強(qiáng)了各個不同模態(tài)之間的交互。

傳統(tǒng)的 Vision-Text Matching 的任務(wù)存在的問題是,它更多的是做全局的對齊,視覺跟文本更多是在整個句子層面的語義去做對齊。句子層面的對齊是全局的粒度,缺乏局部信息。比如在句子中,把關(guān)鍵的詞如red 直接去掉,去跟視頻 matching 它仍然是可以做得非常好的。這也就意味著檢索模型其實(shí)并沒有細(xì)粒度的區(qū)分能力。像red 這種屬性詞,還有一些動詞,都需要更細(xì)粒度的能力。我們希望能夠在傳統(tǒng)的基于全局的匹配基礎(chǔ)上,讓模型能夠?qū)@些細(xì)粒度的信息更加敏感。由此引入了關(guān)鍵詞匹配的方式,把句子中更重要的詞匯,比如名詞、動詞、形容詞與視頻來做屬性的匹配,以此來增強(qiáng)模型在細(xì)粒度上的識別能力。

這兩點(diǎn)改進(jìn),即針對 Mask Language Modeling 重要詞來做 mask(Mask Significant Semantic Model,MSSM),和在全局信息上面加入細(xì)粒度的改進(jìn)(LVWM),都是為 S3 顯著性語義增強(qiáng)的目標(biāo)來服務(wù)。

圖片

這里介紹 S3 具體的實(shí)現(xiàn)。MSSM 任務(wù),重點(diǎn)在于將關(guān)鍵詞語直接 mask 掉,強(qiáng)依賴于給定的視覺輸入來重建被 mask 掉的詞語。LVWM 任務(wù)則是增加了視覺輸入與單詞匹配的任務(wù)。具體而言,之前的 Mask Language Modeling 是按照一定的概率從文本中隨機(jī)挑詞,需要挑出重要的詞。重要詞有兩種定義,一種是用詞性打標(biāo)工具去定義,另外一種是通過在整個大的數(shù)據(jù)集上去統(tǒng)計一個詞出現(xiàn)的頻次,用類似于TF-IDF 的方式衡量當(dāng)前詞的重要性。在這里我們結(jié)合了這兩種方式,要成為重要詞首先必須是名詞、動詞和形容詞;此外,詞頻不能特別高,詞頻越低其 IDF 就會越大,詞頻低就意味著其信息量較高,通過這種方式挑選出重要的詞進(jìn)行 mask。另外一個改進(jìn)是視覺和單詞的匹配。將第一步挑選出的關(guān)鍵詞,與視覺信號分別來做匹配,每個詞都會有一個與視覺輸入的相似度,最終把相似度聚合,得到當(dāng)前句子從單詞的維度跟視覺的匹配程度,進(jìn)而構(gòu)建相似矩陣。構(gòu)建的矩陣會跟之前全局視覺文本的匹配的相似度矩陣一起加到 loss 里面去做優(yōu)化。

圖片

這里對 S3 方法進(jìn)行了定量分析,可以得到以下結(jié)論:

  • MSM 在各個不同的模型結(jié)構(gòu)上都有著比傳統(tǒng) MLM 更好的效果。所以可以直接去替代之前傳統(tǒng)的 MLM 任務(wù)。
  • 另外,LVWM 任務(wù)只能作為傳統(tǒng)的全局的視頻-文本匹配任務(wù)的補(bǔ)充,并不能替代全局的視覺-文本匹配任務(wù)。如果把 LVWM 任務(wù)加到傳統(tǒng)的 GVTM 任務(wù)上,可以看到 B3 相比于 B1、B7 相比于 B5 都有著更好的效果,證明它是非常好的局部信息的補(bǔ)充。
  • 另外提出的 S3 里面兩個核心的組件都是模型無關(guān)的,可以看到 B1 v.s. B4,B5 v.s. B8,分別是在 ResNet50、PVT 不同的模型結(jié)構(gòu)上面;所以這兩個策略可以用在任何模型結(jié)構(gòu)上面,我們通過 S3 策略可以使 r@sum 指標(biāo)提升 6.8%。

圖片

我們也對 S3 方法進(jìn)行了定性分析。加上 S3 之后,給定輸入文本,模型會關(guān)注到視覺上跟文本更相關(guān)的區(qū)域。上圖展示了一些具體的例子,比如人在海上沖浪的圖片,可以看到 baseline 關(guān)注區(qū)域是分散的,并沒有太多的語義,但是加上了 S3 方法之后,它會關(guān)注人,還會關(guān)注后面海浪的背景。

以上就是對視頻-文本預(yù)訓(xùn)練的介紹,主要包括兩方面的內(nèi)容,首先是如何構(gòu)建中文視頻-文本預(yù)訓(xùn)練數(shù)據(jù)集;第二是在模型設(shè)計環(huán)節(jié),如何強(qiáng)化視頻文本的交互水平。通過這兩項(xiàng)優(yōu)化可以顯著提高視頻-文本語義檢索的效果。

2. 關(guān)注難樣本

接下來繼續(xù)分享如何通過關(guān)注難題樣本進(jìn)一步提升視頻-文本語義檢索效果。關(guān)注難樣本可使視頻-文本語義檢索提升 R@Sum 近 8.1%。

圖片

關(guān)注難樣本的要點(diǎn)是模型在學(xué)習(xí)的過程中能夠逐漸去關(guān)注難樣本,這主要的原因是難樣本并不是一開始對模型的訓(xùn)練就有幫助的。在訓(xùn)練剛開始的時候,難樣本可能會讓模型難以收斂,但是當(dāng)模型收斂得比較好的時候去關(guān)注難樣本,可以對模型的性能有更進(jìn)一步地提升。

關(guān)注難樣本主要有兩個思路,一個是人工指定對難樣本的關(guān)注度,比如根據(jù)模型訓(xùn)練的不同階段設(shè)定對難樣本不同的關(guān)注度;另一個是讓模型自適應(yīng)地去學(xué)習(xí)對難樣本的關(guān)注度,我們團(tuán)隊(duì)在這兩個方面都進(jìn)行了探索。

首先介紹下人工指定對難樣本的關(guān)注度這一策略,主要使用的方法是基于課程學(xué)習(xí)的難樣本挖掘工作,該工作發(fā)表在 CVPR2023 上。

圖片

訓(xùn)練過程中的樣本大致可以分為好的樣本、難樣本,還有噪聲樣本。所謂好的樣本,是指視頻-文本 pair 語義對齊的質(zhì)量相對較高,文本能夠在語義上描述清楚當(dāng)前視頻片段所對應(yīng)的內(nèi)容。難樣本指的是,視頻跟文本也是語義對齊關(guān)系,但是文本所體現(xiàn)的語義,跟視頻是弱相關(guān)的,但是也有相關(guān)性。而噪聲樣本則是指視頻和對應(yīng)文本語義上幾乎沒有相關(guān)性,比如視頻所對應(yīng)的音頻中歌詞與視頻的語義關(guān)聯(lián)并不大,歌詞并不能夠描述當(dāng)前視頻的語義,這種文本跟視頻相關(guān)性比較低的視頻-文本 pair 我們定義為噪聲樣本。

圖片

這三種樣本在訓(xùn)練過程中起到的作用也是不一樣的。首先噪聲樣本,不管是在訓(xùn)練剛開始,還是在訓(xùn)練最后都對訓(xùn)練有負(fù)面影響,所以噪聲樣本是需要直接丟棄的;對于高質(zhì)量的樣本,在訓(xùn)練開始的階段模型會更多去關(guān)注,可以加速模型的收斂;對于難樣本,則是在模型已經(jīng)收斂到一定程度,已經(jīng)有比較好的表現(xiàn)時要更多關(guān)注難樣本,可以讓模型更好地學(xué)習(xí)難例,進(jìn)一步提升模型性能。但如果在一開始就關(guān)注難樣本,可能會使模型學(xué)偏導(dǎo)致無法很好地收斂。

圖片

基于這個觀察,我們設(shè)計了難例課程學(xué)習(xí)的算法,算法的核心思路是通過課程學(xué)習(xí)的方式,剛開始的時候讓模型更多去關(guān)注好的樣本,在模型有一定相關(guān)性判別能力之后嘗試做難例挖掘,讓模型能夠在訓(xùn)練的后期更多地關(guān)注比較困難的樣本。

具體的做法如上圖所示,首先第一步是采用 contrast learning 的方式構(gòu)建了視頻和文本的相似度矩陣,相似度矩陣的對角線均為正樣本,對角線以外都是負(fù)樣本,接下來根據(jù)對角線上面的相似度的值來判斷當(dāng)前的正樣本是難樣本還是簡單樣本。一般來說如果對正樣本的相似度比較高,可能就是簡單樣本。通過這種方式在列維度對難樣本做度量。同時,也在行層面對難樣本進(jìn)行度量,每一行都代表當(dāng)前文本跟當(dāng)前batch 內(nèi)所有視頻的相似度,我們?nèi)〕鏊胸?fù)樣本,如果當(dāng)前文本跟負(fù)樣本的相似度比較高,那么就認(rèn)為當(dāng)前視頻-文本樣本是難例。接下來,我們把基于行還有基于列的度量結(jié)合在一起,構(gòu)建 VTM(video-text matching) loss 的權(quán)重。這一權(quán)重由行加權(quán)和列加權(quán)共同作用得出,權(quán)重系數(shù)的大小是通過課程學(xué)習(xí)的方式來調(diào)整的,剛開始的時候權(quán)重為 0,就相當(dāng)于沒有加難例挖掘的 loss;隨著訓(xùn)練的進(jìn)行,會讓權(quán)重 loss 的部分越來越大,這樣讓模型逐漸關(guān)注到難樣本上。

圖片

我們通過實(shí)驗(yàn)分析了當(dāng)前模型加入 HSCL 難樣本課程學(xué)習(xí)的 loss 之后的效果表現(xiàn)。采用了兩個數(shù)據(jù)集,一個是中文的預(yù)訓(xùn)練和 fine tuning 的數(shù)據(jù)集 CNVid-3.5M,另外一個是在英文上面來做個預(yù)訓(xùn)練和 fine tuning 的數(shù)據(jù)集 COCO+VG+CC。實(shí)驗(yàn)發(fā)現(xiàn),在引入難樣本課程學(xué)習(xí)方法之后,可以為文本視頻檢索的 r@sum 指標(biāo)帶來 5% 左右的提升。

以上介紹的是人工方式來指定對難樣本的關(guān)注度,這一方式不夠自動化,需要做超參數(shù)的調(diào)整。我們希望讓模型能夠自適應(yīng)地學(xué)習(xí)對難樣本的關(guān)注度,因此設(shè)計了一種自適應(yīng)方法,接下來介紹的 DMAE 和 NegNCE 的方法發(fā)表在 2023 年的 ACM Multi Media 上。通過這種方法,可以帶來 R@SUM 3.1% 的提升。

圖片

接下來介紹一下 DMAE 和 NegNCE 的 motivation。

DMAE 是雙模態(tài)的 attention 增強(qiáng)的模塊,它的核心是希望能夠找到盡可能多的難例,主要是采用兩個思路,第一個是擴(kuò)大簡單樣本和難樣本之間的邊界。如上圖右側(cè),從 b 到 c 是在 NegNCE 的基礎(chǔ)上增加 DMAE,可以看到通過 DMAE 的難例挖掘,可以引入更多的難負(fù)例擴(kuò)大決策邊界,進(jìn)而提升模型對樣本的區(qū)分度。NegNCE 的核心思想是把這些難樣本全部都找出來后,看哪些難樣本是真正需要去關(guān)注的,因?yàn)檫@些難樣本,有可能之前的 infoNCE 的 contrastive loss 都已經(jīng)解決了,但是還有那些解決不了的希望能夠通過加一個輔助的 NegNCE loss 到訓(xùn)練目標(biāo)里面,讓模型動態(tài)地關(guān)注這些難樣本。

傳統(tǒng)的 infoNCE 更多的是關(guān)注正樣本,把正樣本拉近,把負(fù)樣本推遠(yuǎn),并沒有關(guān)注難的負(fù)樣本,引入 NegNCE 可以讓模型顯式地去關(guān)注難樣本,在上圖的 case 中難的負(fù)樣本,在決策邊界上是很近的,它雖然是負(fù)樣本,但是它跟當(dāng)前 Anchor 的相似度可能會比正樣本更近。NegNCE 能夠把這樣的負(fù)樣本逐漸推遠(yuǎn)。DMAE 會挖掘出更多的這種負(fù)樣本,把更多的負(fù)樣本囊括在當(dāng)前模型 loss 所考慮的范圍之內(nèi),即DMAE 挖掘更多負(fù)樣本,NegNCE 去努力區(qū)分負(fù)樣本,通過這兩個 loss 的配合,讓模型能夠在訓(xùn)練過程中自適應(yīng)地去關(guān)注難樣本。

圖片

DMAE 主要有兩方面的工作,一個是在文本側(cè),因?yàn)槲谋揪渥颖磉_(dá)包含很多冗余性,所以希望能夠讓模型更多地關(guān)注到句子中關(guān)鍵的詞。這些關(guān)鍵詞首先得是名詞、動詞和形容詞這些比較重要的詞,其次是出現(xiàn)的詞頻,即相對于詞頻更低,這樣的代表詞有更多的信息量。把這兩個結(jié)合在一起,來挑選出文本的關(guān)鍵詞,對這些關(guān)鍵詞,會在做文本 attention 的時候給予更高的權(quán)重。

另一方面的工作在視覺側(cè),視頻和圖片最大的區(qū)別在于視頻中會包含很多關(guān)鍵幀,關(guān)鍵幀之間是包含一定冗余性的,也就意味著在時序上鄰近的這些幀可能在語義上甚至視覺上都是非常類似的。這意味著如果當(dāng)前幀存在難樣本,那么跟它比較相似的另外一幀也存在很多難樣本。我們把這兩類難樣本求并集,合并之后的難樣本集合就是當(dāng)前幀和另外一幀跟它比較相似的幀構(gòu)成的難樣本集合。

圖片

具體的實(shí)現(xiàn)方式為,在計算視頻跟文本相似度矩陣之后,會做文本側(cè)的加權(quán),文本側(cè)的權(quán)重主要是依據(jù)單詞的詞性、詞頻來確定。另外,視頻側(cè)的權(quán)重主要是把當(dāng)前視頻關(guān)鍵幀跟它自身來做相似度矩陣。接下來保留 top 的 score,比如對于每一幀找跟它最相近的幀的難樣本,也作為當(dāng)前幀的難樣本,通過這種方式構(gòu)建相似度矩陣,在相似度矩陣上面可以挖掘出更多的難例。越難的樣本在相似度矩陣上最終得到的score 就會越高。

圖片

當(dāng)挖掘更多的難例之后,我們希望模型在訓(xùn)練過程中能夠去動態(tài)區(qū)分這些難例,由此顯式地引入了 NegNCE loss。傳統(tǒng)的計算視頻跟文本的相似度采用 InfoNCE loss。InfoNCE 的分子是正樣本,分母是所有的負(fù)樣本,InfoNCE 在拉近正樣本和推遠(yuǎn)負(fù)樣本過程中把正樣本和負(fù)樣本等同看待。

在訓(xùn)練過程中,NegNCE 首先會判斷哪些是負(fù)樣本。對于相同的文本而言,如果負(fù)樣本的視頻跟文本的相似度比正樣本視頻更大則認(rèn)為是難例。通過這種方式,在訓(xùn)練過程中,我們可以把所有負(fù)樣本比正樣本相似度更高的視頻-文本 pair 全部挖掘出來,并加上輔助 loss(如上圖公式(6)),專門來做難的負(fù)樣本的挖掘。輔助 loss 和之前的 InfoNCE loss 通過加權(quán)相加。我們可以通過調(diào)整r2 的權(quán)重來調(diào)整模型在訓(xùn)練過程中對難樣本的關(guān)注度。

圖片

我們通過實(shí)驗(yàn)驗(yàn)證了上面提到的難樣本策略。DMAE 主要是用來擴(kuò)大難樣本的范圍,NegNCE 讓模型在擴(kuò)大難樣本范圍之后更多的去關(guān)注對模型而言比較難區(qū)分的負(fù)樣本,可以看到用 DMAE 加入 NegNCE 之后,整體的效果是有提升的。把這兩個組件合在一起,整體對 r@sum 指標(biāo)有 3% 的提升。

3. 引入細(xì)粒度

接下來介紹第三方面,引入細(xì)粒度,也可以快速提升視頻文本語義檢索的效果。在實(shí)驗(yàn)中,引入細(xì)粒度可以對 R@Sum 指標(biāo)提升 2.8%。

圖片

視頻-文本語義檢索的已有工作缺乏對較細(xì)語義粒度的區(qū)分。比如現(xiàn)在常用的 Pairwise loss 更多是通過做二值量化來判斷視頻和文本之間是否相似,屬于粗粒度的識別,本質(zhì)上是一個二分類。另外一類基于 Triplet loss 這種方法,并不做相關(guān)或不相關(guān)二分類,而是建模偏序關(guān)系,可以讓模型在更細(xì)粒度上建模語義相關(guān)性。但是怎么去構(gòu)建不同語義粒度的視頻-文本 pair 呢?這個是我們的核心挑戰(zhàn)。

圖片

為了構(gòu)建不同語義粒度的視頻-文本 pair,我們采用生成的方法生成這樣偏序 pair。具體的思路是借鑒在單模態(tài)文本上的 CSE 工作。擴(kuò)展到多模態(tài)上時,如果當(dāng)前完整的文本和完整的視頻是完全相關(guān)的,那么在視頻上面如果要去掉一些關(guān)鍵幀,那么視頻的相關(guān)性會逐漸變?nèi)?。所以?gòu)建的偏序關(guān)系是:文本跟完整的視頻之間的相關(guān)性> 文本跟去掉關(guān)鍵幀之后的視頻的相關(guān)性。同樣,對于文本側(cè)而言也是一樣的:當(dāng)前視頻跟文本之間的相關(guān)性 > 當(dāng)前視頻跟文本去掉關(guān)鍵詞之后的相關(guān)性?;谶@個思路,我們生成不同語義粒度的這種相關(guān)性的 pair。在生成偏序 pair 上另一個和單模態(tài)的不同點(diǎn)是,對于單模態(tài),可能更多的只考慮文本或者圖片本身的語義。而對于多模態(tài),在構(gòu)建偏序?qū)r,實(shí)際上是要看到文本才能夠確定當(dāng)前視頻中的哪些幀重要,哪些幀不重要;對于文本側(cè)也是一樣,看到視頻之后才能確定這些文本描述中哪些詞是重要的,哪些詞是不重要的。

基于這樣的觀察我們提出了兩個模塊,第一個是跨模態(tài)的 token 重要性的預(yù)測,算法核心是通過給定一個模態(tài)輸入,預(yù)測另一個模態(tài)的 token 重要性。比如給定視覺側(cè)全局信息輸入,讓模型預(yù)測當(dāng)前文本 token 的重要性,即文本中的哪些詞是重要的;對于視覺側(cè)也是一樣,給定當(dāng)前文本的總體的表征來預(yù)測當(dāng)前視覺的哪些 token 是重要的。通過這種方式,來選出重要的文本 token 和視覺的 token,并進(jìn)一步把這些重要的 token 做 mask,通過 mask 生成的樣本就比 mask 之前的完整文本或視頻跟另一個模態(tài)的相關(guān)性更弱。通過這種方式,我們就可以生成有偏序關(guān)系的 triplet 三元組。

圖片

具體的實(shí)現(xiàn)分為兩個階段,第一個是生成偏序的樣本,首先要預(yù)測對另外一個模態(tài)而言,哪些 token 是更關(guān)鍵的;預(yù)測到更關(guān)鍵的這些 token 的權(quán)重之后要確定 mask 掉哪些 token 對當(dāng)前文本的 token 語義影響是最大的。第二步把語義影響最大的這些 token 直接 mask 掉就生成了偏序的 pair。類似于 Triplet loss 的思想,mask 之后的樣本與另外一個模態(tài)之間的相關(guān)性會變?nèi)?。Triple data 三元組里面兩兩建立相關(guān)性,也就是三個 loss 來做約束。如上圖公式(17)所示,帶 p 的都是已經(jīng)做過mask 的。所表達(dá)的含義就是,沒有做過 mask 的跟文本的相關(guān)性要高于做過 mask 的相關(guān)性,沒有做過 mask 的文本跟視頻的相關(guān)性要比做過 mask 的文本跟視頻的相關(guān)性更高。

圖片

我們通過實(shí)驗(yàn)驗(yàn)證了引入細(xì)粒度的具體效果。引入了細(xì)粒度 TPM-CL 的方法后,相比之前,在 MSRVTT R@sum 指標(biāo)有約 2.8% 的提升。也可以跟 DMAE 合用,通過 DMAE 擴(kuò)大引入更多的負(fù)樣本,TPM-CL 是讓模型在訓(xùn)練過程中更多地關(guān)注難以區(qū)分的負(fù)樣本,這兩個方法結(jié)合帶來了 4.4% 的提升。

小結(jié)一下,快速提升視頻-文本語義檢索的第三個方法是引入細(xì)粒度,具體在這方面做的工作是偏序樣本生成,以及引入偏序損失。

以上就是對視頻-文本語義檢索三個主要優(yōu)化方法的介紹。接下來將介紹視頻多模態(tài)在視頻-視頻同源檢索方面的應(yīng)用。

三、視頻-視頻同源搜索

視頻-視頻同源檢索的核心是如何高效低成本地實(shí)現(xiàn)視頻侵權(quán)檢測。我們在該領(lǐng)域提出了一種自研的端到端的片段匹配定位技術(shù),能夠迅速實(shí)現(xiàn)視頻到視頻的版權(quán)檢索,相較于傳統(tǒng)方法,可節(jié)省 85% 的存儲空間,并在視頻侵權(quán)檢索場景中加速 18 倍。在檢索效果方面,F(xiàn)1 相比已有的方法,可提高 2.78%。

1. 視頻到視頻同源檢索的挑戰(zhàn)

圖片

視頻到視頻同源檢索所面臨的挑戰(zhàn)主要包括:

  • 首先,視頻侵權(quán)類型復(fù)雜,內(nèi)容變化多樣且劇烈。這會對版權(quán)檢索的準(zhǔn)確性造成影響。涉及的復(fù)雜的侵權(quán)類型包括:幾何變換(如剪切、縮放、旋轉(zhuǎn)等)、光學(xué)變換(如色調(diào)、噪聲、對比度、亮度等)、時域變換(如丟幀、快放、剪輯、幀率變化、加減速等),以及將以上各類變換綜合運(yùn)用產(chǎn)生的復(fù)合變換。這些特殊的變換使得對視頻做同源檢測工作變得困難重重。例如在視頻的空域上增加多種濾鏡,并對原始視頻進(jìn)行裁剪和模糊處理,得到的所有視頻都是對原始視頻的侵權(quán)。又如,對原始視頻進(jìn)行加減速,或拼接,這種視頻也屬于侵權(quán)。
  • 另一方面,數(shù)據(jù)量龐大,視頻的每一幀都需進(jìn)行計算處理,因此計算量也較大,存儲量大和計算量大帶來了成本高的難題。

因此,要實(shí)現(xiàn)視頻到視頻的同源檢索,核心在于:如何提升檢索的準(zhǔn)確度,以及如何降低成本。

圖片

傳統(tǒng)的視頻對視頻同源檢索方法無法滿足需求。以 MultiMedia09 的研究為例,他們采用時序網(wǎng)絡(luò),基于動態(tài)規(guī)劃的方法尋找侵權(quán)片段的最長路徑。其優(yōu)點(diǎn)在于無需監(jiān)督且定位較為精確,但其缺點(diǎn)是魯棒性較差,尤其是面對加速或減速,或者時域和空域復(fù)合變換的情況,其效果難以達(dá)到預(yù)期。還有一些工作是基于深度學(xué)習(xí)模型,通過基于特征相似度矩陣的方式處理,這種方法將視頻是否侵權(quán)的問題轉(zhuǎn)化為待檢測視頻與侵犯版權(quán)視頻的二分類,即將視頻特征整合后,若侵權(quán)則標(biāo)記為標(biāo)簽"1",反之則標(biāo)記為標(biāo)簽"0"。這種方法無法實(shí)現(xiàn)視頻的侵權(quán)檢測的片段定位。

2. 框架及核心技術(shù)

基于現(xiàn)有算法無法滿足需求,而視頻侵權(quán)檢測對于業(yè)務(wù)意義重大,我們自主研發(fā)一套侵權(quán)檢測框架,以解決上述效果和成本問題。

圖片

框架的整體設(shè)計如上圖所示。

首先,對視頻底庫進(jìn)行處理,對視頻抽取關(guān)鍵幀,然后對關(guān)鍵幀進(jìn)行幀級特征提取,并存儲在特征庫中。在處理查詢視頻時,同樣會對查詢視頻進(jìn)行關(guān)鍵幀抽取和特征提取,然后,使用查詢視頻與底庫進(jìn)行特征匹配,完成匹配后,進(jìn)行精細(xì)排序,最終判斷當(dāng)前的查詢視頻是否存在侵權(quán)。

核心技術(shù)包括以下兩個層面:首先是如何準(zhǔn)確抽取視頻的關(guān)鍵幀,這實(shí)際上是降低成本要求。如果我們將視頻中的每一幀全部保存下來,存儲成本會相對較高。因此期待能通過關(guān)鍵幀來替代整段視頻,從而降低視頻在版權(quán)檢索過程中的成本。其次是如何迅速定位視頻侵權(quán)部分的問題,此環(huán)節(jié)涉及到準(zhǔn)確率與成本的平衡。例如,剛剛所提到的 ICCV 的研究,主要涉及的 Pairwise 式的視頻侵權(quán)檢測,雖然理論上可行,但在實(shí)際業(yè)務(wù)中無法實(shí)現(xiàn),因?yàn)槠淝謾?quán)比對成本過高。

我們提出的自研解決方案分別是自監(jiān)督的 SKE 方法和檢測定位的 SPD 模塊。接下來將詳細(xì)闡述這兩種方法。

圖片

首先來介紹 SPD 模塊。該模塊的核心理念是,在提供候選視頻以及查詢視頻后,將候選視頻和查詢視頻的關(guān)鍵幀的特征進(jìn)行兩兩對比,構(gòu)建出相似性矩陣。在特征相似性圖上可以看到部分相似度值會更高,且具有一定的連續(xù)性?;谶@一觀察,我們將視頻之間可能存在片段匹配的問題轉(zhuǎn)化為在特征相似圖上進(jìn)行侵權(quán)模式 Pattern 目標(biāo)檢測的操作。這也就意味著我們可以構(gòu)建侵權(quán)相似度圖訓(xùn)練集,同時在特征相似度圖上標(biāo)注出侵權(quán)的起止時間,便可在特征相似度圖上直接訓(xùn)練 YOLO 的目標(biāo)檢測模型,從而實(shí)現(xiàn)快速識別。判斷候選視頻是否與底庫中的任何一個視頻,以及視頻的某個片段存在雷同之處,進(jìn)而判定該視頻是否存在侵權(quán)行為。

SPD 核心模塊與業(yè)界主流的動態(tài)規(guī)劃相比,具有更出色的性能表現(xiàn),能夠提速 18 倍。這主要得益于 YOLO 的快速目標(biāo)檢測。此外,針對較為復(fù)雜的場景,例如那些經(jīng)過加減速處理的侵權(quán),以及使用濾鏡處理的侵權(quán),相比于業(yè)界主流方案均有顯著的提升。

圖片

侵權(quán)檢測的第二個核心任務(wù)就是降低成本。其核心思想是用關(guān)鍵幀取代傳統(tǒng)的均勻幀。相較于均勻幀,關(guān)鍵幀的數(shù)量通常會壓縮約 70% 至 80%,因此,相應(yīng)的存儲空間也會大幅度地減少。關(guān)鍵幀檢測作為關(guān)鍵幀抽取模塊的核心內(nèi)容,首先需要對視頻進(jìn)行預(yù)處理,將其所有幀在同一時間內(nèi)鋪平,拼接成一張大的圖像。接下來是對大圖做類似于圖像分割的任務(wù),目標(biāo)是輸出每一像素對應(yīng)的確切類別。在我們的場景中,每一像素實(shí)際上代表著一個關(guān)鍵幀,所以目標(biāo)是輸出每一幀成為關(guān)鍵幀的可能性。這樣就可以挑選出當(dāng)前視頻中最能彰顯視頻特征的那部分幀。

如果要將上述關(guān)鍵幀抽取模塊與侵權(quán)定位模塊結(jié)合使用,那么核心就在于挑選出關(guān)鍵幀,然而,直接利用關(guān)鍵幀抽取模塊并不是可導(dǎo)的,因此我們先輸出關(guān)鍵幀的概率 mask,同時構(gòu)建一個均勻幀的 mask,然后將這兩個 mask 進(jìn)行加法運(yùn)算。最后,使用 mask 對密集采樣的均勻幀的特征相似圖進(jìn)行點(diǎn)乘,點(diǎn)乘后得到的特征相似圖就可以與 SPD 模塊聯(lián)合在一起訓(xùn)練。通過這種方式,我們可以確保 SPD 模塊的梯度能動態(tài)回傳給關(guān)鍵幀抽取模塊,同時關(guān)鍵幀抽取與 SPD 模塊可以共同進(jìn)行端到端的聯(lián)合訓(xùn)練,構(gòu)成一個完整的端到端的模型,而不必像傳統(tǒng)的方法那樣先訓(xùn)練關(guān)鍵幀再訓(xùn)練其它模塊。

將關(guān)鍵幀抽取和 SPD 進(jìn)行聯(lián)合訓(xùn)練比單獨(dú)使用 SPD 有著明顯的提升。此外,在大規(guī)模的數(shù)據(jù)集上測試后發(fā)現(xiàn),無論在成本上還是存儲需求上,都有明顯的減少??梢钥吹?,與單獨(dú)使用 SPD 相比,存儲關(guān)鍵幀能夠節(jié)省 85% 的存儲量。同時,在侵權(quán)檢測效果方面,可以使用更少的關(guān)鍵幀達(dá)到更好的效果,整體性能提升 2.78%。

四、總結(jié)

總體來回顧一下本次分享的內(nèi)容。主要介紹了視頻多模態(tài)檢索的兩個方向,一個是視頻-文本語義檢索,另外一個是視頻-視頻同源檢索。

圖片

針對視頻-文本語義檢索提出了三個可以快速提升視頻-文本檢索效果的方法:首先是通過視頻預(yù)訓(xùn)練,可以帶來 24.5% 的提升;第二是通過關(guān)注難樣本,帶來了 8.1% 的提升,其中難樣本分為兩種,一種是基于人工指定模型在不同訓(xùn)練階段,關(guān)注不同的難樣本,另外一種是讓模型在訓(xùn)練過程中自適應(yīng)地去學(xué)習(xí)對難樣本的關(guān)注度;第三是引入細(xì)粒度,可以帶來 2.8% 的提升,主要涉及如何生成偏序樣本,以及引入三元組偏序損失,對細(xì)粒度語義進(jìn)行建模。

視頻-視頻同源檢索部分介紹了自研的端到端的片段匹配定位方法,可以節(jié)省 85% 的存儲,侵權(quán)檢索加速 18 倍,檢索 F1 相比于使用均勻幀的效果有大幅提升。

圖片

上述所提到的工作是螞蟻智能引擎多模態(tài)認(rèn)知團(tuán)隊(duì)在過去一年公開的研究成果,主要涉及到視頻語義檢索以及視頻到視頻的版權(quán)檢索方面的研究進(jìn)展。若對此感興趣,歡迎進(jìn)一步了解我們的工作。同時,我們也熱忱邀請更多的同學(xué)加入我們,共同攜手推動相關(guān)工作的開展。

圖片

五、Q&A

Q1:關(guān)鍵幀需要先標(biāo)注數(shù)據(jù),再訓(xùn)練分割模型嗎?

A1:關(guān)鍵幀模塊有兩種使用方式,如果把模塊單獨(dú)抽取出來的話,它實(shí)際上類似于分割模型,這是需要去標(biāo)注的。比如可以人工標(biāo)注哪些幀是關(guān)鍵幀,然后單獨(dú)訓(xùn)練模型,用模型從視頻中抽取關(guān)鍵幀。

但如果要采用這里所用的端到端的方式的話,把關(guān)鍵幀的模塊跟下游任務(wù)相似幀比對,這里的下游任務(wù),更多的是侵權(quán)定位模塊,比如兩個相似視頻比對下任務(wù)是兩個相似幀比對,用這種方式實(shí)現(xiàn)自適應(yīng)端到端的方式,根據(jù)任務(wù)的特性去篩選關(guān)鍵幀,這時候就不需要去標(biāo)注了。

Q2:現(xiàn)在有沒有 hugging face 上面現(xiàn)成的關(guān)鍵幀提取的模型?

A2:目前模型還沒有開源,但是有開源計劃,目前在走內(nèi)部的開源流程。

Q3:多模態(tài)的 embedding,到下游推薦場景的時候往往沒有效果,有什么好的解決辦法嗎?

A3:或許我們更加傾向于參考前面視頻文本語義檢索部分的內(nèi)容。在語義檢索層面,將文本語義檢索具體用在搜索或者是推薦場景中,會有幾個協(xié)作緊密的環(huán)節(jié)。首先在搜推的召回階段,可以用增加視頻文本鏈路,去增加召回階段的召回。其次,在排序階段,可以引入經(jīng)過視頻-文本預(yù)訓(xùn)練之后的視頻和文本的特征,加入到排序的特征里面。第三,在精排階段,更多的是需要做視頻的打散。這時候,可以用訓(xùn)練的embedding 來做打散,如果效果不太好,可能與具體的業(yè)務(wù)場景有關(guān)系,或者與怎么用這種多模態(tài)預(yù)訓(xùn)練表征有關(guān)系,可能要明確具體的場景、具體的問題才能做出解答。

Q4:剛才演講的過程中提到節(jié)省了存儲,主要數(shù)據(jù)都存在什么樣的存儲介質(zhì)里?

A4:如果是小規(guī)模的視頻版權(quán)檢索的話,可以直接存儲在比如 NAS 盤,就是普通的硬盤上面。如果是大規(guī)模的存儲,會把這些特征直接存儲在向量檢索的數(shù)據(jù)庫。通過數(shù)據(jù)庫來存儲,存儲量會相比 NAS 更節(jié)省,但是用關(guān)鍵幀的話,會帶來非常大的存儲空間的節(jié)省。

Q5:關(guān)鍵幀的解決方案是不是也可以用在視頻到視頻的翻譯里面?不同語種的翻譯。

A5:視頻至視頻的翻譯具體是指將英文視頻轉(zhuǎn)換為相應(yīng)的 ASR 語音譯文。

視頻中語音內(nèi)容的翻譯,其關(guān)鍵之處在于不僅音軌能夠匹配,而且音軌與口型也能夠一致對應(yīng)。由于不同語言之間的語速實(shí)際上存在差異,若采用傳統(tǒng)翻譯方法,譬如中文轉(zhuǎn)為英文,或者英文轉(zhuǎn)回中文,其所需時間也會因此有所不同,這就需要進(jìn)行一定程度的剪輯工作。換一下角度來看,我認(rèn)為這項(xiàng)技術(shù)實(shí)則是解決了兩個視頻間的對齊問題。對于我所述的翻譯場景,我雖了解并不深入,但假設(shè)確實(shí)存在視頻片段間的對齊問題,那么我認(rèn)為這種方法應(yīng)可廣泛適用。

Q6:關(guān)于團(tuán)隊(duì)招聘情況可否詳細(xì)介紹?

A6:衷心感謝您對我們團(tuán)隊(duì)的密切關(guān)注。我們是螞蟻智能引擎多模態(tài)認(rèn)知團(tuán)隊(duì),我們始終致力于招聘人才,目前正在進(jìn)行中的招聘涵蓋了多個領(lǐng)域,不僅限于今天詳細(xì)介紹過的發(fā)展方向。我們主要的研究方向包括多模態(tài)大模型、視頻大模型以及版權(quán)檢索等??偟膩碚f,我們的工作主要可以分為兩大板塊:視頻處理和圖文處理。在圖文處理方面,我們重點(diǎn)關(guān)注多模態(tài)和大模型;而在視頻處理方面,我們專注于實(shí)時性和視頻文本的語義檢索以及視頻到視頻的版型檢索等。對于這些領(lǐng)域有濃厚興趣或者相關(guān)經(jīng)驗(yàn)的同學(xué)們,歡迎隨時向我們發(fā)送您的簡歷,我們的 recruitment base 位于杭州和北京,我們在這兩地的團(tuán)隊(duì)都在熱烈歡迎您的加入!

Q7:提取視頻特征指用視覺輸入嗎?

A7:在此論述的視頻特性的提取,若指的是例如同源檢索內(nèi)的視頻特征,其實(shí)際操作流程是:首先,我們會在視頻中抽取出幀級別的關(guān)鍵幀,并對這些關(guān)鍵幀進(jìn)行特征抽取。對于此前提及的視頻-文本預(yù)訓(xùn)練視頻的特征抽取,其過程可能是直接針對視頻級別進(jìn)行的,類似于 video swing 模型,直接產(chǎn)出整個視頻的表征。因此,這兩項(xiàng)工作所采用的視頻特性抽取可能存在差異,一個更關(guān)注于幀級別的特征抽取,另一個則側(cè)重于整個視頻級別的抽取。然而,無論哪種方式,都需要借助視覺輸入。

Q8:視頻特征是如何通過融合關(guān)鍵幀的特征提取到的?

A8:這是因?yàn)樵诮裉斓姆窒砝飳?shí)際上都是視頻幀級別信息,視頻片段作為其中重要組成部分,與其底層庫及視頻關(guān)鍵幀之間的匹配,共同構(gòu)建了類似于相似度的矩陣特征向量矩陣。然而,此種方式實(shí)際上并未實(shí)現(xiàn)對整體視頻及其關(guān)鍵幀特征至整個視頻特征的聚合過程。

實(shí)際上常用的聚合方法中,既包括無參數(shù)方法,如基于關(guān)鍵幀特征進(jìn)行 LV 級 pooling 操作,亦有參數(shù)化方法,如在上層加入臨時編碼器,把視頻幀的特征作為類似于Transformer 的標(biāo)記作為輸入,利用 Transformer 進(jìn)行連續(xù)建模,可能涉及的參數(shù)化方法。此外,亦可能包括類似于時序視頻建模方法的策略,例如 Token Shift 方法,這些方式都可將幀級別特征轉(zhuǎn)化為視頻級別特征。這些方法均已得到實(shí)踐與嘗試,且產(chǎn)生了一定的成效。

Q9:應(yīng)該理解為視頻的特征,是整個視頻的特征,可能是人為賦予的,但是真的特征,即實(shí)質(zhì)上的特征仍然得以體現(xiàn)。是這樣理解嗎?

A9:是的。實(shí)際操作則更多地受問題處理粒度的影響,如何設(shè)計視頻特征呢?例如在視頻文本語義檢索領(lǐng)域,其所關(guān)注的核心問題便是如何從文本角度進(jìn)行視頻檢索?由于將整段視頻視為一個整體,因此該領(lǐng)域的研究會更傾向于視頻總體呈現(xiàn)的表達(dá)方式,即如何展現(xiàn)視頻內(nèi)容?再以視頻到圖像檢索為例,由于該方式更注重圖源檢索,例如在版權(quán)檢索等場景中,檢索結(jié)果可能包含了 query 的視頻片段,而這些片段與底庫中的某一片段可能存在侵權(quán)風(fēng)險。因此,該領(lǐng)域的研究更側(cè)重于視頻片段或更微觀的視頻幀的表達(dá)。因此,在這種情況下,視頻特征的關(guān)注點(diǎn)并不在于整個視頻的embedding 表達(dá),而是視頻幀的表達(dá)。我們還是應(yīng)根據(jù)具體問題進(jìn)行詳細(xì)的分析。

Q10:視頻的 ASR 和關(guān)鍵幀的 OCR 信息有使用嗎?

A10:有使用的。例如,在同源檢索領(lǐng)域內(nèi),實(shí)際上并不涉及到大量的文本信息;而在語義檢索方面,比如說處理視頻數(shù)據(jù)時,首先我們需要介紹 OCR(光學(xué)字符識別)技術(shù)。一般情況下,我們在進(jìn)行語義檢索操作時,會構(gòu)建視頻與文本的配對關(guān)系。當(dāng)視頻缺乏整體性的視頻描述時,視頻與文本的配對通常是從 ASR 中獲取的。將 ASR 的起始時間和結(jié)構(gòu)時間與其對應(yīng)的視頻片段作為 ASR 文本所對應(yīng)的視覺輸入。同時,我們還會利用當(dāng)前 ASR 所對應(yīng)的視覺片段中的關(guān)鍵幀進(jìn)行 OCR,提取出 OCR 的文本,并加入到 ASR 當(dāng)中。因此,可以說,ASR 和 OCR 共同構(gòu)成了文本的內(nèi)容。然而,值得注意的是,如果將 OCR 文本添加到這部分文本中,可能會出現(xiàn)一些問題。因?yàn)殛P(guān)鍵幀中的 OCR 文本往往相似度較高,可能需要采取類似于視頻級別的 OCR 方法,進(jìn)行 OCR 文本的去重。

Q11:剛才回答的這一部分問題,都是在視頻-文本預(yù)訓(xùn)練這一部分做的嗎?

A11:是的。實(shí)際上,這方面的研究不只是局限于視頻-文本預(yù)訓(xùn)練,還涉及到視頻文本語義檢索。使用何種文本,我們剛才探討的,都是如何在模型或者數(shù)據(jù)的層面,去提高視頻文本與檢索效果。實(shí)際上,還有一個重要的角度是如何構(gòu)建文本,以便文本更能與視頻相關(guān)聯(lián),例如,文本可以來源于視頻的標(biāo)題,比如整個視頻的標(biāo)題,也有可能是視頻的封面描述,還有可能是視頻中對應(yīng)的片段所對應(yīng)的自動語音識別(ASR),或者是視頻中關(guān)鍵幀的光學(xué)字符識別(OCR),這些都有可能與視頻密切相關(guān)。具體實(shí)現(xiàn)還需要考慮具體的業(yè)務(wù)場景,例如,如果您打算嘗試?yán)靡曨l中的文本進(jìn)行視頻檢索,那么 OCR 無疑是必須包含在文本內(nèi)的。

Q12:問 ASR 一般會包含 BGM 一類的噪音是怎么過濾的?是用 Facebook 的庫嗎?

A12:我們所設(shè)計的噪聲過濾模型,一方面,具備 BGM 識別的強(qiáng)大功能,這部分功能已經(jīng)有成熟的開源模型可以使用。另一方面,即使模型未成功過濾掉噪音,其實(shí)也是無妨的,因?yàn)樵撃P偷?BGM 一般為歌詞。對于純音樂類型的 BGM,其實(shí)它的 ASR 并不會輸出任何文本。能夠輸出文本的背景音一般都是歌詞,然而歌詞與視頻內(nèi)容的關(guān)聯(lián)性,通??梢酝ㄟ^訓(xùn)練圖文關(guān)聯(lián)性的模型進(jìn)行調(diào)整,例如類似于中文 clip 這樣的模型就可以將其有效地過濾掉。

Q13:視頻檢索涉及到線上實(shí)時 Infer 嗎?是離線做 T+1 的,還是實(shí)時流的?如果線上實(shí)時 infer 的話,這么大的模型是怎么扛住的?

A13:可以實(shí)時 Infer,以視頻文本語義檢索為例,經(jīng)過有效的訓(xùn)練后,我們可以利用視頻在入庫時,通過訓(xùn)練過的模型,來獲取視頻的整體 embedding。然后,我們便可以將這個 embedding 存儲在向量檢索的數(shù)據(jù)庫中。對于文本檢索來說,通常的方式就是在線查詢文本。我們可以去部署一些較為輕量化的方案,例如,我們將文本方面的模型進(jìn)行輕量化處理,采用量化解釋和增強(qiáng)流等方法,以生產(chǎn)出與視頻部分相匹配的輕量級模型。在實(shí)際檢索中,我們只需要運(yùn)行這個輕量級的模型,實(shí)時提取出文本的表征,接著習(xí)慣于之前已經(jīng)存儲了視頻向量的檢索底層庫,進(jìn)行量化檢索即可。對于檢索來說,有很多可以提升速度的手段,例如基于 faiss 等向量庫實(shí)現(xiàn)實(shí)時的檢索。

Q14:請問你們平常用到的向量數(shù)據(jù)庫是哪個?

A14:我們內(nèi)部使用了一款名為千尋的檢索平臺,這并非開源產(chǎn)品。然而,其實(shí)現(xiàn)原理與我之前所提及的 Facebook 開源的向量檢索數(shù)據(jù)庫 faiss 原理基本相同。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2022-05-27 18:04:49

技術(shù)淘寶

2022-08-11 13:37:41

多模態(tài)算法多模態(tài)網(wǎng)絡(luò)

2024-11-11 15:11:23

2025-01-08 08:21:16

2023-05-28 23:26:16

多模態(tài)機(jī)器學(xué)習(xí)大腦

2024-05-10 06:59:06

2024-12-26 01:20:53

多模態(tài)大模型圖片

2025-03-19 09:30:00

2025-10-23 09:17:30

2024-12-18 18:57:58

2024-11-13 09:39:13

2025-08-05 02:25:00

多模態(tài)大語言模型

2025-10-27 01:11:00

2024-12-12 00:25:09

2023-05-15 12:14:02

ChatGPT語音模型

2024-03-25 12:30:18

AI訓(xùn)練開源

2023-12-22 08:00:00

2024-09-25 16:08:52

2025-10-16 18:07:47

AI模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號