一句話精準視頻片段定位!清華新方法拿下SOTA|已開源
只需一句話描述,就能在一大段視頻中定位到對應(yīng)片段!
比如描述“一個人一邊下樓梯一邊喝水”,通過視頻畫面和腳步聲的匹配,新方法一下子就能揪出對應(yīng)起止時間戳:
就連“大笑”這種語義難理解型的,也能準確定位:
方法名為自適應(yīng)雙分支促進網(wǎng)絡(luò)(ADPN),由清華大學(xué)研究團隊提出。
具體來說,ADPN是用來完成一個叫做視頻片段定位(Temporal Sentence Grounding,TSG)的視覺-語言跨模態(tài)任務(wù),也就是根據(jù)查詢文本從視頻中定位到相關(guān)片段。
ADPN的特點在于能夠高效利用視頻中視覺和音頻模態(tài)的一致性與互補性來增強視頻片段定位性能。
相較其他利用音頻的TSG工作PMI-LOC、UMT,ADPN方法從音頻模態(tài)獲取了更顯著地性能提升,多項測試拿下新SOTA。
目前該工作已經(jīng)被ACM Multimedia 2023接收,且已完全開源。
一起來看看ADPN究竟是個啥~
一句話定位視頻片段
視頻片段定位(Temporal Sentence Grounding,TSG)是一項重要的視覺-語言跨模態(tài)任務(wù)。
它的目的是根據(jù)自然語言查詢,在一個未剪輯的視頻中找到與之語義匹配的片段的起止時間戳,它要求方法具備較強的時序跨模態(tài)推理能力。
然而,大多數(shù)現(xiàn)有的TSG方法只考慮了視頻中的視覺信息,如RGB、光流(optical flows)、深度(depth)等,而忽略了視頻中天然伴隨的音頻信息。
音頻信息往往包含豐富的語義,并且與視覺信息存在一致性和互補性,如下圖所示,這些性質(zhì)會有助于TSG任務(wù)。
△圖1
(a)一致性:視頻畫面和腳步聲一致地匹配了查詢中的“走下樓梯”的語義;(b)互補性:視頻畫面難以識別出特定行為來定位查詢中的“笑”的語義,但是笑聲的出現(xiàn)提供了強有力的互補定位線索。
因此研究人員深入研究了音頻增強的視頻片段定位任務(wù)(Audio-enhanced Temporal Sentence Grounding,ATSG),旨在更優(yōu)地從視覺與音頻兩種模態(tài)中捕獲定位線索,然而音頻模態(tài)的引入也帶來了如下挑戰(zhàn):
- 音頻和視覺模態(tài)的一致性和互補性是與查詢文本相關(guān)聯(lián)的,因此捕獲視聽一致性與互補性需要建模文本-視覺-音頻三模態(tài)的交互。
- 音頻和視覺間存在顯著的模態(tài)差異,兩者的信息密度和噪聲強度不同,這會影響視聽學(xué)習(xí)的性能。
為了解決上述挑戰(zhàn),研究人員提出了一種新穎的ATSG方法“自適應(yīng)雙分支促進網(wǎng)絡(luò)”(Adaptive Dual-branch Prompted Network,ADPN)。
通過一種雙分支的模型結(jié)構(gòu)設(shè)計,該方法能夠自適應(yīng)地建模音頻和視覺之間的一致性和互補性,并利用一種基于課程學(xué)習(xí)的去噪優(yōu)化策略進一步消除音頻模態(tài)噪聲的干擾,揭示了音頻信號對于視頻檢索的重要性。
ADPN的總體結(jié)構(gòu)如下圖所示:
△圖2:自適應(yīng)雙分支促進網(wǎng)絡(luò)(ADPN)總體示意圖
它主要包含三個設(shè)計:
1、雙分支網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計
考慮到音頻的噪聲更加明顯,且對于TSG任務(wù)而言,音頻通常存在更多冗余信息,因此音頻和視覺模態(tài)的學(xué)習(xí)過程需要賦予不同的重要性,因此本文涉及了一個雙分支的網(wǎng)絡(luò)結(jié)構(gòu),在利用音頻和視覺進行多模態(tài)學(xué)習(xí)的同時,對視覺信息進行強化。
具體地,參見圖2(a),ADPN同時訓(xùn)練一個只使用視覺信息的分支(視覺分支)和一個同時使用視覺信息和音頻信息的分支(聯(lián)合分支)。
兩個分支擁有相似的結(jié)構(gòu),其中聯(lián)合分支增加了一個文本引導(dǎo)的線索挖掘單元(TGCM)建模文本-視覺-音頻模態(tài)交互。訓(xùn)練過程兩個分支同時更新參數(shù),推理階段使用聯(lián)合分支的結(jié)果作為模型預(yù)測結(jié)果。
2、文本引導(dǎo)的線索挖掘單元(Text-Guided Clues Miner,TGCM)
考慮到音頻與視覺模態(tài)的一致性與互補性是以給定的文本查詢作為條件的,因此研究人員設(shè)計了TGCM單元建模文本-視覺-音頻三模態(tài)間的交互。
參考圖2(b),TGCM分為”提取“和”傳播“兩個步驟。
首先以文本作為查詢條件,從視覺和音頻兩種模態(tài)中提取關(guān)聯(lián)的信息并集成;然后再以視覺與音頻各自模態(tài)作為查詢條件,將集成的信息通過注意力傳播到視覺與音頻各自的模態(tài),最終再通過FFN進行特征融合。
3、課程學(xué)習(xí)優(yōu)化策略
研究人員觀察到音頻中含有噪聲,這會影響多模態(tài)學(xué)習(xí)的效果,于是他們將噪聲的強度作為樣本難度的參考,引入課程學(xué)習(xí)(Curriculum Learning,CL)對優(yōu)化過程進行去噪,參考圖2(c)。
他們根據(jù)兩個分支的預(yù)測輸出差異來評估樣本的難度,認為過于難的樣本大概率表示其音頻含有過多的噪聲而不適于TSG任務(wù),于是根據(jù)樣本難度的評估分數(shù)對訓(xùn)練過程的損失函數(shù)項進行重加權(quán),旨在丟棄音頻的噪聲引起的不良梯度。
(其余的模型結(jié)構(gòu)與訓(xùn)練細節(jié)請參考原文。)
多項測試新SOTA
研究人員在TSG任務(wù)的benchmark數(shù)據(jù)集Charades-STA和ActivityNet Captions上進行實驗評估,與baseline方法的比較如表1所示。
ADPN方法能夠取得SOTA性能;特別地,相較其他利用音頻的TSG工作PMI-LOC、UMT,ADPN方法從音頻模態(tài)獲取了更顯著地性能提升,說明了ADPN方法利用音頻模態(tài)促進TSG的優(yōu)越性。
△表1:Charades-STA與ActivityNet Captions上實驗結(jié)果
研究人員進一步通過消融實驗展示了ADPN中不同的設(shè)計單元的有效性,如表2所示。
△表2:Charades-STA上消融實驗
研究人員選取了一些樣本的預(yù)測結(jié)果進行了可視化,并且繪制了TGCM中”提取“步驟中的”文本 to 視覺“(T→V)和”文本 to 音頻“(T→A)注意力權(quán)重分布,如圖3所示。
可以觀察到音頻模態(tài)的引入改善了預(yù)測結(jié)果。從“Person laughs at it”的案例中,可以看到T→A的注意力權(quán)重分布更接近Ground Truth,糾正了T→V的權(quán)重分布對模型預(yù)測的錯誤引導(dǎo)。
△圖3:案例展示
總的來說,本文研究人員提出了一種新穎的自適應(yīng)雙分支促進網(wǎng)絡(luò)(ADPN)來解決音頻增強的視頻片段定位(ATSG)問題。
他們設(shè)計了一個雙分支的模型結(jié)構(gòu),聯(lián)合訓(xùn)練視覺分支和視聽聯(lián)合分支,以解決音頻和視覺模態(tài)之間的信息差異。
他們還提出了一種文本引導(dǎo)的線索挖掘單元(TGCM),用文本語義作為指導(dǎo)來建模文本-音頻-視覺交互。
最后,研究人員設(shè)計了一種基于課程學(xué)習(xí)的優(yōu)化策略來進一步消除音頻噪音,以自感知的方式評估樣本難度作為噪音強度的度量,并自適應(yīng)地調(diào)整優(yōu)化過程。
他們首先在ATSG中深入研究了音頻的特性,更好地提升了音頻模態(tài)對性能的提升作用。
未來,他們希望為ATSG構(gòu)建更合適的評估基準,以鼓勵在這一領(lǐng)域進行更深入的研究。
論文鏈接:https://dl.acm.org/doi/pdf/10.1145/3581783.3612504
倉庫鏈接:https://github.com/hlchen23/ADPN-MM