玩轉(zhuǎn)視頻社交,一鍵剪輯視頻,試試谷歌開源框架AutoFlip
我們正常情況是在看高比(16:9或4:3)下觀看視頻,但是隨著越來越多的用戶在移動(dòng)設(shè)備上創(chuàng)建和觀看視頻內(nèi)容,視頻比例也逐漸多樣化,如果用傳統(tǒng)的方法裁剪視頻長寬比,往往很容易出錯(cuò),并且非常耗時(shí)。
前不久,谷歌開源了一個(gè)智能視頻裁剪框架——AutoFlip,該框架基于MediaPipe框架構(gòu)建,你只要輸入你想要的視頻長寬比,AutoFlip 會(huì)分析視頻內(nèi)容并提出一個(gè)優(yōu)化路徑和裁剪策略,最后輸出你要的那段視頻,如下圖所示:
AutoFlip概述
AutoFlip通過使用最新支持ML的目標(biāo)檢測和跟蹤技術(shù)智能處理視頻內(nèi)容,AutoFlip會(huì)檢測表示場景變化的構(gòu)圖變化,以便分離場景進(jìn)行處理。在每個(gè)鏡頭中,視頻分析被用來識(shí)別突出的內(nèi)容之前,場景被重新構(gòu)造通過選擇一個(gè)相機(jī)模式和路徑優(yōu)化的內(nèi)容。

AutoFlip為智能視頻重組提供了一個(gè)全自動(dòng)的解決方案,利用最先進(jìn)的支持ML的對象檢測和跟蹤技術(shù)來智能地理解視頻內(nèi)容。AutoFlip檢測合成中表示場景變化的變化,以便隔離場景進(jìn)行處理。在每個(gè)鏡頭中,視頻分析用于通過選擇針對內(nèi)容優(yōu)化的相機(jī)模式和路徑,在重新構(gòu)圖場景之前識(shí)別重要內(nèi)容。
鏡頭檢測
場景或鏡頭是連續(xù)視頻序列,沒有剪切(或跳躍)。為了檢測鏡頭的變化,AutoFlip計(jì)算每個(gè)幀的色彩值,并將其與先前的幀進(jìn)行比較。如果每幀色值分布變化,則會(huì)發(fā)出鏡頭改變的警告,AutoFlip會(huì)緩沖視頻,直到場景完成后再做重新構(gòu)圖,從而對整個(gè)場景進(jìn)行優(yōu)化。
視頻內(nèi)容分析
AutoFlip利用基于深度學(xué)習(xí)的對象檢測模型來發(fā)現(xiàn)視頻中有趣、突出的內(nèi)容。這些內(nèi)容通常包括人和動(dòng)物,AutoFlip也可以識(shí)別其他元素,包括廣告的文本覆蓋和標(biāo)識(shí),或體育運(yùn)動(dòng)中的球檢測。
人臉和物體檢測模型被集成到AutoFlip through MediaPipe中,它在CPU上使用了TensorFlow Lite。這種結(jié)構(gòu)使得AutoFlip可擴(kuò)展,因此開發(fā)人員可以方便地為不同的示例和視頻內(nèi)容添加新的檢測算法。每種對象類型都與一個(gè)權(quán)重值相關(guān)聯(lián),該值定義了其相對重要性——權(quán)重越高,該特性的影響就越大。
通過AutoFlip,無論你是想要長寬比為16:9還是2.35:1還是1:1,更或者是5:4,都可以很快完成。

目前,AutoFlip已經(jīng)在Github上已經(jīng)標(biāo)星5K,fork共882個(gè)(Github地址:https://github.com/google/mediapipe/blob/master/mediapipe/docs/autoflip.md)






































