偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ol id="y1qzx"></ol>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

打架識別，基于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的視頻分類任務(wù)

作者：渡碼 2023-03-03 08:17:28

對于視頻分類任務(wù)，不需要Decoder?網(wǎng)絡(luò)，用多頭自注意力模型?搭建一個 Encoder網(wǎng)絡(luò)即可。

哈嘍，大家好。

今天給大家分享AI項目——打架識別。

使用的技術(shù)跟我們上次分享的摔倒識別不同，摔倒識別使用的是基于骨骼點的時空卷積神經(jīng)網(wǎng)絡(luò)，適用于人體骨骼行為，而這次分享的打架識別使用的是循環(huán)神經(jīng)網(wǎng)絡(luò)RNN，可以實現(xiàn)更通用的視頻分類任務(wù)。

當(dāng)然也可以用Vision Transformer，文中也有介紹。

代碼已經(jīng)打包好了，獲取方式見評論區(qū)。

1. 整體思路

視頻其實就是某種行為的連續(xù)序列，因此要使用序列模型處理，循環(huán)神經(jīng)網(wǎng)絡(luò)RNN就是序列模型。

RNN最初應(yīng)用在自然語言處理中，如：根據(jù)輸入詞，判斷下一次詞的概率

模型為了讀懂每個詞代表的含義，模型會把每個詞用n維向量表示，這個過程其實就是word embedding。

按照這個思路，一段視頻其實就是一句話，視頻里每張畫面就是一個詞，同樣地，我們也可以用卷機神經(jīng)網(wǎng)絡(luò)將每張圖映射成n維向量。

所以，我們就可以訓(xùn)練一個RNN模型，將表示視頻的n維向量送入RNN模型，讓他輸出視頻類別的概率。

現(xiàn)在比較流行的RNN模型有LSTM、GRU，本文使用的是GRU。

2. 數(shù)據(jù)集

打架的開源數(shù)據(jù)集有很多，如：fight-detection-surv-dataset、A-Dataset-for-Automatic-Violence-Detection-in-Videos和UBI_FIGHTS等等。

我使用的是fight-detection-surv-dataset數(shù)據(jù)集，包括 150 個打架視頻和 150 個正常視頻。

數(shù)據(jù)集很小，訓(xùn)練的時候很容易過擬合，精度只有 70%。但思路和代碼都是可以復(fù)用的。

大家做的時候可以換成大的數(shù)據(jù)集，比如：ucf數(shù)據(jù)，包含很多動作視頻

ucf50數(shù)據(jù)集

我用這個數(shù)據(jù)集訓(xùn)練過 GRU 和 Transformer模型，效果還可以。

3. 提取視頻特征

接下來，我們要做的就是提取視頻特征，將視頻中每張畫面映射成n維向量。

使用InceptionResNetV2網(wǎng)絡(luò)，輸入一張圖片，輸出的是 1536 維向量。

def video_feat_extractor():
    inception_resnetv2 =  InceptionResNetV2(
      include_top=False, 
      weights='imagenet', 
      pooling='avg', 
      input_shape=(IMAGE_SIZE, IMAGE_SIZE, 3))
    
    inputs = tf.keras.Input(shape=(IMAGE_SIZE, IMAGE_SIZE, 3))
    inputs_preprocessed = preprocess_input(inputs)
    outputs = inception_resnetv2(inputs_preprocessed)
    
    return tf.keras.Model(inputs, outputs, name='video_feat_extractor')

這樣，詞向量就已經(jīng)有了。然后再抽取每個視頻的前20幀，組成一個句子。

MAX_FRAMES = 20
video_feat_extractor_model = video_feat_extractor()

# 取前MAX_FRAMES幀
frames = frames[:MAX_FRAMES]
# 計算視頻特征
video_feat = video_feat_extractor_model(frames)
dataset_feats.append(video_feat)

dataset_feats是20 * 1536的向量。

這樣，我們就將一個視頻用向量形式表示出來了。

4. 循環(huán)神經(jīng)網(wǎng)絡(luò)

GRU是LSTM的一個變種

模型搭建也比較簡單。

model = keras.Sequential([
        layers.InputLayer(input_shape=(MAX_FRAMES, FRAME_FEAT_LEN)),
        
        layers.GRU(4, return_sequences=False),
        layers.Dropout(0.1),
        layers.Dense(class_num, activatinotallow='softmax')
    ])

GRU超參數(shù) 4 代表 4 個 unit，即：模型輸出向量長度是 4，大家如果做其他分類任務(wù)，可以嘗試調(diào)整該值。

編譯模型

model.compile(optimizer=optimizers.Adam(0.0001), 
                loss='sparse_categorical_crossentropy', 
                metrics=['accuracy'])

這是個多分類任務(wù)，因此損失函數(shù)使用sparse_categorical_crossentropy。

接著就可以訓(xùn)練模型了，模型在訓(xùn)練集和測試集精度如下：

5. vision transformer

同樣的，我們也可以用流行的Transformer來訓(xùn)練視頻分類模型

對于視頻分類任務(wù)，不需要Decoder網(wǎng)絡(luò)，用多頭自注意力模型搭建一個 Encoder網(wǎng)絡(luò)即可。

關(guān)于vision transformer后續(xù)有機會的話我會專門分享一個項目，這次代碼以GRU為主。

責(zé)任編輯：武曉燕來源：渡碼

神經(jīng)網(wǎng)絡(luò)RNN 網(wǎng)絡(luò)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="h24rr"></blockquote>