Facebook開源算法代碼庫PySlowFast,輕松復(fù)現(xiàn)前沿視頻理解模型
在近些年的視頻理解研究中,F(xiàn)acebook AI Research 貢獻(xiàn)了許多精彩的工作。近日,F(xiàn)AIR視頻團(tuán)隊(duì)在 ICCV 相關(guān)研討會(huì)上開源了視頻識別檢測代碼庫 PySlowFast,并同時(shí)發(fā)布了預(yù)訓(xùn)練的模型庫。同時(shí),該團(tuán)隊(duì)表示,他們還將實(shí)時(shí)將他們的前沿工作添加至此代碼庫。

- 項(xiàng)目地址:https://github.com/facebookresearch/SlowFast
 - Tutorial 地址(附 PPTT 資源):https://alexanderkirillov.github.io/tutorials/visual-recognition-iccv19/
 
視頻與動(dòng)作理解儼然已成為當(dāng)今最火熱的研究方向之一,然而在開源社區(qū)中找到一個(gè)簡潔、高效、易于修改的視頻理解代碼庫仍不是一件簡單的事情。更重要的是,復(fù)現(xiàn)當(dāng)今前沿的 (state-of-the-art) 的深度學(xué)習(xí)模型一直是一件令研究者頭疼的事情。
這些視頻理解模型往往動(dòng)輒幾十 GFlops,需要訓(xùn)練數(shù)天,而復(fù)現(xiàn)出一個(gè)模型需要反復(fù)的實(shí)驗(yàn)調(diào)參,讓每個(gè)細(xì)節(jié)都正確。這往往會(huì)耗費(fèi)大量的時(shí)間和資源,讓很多研究者望而卻步。

Facebook AI Research 在 CVPR、ICCV 等國際會(huì)議發(fā)布了眾多研究工作,并贏得了 CVPR 2019 行為檢測挑戰(zhàn)賽的冠軍。而后,在今年的 ICCV 上,F(xiàn)AIR 推出了他們的視頻理解代碼庫:PySlowFast。
PySlowfast 是一個(gè)基于 PyTorch 的代碼庫,讓研究者可以輕而易舉地復(fù)現(xiàn)從基礎(chǔ)至前沿的視頻識別 (Video Classification) 和行為檢測 (Action Detection) 算法。
不但如此,PySlowFast 代碼庫同時(shí)開源了大量預(yù)訓(xùn)練模型 (pretrain models),讓研究者省去了反復(fù)訓(xùn)練模型的煩惱,可以直接使用 FAIR 預(yù)訓(xùn)練的前沿 (cutting edge performance) 模型。
pySlowFast開源的模型的可視化檢測結(jié)果
自開源后,PySlowFast 就一度蟬聯(lián) GitHub 趨勢榜前十。以下對此開源項(xiàng)目進(jìn)行了簡要介紹。
根據(jù)研討會(huì)教程和開源代碼庫信息,PySlowFast 既提供視頻理解基線(baseline)模型,還提供了當(dāng)今前沿的視頻理解算法復(fù)現(xiàn)。其算法不單單囊括視頻視頻(video classification),同時(shí)也包括行為檢測(Action Classification)算法。
與當(dāng)今開源社區(qū)中各種視頻識別庫復(fù)現(xiàn)出參差不齊的性能相比,使用 PySlowFast 可輕而易舉地復(fù)現(xiàn)出當(dāng)今前沿的模型。
視頻識別(Kinetics)

表 1:PySlowFast 在視頻分類數(shù)據(jù)庫 Kinetics 400 上的性能)(節(jié)選自 https://github.com/facebookresearch/SlowFast/blob/master/MODEL_ZOO.md)
PySlowFast 不單單可以用于視頻分類,同時(shí)也可用于視頻理解,并提供贏得了 2019 年 CVPR ActivityNet Challenge Winner 的視頻檢測模型。
行為檢測(AVA)

此外,PySlowFast 預(yù)留了接口,可通過簡單的編輯支持多模態(tài)視頻理解、視頻自監(jiān)督學(xué)習(xí)等等任務(wù)。該團(tuán)隊(duì)稱,PySlowFast 將被積極維護(hù),實(shí)時(shí)更新其團(tuán)隊(duì)和業(yè)界的前沿算法,同開源其預(yù)訓(xùn)練模型,使代碼庫成為視頻理解領(lǐng)域的基線標(biāo)桿。
通過以下教程,讀者們可以簡單試用下 PySlowFast 代碼庫。在完成安裝后,通過下載 MODEL_ZOO 提供的預(yù)訓(xùn)練模型和相應(yīng)的配置文件,運(yùn)行如下代碼,就可以測試(Test)模型在不同視頻數(shù)據(jù)庫上的性能:
- python tools/run_net.py
 - --cfg configs/Kinetics/C2D_8x8_R50.yaml
 - DATA.PATH_TO_DATA_DIR path_to_your_dataset
 - NUM_GPUS 2
 
我們可以發(fā)現(xiàn),通過此代碼庫可以輕易復(fù)現(xiàn)出前沿的高性能模型,同時(shí)讀者們也可以嘗試通過簡單的修改來實(shí)現(xiàn)自己的模型,并用多臺 GPU 進(jìn)行訓(xùn)練得到前沿的性能。
 

















 
 
 










 
 
 
 