【深度學(xué)習(xí)系列】一起來(lái)參加百度 PaddlePaddle AI 大賽吧!
寫(xiě)這個(gè)系列寫(xiě)了兩個(gè)月了,對(duì)paddlepaddle的使用越來(lái)越熟悉,不過(guò)一直沒(méi)找到合適的應(yīng)用場(chǎng)景。最近百度搞了個(gè)AI大賽,據(jù)說(shuō)有四個(gè)賽題,現(xiàn)在是***個(gè)----綜藝節(jié)目精彩片段預(yù)測(cè) ,大家可以去檢測(cè)一下最近的學(xué)習(xí)成果?。∵€有豐厚的獎(jiǎng)金10W元軟妹幣哦!
這是啥比賽?
看比賽的要求,是希望參賽選手使用PaddlePaddle深度學(xué)習(xí)框架、利用BROAD數(shù)據(jù)集、利用K-Lab,著手解決行業(yè)中的真實(shí)問(wèn)題,從而讓AI真正應(yīng)用于行業(yè)、真正服務(wù)于行業(yè)。本次大賽,我們將目光放在電視綜藝行業(yè),希望選手們利用BROAD中全球首創(chuàng)的公開(kāi)精彩片段標(biāo)注數(shù)據(jù)集,幫助電視綜藝的后期剪輯工作者們?cè)诮o定的任一段長(zhǎng)視頻中識(shí)別出“精彩片段”——想為剪輯師們的辛苦工作給予些小小的輔助,別再連續(xù)熬夜啦
詳細(xì)的賽題背景請(qǐng)戳這里!
數(shù)據(jù)集是啥?
在11月百度世界大會(huì) AI 技術(shù)與平臺(tái)論壇上,百度3D視覺(jué)***科學(xué)家楊睿剛就宣布推出了百度 AI 公開(kāi)數(shù)據(jù)集計(jì)劃——BROAD(Baidu Research Open-Access Dataset),并宣布首批室外場(chǎng)景理解、視頻精彩片段、閱讀理解3個(gè)數(shù)據(jù)集即日起對(duì)公眾公開(kāi)。
這些數(shù)據(jù)或是***發(fā)布的,或是目前國(guó)際同類(lèi)型公開(kāi)數(shù)據(jù)集中***的:
- 室外場(chǎng)景理解數(shù)據(jù)集是世界范圍內(nèi)***個(gè)帶像素級(jí)語(yǔ)義標(biāo)簽的室外3D圖像數(shù)據(jù),來(lái)源于百度自動(dòng)駕駛事業(yè)部。該數(shù)據(jù)集試圖將感知能力從物體級(jí)感知升級(jí)到像素級(jí)感知,進(jìn)而了解圖片中所有像素的屬性和來(lái)源,目標(biāo)實(shí)現(xiàn)更精準(zhǔn)、安全的自動(dòng)駕駛。
- 視頻精彩片段數(shù)據(jù)集主要來(lái)源于愛(ài)奇藝。視頻類(lèi)型為綜藝節(jié)目,目前囊括近1500個(gè)長(zhǎng)視頻,視頻總時(shí)長(zhǎng)約1200小時(shí),還從中手動(dòng)收取出18000個(gè)精彩小視頻,同時(shí)能夠提供視頻幀的圖片特征序列,是全球首創(chuàng)的公開(kāi)精彩片段標(biāo)注數(shù)據(jù)集。
- 百度閱讀理解數(shù)據(jù)集 DuReader是迄今為止規(guī)模***的中文公開(kāi)領(lǐng)域閱讀理解數(shù)據(jù)集。數(shù)據(jù)集基于真實(shí)應(yīng)用需求,所有問(wèn)題都來(lái)源于百度搜索用戶(hù)的真實(shí)問(wèn)題,文檔來(lái)自全網(wǎng)真實(shí)采樣的網(wǎng)頁(yè)文檔和百度知道 UGC 文檔,答案基于問(wèn)題與文檔由人工撰寫(xiě)生成。數(shù)據(jù)集標(biāo)注了問(wèn)題類(lèi)型、實(shí)體和觀(guān)點(diǎn)等豐富信息,彌補(bǔ)了現(xiàn)有主流數(shù)據(jù)集對(duì)于觀(guān)點(diǎn)類(lèi)問(wèn)題覆蓋不足的問(wèn)題。首批發(fā)布的閱讀理解數(shù)據(jù)集包含20萬(wàn)問(wèn)題、100萬(wàn)文檔及42萬(wàn)人工撰寫(xiě)的優(yōu)質(zhì)答案,并提供開(kāi)源基線(xiàn)系統(tǒng)。DuReader 將為閱讀理解技術(shù)研究提供有力支撐,希望加速相關(guān)技術(shù)和應(yīng)用的發(fā)展。
在這個(gè)比賽中,我們用的是第二個(gè):視頻精彩片段數(shù)據(jù)集。戳這里可以下載!不過(guò)文件太大了,訓(xùn)練集有97G,驗(yàn)證和測(cè)試各有8,8G,在本機(jī)上做明顯不太現(xiàn)實(shí),所以kesci直接提供了數(shù)據(jù)集,在指定路徑下就可以看到啦。我們可以直接運(yùn)用Kesci的平臺(tái)K-Lab來(lái)進(jìn)行模型訓(xùn)練~大家可以在這里看一下提供的視頻樣例和數(shù)據(jù)集的說(shuō)明~
一個(gè)小tips:大家一定要先報(bào)名,再創(chuàng)建比賽項(xiàng)目才能查看數(shù)據(jù)集哦!不然看不到!親身經(jīng)歷,略坑 - - 而且一定得用PaddlePaddle,會(huì)檢測(cè)你有沒(méi)有用的 - -
如何報(bào)名?
在Kesci官網(wǎng)注冊(cè),然后報(bào)名,就可以啦!提交結(jié)果的時(shí)候要以團(tuán)隊(duì)的名義提交哦!團(tuán)隊(duì)可以是一個(gè)人,也可以組隊(duì),大家可以在比賽的qq群里拉人組隊(duì)哦?。ㄒ?jiàn)比賽介紹)
賽題、日程與獎(jiǎng)項(xiàng)
本次大賽分為兩個(gè)階段。
***比賽階段:2017年12月28日0:00:00--2018年2月4日23:59:59
此階段中,K-Lab使用百度云計(jì)算優(yōu)化型CPU,4核8GB內(nèi)存。K-Lab單次運(yùn)行時(shí)長(zhǎng)為3小時(shí)。
任務(wù):
訓(xùn)練:使用已抽取的約10%的視頻數(shù)據(jù)訓(xùn)練集(共124個(gè)視頻),學(xué)習(xí)視頻幀的圖片特征序列數(shù)據(jù),在K-Lab中訓(xùn)練精彩片段檢測(cè)模型。
驗(yàn)證:使用驗(yàn)證集的數(shù)據(jù)與開(kāi)放的測(cè)評(píng)腳本K-Lab,評(píng)價(jià)訓(xùn)練好的模型在驗(yàn)證集視頻上的預(yù)測(cè)結(jié)果。
輸出結(jié)果:對(duì)測(cè)試集中的視頻使用訓(xùn)練好的模型,得出預(yù)測(cè)結(jié)果,通過(guò)K-Lab上傳結(jié)果到測(cè)評(píng)系統(tǒng)得到評(píng)價(jià)分?jǐn)?shù)。
2018年1月14日23:59:59,***比賽階段中期截止,分?jǐn)?shù)排名***的隊(duì)伍獲得鼓勵(lì)獎(jiǎng)。
2018年1月15日0:00:00起,用戶(hù)通過(guò)K-Lab上傳結(jié)果的同時(shí)也需上傳K-Lab notebook報(bào)告。
2018年2月4日23:59:59,***比賽階段截止,且報(bào)名截止。選拔使用了PaddlePaddle訓(xùn)練模型且上傳了K-Lab notebook報(bào)告的隊(duì)伍中,分?jǐn)?shù)前50名的隊(duì)伍晉級(jí)到第二比賽階段。
第二比賽階段:2018年2月9日0:00:00--2018年3月15日23:59:59
此階段中,K-Lab的配置為GPU(百度免費(fèi)提供的英偉達(dá)深度學(xué)習(xí)開(kāi)發(fā)卡,CPU:6核40GB),單次運(yùn)行時(shí)長(zhǎng)為3小時(shí)。選手無(wú)需任何申請(qǐng)或安裝,直接打開(kāi)K-Lab在其中使用即可。
任務(wù):
訓(xùn)練:選手必須使用PaddlePaddle訓(xùn)練模型,使用全量視頻數(shù)據(jù)訓(xùn)練集(共1262個(gè)視頻),學(xué)習(xí)視頻幀的圖片特征序列數(shù)據(jù),在K-Lab中訓(xùn)練精彩片段檢測(cè)模型。
驗(yàn)證:使用驗(yàn)證集的所有數(shù)據(jù)與開(kāi)放的測(cè)評(píng)腳本K-Lab,評(píng)價(jià)訓(xùn)練好的模型在驗(yàn)證集視頻上的預(yù)測(cè)結(jié)果。
輸出結(jié)果:對(duì)測(cè)試集中的所有視頻使用訓(xùn)練好的模型,得出預(yù)測(cè)結(jié)果,通過(guò)K-Lab上傳結(jié)果與K-Lab notebook報(bào)告到測(cè)評(píng)系統(tǒng)得到評(píng)價(jià)分?jǐn)?shù)。
2018年2月25日23:59:59,第二比賽階段中期截止,分?jǐn)?shù)排名***的隊(duì)伍獲得鼓勵(lì)獎(jiǎng)。
2018年3月15日23:59:59,第二比賽階段截止,百度專(zhuān)家對(duì)分?jǐn)?shù)排名前10名的隊(duì)伍評(píng)審K-Lab notebook報(bào)告,評(píng)選出一名一等獎(jiǎng)(5萬(wàn)人民幣),2名二等獎(jiǎng)(各2萬(wàn)人民幣),3名三等獎(jiǎng)(各3千人民幣)。
寫(xiě)在***
其實(shí)剛看到這個(gè)題目的時(shí)候覺(jué)得有點(diǎn)難,因?yàn)檫@個(gè)屬于比較新的領(lǐng)域,時(shí)序視頻檢測(cè)這個(gè)方向大家可以多搜搜論文,看看別人怎么實(shí)現(xiàn)的,先試著用最簡(jiǎn)單的方法做一下。不太建議完全不懂機(jī)器學(xué)習(xí)的人報(bào)名,小白可以先參加一些基礎(chǔ)的練練手,如果對(duì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)有些了解的可以報(bào)名試試看。目前排名***的大神已經(jīng)開(kāi)放了隨機(jī)測(cè)試的視頻,大家可以先用這個(gè)代碼跑一下,看看提交的格式是啥樣的。不管怎么說(shuō),重在參與啦~我也報(bào)名啦,大家一起來(lái)玩啊~而且看到有好幾個(gè)大佬也參賽了,大家參與一下,體驗(yàn)一下就好哈哈。后續(xù)還有nlp、安防領(lǐng)域的,可以這次先練練手,后面的也參加挑戰(zhàn)一下^_^!