偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

深度學(xué)習(xí)中圖片數(shù)據(jù)庫的網(wǎng)絡(luò)爬取與數(shù)據(jù)清洗

原創(chuàng)
新聞
隨著大量的訓(xùn)練數(shù)據(jù)以及深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的推動,人臉識別或者是其他物體識別幾乎比得上人的肉眼識別。利用一些獨(dú)有的大規(guī)模訓(xùn)練數(shù)據(jù)集,一些研究團(tuán)體在LFW或其他人臉數(shù)據(jù)集上取得了相當(dāng)好的表現(xiàn),達(dá)到了97%-99%的準(zhǔn)確率。越來越多開源的卷積神經(jīng)網(wǎng)絡(luò)框架已經(jīng)不斷涌現(xiàn)出來,也有相應(yīng)的很多人臉數(shù)據(jù)庫,包含了大量的人臉圖片數(shù)據(jù)。

51CTO學(xué)院IT課程1折起秒殺,12月12日0點(diǎn)萬人秒殺準(zhǔn)時開啟,我是51CTO學(xué)院深度學(xué)習(xí)課程講師浦深,跟大家分享一些個人經(jīng)驗。

在當(dāng)前深度學(xué)習(xí)之下,隨著大量的訓(xùn)練數(shù)據(jù)以及深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的推動,人臉識別或者是其他物體識別幾乎比得上人的肉眼識別。利用一些獨(dú)有的大規(guī)模訓(xùn)練數(shù)據(jù)集,一些研究團(tuán)體在LFW或其他人臉數(shù)據(jù)集上取得了相當(dāng)好的表現(xiàn),達(dá)到了97%-99%的準(zhǔn)確率。越來越多開源的卷積神經(jīng)網(wǎng)絡(luò)框架已經(jīng)不斷涌現(xiàn)出來,比如 Caffe、Theano、TensorFlow等,也有相應(yīng)的很多人臉數(shù)據(jù)庫,比如WebFace、FDDB、YouTubeFace、MultiPIE等等,包含了大量的人臉圖片數(shù)據(jù),情況看起來似乎很良好,卷積神經(jīng)網(wǎng)絡(luò)框架有了,大規(guī)模數(shù)據(jù)也有了,加上各種物體檢測算法Rcnn、FastRcnn、FasterRcnn、Ssd等,仿佛可以不費(fèi)吹灰之力訓(xùn)練得到一個表現(xiàn)良好的模型,然而,事實并非如此,請看下圖:

我們從某個數(shù)據(jù)庫下載下來的,一個名為jack的個人圖片數(shù)據(jù),可以看到,很多都不是同一個人的,當(dāng)然,最重要的是這樣混亂的個人圖片文件夾還不在少數(shù)!這樣的訓(xùn)練集是很難訓(xùn)練出另一個好的模型的。所以,當(dāng)下的情況是:深度學(xué)習(xí)工程應(yīng)用領(lǐng)域,數(shù)據(jù)比算法更重要!!!

上圖所舉的例子是圖片質(zhì)量比較差的情況,我們來看一個比較好的情況:

盡管說情況比較良好,但仍然夾雜著一些非本人的圖片數(shù)據(jù)。

往下,我們來看看圖片數(shù)據(jù)庫是如何產(chǎn)生的,以及如何處理大規(guī)模圖片數(shù)據(jù)集中的噪聲,比如:在一個***別的數(shù)據(jù)集中去掉像***張圖那樣混亂的個人數(shù)據(jù)文件夾、去除質(zhì)量相對較好的個人圖片數(shù)據(jù)中非本人的圖片數(shù)據(jù)。

圖片數(shù)據(jù)庫的產(chǎn)生(以人臉數(shù)據(jù)為例)

人臉識別數(shù)據(jù)集只需要兩種數(shù)據(jù):人臉圖片和身份標(biāo)簽,隨機(jī)地從網(wǎng)絡(luò)上抓取圖片并且標(biāo)注它們,是一個幾乎不可能的任務(wù)。我們這邊介紹一個結(jié)構(gòu)非常良好的網(wǎng)站IMDb,這個網(wǎng)站包含了人物的信息,包括名字、年齡、性別、生日以及個人照片。我們來看下:

可以直接搜索人物名字,比如我們搜索Ben Foster ,結(jié)果如下所示:

結(jié)果中包含該人物的多種信息:人名、生日、個人圖片等等。你可以根據(jù)人名搜索每個人的數(shù)據(jù),每個人物在網(wǎng)站上都有一個獨(dú)立的頁面,我們通過一個人臉檢測器,可以自己訓(xùn)練一個淺層全卷積神經(jīng)網(wǎng)絡(luò)來處理,這個淺層網(wǎng)絡(luò)的設(shè)計非常重要,因為在這個環(huán)節(jié)中,我們對圖片處理的速度要求是比較高的,具體的網(wǎng)絡(luò)設(shè)計及訓(xùn)練可以參考我的視頻教程(http://edu.51cto.com/course/course_id-7650.html)通過這個人臉檢測器,把所有圖片中包含人臉的圖片收集到本地數(shù)據(jù)庫中。

這個階段的數(shù)據(jù)還不能夠用來訓(xùn)練,我們需要標(biāo)注每張人臉圖片所屬的人名。我們可以看到,有寫圖片當(dāng)中包含的不僅僅一張人臉,也包含了不同人物的人臉,我們的任務(wù)是對每一張人臉進(jìn)行標(biāo)注并且要把這些非本人的人臉劃分到他們各自的文件夾里頭。這個該如何處理?看如下這張圖:

每張圖片底下都包含著每個人物的名字,我們可以根據(jù)這個標(biāo)簽來進(jìn)行處理,因為這個環(huán)節(jié)是對人名進(jìn)行搜索,而每個人物的名字均來自于影片中的名字,極有可能出現(xiàn)同名不同人的情況,這也是造成我們獲取到的人臉數(shù)據(jù)庫質(zhì)量不好的主要原因!

好了,問題出現(xiàn)總是需要解決的,我們要處理的問題有兩個:1.去掉混亂程度較高的人物及其數(shù)據(jù);2.去掉圖片質(zhì)量相對較好的圖片中非人臉數(shù)據(jù)以及非本人的人臉數(shù)據(jù)。

我們可以這樣來處理:在訓(xùn)練好的經(jīng)典的分類網(wǎng)絡(luò),比如VGG,GOOGLENET等上進(jìn)行微調(diào)訓(xùn)練,這個環(huán)節(jié)中重點(diǎn)是訓(xùn)練數(shù)據(jù),數(shù)據(jù)來源可以選擇一些質(zhì)量較好的人臉數(shù)據(jù)庫,加上適當(dāng)?shù)娜斯ずY選效果更佳!那這個訓(xùn)練的網(wǎng)絡(luò)作用是什么?是用來提取每張圖片的特征,對吧!每張圖片用一行向量去表示。那一張圖片該用多少維度的向量去表示?這邊的維度指的是:比如pic1=[1,2,3,4],指的是4個維度,即用4個數(shù)據(jù)來表示一張圖片,然而實際的工程應(yīng)用當(dāng)中,向量的維度應(yīng)該取多少合適?假設(shè)我們已經(jīng)取得一個合適的維度,也對應(yīng)修改好了相應(yīng)的訓(xùn)練網(wǎng)絡(luò),并且提取好了每張圖片的向量,對于***個要處理的問題(去掉圖片質(zhì)量相對較好的圖片中非人臉數(shù)據(jù)以及非本人的人臉數(shù)據(jù)),因為圖片的質(zhì)量較好,可以取這個人的所有圖片的向量的平均值來代表這個人物的特征,然后這個人的所有圖片的特征值跟其對應(yīng)的平均值求距離,設(shè)置一個閾值,把跟平均特征值距離遠(yuǎn)的圖片過濾掉即可!

然而對于第二個問題(去掉混亂程度較高的人物及其數(shù)據(jù)),由于圖片混亂程度相對較高,此時的平均特征值已經(jīng)無法代表這個人了,此時,用解決上一個問題的方法已經(jīng)不奏效了!!!該如何處理?

關(guān)于***種問題的處理方法在我的深度學(xué)習(xí)視頻課程里頭已經(jīng)做了相應(yīng)的講解與示例,包括特征的提取等基本操作均已詳細(xì)進(jìn)行了說明。關(guān)于第二個問題的解決方案及其相應(yīng)的算法編寫、工程經(jīng)驗等都將會陸續(xù)在課程中進(jìn)行補(bǔ)充!

我的課程是用Windows的版本進(jìn)行演示,其實,不管是在Linux下或者Windows下,僅僅編譯的時候有些區(qū)別,而對于caffe的使用基本上是一致的,請大家放心,Windows下用VS2013的開發(fā)環(huán)境會更友好一些,比如在課程中我也將會帶大家一起修改caffe的源碼來滿足lmdb的多標(biāo)簽輸入的要求,在Windows下顯得更方便,當(dāng)然也可在Windows下更改后,再把工程拷貝到Linux下進(jìn)行編譯。

歡迎大家報名學(xué)習(xí)我的視頻課程:http://edu.51cto.com/course/course_id-7650.html

 

責(zé)任編輯:龐桂玉 來源: 51CTO.com
相關(guān)推薦

2017-04-06 22:19:15

2009-06-30 09:16:45

數(shù)據(jù)庫存儲JSP文件

2016-04-12 17:12:29

機(jī)器學(xué)習(xí)數(shù)據(jù)清洗美團(tuán)

2013-03-20 16:23:53

數(shù)據(jù)清洗

2011-07-21 17:29:42

iPhone Sqlite 數(shù)據(jù)庫

2011-08-10 15:46:29

數(shù)據(jù)庫

2019-04-04 09:00:00

網(wǎng)絡(luò)爬取庫與工具

2009-05-08 09:17:48

動態(tài)數(shù)據(jù)庫圖片

2011-05-13 13:38:49

數(shù)據(jù)庫對象

2010-08-18 13:49:01

DB2數(shù)據(jù)庫

2017-07-25 15:21:42

數(shù)據(jù)挖掘深度學(xué)習(xí)模型

2011-08-11 17:00:33

iPhone數(shù)據(jù)庫SQLite

2011-08-23 15:16:54

OracleMySQL

2009-07-31 13:52:26

ASP.NET數(shù)據(jù)庫圖

2009-07-16 09:48:29

數(shù)據(jù)庫連接

2010-05-21 10:01:11

MySQL數(shù)據(jù)庫

2011-07-01 10:03:52

QT 數(shù)據(jù)庫

2011-08-29 14:44:56

DBLINK

2017-05-02 11:47:17

深度學(xué)習(xí)AI

2011-08-30 12:59:52

Qt數(shù)據(jù)庫
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號