ML能用上的實(shí)用數(shù)據(jù)集
機(jī)器學(xué)習(xí)數(shù)據(jù)集
機(jī)器學(xué)習(xí)中重要的一步是創(chuàng)建或?qū)ふ液线m的數(shù)據(jù)來(lái)訓(xùn)練和檢驗(yàn)算法。使用好的數(shù)據(jù)集可以幫助你規(guī)避或發(fā)現(xiàn)算法中的錯(cuò)誤,改善程序的結(jié)果。在多數(shù)情況下,創(chuàng)建自己的數(shù)據(jù)集是一件費(fèi)時(shí)的事。本文會(huì)向介紹一些有用的數(shù)據(jù)集,用于文本分類和圖像分類問(wèn)題。
文本分類
本節(jié)將介紹一些用于普通文本分類任務(wù)的數(shù)據(jù)集,如垃圾信息檢測(cè)、情感分析和文檔主題分類。
• 垃圾信息 – 非垃圾信息
垃圾信息過(guò)濾任務(wù)在文本分類中很常見(jiàn),因此,用于這類任務(wù)的數(shù)據(jù)集很多。
SMS 垃圾短信語(yǔ)料庫(kù)
SMS 垃圾短信語(yǔ)料庫(kù)由兩類文本信息組成,每個(gè)短信都被標(biāo)記為垃圾信息或正常信息。這個(gè)數(shù)據(jù)集有大(1002條正常信息,322條垃圾信息)、小(1002條正常信息,82條垃圾信息)兩種版本可下載。
Enron 數(shù)據(jù)集
如果想研究垃圾電子郵件過(guò)濾,你可能會(huì)對(duì) Enron 數(shù)據(jù)集感興趣,該數(shù)據(jù)集收集了成千上萬(wàn)的郵件,都被分為垃圾郵件和正常郵件。有未處理和經(jīng)過(guò)預(yù)處理的版本可供下載。
其它你可能會(huì)感興趣的垃圾郵件分類的數(shù)據(jù)集有:SpamAssassin 公共郵件語(yǔ)料庫(kù)、TREC 公共垃圾郵件語(yǔ)料庫(kù) 、Spambase 數(shù)據(jù)集。
• 情感分析
可通過(guò)機(jī)器學(xué)習(xí)解決的另一個(gè)任務(wù)是文本情感分析,其中一個(gè)例子就是判斷文本對(duì)某個(gè)主題陳述的是支持意見(jiàn)還是反對(duì)意見(jiàn)。
Twitter 情感分析訓(xùn)練語(yǔ)料庫(kù)
如果你對(duì)推文(tweet)的情感分類感興趣,Twitter 情感分析訓(xùn)練語(yǔ)料庫(kù)可能是你需要的。它由超過(guò) 100 萬(wàn)條 tweets 組成,存于一個(gè) .csv 文件中,每條語(yǔ)料都被標(biāo)記為支持(1)或反對(duì)(0)。
影評(píng)數(shù)據(jù)集
影評(píng)數(shù)據(jù)集包含更復(fù)雜的文本,收集了 1,000 條正面影評(píng)和 1,000 條負(fù)面影評(píng),未處理的 .html 文件形式和已處理的文本形式皆可獲得。這個(gè)數(shù)據(jù)集的一部分作為語(yǔ)句集,還被標(biāo)記了主觀或客觀的標(biāo)簽。
更多關(guān)于情感分類的更好用的數(shù)據(jù)集被整理形成一個(gè)列表,放在 Kavita Ganesan 的博客中。
• 主題分類
文檔主題分類是一個(gè)復(fù)雜的問(wèn)題。根據(jù)待研究的文檔種類不同,所需的合適的數(shù)據(jù)集也不相同。一個(gè)經(jīng)常研究的案例是報(bào)刊文章的分類。
20 Newsgroups
20 Newsgroups 數(shù)據(jù)集包含大約 20,000 份文檔,幾乎平均分布于 20 個(gè)類別。數(shù)據(jù)被分為訓(xùn)練集和測(cè)試集。這些新聞組有些密切相關(guān),而另一些毫不相關(guān)。數(shù)據(jù)集中的新聞組如下:
20 newsgroups 數(shù)據(jù)集的組織形式,資源: http://qwone.com/~jason/20Newsgroups/
路透社-21578
一個(gè)經(jīng)常使用的用于評(píng)估文本分類算法的數(shù)據(jù)集是路透社-21578, 它由出現(xiàn)在 1987 年路透社新聞專線中的文本組成,由路透社公司員工整理。通常只是使用這個(gè)數(shù)據(jù)集的一些子集,作為類別不均勻分布的文檔使用。通常情況下,使用最頻繁的文檔只占了10或90個(gè)類別。
在 Ana Cardoso Cachopo 的主頁(yè)提供了一個(gè)很有用的收集單標(biāo)記文本的數(shù)據(jù)集,不僅可以找到有用數(shù)據(jù)的概覽,還提供了數(shù)據(jù)集的可讀版本和預(yù)處理版本,可以為你省去很多時(shí)間和麻煩。
圖像分類
這一節(jié)將介紹一些在用機(jī)器學(xué)習(xí)解決圖像分類問(wèn)題時(shí)有用的數(shù)據(jù)集,列出的數(shù)據(jù)集從簡(jiǎn)單的手寫(xiě)數(shù)字,到復(fù)雜物體的圖像,會(huì)對(duì)學(xué)習(xí)圖像分類和測(cè)試算法很有幫助。
• 數(shù)字和字母
MNIST
MNIST 數(shù)據(jù)集是學(xué)習(xí)圖像分類經(jīng)常使用的數(shù)據(jù)集,包含上千張從 0 到 9 的手寫(xiě)數(shù)字的小二進(jìn)制圖像,劃分為訓(xùn)練集和測(cè)試集??梢詮?YannLeCun 的網(wǎng)站下載 IDX 文件格式,如果你想使用 png 格式的圖像做數(shù)據(jù),可以從這找到轉(zhuǎn)化的版本。
MNIST 數(shù)據(jù)集摘錄
Chars74K
另一個(gè)可通過(guò)機(jī)器學(xué)習(xí)解決的任務(wù)是字符識(shí)別,基于這個(gè)目的,可以用 Chars74K 數(shù)據(jù)集可用來(lái)訓(xùn)練和測(cè)試。它擁有超過(guò) 74,000 張字母和數(shù)字圖像,被分成 64 個(gè)不同的種類。字母都是手寫(xiě)體,通過(guò)自然圖片和電腦字體獲得。由于種類更多,并且數(shù)據(jù)是彩色圖像,這個(gè)數(shù)據(jù)集比 MNIST 集復(fù)雜得多。
Chars74K 數(shù)據(jù)集摘錄, 資源: http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/Samples/english.png
• 人臉
正面人臉圖像
正面人臉圖像數(shù)據(jù)集是為評(píng)估圖像中正面人臉識(shí)別程序而建立的,包含人的圖像以及通過(guò) x、y 坐標(biāo)給出的人臉在圖片中的位置信息。這里可以下載該數(shù)據(jù)集。
正面人臉圖像數(shù)據(jù)集摘錄
復(fù)雜場(chǎng)景中標(biāo)記人臉
面部檢測(cè)中經(jīng)常使用的數(shù)據(jù)集是復(fù)雜場(chǎng)景中標(biāo)記人臉數(shù)據(jù)集,擁有從網(wǎng)絡(luò)中收集的超過(guò) 13,000 張圖片。很多人不止一次出現(xiàn)在數(shù)據(jù)集中的圖片中,對(duì)面部識(shí)別評(píng)估很有用。
復(fù)雜場(chǎng)景中標(biāo)記人臉數(shù)據(jù)集摘錄
• 動(dòng)物
Oxford-IIIT 寵物數(shù)據(jù)集
如果你在找大規(guī)模的貓狗數(shù)據(jù)集,你可以看看牛津- IIIT寵物數(shù)據(jù)集,有 37 個(gè)包含不同種類貓狗的類別,每個(gè)類別有 200 張圖片。與很多其它數(shù)據(jù)集不同,它的圖片的大小不一,更酷的是這個(gè)數(shù)據(jù)集不僅提供圖像,還有動(dòng)物的面部位置信息,以及圖像的前景、背景信息(見(jiàn)下圖)。
牛津-IIIT 寵物數(shù)據(jù)集示例, 資源: http://www.robots.ox.ac.uk/~vgg/data/pets/
KTH-ANIMALS
如果你需要更普遍的動(dòng)物數(shù)據(jù)集,KTH-ANIMALS 值得一看。它可以從這下載,提供了 19 種不同類別的圖像。每一類有大約 100 張不同大小的圖片,和 牛津-IIIT 寵物數(shù)據(jù)集一樣,也提供了前景、背景信息。
KTH-Animals 數(shù)據(jù)集概覽,資源: http://www.csc.kth.se/~att/Site/Animals.html
• 各種物體
CIFAR-10 and CIFAR-100
對(duì)于更高級(jí)的圖像分類應(yīng)用,你可能對(duì) CIFAR 數(shù)據(jù)集感興趣。這些數(shù)據(jù)集包含大小為 32×32 像素的彩色圖像,可以從 Alex Krizhevsky 的網(wǎng)站下載。
CIFAR-10 數(shù)據(jù)集由 60,000 張圖片組成,平均分布于 10 個(gè)種類。如果你需要擁有更多種類的更復(fù)雜的數(shù)據(jù)集,你可以使用 CIFAR-100 數(shù)據(jù)集,它提供了100個(gè)類,20個(gè)超類的圖片。
CIFAR-10 數(shù)據(jù)集摘錄,資源: https://www.cs.toronto.edu/~kriz/cifar.html
這兩個(gè) CIFAR 數(shù)據(jù)集都有 python、matlab 或二進(jìn)制版本提供下載。如果你更喜歡用 png 圖像作為數(shù)據(jù),可以使用這個(gè)工具進(jìn)行轉(zhuǎn)換。
STL-10
CIFAR 數(shù)據(jù)集提供的圖片很小,因此如果你想使用更高分辨率的圖片,STL-10 數(shù)據(jù)集可能更吸引你。這個(gè)數(shù)據(jù)集包含 10 個(gè)類的標(biāo)記圖片,與 CIFAR-10 數(shù)據(jù)集相似,但是圖像大小有 96×96 像素。每個(gè)類含有較少的標(biāo)記樣例,但卻有很大的未標(biāo)記圖像集,可以用作非監(jiān)督訓(xùn)練。
STL-10 數(shù)據(jù)集摘錄, 資源: https://cs.stanford.edu/~acoates/stl10/images.png



































