計(jì)算機(jī)視覺(jué)項(xiàng)目:10個(gè)高質(zhì)量開(kāi)源數(shù)據(jù)集發(fā)布
計(jì)算機(jī)視覺(jué)正在加速行業(yè)中幾乎每個(gè)領(lǐng)域的發(fā)展。 在計(jì)算機(jī)視覺(jué)技術(shù)的幫助下,組織正在徹底改變機(jī)器以前的工作方式。 現(xiàn)在,全球各地的大型技術(shù)都在利用計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域,例如醫(yī)療保健和自動(dòng)駕駛等。 為了建立強(qiáng)大的計(jì)算機(jī)視覺(jué)深度學(xué)習(xí)模型,必須在訓(xùn)練階段應(yīng)用高質(zhì)量的數(shù)據(jù)集。

在本文中,我們將列出10個(gè)可用于Computer Vision項(xiàng)目的高質(zhì)量數(shù)據(jù)集。
1 | CIFAR-10

CIFAR-10是Alex Krizhevsky,Vinod Nair和Geoffrey Hinton收集的一種流行的計(jì)算機(jī)視覺(jué)數(shù)據(jù)集。 該數(shù)據(jù)集用于對(duì)象識(shí)別,由10類(lèi)60,000張32×32彩色圖像組成,每類(lèi)6,000張圖像。 它分為五個(gè)訓(xùn)練批次和一個(gè)測(cè)試批次,每個(gè)批次具有10,000張圖像,這意味著有50,000個(gè)訓(xùn)練圖像和10,000個(gè)測(cè)試圖像。
2 | Cityscapes

Cityscapes是Computer Vision項(xiàng)目的開(kāi)源大規(guī)模數(shù)據(jù)集,其中包含來(lái)自50個(gè)不同城市的街道場(chǎng)景中記錄的各種立體視頻序列。它包括5,000個(gè)幀的高質(zhì)量像素級(jí)注釋?zhuān)约?0,000個(gè)弱注釋幀的較大集合。 該數(shù)據(jù)集主要用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)和評(píng)估視覺(jué)算法對(duì)語(yǔ)義城市場(chǎng)景理解的主要任務(wù)的性能。
3 | Fashion MNIST

Fashion-MNIST是用于Computer Vision的圖像數(shù)據(jù)集,包含60,000個(gè)示例的訓(xùn)練集和10,000個(gè)示例的測(cè)試集。 在此數(shù)據(jù)集中,每個(gè)示例都是一個(gè)28×28灰度圖像,與來(lái)自10個(gè)類(lèi)別的標(biāo)簽關(guān)聯(lián)。 有一個(gè)基于Scikit-learn的自動(dòng)基準(zhǔn)測(cè)試系統(tǒng),該系統(tǒng)涵蓋129個(gè)具有不同參數(shù)的分類(lèi)器。
4 | ImageNet

ImageNet是計(jì)算機(jī)視覺(jué)項(xiàng)目最受歡迎的數(shù)據(jù)集之一,它提供了一個(gè)可訪(fǎng)問(wèn)的圖像數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)根據(jù)WordNet層次結(jié)構(gòu)進(jìn)行組織。WordNet中有超過(guò)100,000個(gè)同義詞集,其中ImageNet提供平均1,000個(gè)圖像來(lái)說(shuō)明WordNet中的每個(gè)同義詞集。 它為WordNet層次結(jié)構(gòu)中的大多數(shù)概念提供了數(shù)千萬(wàn)個(gè)干凈排序的圖像。
5| IMDB-Wiki Dataset

IMDB-Wiki數(shù)據(jù)集是使用性別和年齡標(biāo)簽進(jìn)行訓(xùn)練的最大的開(kāi)放式人臉圖像數(shù)據(jù)集之一。此數(shù)據(jù)集中總共有523,051張面部圖像,其中從IMDB的20,284名名人和維基百科的62,328名名人獲得了460,723張面部圖像。
6 | Kinetics-700

Kinetics-700是YouTube視頻URL的大規(guī)模高質(zhì)量數(shù)據(jù)集,其中包括各種以人為中心的動(dòng)作。 數(shù)據(jù)集包括大約650,000個(gè)視頻剪輯,涵蓋700個(gè)人類(lèi)動(dòng)作類(lèi),每個(gè)動(dòng)作類(lèi)至少包含600個(gè)視頻剪輯。 在這里,每個(gè)剪輯持續(xù)約10秒鐘,并標(biāo)有一個(gè)類(lèi)別。
7 | MS Coco

COntext中的COCO或Common Objects是大規(guī)模的對(duì)象檢測(cè),分割和字幕數(shù)據(jù)集。 數(shù)據(jù)集包含91個(gè)對(duì)象類(lèi)型的照片,這些照片易于識(shí)別,并且在328k圖像中總共有250萬(wàn)個(gè)帶標(biāo)簽的實(shí)例。
8| MPII Human Pose Dataset

MPII Human Pose數(shù)據(jù)集用于評(píng)估關(guān)節(jié)式人體姿勢(shì)估計(jì)。 該數(shù)據(jù)集包含約25K圖像,其中包含超過(guò)4萬(wàn)名帶注釋的人體關(guān)節(jié)的人。 在這里,每張圖片都是從YouTube視頻中提取的,并帶有未標(biāo)注幀之前的an和an。 總體而言,數(shù)據(jù)集涵蓋410種人類(lèi)活動(dòng),并且每個(gè)圖像都帶有活動(dòng)標(biāo)簽。
9| Open Images
此Open Images數(shù)據(jù)集是現(xiàn)有的最大的帶有對(duì)象位置注釋的數(shù)據(jù)集之一。 它由大約900萬(wàn)幅圖像組成,這些圖像帶有圖像級(jí)標(biāo)簽,對(duì)象邊界框,對(duì)象分割蒙版和視覺(jué)關(guān)系。 數(shù)據(jù)集包含190萬(wàn)幅圖像上600個(gè)對(duì)象類(lèi)別的1600萬(wàn)個(gè)邊界框。
10| The 20BN-something-something Dataset V2

20BN-Something-Something數(shù)據(jù)集是大量帶有密集標(biāo)簽的視頻剪輯的集合,這些視頻剪輯向人們展示了人類(lèi)對(duì)日常對(duì)象執(zhí)行的預(yù)定義基本動(dòng)作。 它是由大量的人群工作人員創(chuàng)建的,它允許ML模型對(duì)物理世界中發(fā)生的基本動(dòng)作有更細(xì)致的了解。 視頻總數(shù)包括220,847,其中168,913是訓(xùn)練集,24,777是驗(yàn)證集,27,157是測(cè)試集。
Model Play是面向全球開(kāi)發(fā)者的AI模型資源平臺(tái),內(nèi)置多樣化AI模型,與鈦靈AIX(一款集計(jì)算機(jī)視覺(jué)與智能語(yǔ)音交互兩大核心功能為一體的人工智能硬件)結(jié)合,基于Google開(kāi)源神經(jīng)網(wǎng)絡(luò)架構(gòu)及算法,構(gòu)建自主遷移學(xué)習(xí)功能,無(wú)需寫(xiě)代碼,通過(guò)選擇圖片、定義模型和類(lèi)別名稱(chēng)即可完成AI模型訓(xùn)練。






























