偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

深度學習中常用的開源數(shù)據(jù)集

人工智能 深度學習
Amazon Product Reviews 數(shù)據(jù)集是一個廣泛用于情感分析、推薦系統(tǒng)和其他自然語言處理(NLP)任務的大規(guī)模數(shù)據(jù)集。該數(shù)據(jù)集包含了來自 Amazon 網(wǎng)站的用戶對各種產(chǎn)品的評論和評分信息。?

圖像分類

1.MNIST

http://yann.lecun.com/exdb/mnist/

MNIST 數(shù)據(jù)集是機器學習和計算機視覺領域中最著名的數(shù)據(jù)集之一,常用于訓練各種圖像處理系統(tǒng)。

MNIST 數(shù)據(jù)集包含了 70,000 張小型的黑白圖像,每張圖像的大小是 28x28 像素。每個圖像都是手寫數(shù)字(0到9)的一個實例。

它非常適合初學者練習圖像分類技術和卷積神經(jīng)網(wǎng)絡(CNN)等算法。

圖片圖片

2.CIFAR-10

CIFAR-10 數(shù)據(jù)集是另一種在機器學習和計算機視覺研究領域廣泛使用的標準數(shù)據(jù)集。

https://www.cs.toronto.edu/~kriz/cifar.html

它由加拿大高級研究院(Canadian Institute For Advanced Research, CIFAR)發(fā)布,因此得名 CIFAR。CIFAR-10 特別適用于開發(fā)和測試圖像識別算法。

CIFAR-10 包含 60,000 張 32x32 像素的彩色圖像,這些圖像被分為 10 個類別,每個類別各 6,000 張圖像。這些類別包括:飛機、汽車、鳥、貓、鹿、狗、青蛙、馬、船和卡車。

圖片圖片

3.ImageNet

https://www.image-net.org/

ImageNet 數(shù)據(jù)集是一個大規(guī)模的圖像數(shù)據(jù)集,廣泛用于計算機視覺研究和各種圖像處理算法的訓練和測試。

這個數(shù)據(jù)集由斯坦福大學的研究人員啟動和維護,包含超過 1400 萬張圖片和超過 20,000 個類別。

它用于大規(guī)模視覺識別挑戰(zhàn)和訓練深度學習模型。

圖片圖片

4.fashion-mnist

Fashion-MNIST 數(shù)據(jù)集是由 Zalando(一家德國的時尚科技公司)發(fā)布的一個圖像數(shù)據(jù)集,旨在作為機器學習研究中經(jīng)典的 MNIST 手寫數(shù)字數(shù)據(jù)集的直接替代品。

Fashion-MNIST 包含 70,000 張 28x28 像素的灰度圖像,這些圖像分為 10 個類別,每個類別有 7,000 張圖像,這些類別包括:T恤/上衣、褲子、套頭衫、連衣裙、外套、涼鞋、襯衫、運動鞋、包和踝靴。

圖片圖片

5.CelebA

https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

CelebA 數(shù)據(jù)集是一個大型的人臉屬性數(shù)據(jù)集,廣泛用于計算機視覺研究中,特別是在面部識別、面部屬性識別和面部編輯等領域。

這個數(shù)據(jù)集由香港中文大學的研究者開發(fā)和維護,CelebA 包含超過 200,000 張名人面部的圖像,覆蓋了大約 10,000 名不同的名人,每張圖像都標有 40 種不同的屬性(如發(fā)型、帽子、眼鏡、笑容等),以及 5 個關鍵點位置(眼睛、鼻子、嘴巴)的標記。

圖片圖片

自然語言處理

6.IMDB 評論

https://ai.stanford.edu/~amaas/data/sentiment/)

IMDB 評論數(shù)據(jù)集(Internet Movie Database Review Dataset)是一個廣泛用于自然語言處理(NLP)和情感分析研究的數(shù)據(jù)集。

它包含來自 IMDB 網(wǎng)站的 50,000條電影評論,分為訓練集和測試集各 25,000 條,每個評論都是一個文本片段,并且?guī)в幸粋€標簽,表示該評論是正面的(positive)還是負面的(negative)。

圖片圖片

7.20個新聞組

https://www.kaggle.com/datasets/crawford/20-newsgroups

20 個新聞組數(shù)據(jù)集由 Ken Lang 編制,包含約 18000 個新聞組文檔,分布在 20 個不同的新聞組。

它常用于文本分類和聚類任務。

圖片圖片

8.SQuAD

https://rajpurkar.github.io/SQuAD-explorer/

斯坦福問答數(shù)據(jù)集 (SQuAD) 是一個閱讀理解數(shù)據(jù)集,由眾包工作者針對一系列維基百科文章提出的問題組成,其中每個問題的答案都是來自相應段落的一段文本。斯坦福問答數(shù)據(jù)集包含 100,000 多個用于機器理解的問題。

圖片圖片

9.GLUE

https://gluebenchmark.com/

GLUE (General Language Understanding Evaluation) 是一個用于評估自然語言處理(NLP)模型在廣泛語言理解任務上的性能的基準數(shù)據(jù)集。

GLUE 旨在提供一個綜合性的評估框架,通過多個不同的NLP任務來測試模型的廣泛性和魯棒性。

10.COCO

https://cocodataset.org/#home

COCO 數(shù)據(jù)集是一個用于對象檢測、分割和圖像字幕生成的廣泛使用的基準數(shù)據(jù)集。

它由微軟研究院發(fā)布,旨在提供豐富的標注數(shù)據(jù),用于訓練和評估計算機視覺模型。

圖片圖片

11.Sentiment140

https://www.kaggle.com/datasets/kazanova/sentiment140

Sentiment140 數(shù)據(jù)集包含來自Twitter的160萬條標注推文。這些推文被標注為正面或負面情感,主要用于訓練和評估情感分類模型。

12.Yelp 開放數(shù)據(jù)集

https://www.yelp.com/dataset

Yelp數(shù)據(jù)集包含了用戶對不同業(yè)務的評論、評分、用戶信息、業(yè)務信息等。它常用于研究和開發(fā)推薦系統(tǒng)、情感分析、文本分類和其他NLP任務。

語音識別

13.LibriSpeech

https://www.openslr.org/12/

LibriSpeech 數(shù)據(jù)集包含約1000小時的英語語音數(shù)據(jù),主要用于訓練和評估語音識別系統(tǒng)。

該數(shù)據(jù)集中的音頻文件經(jīng)過高質(zhì)量的預處理,并且都帶有準確的文字轉(zhuǎn)錄。

圖片圖片

14.VoxCeleb

https://www.robots.ox.ac.uk/~vgg/data/voxceleb/

VoxCeleb 數(shù)據(jù)集包含大量名人的音頻片段,這些片段從 YouTube 視頻中提取,并經(jīng)過仔細的過濾和標注,以確保數(shù)據(jù)的質(zhì)量和多樣性。

圖片圖片

衛(wèi)生保健

15.Breast Cancer Wisconsin

https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

Breast Cancer Wisconsin 數(shù)據(jù)集是一個廣泛用于機器學習和數(shù)據(jù)挖掘領域的醫(yī)學數(shù)據(jù)集,主要用于訓練和評估分類模型,以區(qū)分良性和惡性乳腺腫瘤。

該數(shù)據(jù)集包含569個樣本,每個樣本有30個特征,這些特征從細胞核的圖像中提取。

圖片圖片

推薦系統(tǒng)

16.MovieLens

https://grouplens.org/datasets/movielens/

MovieLens 數(shù)據(jù)集是一個廣泛用于推薦系統(tǒng)研究和開發(fā)的電影評分數(shù)據(jù)集。該數(shù)據(jù)集由明尼蘇達大學的 GroupLens 研究小組創(chuàng)建,包含用戶對電影的評分信息。

17.Amazon Product Reviews

https://cseweb.ucsd.edu/~jmcauley/datasets.html#amazon_reviews

Amazon Product Reviews 數(shù)據(jù)集是一個廣泛用于情感分析、推薦系統(tǒng)和其他自然語言處理(NLP)任務的大規(guī)模數(shù)據(jù)集。該數(shù)據(jù)集包含了來自 Amazon 網(wǎng)站的用戶對各種產(chǎn)品的評論和評分信息。

責任編輯:武曉燕 來源: 程序員學長
相關推薦

2021-05-22 23:08:08

深度學習函數(shù)算法

2022-04-17 23:09:07

深度學習人工智能芯片

2021-10-18 06:54:47

Go開源庫業(yè)務

2017-11-21 15:34:15

Linux 開發(fā)開源

2023-12-14 17:24:20

Linux開源項目

2022-08-05 13:51:32

Python函數(shù)lambda

2010-04-06 16:50:07

Oracle數(shù)據(jù)庫

2024-08-14 17:21:34

2018-09-13 22:56:15

機器學習損失函數(shù)深度學習

2023-11-29 14:34:15

機器學習統(tǒng)計學

2024-06-27 00:46:10

機器學習向量相似度

2009-06-23 08:10:47

J2EE開發(fā)開源項目

2018-09-18 10:55:24

人工智能機器學習深度學習

2022-10-28 15:19:28

機器學習距離度量數(shù)據(jù)集

2022-04-20 08:00:00

深度學習數(shù)據(jù)集Hub

2022-07-22 08:00:00

深度學習數(shù)據(jù)機器學習

2021-11-26 09:41:50

繪圖工具軟件工具開發(fā)

2023-03-30 08:00:56

MySQL日期函數(shù)

2019-10-11 08:41:18

JavaMemcached數(shù)據(jù)庫

2017-10-30 13:34:22

深度學習KerasAPI
點贊
收藏

51CTO技術棧公眾號