偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<kbd id="45t9s"></kbd>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

用于文本分類的10大開源數(shù)據集

作者：布加迪編譯 2020-03-23 08:00:00

文本分類是熱門的研究領域之一，這是一種分析文本數(shù)據以獲得寶貴信息的方法。據消息人士聲稱，預計全球文本分析市場在2020年至2024年的年復合增長率(CAGR)將超過20%。文本分類可用于許多應用領域，比如自動執(zhí)行CRM任務、改善上網瀏覽和電子商務等。

【51CTO.com快譯】文本分類是熱門的研究領域之一，這是一種分析文本數(shù)據以獲得寶貴信息的方法。據消息人士聲稱，預計全球文本分析市場在2020年至2024年的年復合增長率(CAGR)將超過20%。文本分類可用于許多應用領域，比如自動執(zhí)行CRM任務、改善上網瀏覽和電子商務等。

本文列出了可用于文本分類的10個開源數(shù)據集，按首字母順序介紹。

1. Amazon Reviews Dataset(亞馬遜評論數(shù)據庫)

Amazon Review Dataset包含數(shù)百萬條亞馬遜客戶評論(輸入文本)和星級評定(輸出標簽)，用于了解如何訓練fastText用于情感分析。該數(shù)據集的大小為493MB。

相關鏈接：https://www.kaggle.com/bittlingmayer/amazonreviews

2. Enron Email Dataset(安然電子郵件數(shù)據集)

Enron Email Dataset包含來自大約150個用戶的電子郵件數(shù)據，這些用戶大多是安然公司的高級管理層。該數(shù)據集由CALO項目(擁有學習和組織功能的認知助手)收集和準備，總共含有約50萬則郵件。

相關鏈接：https://www.cs.cmu.edu/~./enron/

3. Goodreads Book Reviews(Goodreads書評)

該數(shù)據集包含Goodreads書評網站上的評論以及描述圖書的眾多屬性，包括評論、閱讀、評論操作及書籍屬性等。圖書總數(shù)包括1561465本。

相關鏈接：https://cseweb.ucsd.edu/~jmcauley/datasets.html#goodreads

4. IMDB Dataset(IMDB數(shù)據集)

IMDB數(shù)據集包含用于自然語言處理或文本分析的5萬條影評。這是用于二進制情緒分類的數(shù)據集，包括用于訓練的25000條觀點鮮明的影評和用于測試的25000條影評。

相關鏈接：http://ai.stanford.edu/~amaas/data/sentiment/

5. MovieLens Latest Datasets(MovieLens最新數(shù)據集)

該數(shù)據集是電影、評論、所作標簽和用戶的集合。該數(shù)據有兩組數(shù)據集，它們是在一段時間內收集的。小數(shù)據集包括100000條評論和600個用戶為9000部電影所作的3600個標簽，而大數(shù)據集包括27000000條評論和280000個用戶為58000部電影所作的1100000個標簽。大數(shù)據集還包括標簽基因組數(shù)據，涉及1100個標簽。

相關鏈接：https://grouplens.org/datasets/movielens/latest/

6. OpinRank Dataset(OpinRank數(shù)據集)

該數(shù)據集包含從Tripadvisor和Edmunds收集的汽車和酒店的完整評論。該數(shù)據集包含10個不同城市的酒店的完整評論，以及2007年、2008年和2009年款汽車的完整評論。在數(shù)據集中，汽車評論的總數(shù)約42230條，酒店評論的總數(shù)約259000條。

相關鏈接：https://github.com/kavgan/OpinRank/tree/master

7. SMS Spam Collection(垃圾短信數(shù)據集)

SMS Spam Collection是含有垃圾短信的公共數(shù)據集，它們被收集用于手機垃圾短信方面的研究。該數(shù)據集有一個集合由5574條真實和未編碼的英文短信組成，根據合法或垃圾短信加以標記。該數(shù)據集有明文格式和ARFF格式兩種。

相關鏈接：http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

8. The Blog Authorship Corpus(博客作者語料庫)

The Blog Authorship Corpus包含2004年8月從blogger.com收集的19320個博客作者的帖子。該語料庫包含總共681288個帖子，超過1.4億個單詞，相當于每人約35個帖子和7250個單詞。在該數(shù)據集中，每個博客以一個單獨的文件加以顯示，文件名表示博客作者ID#以及博客作者自己提供的性別、年齡、行業(yè)和星座。

相關鏈接：http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

9. WordNet(詞網)

WordNet是一個大型的英語詞匯數(shù)據庫，其中名詞、動詞、形容詞和副詞被分組為不同的認知同義詞(同義詞集)，每一組表示不同的概念。在該數(shù)據集中，同義詞集的總數(shù)是117000，每個同義詞集通過少量概念關系與其他同義詞集關聯(lián)起來。

相關鏈接：https://wordnet.princeton.edu/

10. Yelp Reviews(Yelp評論)

Yelp數(shù)據集是用于學習的通用數(shù)據集，它是Yelp的一小部分商家、評論和用戶數(shù)據，可用于個人、教育和學術等用途。該數(shù)據集包括來自10個大都市區(qū)的6685900條評論、200000張圖片和192609戶商家。

相關鏈接：https://www.yelp.com/dataset

原文標題：10 Open-Source Datasets For Text Classification，作者：Ambika Choudhury

【51CTO譯稿，合作站點轉載請注明原文譯者和出處為51CTO.com】

責任編輯：龐桂玉來源： 51CTO

開源數(shù)據集文本分類

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="k541x"></style>

<ruby id="k541x"><samp id="k541x"></samp></ruby>