偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<big id="1nuum"></big>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

常見的21種數(shù)據(jù)挖掘工具

作者：陳峻 2021-04-20 09:00:00

大數(shù)據(jù) 數(shù)據(jù)分析

目前，市場上有數(shù)量眾多的數(shù)據(jù)挖掘工具。本文從7個分類，綜合介紹與比較21種常見的工具。

【51CTO.com快譯】數(shù)據(jù)挖掘(Data mining)是通過智能的方法，從數(shù)據(jù)中提取實用信息，對數(shù)據(jù)予以解釋，發(fā)現(xiàn)數(shù)據(jù)的模式與關(guān)系，以及預(yù)測趨勢和行為的過程。該過程往往會涉及到諸如：數(shù)據(jù)清理、機器學(xué)習(xí)、人工智能、數(shù)據(jù)分析、數(shù)據(jù)庫系統(tǒng)、以及回歸、聚類等信息統(tǒng)計技術(shù)。顯然，數(shù)據(jù)集越大、越復(fù)雜，我們就能夠越輕松地通過自動化分析工具，越快地找到越相關(guān)的意義。而通過識別和理解有意義的數(shù)據(jù)，用戶企業(yè)也就可以做出各種明智的決策，并實現(xiàn)其目標(biāo)。

數(shù)據(jù)挖掘的基本步驟

我們可以將數(shù)據(jù)挖掘運用到諸如：市場細分、趨勢分析、欺詐檢測、數(shù)據(jù)庫營銷、信用風(fēng)險管理、教育、以及財務(wù)分析等多種場景中。雖然各個組織使用的方法可能有所不同，但是總的說來，數(shù)據(jù)挖掘過程通常包括以下五個步驟：

根據(jù)既定的目標(biāo)，確定業(yè)務(wù)需求。
識別數(shù)據(jù)源，以確定需要分析哪些數(shù)據(jù)點。
選擇并應(yīng)用建模技術(shù)。
評估模型，以確保其符合既定的目標(biāo)。
報告數(shù)據(jù)挖掘的結(jié)果，或繼續(xù)執(zhí)行可重復(fù)的數(shù)據(jù)挖掘過程。

數(shù)據(jù)挖掘與數(shù)據(jù)倉庫之間的區(qū)別

數(shù)據(jù)倉庫是收集和管理數(shù)據(jù)的過程。它將各種不同來源的數(shù)據(jù)存儲到一個存儲庫中，以供運營業(yè)務(wù)系統(tǒng)(如CRM系統(tǒng))使用。該過程通常發(fā)生在數(shù)據(jù)挖掘之前，其優(yōu)勢包括：改進源系統(tǒng)中的數(shù)據(jù)質(zhì)量，保護數(shù)據(jù)免受源系統(tǒng)更新的影響，具備集成多個數(shù)據(jù)源和數(shù)據(jù)優(yōu)化的能力。

數(shù)據(jù)挖掘工具

如前所述，數(shù)據(jù)挖掘的過程會涉及到各種技術(shù)，其中包括流行的：回歸分析(預(yù)測性)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)(描述性)、聚類(描述性)和分類(預(yù)測性)。目前，隨著市場的成熟、軟件的升級、以及技術(shù)的迭代，我們可以選用帶有不同算法的工具，來進行數(shù)據(jù)分析與挖掘。下面，我將和您從如下7個分類，綜合介紹與比較21種常見的工具。

用于統(tǒng)計分析的集成類數(shù)據(jù)挖掘工具
開源的數(shù)據(jù)挖掘方案
大數(shù)據(jù)類數(shù)據(jù)挖掘工具
小型數(shù)據(jù)挖掘方案
用于云端數(shù)據(jù)挖掘的方案
使用神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘工具
用于數(shù)據(jù)可視化的數(shù)據(jù)挖掘工具

當(dāng)然，其中的一些工具可能會橫跨多個類別。例如，盡管Amazon EMR屬于云端解決方案，但它同時也是處理大數(shù)據(jù)的絕佳工具。因此，我們盡量根據(jù)每種工具的最突出特性，進行分類。

在實際介紹各類工具之前，我們首先來簡要了解兩種最流行的數(shù)據(jù)科學(xué)編程語言：R和Python之間的區(qū)別。

R與Python

從源頭上說，R是在考慮統(tǒng)計分析的前提下開發(fā)的;而Python則提供了一種更為通用的數(shù)據(jù)科學(xué)方法。從使用目的來看，R更專注于數(shù)據(jù)分析，并提供可靈活地使用的代碼庫。相反，Python的主要目標(biāo)是部署到生產(chǎn)環(huán)境，它允許用戶從頭開始創(chuàng)建模型。就具體使用方法而言，R通常被集成到本地運行，而Python則能夠與應(yīng)用程序相集成。因此，盡管它們之間存在著差異，但是兩種語言都可以處理大量的數(shù)據(jù)，并提供大量的代碼庫。

用于統(tǒng)計分析的集成類數(shù)據(jù)挖掘工具

1. IBM SPSS

SPSS(Statistical Package for the Social Sciences)是目前最流行的統(tǒng)計軟件平臺之一。自2015年開始提供統(tǒng)計產(chǎn)品和服務(wù)方案以來，該軟件的各種高級功被廣泛地運用于學(xué)習(xí)算法、統(tǒng)計分析(包括描述性回歸、聚類等)、文本分析、以及與大數(shù)據(jù)集成等場景中。同時，SPPS允許用戶通過各種專業(yè)性的擴展，運用Python和R來改進其SPSS語法。

IBM的SPSS

2. R

如前所述，R是一種編程語言，可用于統(tǒng)計計算與圖形環(huán)境。它能夠與UNIX、FreeBSD、Linux、macOS和Windows操作系統(tǒng)相兼容。R可以被運用在諸如：時間序列分析、聚類、以及線性與非線性建模等各種統(tǒng)計分析場景中。同時，作為一種免費的統(tǒng)計計算環(huán)境，它還能夠提供連貫的系統(tǒng)，各種出色的數(shù)據(jù)挖掘包，可用于數(shù)據(jù)分析的圖形化工具，以及大量的中間件工具。此外，它也是SAS和IBM SPSS等統(tǒng)計軟件的開源解決方案。

3. SAS

SAS(Statistical Analysis System)是數(shù)據(jù)與文本挖掘(tex mining)及優(yōu)化的合適選擇。它能夠根據(jù)組織的需求和目標(biāo)，提供了多種分析技術(shù)和方法功能。目前，它能夠提供描述性建模(有助于對客戶進行分類和描述)、預(yù)測性建模(便于預(yù)測未知結(jié)果)和解析性建模(用于解析，過濾和轉(zhuǎn)換諸如電子郵件、注釋字段、書籍等非結(jié)構(gòu)化數(shù)據(jù))。此外，其分布式內(nèi)存處理架構(gòu)，還具有高度的可擴展性。

4. Oracle Data Mining

Oracle Data Mining(ODB)是Oracle Advanced Analytics的一部分。該數(shù)據(jù)挖掘工具提供了出色的數(shù)據(jù)預(yù)測算法，可用于分類、回歸、聚類、關(guān)聯(lián)、屬性重要性判斷、以及其他專業(yè)分析。此外，ODB也可以使用SQL、PL/SQL、R和Java等接口，來檢索有價值的數(shù)據(jù)見解，并予以準(zhǔn)確的預(yù)測。

開源的數(shù)據(jù)挖掘工具

5.KNIME

于2006年首發(fā)的開源軟件KNIME(Konstanz Information Miner)，如今已被廣泛地應(yīng)用在銀行、生命科學(xué)、出版和咨詢等行業(yè)的數(shù)據(jù)科學(xué)和機器學(xué)習(xí)領(lǐng)域。同時，它提供本地和云端連接器，以實現(xiàn)不同環(huán)境之間數(shù)據(jù)的遷移。雖然它是用Java實現(xiàn)的，但是KNIME提供了各種節(jié)點，以方便用戶在Ruby、Python和R中運行它。

KNIME

6. RapidMiner

作為一種開源的數(shù)據(jù)挖掘工具，RapidMiner可與R和Python無縫地集成。它通過提供豐富的產(chǎn)品，來創(chuàng)建新的數(shù)據(jù)挖掘過程，并提供各種高級分析。同時，RapidMiner是由Java編寫，可以與WEKA和R-tool相集成，是目前好用的預(yù)測分析系統(tǒng)之一。它能夠提供諸如：遠程分析處理，創(chuàng)建和驗證預(yù)測模型，多種數(shù)據(jù)管理方法，內(nèi)置模板，可重復(fù)的工作流程，數(shù)據(jù)過濾，以及合并與聯(lián)接等多項實用功能。

7.Orange

Orange是基于Python的開源式數(shù)據(jù)挖掘軟件。當(dāng)然，除了提供基本的數(shù)據(jù)挖掘功能，Orange也支持可用于數(shù)據(jù)建模、回歸、聚類、預(yù)處理等領(lǐng)域的機器學(xué)習(xí)算法。同時，Orange還提供了可視化的編程環(huán)境，以及方便用戶拖放組件與鏈接的能力。

大數(shù)據(jù)類數(shù)據(jù)挖掘工具

從概念上說，大數(shù)據(jù)既可以是結(jié)構(gòu)化的，也可以是非結(jié)構(gòu)化、或半結(jié)構(gòu)化的。它通常涵蓋了五個V的特性，即：體量(volume，可能達到TB或PB級)、多樣性(variety)、速度(velocity)、準(zhǔn)確性(veracity)和價值(value)。鑒于其復(fù)雜性，我們對于海量數(shù)據(jù)的存儲，模式的發(fā)現(xiàn)，以及趨勢的預(yù)測等，都很難在一臺計算機上處理與實現(xiàn)，因此需要用到分布式的數(shù)據(jù)挖掘工具。

8. Apache Spark

Apache Spark憑借著其處理大數(shù)據(jù)的易用性與高性能，而倍受歡迎。它具有針對Java、Python(PySpark)、R(SparkR)、SQL、Scala等多種接口，能夠提供80多個高級運算符，以方便用戶更快地編寫出代碼。另外，Apache Spark也提供了針對SQL and DataFrames、Spark Streaming、GrpahX和MLlib的代碼庫，以實現(xiàn)快速的數(shù)據(jù)處理和數(shù)據(jù)流平臺。

在Apache Spark中使用Python的邏輯回歸進行預(yù)測

9. Hadoop MapReduce

Hadoop是處理大量數(shù)據(jù)和各種計算問題的開源工具集合。雖然是用Java編寫而成，但是任何編程語言都可以與Hadoop Streaming協(xié)同使用。其中MapReduce是Hadoop的實現(xiàn)和編程模型。它允許用戶“映射(map)”和“簡化(reduce)”各種常用的功能，并且可以橫跨龐大的數(shù)據(jù)集，執(zhí)行大型聯(lián)接(join)操作。此外，Hadoop也提供了諸如：用戶活動分析、非結(jié)構(gòu)化數(shù)據(jù)處理、日志分析、以及文本挖掘等應(yīng)用。目前，它已成為一種針對大數(shù)據(jù)執(zhí)行復(fù)雜數(shù)據(jù)挖掘的廣泛適用方案。

10.Qlik

Qlik是一個能夠運用可擴展、且靈活的方法，去處理數(shù)據(jù)分析和挖掘的平臺。它具有易用的拖放界面，并能夠即時響應(yīng)用戶的修改和交互。為了支持多個數(shù)據(jù)源，Qlik通過各種連接器、擴展、內(nèi)置應(yīng)用、以及API集，實現(xiàn)與各種外部應(yīng)用格式的無縫集成。同時，它也是集中式共享分析的絕佳工具。

小型數(shù)據(jù)挖掘方案

11. Scikit-learn

作為一款可用于Python機器學(xué)習(xí)的免費軟件工具，Scikit-learn能夠提供出色的數(shù)據(jù)分析和挖掘功能。它具有諸如分類、回歸、聚類、預(yù)處理、模型選擇、以及降維等多種功能。

Scikitlern中的分層聚類

12.Rattle(R)

由R語言開發(fā)的Rattle，能夠與macOS、Windows和Linux等操作系統(tǒng)相兼容。它主要被美國和澳大利亞的用戶用于企業(yè)商業(yè)與學(xué)術(shù)目的。R的計算能力能夠為用戶提供諸如：聚類、數(shù)據(jù)可視化、建模、以及其他統(tǒng)計分析類功能。

13.Pandas(Python)

Pandas也是利用Python進行數(shù)據(jù)挖掘的“一把好手”。由它提供的代碼庫既可以被用來進行數(shù)據(jù)分析，又可以管理目標(biāo)系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)。

14.H3O

作為一種開源的數(shù)據(jù)挖掘軟件，H3O可以被用來分析存儲在云端架構(gòu)里的數(shù)據(jù)。雖然是由R語言編寫，但是該工具不但能與Python兼容，而且可以用于構(gòu)建各種模型。此外，得益于Java的語言支持，H3O能夠被快速、輕松地部署到生產(chǎn)環(huán)境中。

用于云端數(shù)據(jù)挖掘的方案

通過實施云端數(shù)據(jù)挖掘技術(shù)，用戶可以從虛擬的集成數(shù)據(jù)倉庫中，檢索到重要的信息，進而降低存儲和基礎(chǔ)架構(gòu)的成本。

15.Amazon EMR

作為處理大數(shù)據(jù)的云端解決方案，Amazon EMR不僅可以被用于數(shù)據(jù)挖掘，還可以執(zhí)行諸如：Web索引、日志文件分析、財務(wù)分析、機器學(xué)習(xí)等數(shù)據(jù)科學(xué)工作。該平臺提供了包括Apache Spark和Apache Flink在內(nèi)的各種開源方案，并且能夠通過自動調(diào)整集群之類的任務(wù)，來提高大數(shù)據(jù)環(huán)境的可擴展性。

Amazon的大數(shù)據(jù)平臺

16. Azure ML

作為一種基于云服務(wù)的環(huán)境，Azure ML可用于構(gòu)建，訓(xùn)練和部署各種機器學(xué)習(xí)模型。針對各種數(shù)據(jù)分析、挖掘與預(yù)測任務(wù)，Azure ML可以讓用戶在云平臺中對不同體量的數(shù)據(jù)進行計算和操控。

17. Google AI Platform

與Amazon EMR和Azure ML類似，基于云端的Google AI Platform也能夠提供各種機器學(xué)習(xí)棧。Google AI Platform包括了各種數(shù)據(jù)庫、機器學(xué)習(xí)庫、以及其他工具。用戶可以在云端使用它們，以執(zhí)行數(shù)據(jù)挖掘和其他數(shù)據(jù)科學(xué)類任務(wù)。

使用神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘工具

神經(jīng)網(wǎng)絡(luò)主要是以人腦處理信息的方式，去處理數(shù)據(jù)。換句話說，由于我們的大腦有著數(shù)百萬個處理外部信息，并隨之產(chǎn)生輸出的神經(jīng)元，因此神經(jīng)網(wǎng)絡(luò)可以遵循此類原理，通過將原始數(shù)據(jù)轉(zhuǎn)換為彼此相關(guān)的信息，以實現(xiàn)數(shù)據(jù)挖掘的目的。

18. PyTorch

Pytorch既是一個Python包，也是一個基于Torch庫的深度學(xué)習(xí)框架。它最初是由Facebook的AI研究實驗室(FAIR)開發(fā)的，屬于深層的神經(jīng)網(wǎng)絡(luò)類數(shù)據(jù)科學(xué)工具。用戶可以通過：加載數(shù)據(jù)，預(yù)處理數(shù)據(jù)，定義模型，執(zhí)行訓(xùn)練和評估，這樣的數(shù)據(jù)挖掘步驟，通過Pytorch對整個神經(jīng)網(wǎng)絡(luò)進行編程。此外，借助強大的GPU加速能力，Torch可以實現(xiàn)快速的陣列計算。截至2020年9月，torch的R生態(tài)系統(tǒng)(https://torch.mlverse.org/)中已包含有torch、torchvision、torchaudio、以及其他擴展。

PyTorch的神經(jīng)網(wǎng)絡(luò)

19. TensorFlow

與PyTorch相似，由Google Brain Team開發(fā)的TensorFlow也是基于Python的開源機器學(xué)習(xí)框架。它既可以被用于構(gòu)建深度學(xué)習(xí)模型，又能夠高度關(guān)注深度神經(jīng)網(wǎng)絡(luò)。TensorFlow生態(tài)系統(tǒng)不但能夠靈活地提供各種庫和工具，而且擁有一個廣泛的流行社區(qū)，開發(fā)人員可以進行各種問答和知識共享。盡管屬于Python庫，但是TensorFlow于2017年開始對TensorFlow API引入了R接口。

用于數(shù)據(jù)可視化的數(shù)據(jù)挖掘工具

數(shù)據(jù)可視化是對從數(shù)據(jù)挖掘過程中提取的信息，予以圖形化表示。此類工具能夠讓用戶通過圖形、圖表、映射圖、以及其他可視化元素，直觀地了解數(shù)據(jù)的趨勢、模型和異常值。

20. Matplotlib

Matplotlib是使用Python進行數(shù)據(jù)可視化的出色工具庫。它允許用戶利用交互式的圖形，來創(chuàng)建諸如：直方圖、散點圖、3D圖等質(zhì)量圖表。而且這些圖表都可以從樣式、軸屬性、字體等方面被自定義。

Matplotlib的圖表示例

21. ggplot2

ggplot2也是一款廣受歡迎的數(shù)據(jù)可視化R工具包。它允許用戶構(gòu)建出各類高質(zhì)量且美觀的圖形。同時，用戶也可以通過該工具，高度抽象地修改圖中的各種組件。

小結(jié)

如前所述，大多數(shù)數(shù)據(jù)挖掘工具或方案，都用到了R和Python兩種主要編程語言，也用到了各種相應(yīng)的包和庫。對于從事數(shù)據(jù)挖掘的開發(fā)人員或數(shù)據(jù)科學(xué)家來說，學(xué)習(xí)和了解各種類型的數(shù)據(jù)分析與挖掘工具，是非常必要的。當(dāng)然，具體如何選擇合適的工具，則取決于您當(dāng)前的業(yè)務(wù)或研究目標(biāo)。

原文標(biāo)題：Top 21 Data Mining Tools，作者: Mariana Berga, Alicja Ochman, Pedro Coelho

【51CTO譯稿，合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

責(zé)任編輯：華軒來源： 51CTO

數(shù)據(jù)分析數(shù)據(jù)挖掘工具

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<center id="qlekj"></center>^{<dfn id="qlekj"></dfn>}

<li id="qlekj"><option id="qlekj"><meter id="qlekj"></meter></option></li>