偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

終于有人把數(shù)據(jù)挖掘講明白了

大數(shù)據(jù) 數(shù)據(jù)分析
隨著大型數(shù)據(jù)庫的建立和海量數(shù)據(jù)的不斷涌現(xiàn),人們迫切需要強有力的數(shù)據(jù)分析工具。但現(xiàn)實情況往往是“數(shù)據(jù)十分豐富,而信息相當貧乏”。

隨著大型數(shù)據(jù)庫的建立和海量數(shù)據(jù)的不斷涌現(xiàn),人們迫切需要強有力的數(shù)據(jù)分析工具。但現(xiàn)實情況往往是“數(shù)據(jù)十分豐富,而信息相當貧乏”。

快速增長的海量數(shù)據(jù)被收集、存放在大型數(shù)據(jù)庫中,沒有強有力的工具,以人類現(xiàn)有的能力很難理解它們。因此,有人說大數(shù)據(jù)是數(shù)據(jù)“墳墓”。當采用數(shù)據(jù)挖掘工具進行數(shù)據(jù)分析時,可以發(fā)現(xiàn)隱藏在大數(shù)據(jù)之中重要的數(shù)據(jù)內(nèi)容、模式,能對商務決策、知識庫、科學和醫(yī)學研究等做出巨大貢獻。為解決數(shù)據(jù)和信息之間的鴻溝,我們應系統(tǒng)地學習數(shù)據(jù)挖掘知識,開發(fā)數(shù)據(jù)挖掘工具,將數(shù)據(jù)“墳墓”變成知識“金礦”。

1數(shù)據(jù)挖掘過程

數(shù)據(jù)挖掘(data mining)又譯為資料探勘、數(shù)據(jù)采礦,是指從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的但又潛在有用的信息和知識的過程。

數(shù)據(jù)挖掘的具體過程描述如下:

1)數(shù)據(jù):進行數(shù)據(jù)挖掘首先要有數(shù)據(jù),可以根據(jù)任務的目的選擇數(shù)據(jù)集,并篩選自己需要的數(shù)據(jù),或者根據(jù)實際情況構造自己需要的數(shù)據(jù)。

2)預處理:確定數(shù)據(jù)集后,就要對數(shù)據(jù)進行預處理,使數(shù)據(jù)能夠為我們所用。數(shù)據(jù)預處理可以提高數(shù)據(jù)質量,包括準確性、完整性和一致性。進行數(shù)據(jù)預處理的方法有數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約和數(shù)據(jù)變換等。

3)變換:進行數(shù)據(jù)預處理后,對數(shù)據(jù)進行變換,將數(shù)據(jù)轉換成一個分析模型,這個分析模型是針對數(shù)據(jù)挖掘算法建立的。建立一個真正適合數(shù)據(jù)挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關鍵。

4)數(shù)據(jù)挖掘:對經(jīng)過轉換的數(shù)據(jù)進行挖掘,除了選擇合適的挖掘算法外,其余一切工作都能自動地完成。

5)解釋/評估:解釋并評估結果,最終得到知識。其使用的分析方法一般視數(shù)據(jù)挖掘操作而定,通常會用到可視化技術。

數(shù)據(jù)挖掘的具體過程如圖1所示。

圖1 數(shù)據(jù)挖掘過程

2數(shù)據(jù)挖掘的內(nèi)容

2.1 關聯(lián)規(guī)則挖掘

從大規(guī)模數(shù)據(jù)中挖掘對象之間的隱含關系稱為關聯(lián)分析(Associate Analysis)或者關聯(lián)規(guī)則挖掘(Associate Rule Mining),它可以揭示數(shù)據(jù)中隱藏的關聯(lián)模式,幫助人們進行市場運作、決策支持等。

考察一些涉及許多物品的事務。事務1中出現(xiàn)了物品甲,事務2中出現(xiàn)了物品乙,事務3中同時出現(xiàn)了物品甲和乙。那么,物品甲和乙在事務中的出現(xiàn)是否有規(guī)律可循呢?在數(shù)據(jù)庫的知識發(fā)現(xiàn)中,關聯(lián)規(guī)則就是描述這種在一個事務中物品同時出現(xiàn)的規(guī)律的知識模式。更確切地說,關聯(lián)規(guī)則通過量化的數(shù)字描述物品甲的出現(xiàn)對物品乙的出現(xiàn)有多大的影響。

一般采用可信度、支持度、期望可信度、作用度四個參數(shù)來描述一個關聯(lián)規(guī)則的屬性。

在關聯(lián)規(guī)則的四個屬性中,支持度和可信度能夠比較直接地形容關聯(lián)規(guī)則的性質。如果不考慮關聯(lián)規(guī)則的支持度和可信度,那么在事務數(shù)據(jù)庫中可以發(fā)現(xiàn)無窮多的關聯(lián)規(guī)則。事實上,人們一般只對滿足一定的支持度和可信度的關聯(lián)規(guī)則感興趣。因此,為了發(fā)現(xiàn)有意義的關聯(lián)規(guī)則,需要給定兩個閾值:最小支持度和最小可信度,前者規(guī)定了關聯(lián)規(guī)則必須滿足的最小支持度;后者規(guī)定了關聯(lián)規(guī)則必須滿足的最小可信度。

經(jīng)典故事案例:關聯(lián)規(guī)則挖掘經(jīng)典的案例即為購物籃中的啤酒和尿布的故事。“啤酒與尿布”的故事產(chǎn)生于20世紀90年代的美國沃爾瑪超市中,在美國有嬰兒的家庭中,一般由母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個購物籃的現(xiàn)象。

比如對于如下購物籃數(shù)據(jù):

顧客1:{牛奶、果醬、面包}

顧客2:{牛奶、雞蛋、面包、糖}

顧客3:{面包、黃油、牛奶}

我們可以推測牛奶→面包為一組關聯(lián)規(guī)則,即顧客購買了牛奶,可以推測該顧客下一步很有可能會購買面包。

2.2 分類

分類算法是數(shù)據(jù)挖掘中的關鍵技術,它通過對數(shù)據(jù)訓練集的分析研究,發(fā)現(xiàn)分類規(guī)則,從而具備預測新數(shù)據(jù)類型的能力。分類也是監(jiān)督式機器學習方法,根據(jù)訓練集學習模型,進一步利用模型對新數(shù)據(jù)的類別標簽進行預測。分類算法主要包括兩個階段:①構建模型階段,通過分析學習已知的訓練數(shù)據(jù)集,訓練并構建一個準確率可以接受的模型,該模型用于描述特定的數(shù)據(jù)類集;②使用階段,使用訓練后的模型對未知數(shù)據(jù)對象進行分類。具體過程如下所示。

  • 第一步:類別標簽學習建模(參見圖2)。
  • 第二步:類別標簽分類測試(參見圖3)。

分類標簽預測與數(shù)值預測的區(qū)別如下:數(shù)值預測根據(jù)訓練集學習模型,進一步利用模型對新數(shù)據(jù)的數(shù)值進行預測,區(qū)別于分類標簽預測,數(shù)值預測的輸出為連續(xù)的數(shù)值。

圖2 分類學習建模

圖3 分類測試

數(shù)值預測學習的流程如下。

第一步:數(shù)值預測學習建模(參見圖4)。

圖4 數(shù)值預測學習建模

第二步:數(shù)值預測測試(參見圖5)。

圖5 數(shù)值預測測試

下面來看一個分類標簽預測案例和一個數(shù)值預測案例。

(1)分類標簽預測案例:員工離職預測

根據(jù)給定的影響員工離職的因素和員工是否離職的記錄,建立一個模型預測有可能離職的員工,具體數(shù)據(jù)如表1所示。其中,Attrition表示類別標簽,也就是需要預測的離散數(shù)據(jù)。

表1 員工離職數(shù)據(jù)

(2)數(shù)值預測案例:房價預測

作為一個典型的數(shù)值預測案例,房價預測一直備受關注。簡言之,房價預測就是綜合房屋銷售價格以及房屋的基本信息建立模型,從而預測其他房屋的銷售價格。

我們以Kaggle平臺房價預測的部分數(shù)據(jù)集(見表2)為例進行說明。如表2所示,房屋的基本信息主要包括建筑等級、區(qū)域分類、建筑面積、主路、小巷、房屋外形、平整度、配套設施、房屋位置、地面坡度和銷售價格,等等。其中,“銷售價格”便是需要預測的連續(xù)數(shù)值。

表2 Kaggle房價預測數(shù)據(jù)集示例

2.3 聚類

聚類為非監(jiān)督式機器學習方法,不需要提供具有標簽的訓練集,而是直接以某種聚類準則將數(shù)據(jù)劃分到不同類別中。聚類分析的結果通常受聚類準則的影響,圖6所示的聚類準則如果設為“花色相同”和“符號相同”,則得到兩種不同的聚類結果。

圖6 聚類準則影響結果示意

2.4 回歸

回歸分析(regression analysis)是一個統(tǒng)計預測模型,用于描述和評估應變量與一個或多個自變量之間的關系,包括一元線性回歸、多元線性回歸、非線性回歸、邏輯回歸等。具體來說,可以利用回歸模型來實現(xiàn)數(shù)值預測的任務,比如前面提到的房價預測任務。

當自變量為非隨機變量、因變量為隨機變量時,分析它們的關系稱為回歸分析;根據(jù)回歸分析可以建立變量間的數(shù)學表達式,稱為回歸方程?;貧w方程反映自變量在固定條件下因變量的平均狀態(tài)變化情況。相關分析是以某一指標來度量回歸方程所描述的各個變量間關系的密切程度。

回歸分析方法常用于解釋市場占有率、銷售額、品牌偏好及市場營銷效果。把兩個或兩個以上定距或定比例的數(shù)量關系用函數(shù)形式表示出來,就是回歸分析要解決的問題。

 

本文摘編于《數(shù)據(jù)挖掘:原理與應用》,經(jīng)出版方授權發(fā)布。(書號:9787111696308)轉載請保留文章來源。

 

責任編輯:武曉燕 來源: 數(shù)倉寶貝庫
相關推薦

2022-04-22 11:26:55

數(shù)據(jù)管理架構

2022-04-12 18:29:41

元數(shù)據(jù)系統(tǒng)架構

2021-06-29 11:21:41

數(shù)據(jù)安全網(wǎng)絡安全黑客

2020-11-30 08:34:44

大數(shù)據(jù)數(shù)據(jù)分析技術

2022-03-27 20:32:28

Knative容器事件模型

2021-10-09 00:02:04

DevOps敏捷開發(fā)

2021-06-13 12:03:46

SaaS軟件即服務

2021-12-03 18:25:56

數(shù)據(jù)指標本質

2022-04-27 18:25:02

數(shù)據(jù)采集維度

2022-04-18 07:37:30

數(shù)據(jù)信息知識

2020-10-29 06:09:37

數(shù)據(jù)中臺數(shù)據(jù)大數(shù)據(jù)

2022-05-09 20:23:51

數(shù)據(jù)采集

2021-02-14 00:21:37

區(qū)塊鏈數(shù)字貨幣金融

2022-07-31 20:29:28

日志系統(tǒng)

2021-03-03 21:31:24

量化投資利潤

2021-12-07 18:24:26

數(shù)據(jù)安全

2022-05-01 22:09:27

數(shù)據(jù)模型大數(shù)據(jù)

2025-05-29 01:00:00

數(shù)據(jù)架構大數(shù)據(jù)數(shù)據(jù)湖

2021-10-17 20:38:30

微服務內(nèi)存組件

2021-03-25 11:24:25

爬蟲技術開發(fā)
點贊
收藏

51CTO技術棧公眾號