淺談數(shù)據(jù)挖掘的基本概念及其最常用算法
當(dāng)前,大數(shù)據(jù)的理論和應(yīng)用正在國民經(jīng)濟(jì)和生活的各個(gè)領(lǐng)域如火如荼的進(jìn)行。很多人對(duì)大數(shù)據(jù)的基本概念和特點(diǎn)已經(jīng)有所了解,那么我們僅僅將大數(shù)據(jù)進(jìn)行獲取、存儲(chǔ)、檢索和共享是不夠的,怎么樣才能在大數(shù)據(jù)中找出未知的且有價(jià)值的信息和知識(shí)呢?
知識(shí)發(fā)現(xiàn)(KDD)就是從大數(shù)據(jù)中識(shí)別出有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。

知識(shí)發(fā)現(xiàn)的流程圖
數(shù)據(jù)挖掘是大數(shù)據(jù)知識(shí)發(fā)現(xiàn)(KDD)中不可缺少一部分,是大數(shù)據(jù)理論和應(yīng)用中非常重要的一部分。數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但潛在的有用信息和知識(shí)的過程。大部分人是通過一個(gè)案例認(rèn)識(shí)到數(shù)據(jù)挖掘:這是因?yàn)槲譅柆斖ㄟ^數(shù)據(jù)分析發(fā)現(xiàn),男性顧客在購買嬰兒尿片時(shí),常常會(huì)順便搭配幾瓶啤酒來犒勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段;沒想到這個(gè)舉措居然使尿布和啤酒的銷量都大幅增加了。雖然這個(gè)故事很可能是假的, 但是確實(shí)讓不少人開始接觸數(shù)據(jù)挖掘。

數(shù)據(jù)挖掘基本框架
數(shù)據(jù)挖掘的最常用的幾種算法:
(1)預(yù)測建模:將已有數(shù)據(jù)和模型用于對(duì)未知變量的語言。
- 分類,用于預(yù)測離散的目標(biāo)變量
- 回歸,用于預(yù)測連續(xù)的目標(biāo)變量
(2)聚類分析:發(fā)現(xiàn)緊密相關(guān)的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。
(3)關(guān)聯(lián)分析(又稱關(guān)系模式):反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性。用來發(fā)現(xiàn)描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式。
(4)異常檢測:識(shí)別其特征顯著不同于其他數(shù)據(jù)的觀測值。
有時(shí)也把數(shù)據(jù)挖掘分為:分類,回歸,聚類,關(guān)聯(lián)分析。

數(shù)據(jù)挖掘的四種典型算法
數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)有區(qū)別,也有關(guān)系,我們將在以后的文章中對(duì)其進(jìn)行介紹。