偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大數(shù)據(jù)時(shí)代已來(lái)臨,你準(zhǔn)備好了嗎?

原創(chuàng)
數(shù)據(jù)庫(kù)
數(shù)據(jù)挖掘,越來(lái)越多的體現(xiàn)在企業(yè)的數(shù)據(jù)報(bào)表上,也會(huì)為我們帶來(lái)越來(lái)越明顯的效益。所以,您做好準(zhǔn)備了嗎?做好準(zhǔn)備迎接新的時(shí)代,利用多樣化數(shù)據(jù)的準(zhǔn)備了嗎?

昨日,在亮馬河大廈舉辦了2011大數(shù)據(jù)世界論壇。

大會(huì)現(xiàn)場(chǎng)

覆蓋金融,電信,政府,醫(yī)療,能源,公共事業(yè),零售,物流等行業(yè)對(duì)大數(shù)據(jù)存儲(chǔ),挖掘均有巨大需求,本次論壇集各家所長(zhǎng),共同解決一個(gè)問(wèn)題:面對(duì)海量數(shù)據(jù),你準(zhǔn)備好了嗎?

從幾拍字節(jié)的數(shù)據(jù)倉(cāng)庫(kù)到社交媒體數(shù)據(jù),從基于云計(jì)算的應(yīng)用程序到傳感器和移動(dòng)設(shè)備,從電子商務(wù)處理到地理空間信息,海量數(shù)據(jù)的時(shí)代已經(jīng)來(lái)臨。在已經(jīng)到來(lái)的大數(shù)據(jù)量時(shí)代,數(shù)據(jù)存儲(chǔ)發(fā)生了什么變化嗎?是的,發(fā)生了巨大的變化,存儲(chǔ)形式仿佛轉(zhuǎn)了一個(gè)圈,又回到了文件式存儲(chǔ)。據(jù)統(tǒng)計(jì),包括視頻、音頻、圖片、微博等在內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)將占企業(yè)數(shù)據(jù)的80%左右,到2012年數(shù)據(jù)存儲(chǔ)基本會(huì)是以文件形式存儲(chǔ)。

在這個(gè)大時(shí)代來(lái)臨之時(shí),您是否還記得1TB的數(shù)據(jù)倉(cāng)庫(kù)被視為大儲(chǔ)量的年代?如今,您只需要付出不到100美元就可以從當(dāng)?shù)亓闶凵烫庂?gòu)買到存儲(chǔ)量為1TB的存儲(chǔ)設(shè)備,而許多數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)量已經(jīng)超過(guò)了拍字節(jié)。

不過(guò)持續(xù)增長(zhǎng)的數(shù)據(jù)量?jī)H僅是海量數(shù)據(jù)的一半構(gòu)成內(nèi)容,海量數(shù)據(jù)同時(shí)帶來(lái)了數(shù)據(jù)的多樣性,復(fù)雜性以及速率的大規(guī)模增長(zhǎng)。這種變化具有破壞力嗎?是的,它具有破壞力,你做好準(zhǔn)備迎戰(zhàn)它,擊敗它了嗎?這是一次商機(jī)嗎?是的,這是一次商機(jī),那么你做好準(zhǔn)備去利用它了嗎?該如何擊敗,該如何利用?答案只有一個(gè):數(shù)據(jù)挖掘,挖掘出商機(jī)無(wú)限,挖掘出潛在信息。

在大眾點(diǎn)評(píng)網(wǎng)CEO張濤看來(lái),數(shù)據(jù)挖掘是一家互聯(lián)網(wǎng)公司必不可少的。實(shí)際上,不只是互聯(lián)網(wǎng)公司,數(shù)據(jù)挖掘?qū)τ谌我庖患夜径际潜夭豢缮俚摹?/p>

#p#

什么是數(shù)據(jù)挖掘?

簡(jiǎn)單地說(shuō),數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。該術(shù)語(yǔ)實(shí)際上有點(diǎn)用詞不當(dāng)。注意,從礦石或砂子挖掘黃金稱作黃金挖掘,而不是砂石挖掘。因 此,數(shù)據(jù)挖掘應(yīng)當(dāng)更正確地命名為“從數(shù)據(jù)中挖掘知識(shí)”,遺憾的是這個(gè)詞有點(diǎn)長(zhǎng)。“知識(shí)挖掘”是一個(gè)較短的術(shù)語(yǔ),但不能反映從大量數(shù)據(jù)中挖掘。畢竟,挖掘是 一個(gè)很生動(dòng)的術(shù)語(yǔ),它抓住了從大量的、未加工的材料中發(fā)現(xiàn)少量寶貴金塊這一過(guò)程的特點(diǎn)(見(jiàn)圖1-3)。這樣,“數(shù)據(jù)挖掘”成了流行術(shù)語(yǔ)。還有一些術(shù)語(yǔ)具有 和數(shù)據(jù)挖掘類似但稍微不同的含義,如從數(shù)據(jù)中挖掘知識(shí)、知識(shí)提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古和數(shù)據(jù)捕撈。

許多人把數(shù)據(jù)挖掘視為另一個(gè)常用的術(shù)語(yǔ)數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)或KDD的同義詞,而另一些人只是把數(shù)據(jù)挖掘視為知識(shí)發(fā)現(xiàn)過(guò)程的一個(gè)基本步驟。知識(shí)發(fā)現(xiàn)過(guò)程如圖1-4所示,由以下步驟的迭代序列組成:

1. 數(shù)據(jù)清理(消除噪聲和不一致數(shù)據(jù))

2. 數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)

3. 數(shù)據(jù)選擇(從數(shù)據(jù)庫(kù)中提取與分析任務(wù)相關(guān)的數(shù)據(jù))

[[35660]] 

圖1-3 數(shù)據(jù)挖掘:在你的數(shù)據(jù)中搜索知識(shí)(有趣的模式)

 

圖1-4 數(shù)據(jù)挖掘作為知識(shí)發(fā)現(xiàn)過(guò)程的一個(gè)步驟

4. 數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過(guò)匯總或聚集操作)

5. 數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式)

6. 模式評(píng)估(根據(jù)某種興趣度度量,識(shí)別表示知識(shí)的真正有趣的模式;見(jiàn)1.5節(jié))

7. 知識(shí)表示(使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí))

步驟1~4是數(shù)據(jù)預(yù)處理的不同形式,為挖掘準(zhǔn)備數(shù)據(jù)。數(shù)據(jù)挖掘步驟可能與用戶或知識(shí)庫(kù)交互。有趣的模式提供給用戶,或作為新的知識(shí)存放在知識(shí)庫(kù)中。注意,根據(jù)這種觀點(diǎn),數(shù)據(jù)挖掘只是整個(gè)過(guò)程中的一個(gè)步驟,盡管是最重要的步驟,因?yàn)樗l(fā)現(xiàn)用來(lái)評(píng)估的隱藏的模式。

我們同意數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過(guò)程的一個(gè)步驟。然而,在產(chǎn)業(yè)界、媒體和數(shù)據(jù)庫(kù)研究界,術(shù)語(yǔ)數(shù)據(jù)挖掘比長(zhǎng)術(shù)語(yǔ)從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)更流行。因此,本書(shū)選用術(shù) 語(yǔ)數(shù)據(jù)挖掘。我們采用數(shù)據(jù)挖掘功能的廣義觀點(diǎn):數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣知識(shí)的過(guò)程。基于這種觀點(diǎn),典型的 數(shù)據(jù)挖掘系統(tǒng)具有以下主要成分(見(jiàn)圖1-5):

 

圖1-5 典型數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)

#p#

數(shù)據(jù)挖掘到底能做什么?

數(shù)據(jù)挖掘能做以下七種不同事情(分析方法):

  1. 分類 (Classification)
  2. 估值(Estimation)
  3. 預(yù)言(Prediction)
  4. 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)
  5. 聚集(Clustering)
  6. 描述和可視化(Description and Visualization)
  7. 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)

數(shù)據(jù)挖掘中的算法

“數(shù)據(jù)挖掘算法”是創(chuàng)建數(shù)據(jù)挖掘模型的機(jī)制。為了創(chuàng)建模型,算法將首先分析一組數(shù)據(jù)并查找特定模式和趨勢(shì)。算法使用此分析的結(jié)果來(lái)定義挖掘模型的參數(shù)。然后,這些參數(shù)應(yīng)用于整個(gè)數(shù)據(jù)集,以便提取可行模式和詳細(xì)統(tǒng)計(jì)信息。

算法創(chuàng)建的挖掘模型可以采用多種形式,這包括:

  • 說(shuō)明在交易中如何將產(chǎn)品分組到一起的一組規(guī)則。

  • 預(yù)測(cè)特定用戶是否會(huì)購(gòu)買某個(gè)產(chǎn)品的決策樹(shù)。

  • 預(yù)測(cè)銷量的數(shù)學(xué)模型。

  • 說(shuō)明數(shù)據(jù)集中的事例如何相關(guān)的一組分類。

【編輯推薦】

  1. 初探數(shù)據(jù)挖掘中的十大經(jīng)典算法
  2. 為您介紹幾款開(kāi)源的數(shù)據(jù)挖掘工具

數(shù)據(jù)挖掘算法的類型

包括了以下算法類型:

  1. 分類算法基于數(shù)據(jù)集中的其他屬性預(yù)測(cè)一個(gè)或多個(gè)離散變量。
  2. 回歸算法基于數(shù)據(jù)集中的其他屬性預(yù)測(cè)一個(gè)或多個(gè)連續(xù)變量,如利潤(rùn)或虧損。
  3. 分割算法將數(shù)據(jù)劃分為組或分類,這些組或分類的項(xiàng)具有相似屬性。
  4. 關(guān)聯(lián)算法查找數(shù)據(jù)集中的不同屬性之間的相關(guān)性。這類算法最常見(jiàn)的應(yīng)用是創(chuàng)建可用于市場(chǎng)籃分析的關(guān)聯(lián)規(guī)則。
  5. 順序分析算法匯總數(shù)據(jù)中的常見(jiàn)順序或事件,如 Web 路徑流。

數(shù)據(jù)挖掘,越來(lái)越多的體現(xiàn)在企業(yè)的數(shù)據(jù)報(bào)表上,也會(huì)為我們帶來(lái)越來(lái)越明顯的效益。所以,您做好準(zhǔn)備了嗎?做好準(zhǔn)備迎接新的時(shí)代,利用多樣化數(shù)據(jù)的準(zhǔn)備了嗎?

【編輯推薦】

  1. BI應(yīng)用:數(shù)據(jù)分析和數(shù)據(jù)挖掘時(shí)代來(lái)臨
  2. 初探數(shù)據(jù)挖掘中的十大經(jīng)典算法
  3. 為您介紹幾款開(kāi)源的數(shù)據(jù)挖掘工具

 

責(zé)任編輯:艾婧 來(lái)源: 51CTO
相關(guān)推薦

2011-08-30 09:28:36

編程

2021-08-02 15:42:36

人工智能無(wú)人機(jī)無(wú)人駕駛

2011-05-25 17:08:29

ibmdwLinux

2013-01-28 16:51:45

2011-05-25 10:15:47

開(kāi)源

2018-10-11 17:43:15

人臉識(shí)別人工智能AI

2015-01-07 10:45:05

Dockerkubernetescontain

2018-10-16 18:26:52

人工智能AI

2015-10-15 17:11:47

賽思股份

2015-06-24 16:03:24

大數(shù)據(jù).SAS

2010-08-25 15:49:04

面試

2016-05-31 16:50:33

2012-03-09 13:40:28

大數(shù)據(jù)

2013-08-02 14:34:35

移動(dòng)互聯(lián)網(wǎng)

2015-12-15 10:47:35

中國(guó)外包網(wǎng)

2009-06-23 14:09:53

Web 3.0語(yǔ)義網(wǎng)OpenAmplify

2021-04-28 11:38:10

“熄燈”數(shù)據(jù)中心數(shù)據(jù)中心運(yùn)維

2015-10-19 16:51:01

2012-09-03 17:21:02

大數(shù)據(jù)

2011-01-12 09:37:59

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)