揭露云數(shù)據(jù)分析商業(yè)智能價(jià)值
公有云不只是改變了計(jì)算和存儲(chǔ)的價(jià)格結(jié)構(gòu),而且還擴(kuò)展了分析企業(yè)IT可以執(zhí)行的范圍。在同大數(shù)據(jù)集工作時(shí)尤為明顯,沒(méi)有彈性計(jì)算和存儲(chǔ)的訪問(wèn)就不會(huì)有實(shí)踐。
“大數(shù)據(jù)”的寬松定義是過(guò)大而不能用傳統(tǒng)數(shù)據(jù)管理技術(shù)和基礎(chǔ)架構(gòu)處理的數(shù)據(jù)集。詳細(xì)的服務(wù)器日志、點(diǎn)擊流數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)和移動(dòng)設(shè)備數(shù)據(jù)都是數(shù)據(jù)倉(cāng)庫(kù)中和商業(yè)智能系統(tǒng)中交易型數(shù)據(jù)類型的補(bǔ)充。此外,公有云數(shù)據(jù)存儲(chǔ)庫(kù)和第三方加速器也提供了大數(shù)據(jù)集話題,從Twitter流和Meetup博文到經(jīng)濟(jì)和人口普查數(shù)據(jù)。
合并這些數(shù)據(jù)源可以進(jìn)行更加詳細(xì)和精密的分析。獲得客戶如何在在你的網(wǎng)站上瀏覽以及他們就不同產(chǎn)品瀏覽多長(zhǎng)時(shí)間的細(xì)節(jié)信息,獲取更多關(guān)于客戶偏好的洞察力,而不僅僅是追蹤產(chǎn)品購(gòu)買。
大數(shù)據(jù)檢索:三源頭
在你能夠處理大數(shù)據(jù)之前,確定你要處理哪種類型的數(shù)據(jù)至關(guān)重要。大數(shù)據(jù)源分成三個(gè)廣泛的分類:內(nèi)部生成數(shù)據(jù)、數(shù)據(jù)集市場(chǎng)和第三方數(shù)據(jù)生成器。
內(nèi)部生成大數(shù)據(jù)通常是IT運(yùn)營(yíng)的副產(chǎn)品。包括網(wǎng)絡(luò)流量、點(diǎn)擊流數(shù)據(jù)和應(yīng)用日志。在過(guò)去,企業(yè)針對(duì)重要事件捕捉有限的信息,比如購(gòu)買東西的客戶?,F(xiàn)在我們可以捕捉更多更為重要的信息,用你的業(yè)務(wù)應(yīng)用就客戶的交互分析低級(jí)別的細(xì)節(jié)信息。用數(shù)據(jù)挖掘算法結(jié)合這些詳細(xì)信息,你會(huì)發(fā)現(xiàn)更多的洞察力,像界面的可用性、和低利潤(rùn)交易相關(guān)的模式或者意外客戶類型群集。
數(shù)據(jù)集市場(chǎng),比如Infochimps、亞馬遜Web服務(wù)(AWS)的公有數(shù)據(jù)集和Windows Azure Marketplace,將提供范圍廣泛的數(shù)據(jù)集訪問(wèn)補(bǔ)充你的內(nèi)部數(shù)據(jù)。如果你對(duì)于處方藥使用、零售數(shù)據(jù)、交易數(shù)據(jù)或者更廣泛的其他話題感興趣,你可以在這些數(shù)據(jù)市場(chǎng)中找到數(shù)據(jù)。很多數(shù)據(jù)市場(chǎng)提供云數(shù)據(jù)分析,因此你可以直接用虛擬機(jī)在云端進(jìn)行工作。
第三方生成器是關(guān)注收集和為客戶提供數(shù)據(jù)或者供公共使用的組織。美國(guó)聯(lián)邦政府和歐盟都是這樣,生成大量的人口統(tǒng)計(jì)、經(jīng)濟(jì)和公共健康數(shù)據(jù)。私有公司,比如Hoover也提供增值服務(wù),比如為客戶提供市場(chǎng)和風(fēng)險(xiǎn)管理數(shù)據(jù)。
企業(yè)工具挖掘大數(shù)據(jù)潛能
很難結(jié)合大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)到關(guān)系型數(shù)據(jù)庫(kù)中。云數(shù)據(jù)分析工具給企業(yè)提供所有規(guī)格能夠分析這種數(shù)據(jù)。
如果數(shù)據(jù)結(jié)構(gòu)化很好,你可能希望繼續(xù)做關(guān)系型數(shù)據(jù)庫(kù),比如甲骨文或者微軟SQL Server,二者對(duì)于AWS、微軟Windows Azure以及其他的云提供商都可用。
當(dāng)你開(kāi)始處理億萬(wàn)行數(shù)據(jù)時(shí),是時(shí)候考慮Hadoop或者谷歌BigQuery了。AWS有一個(gè)Hadoop服務(wù),稱之為彈性MapReduce,節(jié)省了安裝和配置Hadoop集群的時(shí)間。Hadoop很好的符合面向包的分析,但是BigQuery更適合交互式分析。BigQuery使用類SQL查詢語(yǔ)言,并支持Tableau Software的可視化工具,這是對(duì)專業(yè)分析的兩個(gè)重要考慮對(duì)象。
數(shù)據(jù)整合和管理
在數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行大數(shù)據(jù)分析的很多任務(wù)中,和抽取、轉(zhuǎn)換和加載(ETL)操作相關(guān)聯(lián)??缍鄠€(gè)數(shù)據(jù)集耦合實(shí)體是數(shù)據(jù)集使用***識(shí)別符時(shí)的挑戰(zhàn);數(shù)據(jù)格式需要表轉(zhuǎn)化。
關(guān)注聚集級(jí)別的不同之處。比如,一些數(shù)據(jù)何以在日常級(jí)別聚集,其他的數(shù)據(jù)則只能夠看作是普通的追蹤級(jí)別。
最重要的,要知道數(shù)據(jù)傳輸成本,通常都要伴隨著大數(shù)據(jù)出現(xiàn)??赡艿脑挘谀愦鎯?chǔ)數(shù)據(jù)相同的云中使用虛擬機(jī)。在處理谷歌BigQuery時(shí),記住你要根據(jù)潮汛處理的數(shù)據(jù)量付費(fèi),因此只查詢你需要的行和列。































