大數(shù)據(jù)與Hadoop之間是什么關(guān)系?
大數(shù)據(jù)在近些年來越來越火熱,人們?cè)谔岬酱髷?shù)據(jù)遇到了很多相關(guān)概念上的問題,比如云計(jì)算、 Hadoop等等。那么,大
大數(shù)據(jù)概念早在1980年,著名未來學(xué)家阿爾文·托夫勒提出的概念。2009年美國(guó)互聯(lián)網(wǎng)數(shù)據(jù)中心證實(shí)大數(shù)據(jù)時(shí)代的來臨。隨著谷歌MapReduce和 GoogleFile System (GFS)的發(fā)布,大數(shù)據(jù)不再僅用來描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度。目前定義:大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具在合理時(shí)間內(nèi)獲取、管理、處理、并整理為幫助企業(yè)經(jīng)營(yíng)決策。
大數(shù)據(jù)目前分為四大塊:大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用。其中云計(jì)算是屬于大數(shù)據(jù)技術(shù)的范疇,是一種通過Internet以服務(wù) 的方式提供動(dòng)態(tài)可伸縮的虛擬化的資源的計(jì)算模式。那么這種計(jì)算模式如何實(shí)現(xiàn)呢,Hadoop的來臨解決了這個(gè)問題,Hadoop是Apache(阿帕切) 的一個(gè)開源項(xiàng)目,它是一個(gè)對(duì)大量數(shù)據(jù)進(jìn)行分布式處理的軟件架構(gòu),在這個(gè)架構(gòu)下組織的成員HDFS(Hadoop分布式文件系統(tǒng)),MapReduce、 Hbase 、Zookeeper(一個(gè)針對(duì)大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng)),hive(基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具)等。
1.云計(jì)算屬于大數(shù)據(jù)中的大數(shù)據(jù)技術(shù)范疇。
2.云計(jì)算包含大數(shù)據(jù)。
3.云和大數(shù)據(jù)是兩個(gè)領(lǐng)域。
云計(jì)算是指利用由大量計(jì)算節(jié)點(diǎn)構(gòu)成的可動(dòng)態(tài)調(diào)整的虛擬化計(jì)算資源,通過并行化和分布式計(jì)算技術(shù),實(shí)現(xiàn)業(yè)務(wù)質(zhì)量的可控的大數(shù)據(jù)處理的計(jì)算技術(shù)。而作為云計(jì)算技術(shù)中的佼佼者,Hadoop以其低成本和高效率的特性贏得了市場(chǎng)的認(rèn)可。Hadoop項(xiàng)目名稱來源于創(chuàng)立者Doung Cutting兒子的一個(gè)玩具,一頭黃色的大象。
Hadoop項(xiàng)目的目標(biāo)是建立一個(gè)可擴(kuò)展開源軟件框架,能夠?qū)Υ髷?shù)據(jù)進(jìn)行可靠的分布式處理。
Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。HDFS是一個(gè)分布式文件系統(tǒng),具有低成本、高可靠性性、高吞吐量的特點(diǎn)。MapReduce是一個(gè)變成模型和軟件框架。
簡(jiǎn)單理解,Hadoop是一個(gè)開源的大數(shù)據(jù)分析軟件,或者說編程模式。它是通過分布式的方式處理大數(shù)據(jù)的,因?yàn)殚_元的原因現(xiàn)在很多的企業(yè)或多或少的在運(yùn)用hadoop的技術(shù)來解決一些大數(shù)據(jù)的問題,在數(shù)據(jù)倉(cāng)庫(kù)方面hadoop是非常強(qiáng)大的。但在數(shù)據(jù)集市以及實(shí)時(shí)的分析展現(xiàn)層面,hadoop也有著明顯的不足,現(xiàn)在一個(gè)比較好的解決方案是架設(shè)hadoop的數(shù)據(jù)倉(cāng)庫(kù)而數(shù)據(jù)集市以及實(shí)時(shí)分析展現(xiàn)層面使用永洪科技的大數(shù)據(jù)產(chǎn)品,能夠很好地解決hadoop的分時(shí)間長(zhǎng)以及其他的問題。
Hadoop大數(shù)據(jù)技術(shù)案例
讓Hadoop和其他大數(shù)據(jù)技術(shù)如此引人注目的部分原因是,他們讓企業(yè)找到問題的答案,而在此之前他們甚至不知道問題是什么。這可能會(huì)產(chǎn)生引出新產(chǎn)品的想法,或者幫助確定改善運(yùn)營(yíng)效率的方法。不過,也有一些已經(jīng)明確的大數(shù)據(jù)用例,無論是互聯(lián)網(wǎng)巨頭如谷歌,F(xiàn)acebook和LinkedIn還是更多的傳統(tǒng)企業(yè)。它們包括:
情感分析: Hadoop與先進(jìn)的文本分析工具結(jié)合,分析社會(huì)化媒體和社交網(wǎng)絡(luò)發(fā)布的非結(jié)構(gòu)化的文本,包括Tweets和Facebook,以確定用戶對(duì)特定公司,品牌或產(chǎn)品的情緒。分析既可以專注于宏觀層面的情緒,也可以細(xì)分到個(gè)人用戶的情緒。
風(fēng)險(xiǎn)建模: 財(cái)務(wù)公司、銀行等公司使用Hadoop和下一代數(shù)據(jù)倉(cāng)庫(kù)分析大量交易數(shù)據(jù),以確定金融資產(chǎn)的風(fēng)險(xiǎn),模擬市場(chǎng)行為為潛在的“假設(shè)”方案做準(zhǔn)備,并根據(jù)風(fēng)險(xiǎn)為潛在客戶打分。
欺詐檢測(cè): 金融公司、零售商等使用大數(shù)據(jù)技術(shù)將客戶行為與歷史交易數(shù)據(jù)結(jié)合來檢測(cè)欺詐行為。例如,信用卡公司使用大數(shù)據(jù)技術(shù)識(shí)別可能的被盜卡的交易行為。
客戶流失分析: 企業(yè)使用Hadoop和大數(shù)據(jù)技術(shù)分析客戶行為數(shù)據(jù)并確定分析模型,該模型指出哪些客戶最有可能流向存在競(jìng)爭(zhēng)關(guān)系的供應(yīng)商或服務(wù)商。企業(yè)就能采取最有效的措施挽留欲流失客戶。
用戶體驗(yàn)分析: 面向消費(fèi)者的企業(yè)使用Hadoop和其他大數(shù)據(jù)技術(shù)將之前單一 客戶互動(dòng)渠道(如呼叫中心,網(wǎng)上聊天,微博等)數(shù)據(jù)整合在一起, 以獲得對(duì)客戶體驗(yàn)的完整視圖。這使企業(yè)能夠了解客戶交互渠道之間的相互影響,從而優(yōu)化整個(gè)客戶生命周期的用戶體驗(yàn)。
當(dāng)然,上述這些都只是大數(shù)據(jù)用例的舉例。事實(shí)上,在所有企業(yè)中大數(shù)據(jù)最引人注目的用例可能尚未被發(fā)現(xiàn)。這就是大數(shù)據(jù)的希望。