看Hadoop解決數(shù)據(jù)處理的三大瓶頸
越來(lái)越多的大企業(yè)的數(shù)據(jù)集以及創(chuàng)建需要的一切技術(shù),包括存儲(chǔ)、網(wǎng)絡(luò)、分析、歸檔和檢索等,這些被認(rèn)為是海量數(shù)據(jù)。這些大量信息直接推動(dòng)了存儲(chǔ)、服務(wù)器以及安全的發(fā)展。同時(shí)也是給IT部門帶來(lái)了一系列必須解決的問(wèn)題。
信息技術(shù)研究和分析的公司Gartner認(rèn)為海量數(shù)據(jù)處理應(yīng)該是將大量的不同種類以及結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)通過(guò)網(wǎng)絡(luò)匯集到處理器和存儲(chǔ)設(shè)備之中,并伴隨著將這些數(shù)據(jù)轉(zhuǎn)換為企業(yè)的商業(yè)報(bào)告。
海量數(shù)據(jù)處理的三個(gè)主要因素:大容量數(shù)據(jù)、多格式數(shù)據(jù)和速度
大容量數(shù)據(jù)(TB級(jí)、PB級(jí)甚至EB級(jí)):人們和機(jī)器制造的越來(lái)越多的業(yè)務(wù)數(shù)據(jù)對(duì)IT系統(tǒng)帶來(lái)了更大的挑戰(zhàn),數(shù)據(jù)的存儲(chǔ)和安全以及在未來(lái)訪問(wèn)和使用這些數(shù)據(jù)已成為難點(diǎn)。
多格式數(shù)據(jù):海量數(shù)據(jù)包括了越來(lái)越多不同格式的數(shù)據(jù),這些不同格式的數(shù)據(jù)也需要不同的處理方法。從簡(jiǎn)單的電子郵件、數(shù)據(jù)日志和信用卡記錄,再到儀器收集到的科學(xué)研究數(shù)據(jù)、醫(yī)療數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)以及豐富的媒體數(shù)據(jù)(包括照片、音樂(lè)、視頻等)。
速度:速度是指數(shù)據(jù)從端點(diǎn)移動(dòng)到處理器和存儲(chǔ)的速度。
Kusnetzky集團(tuán)的分析師Dan Kusnetzky在其博客表示“簡(jiǎn)單的說(shuō),大數(shù)據(jù)是指允許組織創(chuàng)建、操作和管理的龐大的數(shù)據(jù)集和存儲(chǔ)設(shè)施工具”。這是否意味著將來(lái)將會(huì)出現(xiàn)比TB和PB更大的數(shù)據(jù)集嗎?供應(yīng)商給出的回應(yīng)是“會(huì)出現(xiàn)”。
他們也許會(huì)說(shuō)“你需要我們的產(chǎn)品來(lái)管理和組織利用大規(guī)模的數(shù)據(jù),只是想想繁雜大量的維護(hù)動(dòng)態(tài)數(shù)據(jù)集帶來(lái)的麻煩就使人們頭疼“。此外海量數(shù)據(jù)的另外一個(gè)價(jià)值是它可以幫助企業(yè)在適當(dāng)?shù)臅r(shí)機(jī)作出正確決策。
從歷史上看,數(shù)據(jù)分析軟件面對(duì)當(dāng)今的海量數(shù)據(jù)已顯得力不從心,這種局面正在悄然轉(zhuǎn)變。新的海量數(shù)據(jù)分析引擎已經(jīng)出現(xiàn)。如Apache的Hadoop、 LexisNexis的HPCC系統(tǒng)和1010data(托管、海量數(shù)據(jù)分析的平臺(tái)供應(yīng)商)的以云計(jì)算為基礎(chǔ)的分析服務(wù)。
101data的高級(jí)副總裁Tim Negris表示海量數(shù)據(jù)的收集以及存放和利用海量數(shù)據(jù)實(shí)際上完全是兩回事。在做任何事前需要大量(準(zhǔn)備數(shù)據(jù))的工作是像Oracle和大多數(shù)數(shù)據(jù)庫(kù)廠商所面臨的難題之一。我們正是要消除這個(gè)難題,并把數(shù)據(jù)直接交到分析師的手中。Hadoop和HPCC系統(tǒng)做到了這一點(diǎn)。這三個(gè)平臺(tái)都著眼于海量數(shù)據(jù)并提供支持。
開(kāi)源的Hadoop已經(jīng)在過(guò)去5年之中證明了自己是市場(chǎng)中最成功的數(shù)據(jù)處理平臺(tái)。目前Cloudera的首席執(zhí)行官和Apache基金會(huì)的Doug Cutting是Hadoop的創(chuàng)始人,他曾在Yahoo工作過(guò)。
Hadoop將海量數(shù)據(jù)分解成較小的更易訪問(wèn)的批量數(shù)據(jù)并分發(fā)到多臺(tái)服務(wù)器來(lái)分析(敏捷是一個(gè)重要的屬性,就像你更容易消化被切成小塊的食物)Hadoop再處理查詢。
“Gartner和IDC的分析師認(rèn)為海量數(shù)據(jù)的處理速度和處理各種數(shù)據(jù)的能力都是Hadoop吸引人們的地方”。Cloudera的產(chǎn)品副總裁Charles Zedlewski說(shuō)到。
在Cutting和他的Yahoo團(tuán)隊(duì)提出Hadoop項(xiàng)目之后,在Yahoo IT系統(tǒng)測(cè)試并廣泛使用了很多年。隨后他們將Hadoop發(fā)布到開(kāi)源社區(qū),這使得Hadoop逐漸產(chǎn)品化。
【編輯推薦】