大數(shù)據(jù)潛能系列之七:當(dāng)Hadoop發(fā)展成熟
第一次聽說Hadoop 是在幾年前。當(dāng)時(shí)是在舊金山參加Teradata的用戶活動(dòng),會(huì)上很多來自硅谷的技術(shù)和以數(shù)據(jù)為中心的公司積極交流、分享觀點(diǎn)。Informatica與Teradata在保險(xiǎn)業(yè)的共同客戶問Teradata的一位數(shù)據(jù)庫(kù)行業(yè)的資深人士:“你能告訴我更多關(guān)于Hadoop的信息嗎?我們?nèi)绾巫屗幸饬x?它可以替代傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)嗎?這種技術(shù)能讓我們?cè)谶^去幾年中的投資增值嗎?”
當(dāng)時(shí),很多人認(rèn)為Hadoop只是一種硅谷現(xiàn)象,進(jìn)入廣泛采用還為時(shí)過早,只有少數(shù)公司把Hadoop作為其主要的大數(shù)據(jù)處理技術(shù)。我把這位專家拉到一邊悄悄地問:“有哪些Hadoop的消息?我們對(duì)它到底需要投入多大的注意力?”這位專家說:“Hadoop目前的成熟度大概類似于7-8歲的Joe Montana(著名的美式足球運(yùn)動(dòng)員),具有成為頂尖運(yùn)動(dòng)員的特質(zhì)。”我們應(yīng)該用心關(guān)注這個(gè)技術(shù),密切了解它在未來幾年中將如何發(fā)展。
轉(zhuǎn)眼到了2011年,已越來越多的機(jī)構(gòu)把Hadoop納入其IT基礎(chǔ)架構(gòu),用于進(jìn)行以前難以實(shí)現(xiàn)的或成本效益很低的分析,以及用于存儲(chǔ)更多的數(shù)據(jù)——因此,他們現(xiàn)在可以對(duì)更大的數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘和其他用途,而不用丟棄數(shù)據(jù)。Hadoop及其子項(xiàng)目和相關(guān)的組件已經(jīng)被開源社區(qū)進(jìn)行了快速的發(fā)展。與此同時(shí),基于真實(shí)世界的部署,我們正在進(jìn)一步了解Hadoop的好處和可能的好處。很重要的一點(diǎn)是,現(xiàn)在已經(jīng)有很多機(jī)構(gòu)更加以數(shù)據(jù)為中心,因此,我們擁有多個(gè)來自Hadoop和其他數(shù)據(jù)處理平臺(tái)的新業(yè)務(wù)需求的前進(jìn)目標(biāo)和技術(shù)演進(jìn)方向。
有一點(diǎn)是明確的,對(duì)大多數(shù)公司來說,Hadoop在企業(yè)中是對(duì)其他數(shù)據(jù)技術(shù)的補(bǔ)充,而不是替代,因?yàn)檫@種方式可以讓企業(yè)既能用Hadoop也能用數(shù)據(jù)基礎(chǔ)架構(gòu)的其他部分來應(yīng)對(duì)大數(shù)據(jù),兩全其美。Hadoop正在發(fā)展,并將繼續(xù)演進(jìn)。當(dāng)Hadoop發(fā)展成熟時(shí)將會(huì)是怎樣?