跌下神壇的Hadoop 過(guò)度炒作還是理性選擇?
長(zhǎng)期以來(lái),Hadoop 這個(gè)詞鋪天蓋地,幾乎成了大數(shù)據(jù)的代名詞。三年之前,提起超越 Hadoop 這件事,似乎還顯得難以想象。但三年后的今天,這一情況發(fā)生了一些改變。
早在 2012 年,知名媒體 SiliconANGLE 就針對(duì) Twitter 平臺(tái)上的大數(shù)據(jù)專(zhuān)業(yè)人士做了一項(xiàng)調(diào)查。調(diào)查結(jié)果顯示:這些專(zhuān)業(yè)人士日常談?wù)?NoSQL 等技術(shù)(如 MongoDB)的次數(shù)要遠(yuǎn)多于 Hadoop。這表明,至少在數(shù)據(jù)科學(xué)家的群體中,用 Hadoop 代指大數(shù)據(jù)似乎并不準(zhǔn)確。
不過(guò),在大部分人的印象中,Hadoop 目前已經(jīng)是大數(shù)據(jù)行業(yè)最重要的技術(shù)之一,是構(gòu)建今天的常見(jiàn)數(shù)據(jù)庫(kù)的基礎(chǔ)。不但如此,Hadoop 還在其他一些領(lǐng)域積極拓展著自己的應(yīng)用范疇,例如倉(cāng)儲(chǔ)系統(tǒng)等。
Hadoop 正失去市場(chǎng)?
然而令人驚訝的是,最近行業(yè)里開(kāi)始傳出一種聲音:Hadoop 的市場(chǎng)占有率已經(jīng)出現(xiàn)了明顯的停滯不前。甚至 IBM 的大數(shù)據(jù)宣傳人員 James Kobielus 還公開(kāi)表示:“Hadoop 在大數(shù)據(jù)領(lǐng)域的頹勢(shì)比我預(yù)期的還要嚴(yán)重。”
要明確 Hadoop 究竟為什么會(huì)停滯不前,似乎很復(fù)雜,但這種說(shuō)法也可能是大數(shù)據(jù)行業(yè)里一種比較常見(jiàn)的現(xiàn)象。據(jù) Gartner 在2015年的研究顯示,市場(chǎng)上有高達(dá) 54% 的公司并沒(méi)有投資 Hadoop 的打算,而 44% 的公司已經(jīng)或計(jì)劃在未來(lái)兩年內(nèi)采用 Hadoop。這些數(shù)字在不同人看來(lái)可能會(huì)得到不同的結(jié)論:有些人會(huì)認(rèn)為這意味著 Hadoop 在進(jìn)一步的擴(kuò)張,但同時(shí)也會(huì)有人認(rèn)為 Hadoop 已經(jīng)顯出了頹勢(shì)。
與此同時(shí),調(diào)查還顯示:在那些沒(méi)有投資的人中,有 49% 的人正在努力學(xué)習(xí)怎樣行之有效地利用 Hadoop 為企業(yè)創(chuàng)造更多價(jià)值,另外還有高達(dá) 57% 的人表示并非他們不想,但技能差距(skills gap)是主要障礙,而且這種差距無(wú)法在短期內(nèi)縮小。該結(jié)論與另一項(xiàng)關(guān)于 Hadoop 的調(diào)查相一致:在2014年中期,大約有 0.061% 的招聘廣告中出現(xiàn)了“Hadoop Testing”這個(gè)關(guān)鍵詞,然后該數(shù)字在 2016 年末又上升到 0.087%,在 18 個(gè)月內(nèi)增長(zhǎng)了大約 43%。
上述事實(shí)或許可以表明:?jiǎn)渭儚?Hadoop 的市場(chǎng)占有率來(lái)推斷其發(fā)展態(tài)勢(shì)似乎有些片面了,因?yàn)檫€有許多公司并非不想采用 Hadoop,只是他們發(fā)現(xiàn)很難利用現(xiàn)有的技術(shù)團(tuán)隊(duì)充分挖掘 Hadoop 的應(yīng)用價(jià)值,實(shí)際上,他們只是需要更多的專(zhuān)業(yè)知識(shí)。
殺雞無(wú)須牛刀
另一個(gè)值得關(guān)注的因素是數(shù)據(jù)量。Hadoop是專(zhuān)門(mén)針對(duì)海量數(shù)據(jù)而設(shè)計(jì)的,就像一位數(shù)據(jù)科學(xué)大牛之前在 KD Nuggets 網(wǎng)站的文章中所描述的那樣:如果你的企業(yè)中沒(méi)有海量的數(shù)據(jù),那就不需要 Hadoop。這也是為什么許多公司對(duì)他們只有 2TB 到 10TB 的 Hadoop 集群感到失望的原因,因?yàn)?Hadoop 技術(shù)在這樣的數(shù)據(jù)儲(chǔ)量下根本無(wú)法發(fā)揮其最大的價(jià)值。
還有一個(gè)不容忽視的現(xiàn)象是:目前有大量的公司其實(shí)并沒(méi)有足夠的數(shù)據(jù)量來(lái)推動(dòng) Hadoop 發(fā)揮其應(yīng)有的效力,但是為了充門(mén)面、趕潮流還是采用了 Hadoop 框架。然后經(jīng)過(guò)幾年的實(shí)踐,與真正懂行的數(shù)據(jù)科學(xué)家們共事之后,才最終意識(shí)到,以他們的數(shù)據(jù)積累,其實(shí)存在著比 Hadoop 更簡(jiǎn)單、更合適的技術(shù)選擇。
事實(shí)上,對(duì)一些公司來(lái)說(shuō),采用Hadoop框架已經(jīng)產(chǎn)生了實(shí)際的財(cái)務(wù)問(wèn)題。Cloudera 和 Hortonworks 就是通過(guò) Hadoop 框架搭建其產(chǎn)品的最大的兩家公司,但是從 2015 年中期以來(lái),他們的股價(jià)已經(jīng)分別下跌了 40% 和 68%。
最后,原作者在文末表示,上述關(guān)于 Hadoop 的批評(píng)或許顯得苛刻,需要澄清的一點(diǎn)是:并非 Hadoop 框架本身的缺陷造成了目前的停滯不前。相反,Hadoop 的問(wèn)題應(yīng)該歸咎于市場(chǎng)上無(wú)休止的炒作和夸大。雖然許多公司跟風(fēng)采用了 Hadoop 技術(shù),但卻并沒(méi)有深刻理解它,也不清楚它正確的使用方法,因而也就無(wú)法發(fā)揮最高的運(yùn)行效率,這才導(dǎo)致了 Hadoop 的頹勢(shì)。但是,原作者強(qiáng)調(diào),Hadoop 仍然是一種具有強(qiáng)大生命力的技術(shù),只是人們需要更深刻地認(rèn)識(shí)它。