Cloudera和Hortonworks宣布合并:對(duì)Hadoop的一記重創(chuàng)!
近日,大數(shù)據(jù)領(lǐng)域的兩大巨頭公司Cloudera和Hortonworks宣布平等合并,Cloudera以股票方式收購(gòu)Hortonworks,Cloudera股東最終獲得合并公司60%的股份。 這筆交易意味著Hadoop市場(chǎng)再也無(wú)法維持兩大競(jìng)爭(zhēng)對(duì)手對(duì)峙的狀態(tài)了。
在Hadoop的世界中,規(guī)模最大、知名度最高的公司就是Cloudera。Cloudera努力為開(kāi)源Hadoop提供支持,同時(shí)將數(shù)據(jù)處理框架延伸到一個(gè)全面的“企業(yè)數(shù)據(jù)中心”范疇。Hortonworks也是企業(yè)級(jí)全球數(shù)據(jù)管理平臺(tái),同時(shí)也是服務(wù)和解決方案的領(lǐng)先供應(yīng)商,為100強(qiáng)企業(yè)中的一多半提供‘任何類(lèi)型數(shù)據(jù)’的可操作信息。此次最大的兩家數(shù)據(jù)服務(wù)商Cloudera和Hortonworks宣布合并,表示要?jiǎng)?chuàng)建世界領(lǐng)先的數(shù)據(jù)平臺(tái)。
本次交易要點(diǎn):
1、創(chuàng)建世界領(lǐng)先的數(shù)據(jù)平臺(tái),增加規(guī)模和資源,提供業(yè)界第一個(gè)企業(yè)級(jí)數(shù)據(jù)云,提高公共云的易用性和靈活性;
2、制定清晰的行業(yè)標(biāo)準(zhǔn);
3、加速市場(chǎng)發(fā)展,推動(dòng)物聯(lián)網(wǎng)、流媒體、數(shù)據(jù)倉(cāng)庫(kù)、混合云、機(jī)器學(xué)習(xí)、人工智能等領(lǐng)域的創(chuàng)新
4、利用補(bǔ)充產(chǎn)品擴(kuò)大市場(chǎng)機(jī)會(huì),包括Hortonworks DataFlow和Cloudera Data Science Workbench
5、加強(qiáng)與公共云供應(yīng)商和系統(tǒng)集成商的伙伴關(guān)系
6、預(yù)計(jì)將產(chǎn)生重大的經(jīng)濟(jì)利益并改善利潤(rùn)率:
收入約為7.2億美元
超過(guò)2,500名客戶(hù)
800多名客戶(hù)超過(guò)$ 100,000 ARR
超過(guò)120家客戶(hù)的ARR超過(guò)100萬(wàn)美元
超過(guò)1.25億美元的年度成本協(xié)同增效
CY20的現(xiàn)金流超過(guò)1.5億美元
超過(guò)5億美元的現(xiàn)金,沒(méi)有債務(wù)

顧問(wèn)、管理層以及董事會(huì)等動(dòng)向
交易完成后,Cloudera的首席執(zhí)行官Tom Reilly將擔(dān)任首席執(zhí)行官;Hortonworks的首席運(yùn)營(yíng)官Scott Davidson將擔(dān)任首席運(yùn)營(yíng)官;Hortonworks的首席產(chǎn)品官Arun C.Murthy將擔(dān)任合并后公司的首席產(chǎn)品官;Cloudera的首席財(cái)務(wù)官Jim Frankola將擔(dān)任合并后公司的首席財(cái)務(wù)官。Hortonworks的首席執(zhí)行官RobBearden將加入董事會(huì)?,F(xiàn)任Cloudera董事會(huì)成員MartyCole將擔(dān)任董事會(huì)主席。

新成立公司的董事會(huì)最初將由九名董事組成。包括Bearden先生在內(nèi)的四位董事將來(lái)自Hortonworks現(xiàn)有的董事會(huì)。包括Reilly先生在內(nèi)的五位董事將來(lái)自Cloudera現(xiàn)有的董事會(huì)。合并后的董事會(huì)將選出第十名董事。
其中,Morgan Stanley&Co.LLC擔(dān)任Cloudera的財(cái)務(wù)顧問(wèn),F(xiàn)enwick&West.LLP擔(dān)任其法律顧問(wèn)。Qatalyst Partners擔(dān)任Hortonworks的財(cái)務(wù)顧問(wèn),Latham&Watkins.LLP擔(dān)任其法律顧問(wèn)。
Hadoop多年來(lái)一直是大數(shù)據(jù)的代名詞,但市場(chǎng)和客戶(hù)需求已經(jīng)發(fā)生了變化,此次兩大公司合并無(wú)疑會(huì)是對(duì)Hadoop的一記重創(chuàng)。在幾大趨勢(shì)的推動(dòng)下,Hadoop的影響正在逐漸降低!
公有云浪潮正在上升
第一個(gè)大趨勢(shì)是企業(yè)向公有云的轉(zhuǎn)變。各種規(guī)模的公司都在增加對(duì)AWS、Azure和Google Cloud服務(wù)的采用,而犧牲了內(nèi)部部署基礎(chǔ)架構(gòu)和軟件。根據(jù)IDC和Gartner的報(bào)告,企業(yè)服務(wù)器收入連續(xù)下降。前三大云提供商(占云市場(chǎng)份額的90%)提供自己的托管Hadoop/Spark服務(wù),例如亞馬遜的Elastic Map Reduce(EMR)。這些都是完全集成的產(chǎn)品,具有較低的購(gòu)置成本并且更便宜。 如果企業(yè)正在轉(zhuǎn)向云計(jì)算,那么選擇這類(lèi)將Hadoop產(chǎn)品視為其中一部分的云平臺(tái)既省時(shí)又省力,這幾乎是一個(gè)很自然的決策。并且,具有諷刺意味的是,Cloudera并沒(méi)有加入云時(shí)代,這個(gè)在Hadoop上優(yōu)勢(shì)明顯的公司并未發(fā)掘這一先機(jī)。
存儲(chǔ)成本 降低
第二大趨勢(shì)是什么?云存儲(chǔ)的經(jīng)濟(jì)性正在碾壓Hadoop的存儲(chǔ)成本。 在2005年推出時(shí),Hadoop分布式文件系統(tǒng)(HDFS)是革命性的一大改進(jìn),它將服務(wù)器與普通硬盤(pán)驅(qū)動(dòng)器結(jié)合,并將它們轉(zhuǎn)變?yōu)槟軌蛴蒍ava應(yīng)用程序兼容并行IO的分布式存儲(chǔ)系統(tǒng)。當(dāng)時(shí),我們沒(méi)有類(lèi)似的東西可以選擇,它就是一個(gè)關(guān)鍵組件,允許并行處理不適合單個(gè)機(jī)器運(yùn)行的大規(guī)模數(shù)據(jù)集。但那是13年前的事了, 如今有許多便宜得多的替代品,主要是對(duì)象存儲(chǔ)服務(wù),如AWS S3,Azure Blob存儲(chǔ)和Google云端存儲(chǔ)。 一個(gè)TB的云對(duì)象存儲(chǔ)成本約每月20美元,而HDFS每月約100美元(不包括運(yùn)營(yíng)成本)。 例如,谷歌的HDFS服務(wù)僅僅是將HDFS操作轉(zhuǎn)換為對(duì)象存儲(chǔ)操作,但價(jià)格卻便宜了5倍。
更快,更好,更便宜的云數(shù)據(jù)庫(kù)
Hadoop的問(wèn)題并不止于此,因?yàn)樗粌H受到云供應(yīng)商Hadoop/Spark服務(wù)和對(duì)象存儲(chǔ)服務(wù)的直接競(jìng)爭(zhēng)。第三大趨勢(shì)是“無(wú)服務(wù)器”,它的出現(xiàn)完全消除了運(yùn)行Hadoop或Spark的需要。Spark的一個(gè)常見(jiàn)用例是為用戶(hù)處理ad-hoc分布式SQL查詢(xún)。谷歌率先在2011年推出了名為BigQuery的革命性服務(wù),以完全不同的方式解決了同樣的問(wèn)題。它允許對(duì)存儲(chǔ)在其對(duì)象存儲(chǔ)服務(wù)中的任何數(shù)據(jù)量運(yùn)行即席查詢(xún)(無(wú)需將其加載到HDFS等特殊存儲(chǔ)中),用戶(hù)只需為計(jì)算時(shí)間付費(fèi):如果需要1,000個(gè)core,只需3.5秒即可運(yùn)行查詢(xún),這就是所支付的全部費(fèi)用。企業(yè)無(wú)需配置服務(wù)器、安裝操作系統(tǒng)、安裝軟件、配置所有內(nèi)容以將集群擴(kuò)展到1,000個(gè)節(jié)點(diǎn),以及像Hadoop/Spark一樣提供和關(guān)注集群。谷歌做了所有這些繁瑣的工作,因此這個(gè)名字叫“無(wú)服務(wù)器”。有些銀行運(yùn)行著2000個(gè)節(jié)點(diǎn)的Hadoop/Spark集群,由數(shù)十名IT人員操作和維護(hù),無(wú)法與BigQuery的靈活性、速度和規(guī)模相匹敵,還必須支付所有硬件、軟件和人員費(fèi)用才能運(yùn)行和維護(hù)Hadoop。
BigQuery就是一個(gè)例子。 其他云數(shù)據(jù)庫(kù)服務(wù)同樣具有大規(guī)模,高度靈活,全球分布等特點(diǎn)。初創(chuàng)公司Snowflake,Google Big Table,AWS Aurora和Microsoft Cosmos等,他們所提供的服務(wù)比安裝Hadoop/Spark更容易使用,用戶(hù)可以在5分鐘內(nèi)啟動(dòng)并運(yùn)行,整個(gè)過(guò)程只需要數(shù)十美元,不需要50萬(wàn)美元的采購(gòu)訂單和數(shù)周的安裝、配置和培訓(xùn)。
容器、Kubernetes和機(jī)器學(xué)習(xí)
第四大趨勢(shì)是容器和Kubernetes。 Hadoop / Spark不僅僅是一個(gè)存儲(chǔ)環(huán)境,也是一個(gè)計(jì)算環(huán)境。同樣,早在2005年,Hadoop的另一個(gè)革命性產(chǎn)品誕生,這就是MapReduce,Map-Reduce方法為Java應(yīng)用程序的并行計(jì)算提供了框架。但Cloudera和Hortonworks基礎(chǔ)設(shè)施以Java為中心(以Scala為中心的Spark)與今天的數(shù)據(jù)科學(xué)家在Python和R中進(jìn)行機(jī)器學(xué)習(xí)是不一致的。企業(yè)需要不斷迭代和改進(jìn)機(jī)器學(xué)習(xí)模型并讓其學(xué)習(xí)生產(chǎn)數(shù)據(jù),這就意味著Python和R模型是本地部署所必需的,如果你希望借助機(jī)器學(xué)習(xí)的能力。
容器和Kubernetes與Python和R一樣,為分布式計(jì)算提供了更加靈活和強(qiáng)大框架。無(wú)論如何,這些都是軟件開(kāi)發(fā)團(tuán)隊(duì)的目標(biāo),他們或許并不打算在Hadoop/Spark之上分發(fā)新的微服務(wù)應(yīng)用程序,因?yàn)檫@過(guò)于復(fù)雜和有所限制。
經(jīng)過(guò)了近10年,Cloudera和Hortonworks才得以成為大數(shù)據(jù)世界的中心,然而,如今大數(shù)據(jù)的重心已經(jīng)轉(zhuǎn)移到其他地方。領(lǐng)先的云計(jì)算公司沒(méi)有像Cloudera和Hortonworks一樣運(yùn)行大型Hadoop/Spark集群,他們更喜歡在容器等之上運(yùn)行分布式云數(shù)據(jù)庫(kù)和應(yīng)用程序。他們使用Python,R和其他非Java語(yǔ)言進(jìn)行機(jī)器學(xué)習(xí)。越來(lái)越多的企業(yè)正在轉(zhuǎn)向類(lèi)似的方法,因?yàn)樗麄兿M@得相同的速度和規(guī)模效益。
本文作者
Mathew Lodge是Anaconda的產(chǎn)品和營(yíng)銷(xiāo)高級(jí)副總裁。他在云計(jì)算和產(chǎn)品方面擁有20多年的豐富經(jīng)驗(yàn)。在加入Anaconda之前,他曾擔(dān)任Weaveworks的首席運(yùn)營(yíng)官,Weaveworks是容器和微服務(wù)網(wǎng)絡(luò)和管理初創(chuàng)公司; 他曾擔(dān)任VMware云服務(wù)部門(mén)的副總裁,并共同創(chuàng)立了VMware的vCloud Air IaaS服務(wù)。




















