快扔掉MapReduce,擁抱Spark吧!
譯文Apache軟件基金會(huì)正式宣布Spark的首個(gè)生產(chǎn)發(fā)行版本已經(jīng)準(zhǔn)備就緒,這款分析軟件能夠大大加快作業(yè)在Hadoop數(shù)據(jù)處理平臺(tái)上的運(yùn)行速度。
作為擁有“Hadoop瑞士軍刀”美譽(yù)的軟件項(xiàng)目,Apache Spark能夠幫助用戶創(chuàng)建出性能卓越的數(shù)據(jù)分析作業(yè),其運(yùn)行速度相較原本運(yùn)行在標(biāo)準(zhǔn)Apache Hadoop MapReduce上的水平能夠高出上百倍。
取代Mapreduce
目前業(yè)界對(duì)于MapReduce持廣泛批評(píng)態(tài)度,認(rèn)為它在執(zhí)行作業(yè)時(shí)采取的批處理方式屬于Hadoop集群中的性能瓶頸所在——這同時(shí)意味著實(shí)時(shí)數(shù)據(jù)分析機(jī)制根本無法實(shí)現(xiàn)。
Spark的出現(xiàn)為MapReduce提供了一套理想的替代方案,它以五秒或者更短時(shí)間為周期、通過微批量爆發(fā)方式執(zhí)行處理作業(yè)。它還提供比Twitter Storm等實(shí)時(shí)、面向流的Hadoop框架更為出色的穩(wěn)定性表現(xiàn)。
Cloudera宣布拋棄MapReduce,擁抱Spark
2014年4月25日,Cloudera正式宣布拋棄MapReduce,投入Spark的懷抱。
51CTO為此專訪了前Intel研究院,現(xiàn)Databricks研究員連城。連城老師表示,理論已經(jīng)證明MapReduce模型可以模擬一切分布式計(jì)算(但未必可以高效模擬)。Spark基于RDD的計(jì)算圖可以輕松、完整地表達(dá)MapReduce模型,而且由于對(duì)分布式數(shù)據(jù)共享做了更高效的抽象,其效率比MapReduce只高不低。更多內(nèi)容請(qǐng)閱讀專訪原文>>
Spark可以被用于處理多種作業(yè)類型,其中包括實(shí)時(shí)數(shù)據(jù)分析、配合軟件庫實(shí)現(xiàn)更深層次的計(jì)算作業(yè)——例如機(jī)器學(xué)習(xí)與圖形處理。
利用Spark,開發(fā)人員可以通過Java、Scala或者Python等語言進(jìn)行數(shù)據(jù)分析作業(yè)編寫,并使用超過80種高級(jí)運(yùn)算符。
Spark 1.0帶來的變革
在1.0版本當(dāng)中,Apache Spark目前能夠提供穩(wěn)定的API(即應(yīng)用程序編程接口),開發(fā)人員可以利用它將自己的應(yīng)用程序與Spark相對(duì)接。
Spark 1.0版本中的另一項(xiàng)新特性是提供用于訪問結(jié)構(gòu)化數(shù)據(jù)的Spark SQL組件,它允許用戶在分析工作中同時(shí)對(duì)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行查詢。
Apache Spark與Hadoop的分布式文件系統(tǒng)(簡(jiǎn)稱HDFS)全面兼容,同時(shí)還能夠與其它Hadoop組件——包括YARN(全稱為Yet Another Resource Negotiator)以及HBase分布式數(shù)據(jù)庫——并行協(xié)作。
什么是Spark
Spark最初是由加利福尼亞大學(xué)伯克利分院的AMP(即算法、機(jī)器與人)實(shí)驗(yàn)室開發(fā)而成的,Apache則于2013年6月將其納入了孵化器培養(yǎng)項(xiàng)目。目前包括Cloudera、Pivotal、IBM、英特爾以及MapR在內(nèi)的多家IT廠商都已經(jīng)將Spark引入自己的Hadoop堆棧。作為一家由部分Spark開發(fā)人員建立起來的公司,Databricks專門負(fù)責(zé)為該軟件提供商業(yè)支持服務(wù)。
除了前面提到的企業(yè),雅虎與美國宇航局還利用該軟件執(zhí)行日常數(shù)據(jù)操作任務(wù)。
與其它所有Apache軟件一樣,Apache Spark同樣基于Apache License 2.0版本。
原文鏈接:
http://www.itworld.com/420977/apache-lights-fire-under-hadoop-spark
【延伸閱讀】
2014年WOT全球軟件技術(shù)峰會(huì)上,將會(huì)專門安排Spark實(shí)時(shí)計(jì)算專場(chǎng)。來自INTEL、阿里的Spark技術(shù)專家將為大家?guī)矸窒怼S信d趣的同學(xué),可以掃描51CTO官方微信參與搶票活動(dòng)。