Spark項目為何會在云環(huán)境中大放光芒?
譯文最近幾個月以來,業(yè)界對于Apache Spark項目的興趣與投入迎來了顯著提升,而這皆要歸功于云客戶規(guī)模的不斷拓展。
就在上個月,多家在云及商業(yè)計算領(lǐng)域聲名顯赫的巨頭公開表達(dá)(并決定投資)了對Apache Spark數(shù)據(jù)分析項目的興趣。是什么讓這些老牌勁旅對這款年輕的技術(shù)方案青眼有加?
這種興奮當(dāng)然不會毫無來由,事實上這項***發(fā)展前景的技術(shù)已經(jīng)得到了廣泛應(yīng)用。不過要想讓該項目真正在云環(huán)境下變成吸金利器,我們還面臨著兩個重大課題——一是便捷性,二是規(guī)?;?。
Spark的吸引力
最近幾個月來,對Spark項目表現(xiàn)出深厚興趣的廠商包括:
• IBM。除了將Spark支持能力加入自家Bluemix PaaS之外,IBM方面還將SystemML機器學(xué)習(xí)算法構(gòu)建技術(shù)貢獻(xiàn)給Spark。
• 微軟。將Spark支持能力納入自家Azure HDInsight(微軟的云托管Hadoop版本)。
• Amazon。其Elastic MapReduce服務(wù)將能夠運行以Scala、Python以及Java語言開發(fā)的Spark應(yīng)用程序。
• 華為。這家中國網(wǎng)絡(luò)巨頭最近公布了一個名為Astro的項目,其將Spark、Spark SQL以及HBase打包于一款產(chǎn)品當(dāng)中。Spark目前也被華為公司用于其基于Hadoop的FusionInsight產(chǎn)品,并作為服務(wù)由華為開發(fā)的新興云平臺交付。
Spark之所以擁有出眾的吸引力,是因為它能夠在Hadoop當(dāng)中提供強大的內(nèi)存內(nèi)數(shù)據(jù)處理組件,專門應(yīng)對實時及批量事件。在雅虎公司,也就是Hadoop項目的發(fā)源地,Spark已經(jīng)成為分析運營流程當(dāng)中的核心與基石。
對于以上廠商而言,Spark項目能夠為其云業(yè)務(wù)提供***技術(shù)支持——無論是否配合Hadoop(雖然一般情況下會配合Hadoop)。隨著市場價格競爭趨于白熱化甚至開始探底,云供應(yīng)商之間的競爭目前仍然主要受限于原本的內(nèi)部數(shù)據(jù)中心層面,而往往無法真正發(fā)揮云體系的規(guī)?;泉毺貎?yōu)勢。(事實上,在我們目前所處的階段中,越來越多的業(yè)務(wù)數(shù)據(jù)開始在云中生成,而不再像過去那樣單純將數(shù)據(jù)遷移至云端。)
點燃下一場燎原烈火
Spark在這一過程中的作用同樣非常關(guān)鍵,因為未來的主要發(fā)展方向以及項目的潛在影響都取決于Spark將如何以云資源的方式實現(xiàn)部署。
IBM公司正默默為Spark項目作出貢獻(xiàn)。而Spark開發(fā)廠商Databricks則有著自己的計劃,希望能夠起到更為徹底的效果。其Tungsten項目為Spark的內(nèi)存利用及分配方式作出了重大改造,旨在借此提高性能水平。這不僅有利于吸引更多開發(fā)商的加入,同時也有助于Spark以“即服務(wù)”的方式實現(xiàn)交付。
頗具諷刺意味的是,Spark在云環(huán)境下的人氣明顯更高,其甚至直接威脅到了Databricks公司自身的商業(yè)模式。Andy Oliver曾對Daatabricks公司的Spark產(chǎn)品進(jìn)行過一番審查,并發(fā)現(xiàn)該公司“絕不成為數(shù)據(jù)科學(xué)領(lǐng)域的Tableau”的口號完全沒能成為現(xiàn)實。另外,以上列出的各大競爭參與者雖然不一定會與自家Spark產(chǎn)品產(chǎn)生這種交集關(guān)系,但此類產(chǎn)品的出現(xiàn)實際上更為直接地對Spark工作負(fù)載作出了補充。
Spark在其它多個方面還有待完善及成熟——包括說明文檔、商業(yè)支持、中間件集成以及為用戶提供更多預(yù)置Spark應(yīng)用程序等等。除了***一項,其它任務(wù)非常適合由Spark項目的企業(yè)貢獻(xiàn)者及贊助商們來完成——當(dāng)然,除非這幫家伙提供貢獻(xiàn)的目的完全是為了確保Spark能夠在其云平臺上運作良好,并為其客戶提供服務(wù)。
原文標(biāo)題:Why Spark is spiking in the cloud