Databricks連城:Spark打造一體化大數(shù)據(jù)流水線
2014年7月25日-26日,由51CTO傳媒主辦的2014 WOT全球軟件技術(shù)峰會在北京富力萬麗酒店召開。秉承專注技術(shù)、服務技術(shù)人員的理念,自2012年以來,WOT品牌峰會成功舉辦了三屆,積累了大量的技術(shù)專家資源,獲得了廣大IT從業(yè)者和技術(shù)愛好者的一致認可,成為了業(yè)界重要的技術(shù)分享交流平臺以及人脈拓展平臺。
本次會議分為8個技術(shù)主題,分別是:數(shù)據(jù)庫技術(shù)與應用,互聯(lián)網(wǎng)架構(gòu)分析,高效的技術(shù)團隊,敏捷開發(fā),實時計算與數(shù)據(jù)分析,移動應用,自動化運維,開源技術(shù)。51CTO作為本次峰會的主辦方,將全程視頻、圖文直播報道這場數(shù)據(jù)的盛宴。
作為實時計算與數(shù)據(jù)分析專場“干貨分享”的講師, Databricks工程師連城先生為我們帶來了主題為《Spark SQL:一體化大數(shù)據(jù)流水線的重要拼圖》的主題演講。分享了Spark技術(shù)在大數(shù)據(jù)分析中的應用現(xiàn)狀及展望。
連城老師目前專注于以Spark為主的大數(shù)據(jù)分析系統(tǒng),Spark SQL為Spark提供了原生的SQL關(guān)系查詢能力,并進一步增強了Spark操縱結(jié)構(gòu)化數(shù)據(jù)的能力。演講伊始,連城率先分享了當今大數(shù)據(jù)的問題以及數(shù)據(jù)分析流程,通常的做法是在hadoop之上刻畫框架。因此所有流程是基于HDFS,所得到的是有效的數(shù)據(jù)處理結(jié)果占比全部數(shù)據(jù)處理的比例并不高。
基于Spark的統(tǒng)一的大數(shù)據(jù)分析組件
彈性分布式數(shù)據(jù)集可以有效地解決這一問題,Spark開源實現(xiàn)高速、兼容性、接口易用、程序精簡等優(yōu)勢。
以上是51CTO.com記者從一線為您帶來的精彩報道。后續(xù)我們還有更加精彩的獨家報道,敬請關(guān)注。


















 
 
 





 
 
 
 