偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

利用Scala語言開發(fā)Spark應(yīng)用程序

開發(fā) 前端 Spark
park內(nèi)核是由Scala語言開發(fā)的,因此使用Scala語言開發(fā)Spark應(yīng)用程序是自然而然的事情。如果你對Scala語言還不太熟悉,可以閱讀網(wǎng)絡(luò)教程A Scala Tutorial for Java Programmers或者相關(guān)Scala書籍進(jìn)行學(xué)習(xí)。

Spark內(nèi)核是由Scala語言開發(fā)的,因此使用Scala語言開發(fā)Spark應(yīng)用程序是自然而然的事情。如果你對Scala語言還不太熟悉,可以閱讀網(wǎng)絡(luò)教程A Scala Tutorial for Java Programmers或者相關(guān)Scala書籍進(jìn)行學(xué)習(xí)。

本文將介紹3個(gè)Scala Spark編程實(shí)例,分別是WordCount、TopK和SparkJoin,分別代表了Spark的三種典型應(yīng)用。

1. WordCount編程實(shí)例

WordCount是一個(gè)最簡單的分布式應(yīng)用實(shí)例,主要功能是統(tǒng)計(jì)輸入目錄中所有單詞出現(xiàn)的總次數(shù),編寫步驟如下:

步驟1:創(chuàng)建一個(gè)SparkContext對象,該對象有四個(gè)參數(shù):Spark master位置、應(yīng)用程序名稱,Spark安裝目錄和jar存放位置,對于Spark On YARN而言,最重要的是前兩個(gè)參數(shù),***個(gè)參數(shù)指定為“yarn-standalone”,第二個(gè)參數(shù)是自定義的字符串,舉例如下:

  1. val sc = new SparkContext(args(0), "WordCount", 
  2.     System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_TEST_JAR"))) 
  3.  

步驟2:讀取輸入數(shù)據(jù)。我們要從HDFS上讀取文本數(shù)據(jù),可以使用SparkCon

  1. val textFile = sc.textFile(args(1)) 

當(dāng)然,Spark允許你采用任何Hadoop InputFormat,比如二進(jìn)制輸入格式SequenceFileInputFormat,此時(shí)你可以使用SparkContext中的hadoopRDD函數(shù),舉例如下:

  1. val inputFormatClass = classOf[SequenceFileInputFormat[Text,Text]] 
  2. var hadoopRdd = sc.hadoopRDD(conf, inputFormatClass, classOf[Text], classOf[Text]) 

或者直接創(chuàng)建一個(gè)HadoopRDD對象:

  1. var hadoopRdd = new HadoopRDD(sc, conf, 
  2.      classOf[SequenceFileInputFormat[Text,Text, classOf[Text], classOf[Text]) 

步驟3:通過RDD轉(zhuǎn)換算子操作和轉(zhuǎn)換RDD,對于WordCount而言,首先需要從輸入數(shù)據(jù)中每行字符串中解析出單詞,然后將相同單詞放到一個(gè)桶中,***統(tǒng)計(jì)每個(gè)桶中每個(gè)單詞出現(xiàn)的頻率,舉例如下:

  1. val result = hadoopRdd.flatMap{ 
  2.         case(key, value)  => value.toString().split("\\s+"); 
  3. }.map(word => (word, 1)). reduceByKey (_ + _) 

其中,flatMap函數(shù)可以將一條記錄轉(zhuǎn)換成多條記錄(一對多關(guān)系),map函數(shù)將一條記錄轉(zhuǎn)換為另一條記錄(一對一關(guān)系),reduceByKey函數(shù)將key相同的數(shù)據(jù)劃分到一個(gè)桶中,并以key為單位分組進(jìn)行計(jì)算,這些函數(shù)的具體含義可參考:Spark Transformation。

步驟4:將產(chǎn)生的RDD數(shù)據(jù)集保存到HDFS上??梢允褂肧parkContext中的saveAsTextFile哈數(shù)將數(shù)據(jù)集保存到HDFS目 錄下,默認(rèn)采用Hadoop提供的TextOutputFormat,每條記錄以“(key,value)”的形式打印輸出,你也可以采用 saveAsSequenceFile函數(shù)將數(shù)據(jù)保存為SequenceFile格式等,舉例如下:

  1. result.saveAsSequenceFile(args(2)) 

當(dāng)然,一般我們寫Spark程序時(shí),需要包含以下兩個(gè)頭文件:

  1. import org.apache.spark._ 
  2. import SparkContext._ 

WordCount完整程序已在“Apache Spark學(xué)習(xí):利用Eclipse構(gòu)建Spark集成開發(fā)環(huán)境”一文中進(jìn)行了介紹,在次不贅述。

需要注意的是,指定輸入輸出文件時(shí),需要指定hdfs的URI,比如輸入目錄是hdfs://hadoop-test/tmp/input,輸出目 錄是hdfs://hadoop-test/tmp/output,其中,“hdfs://hadoop-test”是由Hadoop配置文件core- site.xml中參數(shù)fs.default.name指定的,具體替換成你的配置即可。

2. TopK編程實(shí)例

TopK程序的任務(wù)是對一堆文本進(jìn)行詞頻統(tǒng)計(jì),并返回出現(xiàn)頻率***的K個(gè)詞。如果采用MapReduce實(shí)現(xiàn),則需要編寫兩個(gè)作 業(yè):WordCount和TopK,而使用Spark則只需一個(gè)作業(yè),其中WordCount部分已由前面實(shí)現(xiàn)了,接下來順著前面的實(shí)現(xiàn),找到Top K個(gè)詞。注意,本文的實(shí)現(xiàn)并不是***的,有很大改進(jìn)空間。

步驟1:首先需要對所有詞按照詞頻排序,如下:

  1. val sorted = result.map { 
  2.   case(key, value) => (value, key); //exchange key and value 
  3. }.sortByKey(true, 1) 

步驟2:返回前K個(gè):

  1. val topK = sorted.top(args(3).toInt) 

步驟3:將K各詞打印出來:

  1. topK.foreach(println) 

注意,對于應(yīng)用程序標(biāo)準(zhǔn)輸出的內(nèi)容,YARN將保存到Container的stdout日志中。在YARN中,每個(gè)Container存在三個(gè)日志 文件,分別是stdout、stderr和syslog,前兩個(gè)保存的是標(biāo)準(zhǔn)輸出產(chǎn)生的內(nèi)容,第三個(gè)保存的是log4j打印的日志,通常只有第三個(gè)日志中 有內(nèi)容。

本程序完整代碼、編譯好的jar包和運(yùn)行腳本可以從這里下載。下載之后,按照“Apache Spark學(xué)習(xí):利用Eclipse構(gòu)建Spark集成開發(fā)環(huán)境”一文操作流程運(yùn)行即可。

3. SparkJoin編程實(shí)例

在推薦領(lǐng)域有一個(gè)著名的開放測試集是movielens給的,下載鏈接是:http://grouplens.org/datasets/movielens/,該測試集包含三個(gè)文件,分別是ratings.dat、sers.dat、movies.dat,具體介紹可閱讀:README.txt,本節(jié)給出的SparkJoin實(shí)例則通過連接ratings.dat和movies.dat兩個(gè)文件得到平均得分超過4.0的電影列表,采用的數(shù)據(jù)集是:ml-1m。程序代碼如下:

  1. import org.apache.spark._ 
  2. import SparkContext._ 
  3. object SparkJoin { 
  4.   def main(args: Array[String]) { 
  5.     if (args.length != 4 ){ 
  6.       println("usage is org.test.WordCount <master> <rating> <movie> <output>"
  7.       return 
  8.     } 
  9.     val sc = new SparkContext(args(0), "WordCount"
  10.     System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_TEST_JAR"))) 
  11.   
  12.     // Read rating from HDFS file 
  13.     val textFile = sc.textFile(args(1)) 
  14.   
  15.     //extract (movieid, rating) 
  16.     val rating = textFile.map(line => { 
  17.         val fileds = line.split("::"
  18.         (fileds(1).toInt, fileds(2).toDouble) 
  19.        }) 
  20.   
  21.     val movieScores = rating 
  22.        .groupByKey() 
  23.        .map(data => { 
  24.          val avg = data._2.sum / data._2.size 
  25.          (data._1, avg) 
  26.        }) 
  27.   
  28.      // Read movie from HDFS file 
  29.      val movies = sc.textFile(args(2)) 
  30.      val movieskey = movies.map(line => { 
  31.        val fileds = line.split("::"
  32.         (fileds(0).toInt, fileds(1)) 
  33.      }).keyBy(tup => tup._1) 
  34.   
  35.      // by join, we get <movie, averageRating, movieName> 
  36.      val result = movieScores 
  37.        .keyBy(tup => tup._1) 
  38.        .join(movieskey) 
  39.        .filter(f => f._2._1._2 > 4.0) 
  40.        .map(f => (f._1, f._2._1._2, f._2._2._2)) 
  41.   
  42.     result.saveAsTextFile(args(3)) 
  43.   } 

你可以從這里下載代碼、編譯好的jar包和運(yùn)行腳本。

這個(gè)程序直接使用Spark編寫有些麻煩,可以直接在Shark上編寫HQL實(shí)現(xiàn),Shark是基于Spark的類似Hive的交互式查詢引擎,具體可參考:Shark。

4. 總結(jié)

Spark 程序設(shè)計(jì)對Scala語言的要求不高,正如Hadoop程序設(shè)計(jì)對Java語言要求不高一樣,只要掌握了最基本的語法就能編寫程序,且常見的語法和表達(dá)方式是很少的。通常,剛開始仿照官方實(shí)例編寫程序,包括Scala、Java和Python三種語言實(shí)例。

原文鏈接:http://dongxicheng.org/framework-on-yarn/spark-scala-writing-application/

責(zé)任編輯:陳四芳 來源: dongxicheng.org
相關(guān)推薦

2010-11-18 15:52:32

QMLMeeGo

2012-06-07 09:15:14

ibmdw

2013-02-21 14:15:41

開發(fā)Tizen

2013-02-21 14:14:40

開發(fā)Tizen

2012-02-08 15:06:31

ibmdw

2022-09-19 00:37:13

SaaS云計(jì)算開發(fā)

2011-04-01 11:01:02

應(yīng)用程序BlackBerryJava

2012-03-20 09:20:40

Go語言

2012-06-08 09:28:15

EclipseScalaAndroid

2013-11-19 15:35:01

2009-07-29 17:42:47

ibmdwWeb2.0

2009-08-27 11:53:45

ibmdw云計(jì)算

2017-08-09 17:09:47

2011-02-22 10:23:43

2018-12-11 11:41:14

物聯(lián)網(wǎng)應(yīng)用程序IOT

2011-12-06 10:10:59

云計(jì)算移動應(yīng)用

2011-03-31 13:15:18

BlackBerry

2009-09-24 17:21:17

加速Hibernate

2011-07-21 16:19:30

iOS Twitter

2011-05-31 13:34:22

應(yīng)用開發(fā)iPad
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號