偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Spark 大數據處理最佳實踐

大數據 Spark
本文主要案例介紹如何利用Spark 大數據技術。

內容框架:

大數據概覽
如何擺脫技術小白
Spark SQL 學習框架
EMR Studio 上的大數據最佳實踐

一、大數據概覽

大數據處理 ETL (Data → Data)
大數據分析 BI (Data → Dashboard)
機器學習 AI (Data → Model)

二、如何擺脫技術小白

什么是技術小白?

只懂表面,不懂本質
比如:只懂得參考別人的 Spark 代碼,不懂得 Spark 的內在機制,不懂得如何調優(yōu) Spark Job

擺脫技術小白的藥方

懂得運行機制
學會配置
學會看 Log

懂得運行機制:Spark SQL Architecture

學會配置:如何配置 Spark App

配置 Driver

spark.driver.memory

spark.driver.cores

配置 Executor

spark.executor.memory

spark.executor.cores

配置 Runtime

spark.files

spark.jars

配置 DAE
…..........
學會看 Log:Spark Log

三、Spark SQL 學習框架

Spark SQL 學習框架( 結合圖形/幾何)

1. Select Rows

2. Select Columns

3. Transform Column

4. Group By / Aggregation

5. Join

Spark SQL 執(zhí)行計劃

1. Spark SQL - Where

2. Spark SQL - Group By

3. Spark SQL - Order by

四、EMR Studio 實踐

EMR Studio 特性:

兼容開源組件
支持連接多個集群
適配多個計算引擎
交互式開發(fā) + 作業(yè)調度無縫銜接
適用多種大數據應用場景
計算存儲分離

1. 兼容開源組件

EMR Studio 在開源軟件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基礎上優(yōu)化了做了優(yōu)化和增強。

2. 支持連接多個集群

一個 EMR Studio 可以連接多個 EMR 計算集群,您可以很方便地切換計算集群,提交作業(yè)到不同的計算集群上運行。

3. 適配多個計算引擎

自動適配 Hive、Spark、Flink、Presto、Impala 和 Shell 等多個計算引擎,無需復雜配置,多個計算引擎間協(xié)同工作

4. 交互式開發(fā) + 作業(yè)調度無縫銜接

Notebook + Airflow : 無縫銜接開發(fā)環(huán)節(jié)和生產調度環(huán)節(jié)

利用交互式開發(fā)模式可以快速驗證作業(yè)的正確性.
在 Airflow 里調度 Notebook 作業(yè),最大程度得保證開發(fā)環(huán)境和生產環(huán)境的一致性,防止由于開發(fā)階段和生產階段環(huán)境不一致而導致的問題。

5. 適用多種大數據應用場景

大數據處理 ETL
交互式數據分析
機器學習
實時計算

6. 計算存儲分離

所有數據都保存在 OSS 上,包括:

用戶 Notebook 代碼

調度作業(yè) Log

即使集群銷毀,也可以重建集群輕松恢復數據

責任編輯:梁菲 來源: 阿里云云棲號
相關推薦

2016-10-12 09:41:45

Hadoop+Spar大數據開發(fā)

2017-11-14 05:04:01

大數據編程語言數據分析

2018-01-22 08:33:28

SparkHadoop計算

2012-06-07 09:11:29

大數據HadoopHBase

2014-12-02 09:49:12

Spark大數據

2018-07-25 15:31:51

SparkFlink大數據

2018-12-07 14:50:35

大數據數據采集數據庫

2020-11-02 15:56:04

大數據數據庫技術

2017-07-21 14:22:17

大數據大數據平臺數據處理

2018-05-02 13:59:01

大數據數據收集數據科學

2020-07-22 08:13:22

大數據

2022-11-17 11:52:35

pandasPySpark大數據

2016-05-19 10:31:35

數據處理CassandraSpark

2015-03-16 14:54:06

大數據流式大數據大數據處理

2023-11-29 13:56:00

數據技巧

2023-12-13 10:22:04

APISpark數據

2015-10-16 09:50:10

2015-11-09 09:58:31

大數據Lambda架構

2015-05-05 11:18:18

大數據Hadoop技術處理

2011-09-01 15:12:43

SQL ServerHadoop
點贊
收藏

51CTO技術棧公眾號