偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Flink為什么比Spark快?大數(shù)據(jù)流處理的框架比較

大數(shù)據(jù) Spark
大數(shù)據(jù)處理的新趨勢(shì),流處理和批處理是非常重要的兩個(gè)概念,而基于流處理和批處理的大數(shù)據(jù)處理框架,F(xiàn)link和Spark,也是常常被大家拿來(lái)做比較的對(duì)象。而在實(shí)時(shí)流數(shù)據(jù)處理上,F(xiàn)link性能似乎更加強(qiáng)勁,那么Flink為什么比Spark快呢,今天我們就來(lái)聊聊這個(gè)話題。

大數(shù)據(jù)處理的新趨勢(shì),流處理和批處理是非常重要的兩個(gè)概念,而基于流處理和批處理的大數(shù)據(jù)處理框架,F(xiàn)link和Spark,也是常常被大家拿來(lái)做比較的對(duì)象。而在實(shí)時(shí)流數(shù)據(jù)處理上,F(xiàn)link性能似乎更加強(qiáng)勁,那么Flink為什么比Spark快呢,今天我們就來(lái)聊聊這個(gè)話題。

Spark和Flink都是針對(duì)于實(shí)時(shí)數(shù)據(jù)處理的框架,并且兩者也都在實(shí)際的工作當(dāng)中表現(xiàn)出色,但是如果要深究?jī)烧咴诖髷?shù)據(jù)處理的區(qū)別,我們需要從Spark和Flink的引擎技術(shù)開(kāi)始講起。

[[322171]]

Spark和Flink計(jì)算引擎,在處理大規(guī)模數(shù)據(jù)上,數(shù)據(jù)模型和處理模型有很大的差別。

Spark的數(shù)據(jù)模型是彈性分布式數(shù)據(jù)集RDD(Resilient Distributed Datasets)。RDD可以實(shí)現(xiàn)為分布式共享內(nèi)存或者完全虛擬化(即有的中間結(jié)果RDD當(dāng)下游處理完全在本地時(shí)可以直接優(yōu)化省略掉)。這樣可以省掉很多不必要的I/O,是早期Spark性能優(yōu)勢(shì)的主要原因。

Spark用RDD上的變換(算子)來(lái)描述數(shù)據(jù)處理。每個(gè)算子(如map,filter,join)生成一個(gè)新的RDD。所有的算子組成一個(gè)有向無(wú)環(huán)圖(DAG)。這就是Spark進(jìn)行數(shù)據(jù)處理的核心機(jī)制。

而Flink的基本數(shù)據(jù)模型,則是數(shù)據(jù)流,及事件(Event)的序列。數(shù)據(jù)流作為數(shù)據(jù)的基本模型,這個(gè)流可以是無(wú)邊界的無(wú)限流,即一般意義上的流處理。也可以是有邊界的有限流,這樣就是批處理。

Flink用數(shù)據(jù)流上的變換(算子)來(lái)描述數(shù)據(jù)處理。每個(gè)算子生成一個(gè)新的數(shù)據(jù)流。在算子,DAG,和上下游算子鏈接(chaining)這些方面,和Spark的基本思路是一樣的。

但是在在DAG的執(zhí)行上,Spark和Flink有明顯的不同。

在Flink的流執(zhí)行模式中,一個(gè)事件在一個(gè)節(jié)點(diǎn)處理完后的輸出就可以發(fā)到下一個(gè)節(jié)點(diǎn)立即處理。這樣執(zhí)行引擎并不會(huì)引入額外的延遲。而Spark的micro batch和一般的batch執(zhí)行一樣,處理完上游的stage得到輸出之后才開(kāi)始下游的stage。

這也就是Flink為什么比Spark快的原因之一。并且Flink在數(shù)據(jù)流計(jì)算執(zhí)行時(shí),還可以把多個(gè)事件一起進(jìn)行傳輸和計(jì)算,進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)計(jì)算的低延遲。所以Flink之所以快,其實(shí)也可以理解為比Spark的延遲性更低。

責(zé)任編輯:未麗燕 來(lái)源: 今日頭條
相關(guān)推薦

2021-12-14 09:56:51

HadoopSparkKafka

2019-06-18 13:51:08

大數(shù)據(jù)流處理新興市場(chǎng)

2019-07-05 12:16:26

大數(shù)據(jù)IT互聯(lián)網(wǎng)

2019-05-23 15:44:55

Flink大數(shù)據(jù)框架

2016-12-14 12:02:01

StormHadoop大數(shù)據(jù)

2017-02-14 14:20:02

StormHadoop

2019-12-19 14:38:08

Flink SQL數(shù)據(jù)流Join

2018-04-03 10:33:15

大數(shù)據(jù)

2017-09-06 17:05:54

大數(shù)據(jù)處理流程處理框架

2017-02-14 13:11:23

HadoopStormSamza

2017-03-23 14:37:19

WebAssemblyasm.js編程

2020-04-29 09:34:13

FlinkStormSpark

2024-12-27 14:45:59

2018-07-25 15:31:51

SparkFlink大數(shù)據(jù)

2016-05-19 10:31:35

數(shù)據(jù)處理CassandraSpark

2023-04-07 08:17:39

fasthttp場(chǎng)景設(shè)計(jì)HTTP

2021-01-21 07:53:29

面試官Promis打印e

2024-07-05 10:17:08

數(shù)據(jù)流系統(tǒng)CPU

2019-11-29 15:47:42

HadoopSparkFlink

2011-08-29 10:19:09

Microsoft S控制較大數(shù)據(jù)流
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)