偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

在Spark中,什么叫內(nèi)存計(jì)算?

存儲(chǔ) 存儲(chǔ)軟件 Spark
由于計(jì)算的融合只發(fā)生在 Stages 內(nèi)部,而 Shuffle 是切割 Stages 的邊界,因此一旦發(fā)生 Shuffle,內(nèi)存計(jì)算的代碼融合就會(huì)中斷。

[[405490]]

 本文轉(zhuǎn)載自微信公眾號(hào)「記錄技術(shù)記錄我」,作者ziwen。轉(zhuǎn)載本文請(qǐng)聯(lián)系記錄技術(shù)記錄我公眾號(hào)。

在 Spark 中,內(nèi)存計(jì)算有兩層含義:

  • 第一層含義就是眾所周知的分布式數(shù)據(jù)緩存;
  • 第二層含義是 Stage 內(nèi)的流水線式計(jì)算模式,通過(guò)計(jì)算的融合來(lái)大幅提升數(shù)據(jù)在內(nèi)存中的轉(zhuǎn)換效率,進(jìn)而從整體上提升應(yīng)用的執(zhí)行性能;

那 Stage 內(nèi)的流水線式計(jì)算模式到底長(zhǎng)啥樣呢?在 Spark 中,流水線計(jì)算模式指的是:在同一 Stage 內(nèi)部,所有算子融合為一個(gè)函數(shù),Stage 的輸出結(jié)果,由這個(gè)函數(shù)一次性作用在輸入數(shù)據(jù)集而產(chǎn)生。

我們用一張圖來(lái)直觀地解釋這一計(jì)算模式。

在上面的計(jì)算流程中,如果你把流水線看作是內(nèi)存,每一步操作過(guò)后都會(huì)生成臨時(shí)數(shù)據(jù),如圖中的 clean 和 slice,這些臨時(shí)數(shù)據(jù)都會(huì)緩存在內(nèi)存里。

但在下面的內(nèi)存計(jì)算中,所有操作步驟如 clean、slice、bake,都會(huì)被捏合在一起構(gòu)成一個(gè)函數(shù)。這個(gè)函數(shù)一次性地作用在“帶泥土豆”上,直接生成“即食薯片”,在內(nèi)存中不產(chǎn)生任何中間數(shù)據(jù)形態(tài)。

由于計(jì)算的融合只發(fā)生在 Stages 內(nèi)部,而 Shuffle 是切割 Stages 的邊界,因此一旦發(fā)生 Shuffle,內(nèi)存計(jì)算的代碼融合就會(huì)中斷。但是,當(dāng)我們對(duì)內(nèi)存計(jì)算有了多方位理解以后,就不會(huì)一股腦地只想到用 cache 去提升應(yīng)用的執(zhí)行性能,而是會(huì)更主動(dòng)地想辦法盡量避免 Shuffle,讓應(yīng)用代碼中盡可能多的部分融合為一個(gè)函數(shù),從而提升計(jì)算效率。

 

責(zé)任編輯:武曉燕 來(lái)源: 記錄技術(shù)記錄我
相關(guān)推薦

2018-05-10 09:51:39

Spark內(nèi)存Hadoop

2020-01-14 10:57:39

內(nèi)存泄漏虛擬機(jī)

2019-06-27 11:18:00

Spark內(nèi)存大數(shù)據(jù)

2020-05-06 22:20:48

Kubernetes邊緣計(jì)算

2014-12-16 18:49:11

社區(qū)化支持

2016-05-19 10:31:35

數(shù)據(jù)處理CassandraSpark

2020-03-03 09:28:30

Python內(nèi)存開(kāi)發(fā)

2017-04-01 14:01:50

Apache Spar內(nèi)存管理

2018-12-18 14:37:26

Spark內(nèi)存管理

2018-04-17 11:30:03

云計(jì)算IaaS公共云

2011-03-29 15:15:06

熱備份熱修復(fù)

2019-05-30 11:04:52

內(nèi)存Spark管理

2010-11-05 13:02:58

內(nèi)存iPhone

2012-06-12 09:13:14

2019-10-10 16:20:23

spark內(nèi)存管理

2019-04-17 14:44:42

Spark內(nèi)存源碼

2011-06-23 09:14:52

CRM云計(jì)算

2020-06-02 16:59:08

5G動(dòng)態(tài)頻譜共享

2018-04-18 08:54:28

RDD內(nèi)存Spark

2020-06-22 10:33:52

云計(jì)算邊緣計(jì)算IT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)