偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="2ltzx"></pre>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

在Spark中，什么叫內(nèi)存計算?

作者：ziwen 2021-06-15 07:04:59

存儲存儲軟件 Spark

由于計算的融合只發(fā)生在 Stages 內(nèi)部，而 Shuffle 是切割 Stages 的邊界，因此一旦發(fā)生 Shuffle，內(nèi)存計算的代碼融合就會中斷。

本文轉(zhuǎn)載自微信公眾號「記錄技術(shù)記錄我」，作者ziwen。轉(zhuǎn)載本文請聯(lián)系記錄技術(shù)記錄我公眾號。

在 Spark 中，內(nèi)存計算有兩層含義：

第一層含義就是眾所周知的分布式數(shù)據(jù)緩存;
第二層含義是 Stage 內(nèi)的流水線式計算模式,通過計算的融合來大幅提升數(shù)據(jù)在內(nèi)存中的轉(zhuǎn)換效率，進(jìn)而從整體上提升應(yīng)用的執(zhí)行性能;

那 Stage 內(nèi)的流水線式計算模式到底長啥樣呢?在 Spark 中，流水線計算模式指的是：在同一 Stage 內(nèi)部，所有算子融合為一個函數(shù)，Stage 的輸出結(jié)果,由這個函數(shù)一次性作用在輸入數(shù)據(jù)集而產(chǎn)生。

我們用一張圖來直觀地解釋這一計算模式。

在上面的計算流程中，如果你把流水線看作是內(nèi)存，每一步操作過后都會生成臨時數(shù)據(jù)，如圖中的 clean 和 slice，這些臨時數(shù)據(jù)都會緩存在內(nèi)存里。

但在下面的內(nèi)存計算中，所有操作步驟如 clean、slice、bake，都會被捏合在一起構(gòu)成一個函數(shù)。這個函數(shù)一次性地作用在“帶泥土豆”上，直接生成“即食薯片”，在內(nèi)存中不產(chǎn)生任何中間數(shù)據(jù)形態(tài)。

由于計算的融合只發(fā)生在 Stages 內(nèi)部，而 Shuffle 是切割 Stages 的邊界，因此一旦發(fā)生 Shuffle，內(nèi)存計算的代碼融合就會中斷。但是，當(dāng)我們對內(nèi)存計算有了多方位理解以后，就不會一股腦地只想到用 cache 去提升應(yīng)用的執(zhí)行性能，而是會更主動地想辦法盡量避免 Shuffle，讓應(yīng)用代碼中盡可能多的部分融合為一個函數(shù)，從而提升計算效率。

責(zé)任編輯：武曉燕來源：記錄技術(shù)記錄我

內(nèi)存 Spark Stages

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<tt id="zu2nf"></tt>

<center id="zu2nf"><tbody id="zu2nf"></tbody></center>