偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從源碼解密Spark內(nèi)存管理

存儲 存儲軟件 Spark
我們都知道spark之所以比mapreduce計算的快,是因為他是基于內(nèi)存的,不用每次計算完都寫磁盤,再讀取出來進行下一次計算,spark直接把內(nèi)存作為數(shù)據(jù)的臨時儲存介質(zhì)。所以mapreduce就沒有強調(diào)內(nèi)存管理,而spark需要管理內(nèi)存。

 [[262798]]

內(nèi)存不過是計算機分級存儲系統(tǒng)中的靠近cpu的一個存儲介質(zhì)

1.spark運行起來內(nèi)存里都存的啥?

2.如何管理里面所存的東西?

3.spark用java和scala這樣的jvm語言寫的,沒有像c語言那樣顯式申請釋放內(nèi)存,如何進行內(nèi)存的管理的?

4.我們應該如何設置spark關(guān)于內(nèi)存的參數(shù)?

一、內(nèi)存模型

遠古大神曾告訴我們這個神秘公式:程序=算法+數(shù)據(jù)。

1.1 什么是內(nèi)存模型

內(nèi)存模型就是告訴我們怎么劃分內(nèi)存、怎么合理利用我們的內(nèi)存。

首先我們要存什么,根據(jù)大神的公式,我們這樣來分析:

數(shù)據(jù): 就是我們代碼操作的數(shù)據(jù),比如人的數(shù)據(jù)(年齡、職位等)或者輸入的某個值。這些可在運行時將要計算的部分數(shù)據(jù)加載到內(nèi)存。

算法:就是操作數(shù)據(jù)的邏輯,表現(xiàn)形式就是代碼或者編譯后的指令。當然它要運行起來,會依賴一部分內(nèi)存,來儲存程序計數(shù)器(代碼執(zhí)行到那一句了)、函數(shù)調(diào)用棧等運行時需要的數(shù)據(jù)??偠灾褪菆?zhí)行數(shù)據(jù)操作邏輯所必要的內(nèi)存。

這下我們就可以把我們需要儲存的東西分為數(shù)據(jù)區(qū)和執(zhí)行區(qū)。

二、spark內(nèi)存模型

2.1 spark為啥快

我們都知道spark之所以比mapreduce計算的快,是因為他是基于內(nèi)存的,不用每次計算完都寫磁盤,再讀取出來進行下一次計算,spark直接把內(nèi)存作為數(shù)據(jù)的臨時儲存介質(zhì)。所以mapreduce就沒有強調(diào)內(nèi)存管理,而spark需要管理內(nèi)存。

2.2 spark管理的內(nèi)存

系統(tǒng)區(qū):spark運行自身的代碼需要一定的空間。

用戶區(qū):我們自己寫的一些udf之類的代碼也需要一定的空間來運行。

存儲區(qū):spark的任務就是操作數(shù)據(jù),spark為了快可能把數(shù)據(jù)存內(nèi)存,而這些數(shù)據(jù)也需要占用空間。

執(zhí)行區(qū):spark操作數(shù)據(jù)的單元是partition,spark在執(zhí)行一些shuffle、join、sort、aggregation之類的操作,需要把partition加載到內(nèi)存進行運算,這也會運用到部分內(nèi)存。

2.3 spark內(nèi)存模型

 

上圖就是spark內(nèi)存劃分的圖了

我們從下到上一層一層的解釋:

第1層:整個excutor所用到的內(nèi)存

第2層:分為jvm中的內(nèi)存和jvm外的內(nèi)存,這里的jvm內(nèi)存在yarn的時候就是指申請的container的內(nèi)存

第3層:對于spark來內(nèi)存分為jvm堆內(nèi)的和memoryoverhead、off-heap

jvm堆內(nèi)的下一層再說

memoryOverhead: 對應的參數(shù)就是spark.yarn.executor.memoryOverhead 這塊內(nèi)存是用于虛擬機的開銷、內(nèi)部的字符串、還有一些本地開銷(比如python需要用到的內(nèi)存)等。其實就是額外的內(nèi)存,spark并不會對這塊內(nèi)存進行管理。

off-heap : 這里特指的spark.memory.offHeap.size這個參數(shù)指定的內(nèi)存(廣義上是指所有堆外的)。這部分內(nèi)存的申請和釋放是直接進行的不通過jvm管控所以沒有GC,被spark分為storage和excution兩部分和第5層講的一同被spark統(tǒng)一進行管理。

第4層:jvm堆內(nèi)的內(nèi)存分為三個部分

reservedMemory: 預留內(nèi)存300M,用于保障spark正常運行

other memory: 用于spark內(nèi)部的一些元數(shù)據(jù)、用戶的數(shù)據(jù)結(jié)構(gòu)、防止出現(xiàn)對內(nèi)存估計不足導致oom時的內(nèi)存緩沖、占用空間比較大的記錄做緩沖

memory faction: spark主要控制的內(nèi)存,由參數(shù)spark.memory.fraction控制。

第5層:分成storage和execution 由參數(shù)spark.memory.storageFraction控制它兩的大小,但是

execution: 用于spark的計算:shuffle、sort、aggregation等這些計算時會用到的內(nèi)存,如果計算是內(nèi)存不足會向storage部分借,如果還是不夠就會spill到磁盤。

storage: 主要用于rdd的緩存,如果execution來借內(nèi)存,可能會犧牲自己丟棄緩存來借給execution,storage也可以向execution借內(nèi)存,但execution不會犧牲自己。

三、源碼層面

3.1 整體架構(gòu)

  • 內(nèi)存申請和釋放(綠色):

看上圖綠色那塊,就是內(nèi)存的申請和釋放模塊。MemoryAllocator接口負責內(nèi)存申請,有兩個子類實現(xiàn)分別負責堆內(nèi)內(nèi)存和off-heap內(nèi)存。

  • 內(nèi)存池(粉色):

MemoryPool內(nèi)存池有兩個子類分別管理著執(zhí)行內(nèi)存和儲存內(nèi)存。可以看到兩種內(nèi)存池的申請方法的參數(shù)有很明顯的區(qū)別,執(zhí)行內(nèi)存主要是面向task的,而儲存內(nèi)存主要是面向block的也就是用于rdd緩存呀啥的。

  • 統(tǒng)一內(nèi)存管理:

MemoryManager負責記錄內(nèi)存的消耗,管理這4個內(nèi)存池,子類UnifiedMemoryManager負責把這執(zhí)行內(nèi)存和儲存內(nèi)存統(tǒng)一起來管理,實現(xiàn)相互借用之類的功能。

  • MemoryManager的使用場景

一個是BlockManager用于管理儲存,還有一部分是運行Task是的內(nèi)存使用,主要有executor的使用,shuffle時spill呀外部排序呀,這樣的場景。

3.2 如何實現(xiàn)內(nèi)存申請釋放。

spark是用scala和java實現(xiàn)的,印象中沒有管理內(nèi)存申請釋放的api,spark是如何利用這些jvm語言管理內(nèi)存的呢。

我們來看看源碼片段

  1. //HeapMemoryAllocator.scalaprivate final Map<Long, LinkedList<WeakReference<long[]>>> bufferPoolsBySize = new HashMap<>(); 
  2. ……  public MemoryBlock allocate(long size) throws OutOfMemoryError { 
  3. …… 上面是些內(nèi)存的判斷  ……    long[] array = new long[numWords];//上面這就很關(guān)鍵了  
  4.     MemoryBlock memory = new MemoryBlock(array, Platform.LONG_ARRAY_OFFSET, size);    if (MemoryAllocator.MEMORY_DEBUG_FILL_ENABLED) { 
  5.       memory.fill(MemoryAllocator.MEMORY_DEBUG_FILL_CLEAN_VALUE); 
  6.     }    return memory; 
  7.   } 

HeapMemoryAllocator可以看到上面的源碼片段,實際的內(nèi)存申請是這個代碼:new long[numWords]; 就是new了個數(shù)組來占著內(nèi)存,用MemoryBlock 包裝了一下。bufferPoolsBySize這個是為了防止內(nèi)存頻繁申請和釋放做的buffer。

接下來看看off-heap是怎么申請內(nèi)存的。

  1. //UnsafeMemoryAllocator 
  2.   public MemoryBlock allocate(long size) throws OutOfMemoryError {    long address = Platform.allocateMemory(size); 
  3.     MemoryBlock memory = new MemoryBlock(null, address, size);    if (MemoryAllocator.MEMORY_DEBUG_FILL_ENABLED) { 
  4.       memory.fill(MemoryAllocator.MEMORY_DEBUG_FILL_CLEAN_VALUE); 
  5.     }    return memory; 
  6.   } 

offheap的就和C語言一樣的了可以直接使用api來申請。這部分內(nèi)存就需要自己進行管理了,沒有jvm的控制,沒有內(nèi)存回收機制。

當然這也不意味了你能***制的使用內(nèi)存,在yarn的情況下,yarn是監(jiān)測子進程的內(nèi)存占用來看你是否超了內(nèi)存,如果超了直接kill掉。

四、總結(jié)

我們能回答開頭提出的幾個問題了嗎?還是又有了更多的問題呢。

責任編輯:武曉燕 來源: 曾二爺
相關(guān)推薦

2019-10-10 16:20:23

spark內(nèi)存管理

2018-06-06 08:28:37

Spark內(nèi)存管理

2017-04-01 14:01:50

Apache Spar內(nèi)存管理

2018-12-18 14:37:26

Spark內(nèi)存管理

2019-05-30 11:04:52

內(nèi)存Spark管理

2022-02-17 08:16:23

MMU內(nèi)存管理

2018-08-09 11:06:39

Apache Spar內(nèi)存模型

2024-12-11 08:18:11

2018-05-31 20:49:50

Spark堆內(nèi)內(nèi)存優(yōu)化機制

2018-05-10 09:51:39

Spark內(nèi)存Hadoop

2017-09-25 16:21:30

Spark on yacluster模式

2024-01-22 11:33:17

C++編程語言開發(fā)

2010-07-29 10:16:17

Linux內(nèi)核Linux內(nèi)存

2024-10-28 11:25:21

豐巢快遞jemalloc

2017-12-21 11:19:40

SparkHive表HadoopRDD

2018-07-23 09:26:08

iOS內(nèi)存優(yōu)化

2013-10-11 17:32:18

Linux運維內(nèi)存管理

2023-10-18 13:31:00

Linux內(nèi)存

2011-08-16 09:34:34

Nginx

2021-07-14 09:48:15

Linux源碼Epoll
點贊
收藏

51CTO技術(shù)棧公眾號