偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

實(shí)現(xiàn)Hadoop集群性能優(yōu)化,Hadoop機(jī)架感知如何配置?

開發(fā) 架構(gòu) Hadoop
Hadoop相信大家應(yīng)該有所了解,那么Hadoop集群你是否熟悉,在這里向大家簡(jiǎn)單介紹一下,希望通過本文的介紹大家對(duì)Hadoop集群有一定的了解。

本節(jié)和大家一起學(xué)習(xí)一下Hadoop集群方面的內(nèi)容,主要介紹一下Hadoop集群網(wǎng)絡(luò)性能優(yōu)化的背景,及Hadoop配置等,歡迎大家一起來學(xué)習(xí)有關(guān)Hadoop集群方面的知識(shí)。

Hadoop集群網(wǎng)絡(luò)性能優(yōu)化:Hadoop機(jī)架感知實(shí)現(xiàn)及配置

背景

分布式的集群通常包含非常多的機(jī)器,由于受到機(jī)架槽位和交換機(jī)網(wǎng)口的限制,通常大型的分布式集群都會(huì)跨好幾個(gè)機(jī)架,由多個(gè)機(jī)架上的機(jī)器共同組成一個(gè)分布式集群。機(jī)架內(nèi)的機(jī)器之間的網(wǎng)絡(luò)速度通常都會(huì)高于跨機(jī)架機(jī)器之間的網(wǎng)絡(luò)速度,并且機(jī)架之間機(jī)器的網(wǎng)絡(luò)通信通常受到上層交換機(jī)間網(wǎng)絡(luò)帶寬的限制。
具體到Hadoop集群,由于Hadoop的HDFS對(duì)數(shù)據(jù)文件的分布式存放是按照分塊block存儲(chǔ),每個(gè)block會(huì)有多個(gè)副本(默認(rèn)為3),并且為了數(shù)據(jù)的安全和高效,所以Hadoop默認(rèn)對(duì)3個(gè)副本的存放策略為:

在本地機(jī)器的hdfs目錄下存儲(chǔ)一個(gè)block
在另外一個(gè)rack的某個(gè)datanode上存儲(chǔ)一個(gè)block
在該機(jī)器的同一個(gè)rack下的某臺(tái)機(jī)器上存儲(chǔ)***一個(gè)block
這樣的策略可以保證對(duì)該block所屬文件的訪問能夠優(yōu)先在本rack下找到,如果整個(gè)rack發(fā)生了異常,也可以在另外的rack上找到該block的副本。這樣足夠的高效,并且同時(shí)做到了數(shù)據(jù)的容錯(cuò)。
但是,Hadoop對(duì)機(jī)架的感知并非是自適應(yīng)的,亦即,Hadoop集群分辨某臺(tái)slave機(jī)器是屬于哪個(gè)rack并非是只能的感知的,而是需要Hadoop的管理者人為的告知Hadoop哪臺(tái)機(jī)器屬于哪個(gè)rack,這樣在Hadoop的namenode啟動(dòng)初始化時(shí),會(huì)將這些機(jī)器與rack的對(duì)應(yīng)信息保存在內(nèi)存中,用來作為對(duì)接下來所有的HDFS的寫塊操作分配datanode列表時(shí)(比如3個(gè)block對(duì)應(yīng)三臺(tái)datanode)的選擇datanode策略,做到Hadoopallocateblock的策略:盡量將三個(gè)副本分布到不同的rack。
接下來的問題就是:通過什么方式能夠告知Hadoopnamenode哪些slaves機(jī)器屬于哪個(gè)rack?以下是配置步驟。


配置

默認(rèn)情況下,Hadoop的機(jī)架感知是沒有被啟用的。所以,在通常情況下,Hadoop集群的HDFS在選機(jī)器的時(shí)候,是隨機(jī)選擇的,也就是說,很有可能在寫數(shù)據(jù)時(shí),Hadoop將***塊數(shù)據(jù)block1寫到了rack1上,然后隨機(jī)的選擇下將block2寫入到了rack2下,此時(shí)兩個(gè)rack之間產(chǎn)生了數(shù)據(jù)傳輸?shù)牧髁浚俳酉聛?,在隨機(jī)的情況下,又將block3重新又寫回了rack1,此時(shí),兩個(gè)rack之間又產(chǎn)生了一次數(shù)據(jù)流量。在job處理的數(shù)據(jù)量非常的大,或者往Hadoop推送的數(shù)據(jù)量非常大的時(shí)候,這種情況會(huì)造成rack之間的網(wǎng)絡(luò)流量成倍的上升,成為性能的瓶頸,進(jìn)而影響作業(yè)的性能以至于整個(gè)集群的服務(wù)。
要將Hadoop機(jī)架感知的功能啟用,配置非常簡(jiǎn)單,在namenode所在機(jī)器的Hadoop-site.xml配置文件中配置一個(gè)選項(xiàng):
 

  1. <property> 
  2. <name>topology.script.file.name</name> 
  3. <value>/path/to/script</value> 
  4. </property> 

 

這個(gè)配置選項(xiàng)的value指定為一個(gè)可執(zhí)行程序,通常為一個(gè)腳本,該腳本接受一個(gè)參數(shù),輸出一個(gè)值。接受的參數(shù)通常為某臺(tái)datanode機(jī)器的ip地址,而輸出的值通常為該ip地址對(duì)應(yīng)的datanode所在的rack,例如”/rack1”。Namenode啟動(dòng)時(shí),會(huì)判斷該配置選項(xiàng)是否為空,如果非空,則表示已經(jīng)用機(jī)架感知的配置,此時(shí)namenode會(huì)根據(jù)配置尋找該腳本,并在接收到每一個(gè)datanode的heartbeat時(shí),將該datanode的ip地址作為參數(shù)傳給該腳本運(yùn)行,并將得到的輸出作為該datanode所屬的機(jī)架,保存到內(nèi)存的一個(gè)map中。
至于腳本的編寫,就需要將真實(shí)的網(wǎng)絡(luò)拓樸和機(jī)架信息了解清楚后,通過該腳本能夠?qū)C(jī)器的ip地址正確的映射到相應(yīng)的機(jī)架上去。一個(gè)簡(jiǎn)單的實(shí)現(xiàn)如下:
 

  1. #!/usr/bin/perl-w  
  2. usestrict;  
  3. my$ip=$ARGV[0];  
  4. my$rack_num=3;  
  5. my@ip_items=split/\./,$ip;  
  6. my$ip_count=0;  
  7. foreachmy$i(@ip_items){  
  8. $ip_count+=$i;  
  9. }  
  10. my$rack="/rack".($ip_count%$rack_num);  
  11. print"$rack"; 

請(qǐng)期待下節(jié)Hadoop集群網(wǎng)絡(luò)性能優(yōu)化。
 

【編輯推薦】

  1. 專家指導(dǎo) 如何實(shí)現(xiàn)Hadoop集群搭建
  2. Hadoop集群搭建過程中相關(guān)環(huán)境配置詳解
  3. Hadoop文件系統(tǒng)如何快速安裝?
  4. Hadoop集群搭建過程中相關(guān)環(huán)境配置詳解
  5. Hadoop完全分布模式安裝實(shí)現(xiàn)詳解

 

 

責(zé)任編輯:佚名 來源: csdn.net
相關(guān)推薦

2010-06-07 09:26:32

Hadoop集群

2010-05-24 14:59:29

Hadoop集群

2010-06-04 10:48:15

Hadoop性能

2013-06-26 16:12:21

MySQL集群性能優(yōu)化

2010-06-03 19:16:23

Hadoop

2010-06-04 18:06:22

Hadoop集群搭建

2010-06-04 11:00:27

hadoop性能優(yōu)化

2019-08-02 11:28:45

HadoopYARN調(diào)度系統(tǒng)

2012-06-25 10:30:06

Hadoop集群

2010-06-03 15:13:34

Hadoop Hdfs

2010-06-04 10:35:14

2010-06-04 18:17:50

Hadoop集群

2011-12-07 16:11:50

Hadoop集群搭建

2016-10-27 09:37:10

Hadoop集群配置

2011-04-21 10:05:35

Hadoop集群lzo

2010-06-03 14:42:47

Hadoop分布式集群

2017-03-13 09:50:00

HadoopHive

2012-09-10 15:18:11

云梯淘寶大數(shù)據(jù)

2012-09-18 09:55:44

Hadoop 2.0

2013-05-27 14:13:51

Hadoop 2.0.
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)