5節(jié)點(diǎn)Hadoop分布式集群搭建經(jīng)驗(yàn)分享
本文章我們使用hadoop2.6.0版本配置Hadoop集群,同時(shí)配置NameNode+HA、ResourceManager+HA,并使用zookeeper來管理Hadoop集群。
1.1 寫在前面的話
1.2 (一)HDFS概述
1.2.1 基礎(chǔ)架構(gòu)
1、NameNode(Master)
1)命名空間管理:命名空間支持對HDFS中的目錄、文件和塊做類似文件系統(tǒng)的創(chuàng)建、修改、刪除、列表文件和目錄等基本操作。
2)塊存儲管理。
1.2.2 HA架構(gòu)
從上面的架構(gòu)圖可以看出,使用Active NameNode,Standby NameNode 兩個節(jié)點(diǎn)可以解決單點(diǎn)問題,兩個節(jié)點(diǎn)通過JounalNode共享狀態(tài),通過ZKFC 選舉Active ,監(jiān)控狀態(tài),自動備份。
1、Active NameNode
接受client的RPC請求并處理,同時(shí)寫自己的Editlog和共享存儲上的Editlog,接收DataNode的Block report, block location updates和heartbeat。
2、Standby NameNode
同樣會接到來自DataNode的Block report, block location updates和heartbeat,同時(shí)會從共享存儲的Editlog上讀取并執(zhí)行這些log操作,保持自己NameNode中的元數(shù)據(jù)(Namespcae information + Block locations map)和Active NameNode中的元數(shù)據(jù)是同步的。所以說Standby模式的NameNode是一個熱備(Hot Standby NameNode),一旦切換成Active模式,馬上就可以提供NameNode服務(wù)。
3、JounalNode
用于Active NameNode , Standby NameNode 同步數(shù)據(jù),本身由一組JounnalNode節(jié)點(diǎn)組成,該組節(jié)點(diǎn)奇數(shù)個。
4、ZKFC
監(jiān)控NameNode進(jìn)程,自動備份。
1.3 (二)YARN概述
1.3.1 基礎(chǔ)架構(gòu)
1、ResourceManager(RM)
接收客戶端任務(wù)請求,接收和監(jiān)控NodeManager(NM)的資源情況匯報(bào),負(fù)責(zé)資源的分配與調(diào)度,啟動和監(jiān)控ApplicationMaster(AM)。
2、NodeManager
節(jié)點(diǎn)上的資源管理,啟動Container運(yùn)行task計(jì)算,上報(bào)資源、container情況匯報(bào)給RM和任務(wù)處理情況匯報(bào)給AM。
3、ApplicationMaster
單個Application(Job)的task管理和調(diào)度,向RM進(jìn)行資源的申請,向NM發(fā)出launch Container指令,接收NM的task處理狀態(tài)信息。
4、Web Application Proxy
用于防止Yarn遭受Web攻擊,本身是ResourceManager的一部分,可通過配置獨(dú)立進(jìn)程。ResourceManager Web的訪問基于守信用戶,當(dāng)Application Master運(yùn)行于一個非受信用戶,其提供給ResourceManager的可能是非受信連接,Web Application Proxy可以阻止這種連接提供給RM。
5、Job History Server
NodeManager在啟動的時(shí)候會初始化LogAggregationService服務(wù), 該服務(wù)會在把本機(jī)執(zhí)行的container log (在container結(jié)束的時(shí)候)收集并存放到hdfs指定的目錄下. ApplicationMaster會把jobhistory信息寫到hdfs的jobhistory臨時(shí)目錄下, 并在結(jié)束的時(shí)候把jobhisoty移動到最終目錄, 這樣就同時(shí)支持了job的recovery.History會啟動web和RPC服務(wù), 用戶可以通過網(wǎng)頁或RPC方式獲取作業(yè)的信息。
1.3.2 HA架構(gòu)
ResourceManager HA 由一對Active,Standby結(jié)點(diǎn)構(gòu)成,通過RMStateStore存儲內(nèi)部數(shù)據(jù)和主要應(yīng)用的數(shù)據(jù)及標(biāo)記。目前支持的可替代的RMStateStore實(shí)現(xiàn)有:基于內(nèi)存的MemoryRMStateStore,基于文件系統(tǒng)的FileSystemRMStateStore,及基于zookeeper的ZKRMStateStore。 ResourceManager HA的架構(gòu)模式同NameNode HA的架構(gòu)模式基本一致,數(shù)據(jù)共享由RMStateStore,而ZKFC成為 ResourceManager進(jìn)程的一個服務(wù),非獨(dú)立存在。

















 
 
 



 
 
 
 