重新認識Mesos的設計架構
Mesos中包含四類主要的服務(實際上是一個socket server),它們分別是Mesos Master,Mesos Slave,SchedulerProcess和ExecutorProcess,它們之間通過Protocal Buffer消息進行通信,每種服務內部注冊了若干種Protocal Buffer消息處理器,一旦收到某種消息,則會調用相應的消息處理器進行處理。除了以上四種服務之外,Mesos還對外提供了三種可編程組件,分別是 Alloctor、Framework Scheduler和Framework Executor,編寫這幾個組件必須按照要求實現(xiàn)了幾個接口,而這些接口將分別被下圖中相鄰的服務調用。
大部分人看到以上Mesos架構后,均會認為Framework必須是一個通用的框架,比如MapReduce、Storm、Spark等,而 Mesos Master負責將資源分配給各個框架,而各個框架的Scheduler進一步將資源分配給其內部的各個應用程序。這種觀念是錯誤的,是對Mesos架構 的一種錯誤解讀。
事實上,F(xiàn)ramework不僅可以是通用的框架,也可以是像Hadoop的Job或者YARN的Application那樣的簡單計算任務,也就 是說,F(xiàn)ramework并需要一定是一個“Framework”,或者一個長時間運行的服務(比如JobTracker等),也可以是一個短生命周期的 Job或者Application。如果讓Framework對應一個Hadoop Job,則可以這樣設計Framework Scheduler和Framework Executor:
(1)Framework Scheduler功能
Framework Scheduler負責按照作業(yè)的輸入數(shù)據(jù)量,將之分解成若干任務,并為這些任務申請資源、監(jiān)控這些任務的運行狀態(tài),一旦發(fā)現(xiàn)某個任務運行失敗則重新為之申請資源。
(2)Framework Executor功能
為一個節(jié)點上的Map Task或者Reduce Task準備運行環(huán)境,包括準備各種jar包、二進制文件,設置必要的環(huán)境變量,進行必要的資源隔離,啟動Jetty Shuffle以為Reduce Task提供遠程數(shù)據(jù)拷貝服務等,接收來自Framework Scheduler的命令(啟動任務、殺死任務等),并執(zhí)行。
通過上面的介紹可以知道,F(xiàn)ramework Scheduler只負責運行一個Hadoop Job,而如果你對YARN比較熟悉,便會發(fā)現(xiàn)者正是YARN中的MapReduce ApplicationMaster做的事情,沒錯,Mesos與YARN的設計架構如此的相近,以至于我們很容易通過修改YARN 的任何一個ApplicationMaster,讓它作為一個Framework Scheduler運行在Mesos中。
最近Mesos提供了一個mesos-submit工具(https://github.com/apache/mesos/blob/trunk/docs/Using-the-mesos-submit-tool.md,注意,該工具尚不完善),該工具可以讓用戶的Framework Scheduler運行在任何一個Mesos Slave上,以防止客戶端運行過多的Framework Scheduler,這樣,Mesos的整個架構和工作流程已經變得與YARN相差無幾了。
為了讓大家更容易理解Mesos和YARN在架構上的相似性,下面給出了Mesos和YARN的組件對應表:
Mesos中的組件 | YARN中的組件 | 功能 |
Mesos Master | Resource Manager | 整個集群的資源管理和調度 |
Mesos Slave | Node Manager | 單個節(jié)點的資源管理(資源隔離、匯報等)、任務啟動等 |
Framework Executor | ||
Framework Scheduler | ApplicationMaster | 單個應用程序的管理和資源二次調度,基本操作均包括注冊、資源申請/獲取、資源分配(給內部的任務)等。 |
既然Mesos和YARN如此的相近,那么我們到底應該使用哪一個呢?或者說,哪一個系統(tǒng)更有前景?
就目前看來,YARN在以下幾個方面存在明顯優(yōu)勢:(1)人力投入大。目前YARN有專門的公司(hortonwork)維護和開發(fā) (2)知名度高。YARN之前從Hadoop 1.0中演化而來,繼承了Hadoop的知名度,且有大量公司和開發(fā)人員共享patch。然而,Mesos***優(yōu)點的設計簡單、容易上手使用,它不像 YARN那樣,一個資源的分配過程要涉及到若干個狀態(tài)機,且每種狀態(tài)機十幾種狀態(tài),十幾種事件。但穩(wěn)定性看,兩個系統(tǒng)都處于研發(fā)和測試階段,離穩(wěn)定可用還 有一段距離。