Flume架構(gòu)與源碼分析-整體架構(gòu)
最近在學(xué)習(xí)Flume源碼,所以想寫一份Flume源碼學(xué)習(xí)的筆記供需要的朋友一起學(xué)習(xí)參考。
1、Flume介紹
Flume是cloudera公司開源的一款分布式、可靠地進(jìn)行大量日志數(shù)據(jù)采集、聚合和并轉(zhuǎn)移到存儲中;通過事務(wù)機(jī)制提供了可靠的消息傳輸支持,自帶負(fù)載均衡機(jī)制來支撐水平擴(kuò)展;并且提供了一些默認(rèn)組件供直接使用。
Flume目前常見的應(yīng)用場景:日志--->Flume--->實(shí)時計(jì)算(如Kafka+Storm) 、日志--->Flume--->離線計(jì)算(如HDFS、HBase)、日志--->Flume--->ElasticSearch。
2、整體架構(gòu)
Flume主要分為三個組件:Source、Channel、Sink;數(shù)據(jù)流如下圖所示:
1、Source負(fù)責(zé)日志流入,比如從文件、網(wǎng)絡(luò)、Kafka等數(shù)據(jù)源流入數(shù)據(jù),數(shù)據(jù)流入的方式有兩種輪訓(xùn)拉取和事件驅(qū)動;
2、Channel負(fù)責(zé)數(shù)據(jù)聚合/暫存,比如暫存到內(nèi)存、本地文件、數(shù)據(jù)庫、Kafka等,日志數(shù)據(jù)不會在管道停留很長時間,很快會被Sink消費(fèi)掉;
3、Sink負(fù)責(zé)數(shù)據(jù)轉(zhuǎn)移到存儲,比如從Channel拿到日志后直接存儲到HDFS、HBase、Kafka、ElasticSearch等,然后再有如Hadoop、Storm、ElasticSearch之類的進(jìn)行數(shù)據(jù)分析或查詢。
一個Agent會同時存在這三個組件,Source和Sink都是異步執(zhí)行的,相互之間不會影響。
假設(shè)我們有采集并索引Nginx訪問日志,我們可以按照如下方式部署:
1、Agent和Web Server是部署在同一臺機(jī)器;
2、Source使用ExecSource并使用tail命令采集日志;
3、Channel使用MemoryChannel,因?yàn)槿罩緮?shù)據(jù)丟點(diǎn)也不算什么大問題;
4、Sink使用ElasticSearchSink寫入到ElasticSearch,此處可以配置多個ElasticSearch服務(wù)器IP:PORT列表以便提升處理能力。
以上介紹了日志是如何流的,對于復(fù)雜的日志采集,我們需要對Source日志進(jìn)行過濾、寫到多個Channel、對Sink進(jìn)行失敗處理/負(fù)載均衡等處理,這些Flume默認(rèn)都提供了支持:
1、Source采集的日志會傳入ChannelProcessor組件,其首先通過Interceptor進(jìn)行日志過濾,如果接觸過Servlet的話這個概念是類似的,可以參考《Servlet3.1規(guī)范翻譯——過濾器 》 ;過濾器可以過濾掉日志,也可以修改日志內(nèi)容;
2、過濾完成后接下來會交給ChannelSelector進(jìn)行處理,默認(rèn)提供了兩種選擇器:復(fù)制或多路復(fù)用選擇器;復(fù)制即把一個日志復(fù)制到多個Channel;而多路復(fù)用會根據(jù)配置的選擇器條件,把符合條件的路由到相應(yīng)的Channel;在寫多個Channel時可能存在存在失敗的情況,對于失敗的處理有兩種:稍后重試或者忽略。重試一般采用指數(shù)級時間進(jìn)行重試。
我們之前說過Source生產(chǎn)日志給Channel、Sink從Channel消費(fèi)日志;它倆完全是異步的,因此Sink只需要監(jiān)聽自己關(guān)系的Channel變化即可。
到此我們可以對Source日志進(jìn)行過濾/修改,把一個消息復(fù)制/路由到多個Channel,對于Sink的話也應(yīng)該存在寫失敗的情況,F(xiàn)lume默認(rèn)提供了如下策略:
默認(rèn)策略就是一個Sink,失敗了則這個事務(wù)就失敗了,會稍后重試。
Flume還提供了故障轉(zhuǎn)移策略:
Failover策略是給多個Sink定義優(yōu)先級,假設(shè)其中一個失敗了,則路由到下一個優(yōu)先級的Sink;Sink只要拋出一次異常就會被認(rèn)為是失敗了,則從存活Sink中移除,然后指數(shù)級時間等待重試,默認(rèn)是等待1s開始重試,***等待重試時間是30s。
Flume也提供了負(fù)載均衡策略:
負(fù)載均衡算法默認(rèn)提供了兩種:輪訓(xùn)和隨機(jī);其通過抽象一個類似ChannelSelector的SinkSelector進(jìn)行選擇,失敗補(bǔ)償機(jī)制和Failover中的算法類似,但是默認(rèn)是關(guān)閉失敗補(bǔ)償?shù)?,需要配置backoff參數(shù)為true開啟。
到此Flume涉及的一些核心組件就介紹完了,對于Source和Sink如何異步、Channel提供的事務(wù)機(jī)制等我們后續(xù)分析組件時再講。
假設(shè)我們需要采集非常多的客戶端日志并對他們進(jìn)行一些緩沖或集中的處理,就可以部署一個聚合層,整體架構(gòu)類似于如下:
1、首先是日志采集層,該層的Agent和應(yīng)用部署在同一臺機(jī)器上,負(fù)責(zé)采集如Nginx訪問日志;然后通過RPC將日志流入到收集/聚合層;在這一層應(yīng)該快速的采集到日志然后流入到收集/聚合層;
2、收集/聚合層進(jìn)行日志的收集或聚合,并且可以進(jìn)行容錯處理,如故障轉(zhuǎn)移或負(fù)載均衡,以提升可靠性;另外可以在該層開啟文件Channel,做數(shù)據(jù)緩沖區(qū);
3、收集/聚合層對數(shù)據(jù)進(jìn)行過濾或修改然后進(jìn)行存儲或處理;比如存儲到HDFS,或者流入Kafka然后通過Storm對數(shù)據(jù)進(jìn)行實(shí)時處理。
到此從Flume核心組件到一般的部署架構(gòu)我們就大體了解了,而涉及的一些實(shí)現(xiàn)細(xì)節(jié)在接下來的部分進(jìn)行詳細(xì)介紹。
【本文是51CTO專欄作者張開濤的原創(chuàng)文章,作者微信公眾號:開濤的博客,id:kaitao-1234567】