偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

使用Apache Flume抓取數(shù)據(jù)(1)

大數(shù)據(jù)
使用Apache Flume抓取數(shù)據(jù),怎么來(lái)抓取呢?不過(guò),在了解這個(gè)問(wèn)題之前,我們必須明確ApacheFlume是什么?

使用Apache Flume抓取數(shù)據(jù),怎么來(lái)抓取呢?不過(guò),在了解這個(gè)問(wèn)題之前,我們必須明確ApacheFlume是什么?

一、什么是Apache Flume

Apache Flume是用于數(shù)據(jù)采集的高性能系統(tǒng) ,名字來(lái)源于原始的近乎實(shí)時(shí)的日志數(shù)據(jù)采集工具,現(xiàn)在廣泛用于任何流事件數(shù)據(jù)的采集,支持從很多數(shù)據(jù)源聚合數(shù)據(jù)到HDFS。

最初由Cloudera開(kāi)發(fā) ,在2011年貢獻(xiàn)給了Apache基金會(huì) ,在2012年變成了Apache的***項(xiàng)目,F(xiàn)lume OG升級(jí)換代成了Flume NG。

Flume具有橫向擴(kuò)展、延展性、可靠性的優(yōu)勢(shì)

二、Flume 體系結(jié)構(gòu)

Source:接受外部系統(tǒng)生成event

Sink:發(fā)送event到指定的目的地

Channel:從Source緩存event,直到Sink把event取走

Agent:一個(gè)獨(dú)立的Flume進(jìn)程,包含了source,channel和sink組件

三、Flume設(shè)計(jì)目標(biāo):可靠性

Channels提供了Flume可靠性保障 ,那么它通過(guò)什么樣的方式來(lái)保障呢?默認(rèn)的模式就是Memory Channel,Memory Channel就是內(nèi)存,所有的數(shù)據(jù)存放在內(nèi)存當(dāng)中。那么,這里就會(huì)存在一個(gè)問(wèn)題?如果Channel的節(jié)點(diǎn)出現(xiàn)斷電,數(shù)據(jù)就會(huì)丟失。為解決這一問(wèn)題,這里有另外一種模式,就是基于磁盤(pán)的Channel,基于磁盤(pán)的隊(duì)列確保出現(xiàn)斷電時(shí)數(shù)據(jù)不丟失 。

另外,Agent和Channel之間的數(shù)據(jù)傳輸是事務(wù)性的 ,傳輸給下游agent失敗的數(shù)據(jù)會(huì)回滾和重試 。相同的任務(wù)可以配置多個(gè)Agent,

比如,兩個(gè)agent完成一個(gè)數(shù)據(jù)采集作業(yè),如果一個(gè)agent失敗,則上游的agent會(huì)失敗切換到另一個(gè)。

四、Flume設(shè)計(jì)目標(biāo):擴(kuò)展性

當(dāng)我們采集的數(shù)據(jù)特別多的時(shí)候,可以通過(guò)添加更多的系統(tǒng)資源從而線(xiàn)性地增加系統(tǒng)性能。而且Flume可橫向的擴(kuò)展規(guī)模 ,隨著復(fù)雜增加,可以添加更多的機(jī)器到配置當(dāng)中 。

五、Flume設(shè)計(jì)目標(biāo):延展性

延展性就是能夠添加新的功能到系統(tǒng)中。Flume通過(guò)添加Sources和Sinks到現(xiàn)有的存儲(chǔ)層或數(shù)據(jù)平臺(tái),常見(jiàn)的Sources包括files、syslog和任何linux進(jìn)程的標(biāo)準(zhǔn)輸出的數(shù)據(jù);常用Sinks包括本地文件系統(tǒng)或HDFS,開(kāi)發(fā)員可以寫(xiě)自己的Sources或Sinks。

六、常見(jiàn)的Flume數(shù)據(jù)源

七、大規(guī)模部署實(shí)例

Flume使用agents收集數(shù)據(jù) ,Agents可以從很多源接收數(shù)據(jù),包括其他agents。大規(guī)模的部署使用多層來(lái)實(shí)現(xiàn)擴(kuò)展性和可靠,F(xiàn)lume支持傳輸中數(shù)據(jù)的檢查和修改。

以上就是關(guān)于Apache Flume的部分詳情介紹,后續(xù)將會(huì)繼續(xù)分享。大數(shù)據(jù)將會(huì)是未來(lái)的風(fēng)口,要想很好的站在風(fēng)口上,就要持續(xù)不斷地學(xué)習(xí)和努力,這里推薦大家關(guān)注一個(gè)微信公眾號(hào)“大數(shù)據(jù)cn ”,里面有很多關(guān)于大數(shù)據(jù)知識(shí)的介紹,對(duì)于想要了解和學(xué)習(xí)大數(shù)據(jù)的人是一個(gè)很好的平臺(tái)。

責(zé)任編輯:武曉燕 來(lái)源: 11872756博客
相關(guān)推薦

2017-07-18 14:10:31

大數(shù)據(jù)Apache Flum過(guò)濾器

2024-02-29 07:42:00

數(shù)據(jù)系統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù)處理

2009-09-25 11:14:16

Hibernate批量

2023-01-28 08:00:00

PythonHTML表格數(shù)據(jù)

2016-11-25 13:26:50

Flume架構(gòu)源碼

2020-08-24 14:21:27

app爬蟲(chóng)Python

2023-03-09 15:55:17

JavaScriptURLCSS

2017-05-08 15:47:06

2020-10-12 08:19:43

Python爬蟲(chóng)網(wǎng)頁(yè)數(shù)據(jù)

2022-06-01 13:52:11

開(kāi)源大數(shù)據(jù)

2017-02-24 11:00:57

iOS抓取HTML解析數(shù)據(jù)

2015-10-16 09:21:13

SparkMySQL數(shù)據(jù)分析

2016-12-13 16:11:44

Java Hadoop

2015-04-23 13:29:02

Flume分布式服務(wù)HDFS

2016-12-20 09:47:38

Apache SparLambda架構(gòu)

2014-05-19 15:52:57

Apache StraApache

2011-03-11 08:58:26

Apache Couc

2015-11-11 13:45:42

Apache工具集

2021-05-11 09:02:34

OpenSearch存儲(chǔ)Elastcsearc

2017-06-26 15:00:17

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)