偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

阿里大牛實戰(zhàn)歸納——Kafka架構(gòu)原理

開發(fā) 后端 Kafka
Kafka的topic和分區(qū)內(nèi)部是如何存儲的,有什么特點?與傳統(tǒng)的消息系統(tǒng)相比,Kafka的消費模型有什么優(yōu)點?Kafka如何實現(xiàn)分布式的數(shù)據(jù)存儲與數(shù)據(jù)讀取?快來看下文吧!

對于kafka的架構(gòu)原理我們先提出幾個問題?

1.Kafka的topic和分區(qū)內(nèi)部是如何存儲的,有什么特點?

2.與傳統(tǒng)的消息系統(tǒng)相比,Kafka的消費模型有什么優(yōu)點?

3.Kafka如何實現(xiàn)分布式的數(shù)據(jù)存儲與數(shù)據(jù)讀取?

一、Kafka架構(gòu)圖

阿里大牛實戰(zhàn)歸納——Kafka架構(gòu)原理

 

1.kafka名詞解釋

在一套kafka架構(gòu)中有多個Producer,多個Broker,多個Consumer,每個Producer可以對應(yīng)多個Topic,每個Consumer只能對應(yīng)一個ConsumerGroup。

整個Kafka架構(gòu)對應(yīng)一個ZK集群,通過ZK管理集群配置,選舉Leader,以及在consumer group發(fā)生變化時進行rebalance。

名稱

解釋

Broker

消息中間件處理節(jié)點,一個Kafka節(jié)點就是一個broker,一個或者多個Broker可以組成一個Kafka集群

Topic

主題,Kafka根據(jù)topic對消息進行歸類,發(fā)布到Kafka集群的每條消息都需要指定一個topic

Producer

消息生產(chǎn)者,向Broker發(fā)送消息的客戶端

Consumer

消息消費者,從Broker讀取消息的客戶端

ConsumerGroup

每個Consumer屬于一個特定的Consumer Group,一條消息可以發(fā)送到多個不同的Consumer Group,但是一個Consumer Group中只能有一個Consumer能夠消費該消息

Partition

物理上的概念,一個topic可以分為多個partition,每個partition內(nèi)部是有序的

2.Topic和Partition

在Kafka中的每一條消息都有一個topic。一般來說在我們應(yīng)用中產(chǎn)生不同類型的數(shù)據(jù),都可以設(shè)置不同的主題。一個主題一般會有多個消息的訂閱者,當(dāng)生產(chǎn)者發(fā)布消息到某個主題時,訂閱了這個主題的消費者都可以接收到生產(chǎn)者寫入的新消息。

kafka為每個主題維護了分布式的分區(qū)(partition)日志文件,每個partition在kafka存儲層面是append log。任何發(fā)布到此partition的消息都會被追加到log文件的尾部,在分區(qū)中的每條消息都會按照時間順序分配到一個單調(diào)遞增的順序編號,也就是我們的offset,offset是一個long型的數(shù)字,我們通過這個offset可以確定一條在該partition下的唯一消息。在partition下面是保證了有序性,但是在topic下面沒有保證有序性。

阿里大牛實戰(zhàn)歸納——Kafka架構(gòu)原理

 

在上圖中在我們的生產(chǎn)者會決定發(fā)送到哪個Partition。

  1. 如果沒有Key值則進行輪詢發(fā)送。
  2. 如果有Key值,對Key值進行Hash,然后對分區(qū)數(shù)量取余,保證了同一個Key值的會被路由到同一個分區(qū),如果想隊列的強順序一致性,可以讓所有的消息都設(shè)置為同一個Key。

3.消費模型

消息由生產(chǎn)者發(fā)送到kafka集群后,會被消費者消費。一般來說我們的消費模型有兩種:推送模型(psuh)和拉取模型(pull)

基于推送模型的消息系統(tǒng),由消息代理記錄消費狀態(tài)。消息代理將消息推送到消費者后,標(biāo)記這條消息為已經(jīng)被消費,但是這種方式無法很好地保證消費的處理語義。比如當(dāng)我們把已經(jīng)把消息發(fā)送給消費者之后,由于消費進程掛掉或者由于網(wǎng)絡(luò)原因沒有收到這條消息,如果我們在消費代理將其標(biāo)記為已消費,這個消息就***丟失了。如果我們利用生產(chǎn)者收到消息后回復(fù)這種方法,消息代理需要記錄消費狀態(tài),這種不可取。如果采用push,消息消費的速率就完全由消費代理控制,一旦消費者發(fā)生阻塞,就會出現(xiàn)問題。

Kafka采取拉取模型(poll),由自己控制消費速度,以及消費的進度,消費者可以按照任意的偏移量進行消費。比如消費者可以消費已經(jīng)消費過的消息進行重新處理,或者消費最近的消息等等。

4.網(wǎng)絡(luò)模型

4.1 KafkaClient --單線程Selector

阿里大牛實戰(zhàn)歸納——Kafka架構(gòu)原理

 

單線程模式適用于并發(fā)鏈接數(shù)小,邏輯簡單,數(shù)據(jù)量小。

在kafka中,consumer和producer都是使用的上面的單線程模式。這種模式不適合kafka的服務(wù)端,在服務(wù)端中請求處理過程比較復(fù)雜,會造成線程阻塞,一旦出現(xiàn)后續(xù)請求就會無法處理,會造成大量請求超時,引起雪崩。而在服務(wù)器中應(yīng)該充分利用多線程來處理執(zhí)行邏輯。

4.2 Kafka--server -- 多線程Selector

阿里大牛實戰(zhàn)歸納——Kafka架構(gòu)原理

 

在kafka服務(wù)端采用的是多線程的Selector模型,Acceptor運行在一個單獨的線程中,對于讀取操作的線程池中的線程都會在selector注冊read事件,負責(zé)服務(wù)端讀取請求的邏輯。成功讀取后,將請求放入message queue共享隊列中。然后在寫線程池中,取出這個請求,對其進行邏輯處理,即使某個請求線程阻塞了,還有后續(xù)的縣城從消息隊列中獲取請求并進行處理,在寫線程中處理完邏輯處理,由于注冊了OP_WIRTE事件,所以還需要對其發(fā)送響應(yīng)。

5.高可靠分布式存儲模型

在Kafka中保證高可靠模型的依靠的是副本機制,有了副本機制之后,就算機器宕機也不會發(fā)生數(shù)據(jù)丟失。

5.1高性能的日志存儲

kafka一個topic下面的所有消息都是以partition的方式分布式的存儲在多個節(jié)點上。同時在kafka的機器上,每個Partition其實都會對應(yīng)一個日志目錄,在目錄下面會對應(yīng)多個日志分段(LogSegment)。LogSegment文件由兩部分組成,分別為“.index”文件和“.log”文件,分別表示為segment索引文件和數(shù)據(jù)文件。這兩個文件的命令規(guī)則為:partition全局的***個segment從0開始,后續(xù)每個segment文件名為上一個segment文件***一條消息的offset值,數(shù)值大小為64位,20位數(shù)字字符長度,沒有數(shù)字用0填充,如下,假設(shè)有1000條消息,每個LogSegment大小為100,下面展現(xiàn)了900-1000的索引和Log:

阿里大牛實戰(zhàn)歸納——Kafka架構(gòu)原理

 

由于kafka消息數(shù)據(jù)太大,如果全部建立索引,即占了空間又增加了耗時,所以kafka選擇了稀疏索引的方式,這樣的話索引可以直接進入內(nèi)存,加快偏查詢速度。

簡單介紹一下如何讀取數(shù)據(jù),如果我們要讀取第911條數(shù)據(jù)首先***步,找到他是屬于哪一段的,根據(jù)二分法查找到他屬于的文件,找到0000900.index和00000900.log之后,然后去index中去查找 (911-900) =11這個索引或者小于11最近的索引,在這里通過二分法我們找到了索引是[10,1367]然后我們通過這條索引的物理位置1367,開始往后找,直到找到911條數(shù)據(jù)。

上面講的是如果要找某個offset的流程,但是我們大多數(shù)時候并不需要查找某個offset,只需要按照順序讀即可,而在順序讀中,操作系統(tǒng)會對內(nèi)存和磁盤之間添加page cahe,也就是我們平常見到的預(yù)讀操作,所以我們的順序讀操作時速度很快。但是kafka有個問題,如果分區(qū)過多,那么日志分段也會很多,寫的時候由于是批量寫,其實就會變成隨機寫了,隨機I/O這個時候?qū)π阅苡绊懞艽?。所以一般來說Kafka不能有太多的partition。針對這一點,RocketMQ把所有的日志都寫在一個文件里面,就能變成順序?qū)?,通過一定優(yōu)化,讀也能接近于順序讀。

可以思考一下:1.為什么需要分區(qū),也就是說主題只有一個分區(qū),難道不行嗎?2.日志為什么需要分段

5.2副本機制

Kafka的副本機制是多個服務(wù)端節(jié)點對其他節(jié)點的主題分區(qū)的日志進行復(fù)制。當(dāng)集群中的某個節(jié)點出現(xiàn)故障,訪問故障節(jié)點的請求會被轉(zhuǎn)移到其他正常節(jié)點(這一過程通常叫Reblance),kafka每個主題的每個分區(qū)都有一個主副本以及0個或者多個副本,副本保持和主副本的數(shù)據(jù)同步,當(dāng)主副本出故障時就會被替代。

阿里大牛實戰(zhàn)歸納——Kafka架構(gòu)原理

 

在Kafka中并不是所有的副本都能被拿來替代主副本,所以在kafka的leader節(jié)點中維護著一個ISR(In sync Replicas)集合,翻譯過來也叫正在同步中集合,在這個集合中的需要滿足兩個條件:

  • 節(jié)點必須和ZK保持連接
  • 在同步的過程中這個副本不能落后主副本太多

另外還有個AR(Assigned Replicas)用來標(biāo)識副本的全集,OSR用來表示由于落后被剔除的副本集合,所以公式如下:ISR = leader + 沒有落后太多的副本; AR = OSR+ ISR;

這里先要說下兩個名詞:HW(高水位)是consumer能夠看到的此partition的位置,LEO是每個partition的log***一條Message的位置。HW能保證leader所在的broker失效,該消息仍然可以從新選舉的leader中獲取,不會造成消息丟失。

當(dāng)producer向leader發(fā)送數(shù)據(jù)時,可以通過request.required.acks參數(shù)來設(shè)置數(shù)據(jù)可靠性的級別:

  • 1(默認(rèn)):這意味著producer在ISR中的leader已成功收到的數(shù)據(jù)并得到確認(rèn)后發(fā)送下一條message。如果leader宕機了,則會丟失數(shù)據(jù)。
  • 0:這意味著producer無需等待來自broker的確認(rèn)而繼續(xù)發(fā)送下一批消息。這種情況下數(shù)據(jù)傳輸效率***,但是數(shù)據(jù)可靠性確是***的。
  • -1:producer需要等待ISR中的所有follower都確認(rèn)接收到數(shù)據(jù)后才算一次發(fā)送完成,可靠性***。但是這樣也不能保證數(shù)據(jù)不丟失,比如當(dāng)ISR中只有l(wèi)eader時(其他節(jié)點都和zk斷開連接,或者都沒追上),這樣就變成了acks=1的情況。 
責(zé)任編輯:龐桂玉 來源: 今天頭條
相關(guān)推薦

2021-04-09 08:54:14

Kafka源碼架構(gòu)開發(fā)技術(shù)

2021-06-09 10:29:23

Kafka架構(gòu)組件

2024-10-30 10:06:51

2021-12-07 07:32:09

kafka架構(gòu)原理

2018-05-24 09:24:27

2018-05-14 09:00:23

NB架構(gòu)師素質(zhì)

2013-05-17 15:34:45

2019-08-05 07:58:01

分布式架構(gòu)系統(tǒng)

2020-03-04 08:47:10

Kafka架構(gòu)原理

2018-08-20 08:30:05

Kafka架構(gòu)系統(tǒng)

2019-09-23 09:46:58

能力模型技術(shù)

2019-07-08 08:44:24

阿里技術(shù)架構(gòu)師

2011-03-08 10:15:08

HTML 5

2019-04-28 09:37:21

技術(shù)架構(gòu)圖開源

2020-10-10 08:20:27

Spring Boot運行原理代碼

2018-04-02 10:00:27

技術(shù)快速成長

2020-09-13 13:26:10

Kafka消費者控制器

2025-05-06 03:10:00

KEDASpringRocketMQ

2019-08-12 09:19:12

阿里結(jié)構(gòu)化思維

2022-02-28 10:05:12

組件化架構(gòu)設(shè)計從原組件化模塊化
點贊
收藏

51CTO技術(shù)棧公眾號