消息中間件深度系列|異構(gòu)消息隊列的海量數(shù)據(jù)流轉(zhuǎn)Connect架構(gòu)解析
一、背景
5G時代,萬物互聯(lián),越來越多的企業(yè)期望搭建數(shù)據(jù)分析業(yè)務中臺,利用大數(shù)據(jù)技術、通過全局規(guī)劃來治理企業(yè)的數(shù)據(jù)資產(chǎn)。而在業(yè)務系統(tǒng),或者大數(shù)據(jù)系統(tǒng)中異構(gòu)數(shù)據(jù)源之間的數(shù)據(jù)同步是十分有必要的,傳統(tǒng)的點對點的數(shù)據(jù)同步工具,應對越來越多的異構(gòu)數(shù)據(jù)源同步會產(chǎn)生N*N的問題,付出的開發(fā)成本和維護成本都是非常高的。因此,移動云消息隊列MQTT團隊積極打通數(shù)據(jù)孤島,基于開源RocketMQ Connect組件推出全新的MQTT-RocketMQ Connect架構(gòu),助力海量物聯(lián)網(wǎng)消息自由流轉(zhuǎn),為萬物互聯(lián)保駕護航。
二、MQTT-RocketMQ Connect介紹
首先,先簡單介紹一下MQTT-RocketMQ Connect架構(gòu)的基石—RocketMQ Connect,它是RocketMQ數(shù)據(jù)集成的重要組件,可將各種系統(tǒng)中的數(shù)據(jù)通過高效、可靠、流的方式,流入流出到RocketMQ,可以實現(xiàn)各種異構(gòu)數(shù)據(jù)系統(tǒng)的連接,構(gòu)建數(shù)據(jù)管道、ETL、CDC、數(shù)據(jù)湖等能力。
從架構(gòu)上看,RocketMQ Connect就是借助RocketMQ從其他異構(gòu)系統(tǒng)獲取數(shù)據(jù)且以消息的方式發(fā)送到RocketMQ作為中轉(zhuǎn),然后從RocketMQ消費消息并寫入到其他系統(tǒng)。
圖1 RocketMQ Connect 總覽
MQTT-RocketMQ Connect在開源的Apache RocketMQ Connect組件基礎之上,根據(jù)移動云消息隊列MQTT的數(shù)據(jù)模型、業(yè)務場景和流轉(zhuǎn)規(guī)則等特點,做了深度的架構(gòu)優(yōu)化與設計,實現(xiàn)了移動云消息隊列RocketMQ與MQTT之間的消息流轉(zhuǎn)與規(guī)則管理。它主要由Connector、Runtime、Worker和Task組成。
Connector
包含 Source Connector和 Sink Connector兩類,其中,
1.Source Connector:負責從源數(shù)據(jù)中獲取數(shù)據(jù)并將其發(fā)送到 RocketMQ。
2.Sink Connector:負責使用來自 RocketMQ的消息并將數(shù)據(jù)寫入目標存儲。
Runtime
Runtime是Source、Sink Connector的運行時環(huán)境,負責加載Connector,提供RESTful接口,啟動Connector任務,集群節(jié)點之間服務發(fā)現(xiàn)、配置同步、消費進度保存、故障轉(zhuǎn)移、負載均衡等能力。
Worker
一個Worker進程代表一個Runtime 運行時環(huán)境進程,多個Worker進程組成了一個集群,支持更多的Connector 和 Task的并行運行工作。
Task
Task是執(zhí)行具體的數(shù)據(jù)解析和轉(zhuǎn)儲的任務,其中,
1.SourceTask:從源數(shù)據(jù)系統(tǒng)中,執(zhí)行完成數(shù)據(jù)解析工作,通過poll()接口暴露給Runtime。
2.SinkTask:Runtime從內(nèi)存獲取數(shù)據(jù)并通過put()接口方法解析至目標數(shù)據(jù)源系統(tǒng)中。
3.DirectTask:同時包含SourceTask和SinkTask,兩者直接交互,不再經(jīng)過Runtime。
三、MQTT-RocketMQ Connect架構(gòu)設計
消息隊列MQTT以RocketMQ作為消息的存儲層,消息數(shù)據(jù)會在RocketMQ中保存一份。因此,可以將消息隊列MQTT的存儲層RocketMQ作為源數(shù)據(jù)端。采用標準的Connect架構(gòu)要實現(xiàn)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)流轉(zhuǎn),Source Task 和Sink Task必須一一對應,兩者通過中間的RocketMQ關聯(lián)。按照現(xiàn)在的架構(gòu)兩端都是RocketMQ,使用一個特殊的Direct Task,讓消息不再經(jīng)過中間的RocketMQ,而是直接流入到目標RocketMQ中,反之亦然。通過優(yōu)化架構(gòu)可以有效降低時延,提升速率。
圖2 移動云消息隊列MQTT消息存儲架構(gòu)
在Runtime進程組成的集群中,將源消息隊列的海量數(shù)據(jù),通過端到端Connector和Task以數(shù)據(jù)解析和轉(zhuǎn)儲的方式異步復制至目標集群,完成異構(gòu)消息隊列的數(shù)據(jù)流轉(zhuǎn)。其中Runtime集群中每個Worker節(jié)點啟動Connector相關的配置信息,也會像集群信息一樣在集群中每個節(jié)點全量同步,同時會持久化到每個節(jié)點。集群中如果有某個Worker節(jié)點掛掉,集群信息會發(fā)生變化,當每個節(jié)點檢查到集群信息發(fā)生了變化就會觸發(fā)負載均衡,對集群中運行的Connector和Task重新分配,從而保證故障節(jié)點的任務分配到其它節(jié)點處理,保證高可用。
圖3 MQTT-RocketMQ Connect架構(gòu)圖
了解了MQTT-RocketMQ Connect的架構(gòu),下面看一下如何自己實現(xiàn)一個簡單的MQTT和RocketMQ之間的消息流轉(zhuǎn)。
通過前面的介紹,應該清楚,需要實現(xiàn)兩個Connector和Task,一個是從作為MQTT存儲層的RocketMQ到目標RocketMQ的Connector和Task,第二個是從RocketMQ讀數(shù)據(jù)寫入到目標MQTT的Connector和Task。
圖4 MQTT消息流轉(zhuǎn)到RocketMQ流程圖
以消息從MQTT流轉(zhuǎn)到RocketMQ為例,主要由三組接口組成:SourceConnector、SourceTask和SinkTask。
圖5 Connector和Task接口概覽
1.SourceConnector負責connector生命周期的管理、創(chuàng)建對應的Task并將接收到的Connector配置信息拆分出每個task的配置信息。
2.SourceTask負責拉取消息,并對消費者的生命周期進行管理。用戶還可以根據(jù)實際需要添加消息封裝、轉(zhuǎn)存等方法。
3.SinkTask負責接收SourceTask推送的消息,并對生產(chǎn)者的生命周期進行管理。同樣的,用戶還可以根據(jù)實際需要添加消息解析,過濾等方法。
一個connector的生命周期主要分為三個階段:啟動、運行、停止。
創(chuàng)建并啟動connector
創(chuàng)建并啟動Connector過程大致可以分為以下幾個階段:
- 控制臺創(chuàng)建規(guī)則階段
- 初始化配置階段
- 負載均衡階段
圖6 Connector啟動階段流程圖
運行task任務
- 在Connector 實例被啟動后,Connector可以根據(jù)配置信息,對解析任務進行拆分,分配出task。這么做的目的是為了提高并行度,提升處理效率。
停止并刪除connector
停止并刪除Connector過程大致可以分為以下幾個階段:
- 控制臺停止規(guī)則階段
- 更新配置階段
- 負載均衡階段
圖7 Connector停止階段流程圖
四、MQTT-RocketMQ Connect高可用部署
MQTT-RocketMQ Connect Worker支持兩種運行模式,集群和單機模式。
4.1/集群模式
集群模式,顧名思義,由多個Worker節(jié)點組成高可用集群。集群間的config、offset和status信息通過指定RocketMQ Topic存儲,新增Worker節(jié)點也會獲取到集群中的這些config、offset和status信息,并且觸發(fā)負載均衡,重新分配集群中的任務,使集群達到均衡的狀態(tài)。減少Woker節(jié)點或者Worker宕機也會觸發(fā)負載均衡,從而保障集群中所有的任務都可以均衡的在集群中存活的節(jié)點中正常運行。
圖8 MQTT-RocketMQ Connect集群模式示意圖
4.2 /單機模式
單機模式,Connector任務運行在單機上,Worker本身沒有高可用,任務offset信息持久化在本地。適合一些對高可用要求不高或者不需要Worker保障高可用的場景,例如部署在k8s集群中,由k8s集群保障高可用。
五、MQTT-RocketMQ Connect優(yōu)秀特性
為了保證MQTT和RocketMQ之間有高速穩(wěn)定的消息流轉(zhuǎn)通道,MQTT-RocketMQ Connect具有許多優(yōu)秀的特性:
六、總結(jié)與展望
本文介紹了異構(gòu)消息隊列海量數(shù)據(jù)流轉(zhuǎn)的設計與實踐,基于RocketMQ Connect和移動云消息隊列MQTT本身的架構(gòu)特點,做了深度的架構(gòu)優(yōu)化與設計,實現(xiàn)了移動云消息隊列RocketMQ與MQTT之間的消息流轉(zhuǎn)與規(guī)則管理。隨著萬物互聯(lián)的持續(xù)深入,未來消息隊列MQTT團隊還將基于現(xiàn)在的架構(gòu)繼續(xù)優(yōu)化和創(chuàng)新,例如:
1 ? ? ? ? ?
增加對其他異構(gòu)數(shù)據(jù)源(Redis、MySQL、Kafka)等組件的消息流轉(zhuǎn)支持
2 ? ? ? ? ?
增加對集群Worker、Connector、Task狀態(tài)的管理
3 ? ? ? ? ?
優(yōu)化不支持poll方式獲取消息的服務