偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

分布式及高可用元數(shù)據(jù)采集原理

數(shù)據(jù)庫 分布式
元數(shù)據(jù)采集是元數(shù)據(jù)產(chǎn)品的核心部分,如何提升采集效率是需要仔細(xì)斟酌的事情,既要保持穩(wěn)定性也要保持跟上主流技術(shù)的發(fā)展趨勢。元數(shù)據(jù)產(chǎn)品從最初集中式WEB應(yīng)用系統(tǒng)到現(xiàn)在流行的分布式、微服務(wù)這種系統(tǒng)架構(gòu),原有元數(shù)據(jù)采集效率已不能滿足應(yīng)用的需求了。

引言:

元數(shù)據(jù)采集是元數(shù)據(jù)產(chǎn)品的核心部分,如何提升采集效率是需要仔細(xì)斟酌的事情,既要保持穩(wěn)定性也要保持跟上主流技術(shù)的發(fā)展趨勢。元數(shù)據(jù)產(chǎn)品從最初集中式WEB應(yīng)用系統(tǒng)到現(xiàn)在流行的分布式、微服務(wù)這種系統(tǒng)架構(gòu),原有元數(shù)據(jù)采集效率已不能滿足應(yīng)用的需求了。

[[279335]]

目錄:

1.元數(shù)據(jù)采集原理

2.分布式采集策略

3.分布式采集策略的應(yīng)用

1.元數(shù)據(jù)采集原理

我們要想采集元數(shù)據(jù)首先得明白,什么是元數(shù)據(jù),元數(shù)據(jù)都存在哪里,為什么采集元數(shù)據(jù)?

元數(shù)據(jù)MetaData通俗的解釋是用來描述數(shù)據(jù)的數(shù)據(jù),實(shí)際來看,除了業(yè)務(wù)邏輯直接讀寫處理的那些業(yè)務(wù)數(shù)據(jù),所有其它用來維持整個系統(tǒng)運(yùn)轉(zhuǎn)所需的信息/數(shù)據(jù)都可以叫作元數(shù)據(jù)。比如數(shù)據(jù)庫的Schema、Table、Column信息,任務(wù)的血緣關(guān)系,用戶和腳本/任務(wù)的權(quán)限映射關(guān)系信息等等。

以大數(shù)據(jù)平臺為例,元數(shù)據(jù)貫穿大數(shù)據(jù)平臺數(shù)據(jù)流動的全過程,主要包括數(shù)據(jù)源元數(shù)據(jù)、數(shù)據(jù)加工處理過程元數(shù)據(jù)、數(shù)據(jù)主題庫專題庫元數(shù)據(jù)、服務(wù)層元數(shù)據(jù)、應(yīng)用層元數(shù)據(jù)等。

數(shù)據(jù)治理關(guān)鍵就是收集信息,很明顯,沒有數(shù)據(jù)就無從分析,也就無法有效的對平臺的數(shù)據(jù)鏈路進(jìn)行管理和改進(jìn)。所以元數(shù)據(jù)管理平臺很重要的一個功能就是信息的收集,至于收集哪些信息,取決于業(yè)務(wù)的需求和我們需要解決的目標(biāo)問題。

如何采集元數(shù)據(jù)?

元數(shù)據(jù)采集是指獲取數(shù)據(jù)生命周期中的元數(shù)據(jù),對元數(shù)據(jù)進(jìn)行組織,然后將元數(shù)據(jù)寫入數(shù)據(jù)庫中的過程。

分布式及高可用元數(shù)據(jù)采集原理

不同來源的元數(shù)據(jù)獲取獲取方式也不大相同,在采集方式上有使用包括數(shù)據(jù)庫直連、接口、日志文件等技術(shù)手段,對結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)字典、非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)信息、業(yè)務(wù)指標(biāo)、代碼、數(shù)據(jù)加工過程等元數(shù)據(jù)信息進(jìn)行自動化和手動采集,元數(shù)據(jù)采集完成后,被組織成符合CWM模型的結(jié)構(gòu),存儲在關(guān)系型數(shù)據(jù)庫中。

分布式及高可用元數(shù)據(jù)采集原理

2.分布式采集架構(gòu)

現(xiàn)在人們對元數(shù)據(jù)管理工具采集的元數(shù)據(jù)時效性越來越高,我們元數(shù)據(jù)管理工具會管理很多來源的元數(shù)據(jù),配置很多采集任務(wù)定時去采集,如何高效的完成采集任務(wù),影響著元數(shù)據(jù)管理工具存儲的元數(shù)據(jù)時效性。我們原先采集任務(wù)策略是單一采集程序串行執(zhí)行采集任務(wù),這樣的策略采集效率是很低的,為了提高采集效率,我們就采用多個采集程序并發(fā)執(zhí)行采集任務(wù)。

常見的元數(shù)據(jù)管理工具架構(gòu)是傳統(tǒng)的集中式WEB應(yīng)用架構(gòu),所有的功能模塊都集中在一個應(yīng)用程序中。

分布式及高可用元數(shù)據(jù)采集原理

3.分布式采集架構(gòu)的應(yīng)用

我們在某一證券公司做數(shù)據(jù)治理時,發(fā)現(xiàn)該客戶的網(wǎng)絡(luò)架構(gòu)比較復(fù)雜,它的網(wǎng)絡(luò)架構(gòu)大概分為三層業(yè)務(wù)系統(tǒng)層、數(shù)據(jù)采集層和數(shù)據(jù)存儲層。

業(yè)務(wù)系統(tǒng)分布業(yè)務(wù)系統(tǒng)層的不同地域,比如A業(yè)務(wù)系統(tǒng)在北京,B業(yè)務(wù)系統(tǒng)在上海,C業(yè)務(wù)系統(tǒng)在廣州等。我們要想訪問個各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫只能通過數(shù)據(jù)采集層的代理IP去訪問,不同地域的業(yè)務(wù)系統(tǒng)代理的IP地址網(wǎng)段也是不同的,數(shù)據(jù)采集層各個網(wǎng)段之間不能連通,數(shù)據(jù)存儲層是可以和數(shù)據(jù)采集層的所有網(wǎng)段直接連通的。

分布式及高可用元數(shù)據(jù)采集原理

我們現(xiàn)在元數(shù)據(jù)的架構(gòu)是分為應(yīng)用程序和采集服務(wù)兩部分,應(yīng)用程序和采集程序是一對一的關(guān)系,針對這種網(wǎng)絡(luò)情況,我們要對元數(shù)據(jù)產(chǎn)品的架構(gòu)做調(diào)整。

分布式及高可用元數(shù)據(jù)采集原理

一、將元數(shù)據(jù)的應(yīng)用程序與采集服務(wù)改為一對多模式,這樣我們得需要一個采集服務(wù)管理模塊,可以對采集服務(wù)的信息(IP,端口)進(jìn)行維護(hù)(增刪改),采集的目標(biāo)數(shù)據(jù)源與采集程序服務(wù)進(jìn)行映射,一個目標(biāo)數(shù)據(jù)源可以配置主備采集服務(wù),主采集服務(wù)發(fā)生故障后,可以通過備采集服務(wù)繼續(xù)采集工作。

采集服務(wù)管理模塊要考慮易操作性和適用性,如:查看采集服務(wù)運(yùn)行情況、設(shè)置默認(rèn)采集服務(wù)等等。

二、元數(shù)據(jù)采集任務(wù)調(diào)整為并行執(zhí)行,現(xiàn)在采集元數(shù)據(jù)步驟為獲取元數(shù)據(jù)>入臨時表>與正式表比對,更新元數(shù)據(jù)ID,得到元數(shù)據(jù)的變更信息>將元數(shù)據(jù)和變更信息入正式表。

采集任務(wù)調(diào)整為并行執(zhí)行的主要的難點(diǎn)是如何取消臨時表,因?yàn)榕R時表在元數(shù)據(jù)存儲數(shù)據(jù)庫中只有一份,只有等待當(dāng)前采集任務(wù)執(zhí)行完畢,清空臨時表后,才能執(zhí)行下一次采集任務(wù)。

臨時表的作用是:

更新元數(shù)據(jù)ID和找出新增、修改和刪除的元數(shù)據(jù),采集元數(shù)據(jù)時,都會給每一個元數(shù)據(jù)生成隨機(jī)的UUID當(dāng)作元數(shù)據(jù)ID,與正式表作比對時,如果某一元數(shù)據(jù)之前已經(jīng)入庫,需要將該元數(shù)據(jù)的臨時表里的ID更新成正式表里的ID。

取消臨時表的舉措:

1、我們選擇將元數(shù)據(jù)編碼+元數(shù)據(jù)類型+元數(shù)據(jù)父級路徑這三項(xiàng)數(shù)據(jù)進(jìn)行MD5加密生成的字符串作為元數(shù)據(jù)的ID,這樣元數(shù)據(jù)的ID也就固定了,不需要和正式表里做比對了。

2、通過元數(shù)據(jù)ID去正式表里查詢就可得出哪些元數(shù)據(jù)是新增和刪除的。

我們將元數(shù)據(jù)的所有屬性值進(jìn)行MD5加密生成的字符串作為元數(shù)據(jù)的屬性ID,這樣通過比對元數(shù)據(jù)的屬性ID就可得知該元數(shù)據(jù)是否修改了。

這樣我們就可以取消臨時表,在采集服務(wù)程序中就可以將元數(shù)據(jù)和正式表數(shù)據(jù)作比對,得到變化的元數(shù)據(jù),將元數(shù)據(jù)記錄直接寫入到數(shù)據(jù)庫中的正式表,元數(shù)據(jù)采集任務(wù)也就可以并行執(zhí)行了。

分布式及高可用元數(shù)據(jù)采集原理

我們在數(shù)據(jù)采集層各個網(wǎng)段都部署采集服務(wù),這樣就實(shí)現(xiàn)了高并發(fā)元數(shù)據(jù)采集,這種分布式采集策略優(yōu)點(diǎn)是:

1、采集元數(shù)據(jù)效率快

2、可以并行執(zhí)行采集任務(wù)

3、可以適應(yīng)復(fù)雜網(wǎng)絡(luò)環(huán)境的元數(shù)據(jù)采集。

責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2022-05-11 13:55:18

高可用性分布式彈性

2018-10-29 12:51:35

分布式存儲元數(shù)據(jù)

2023-09-14 15:44:46

分布式事務(wù)數(shù)據(jù)存儲

2020-11-26 09:38:19

分布式架構(gòu)系統(tǒng)

2021-09-23 12:14:50

Redis分布式優(yōu)化

2023-08-22 13:16:00

分布式數(shù)據(jù)庫架構(gòu)數(shù)據(jù)存儲

2013-06-14 14:17:36

分布式Hbase管理和監(jiān)控

2025-04-01 01:04:00

Redis集群緩存

2022-10-24 09:56:09

seleniumGrid分布式

2014-07-10 09:28:57

光纖

2015-05-13 09:34:46

分布式存儲元數(shù)據(jù)設(shè)計(jì)公有云

2018-03-12 08:17:27

分布式存儲

2017-04-17 09:54:34

分布式數(shù)據(jù)庫PhxSQL

2022-06-21 08:27:22

Seata分布式事務(wù)

2022-01-10 19:45:40

微服務(wù)GO系統(tǒng)

2022-05-11 22:10:05

分布式云云計(jì)算公共云

2021-08-26 00:23:14

分布式存儲高可用

2015-04-03 12:43:45

Redis分布式

2024-11-28 15:11:28

2020-04-14 11:14:02

PostgreSQL分布式數(shù)據(jù)庫
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號