終于有人把元數(shù)據(jù)講明白了
元數(shù)據(jù)管理工具是企業(yè)數(shù)據(jù)治理的重要抓手,它可以幫助企業(yè)解決數(shù)據(jù)查找難、理解難等問題,促進數(shù)據(jù)的集成和共享。
一、系統(tǒng)架構
從應用角度看,元數(shù)據(jù)管理平臺可分為數(shù)據(jù)源層、元數(shù)據(jù)采集層、元數(shù)據(jù)管理層、元數(shù)據(jù)應用層四層架構,如圖1所示。
1. 數(shù)據(jù)源層
企業(yè)的元數(shù)據(jù)來自多個方面:
業(yè)務系統(tǒng)中的元數(shù)據(jù),例如ERP、CRM、SCM、OA等;
數(shù)據(jù)管理平臺中的元數(shù)據(jù),例如數(shù)據(jù)倉庫、ODS、數(shù)據(jù)湖等;
數(shù)據(jù)處理工具中的元數(shù)據(jù),例如ETL工具的腳本元數(shù)據(jù);
數(shù)據(jù)分析工具中的元數(shù)據(jù),例如Cognos、Power BI中的元數(shù)據(jù);
各種半結構化數(shù)據(jù)源,例如Word、PDF、Excel等各種格式化電子文件。
2. 元數(shù)據(jù)采集層
元數(shù)據(jù)管理工具是否強大部分體現(xiàn)在其對各類數(shù)據(jù)源的采集能力上,支持的各類數(shù)據(jù)源類型越多,說明元數(shù)據(jù)采集能力越強大。
圖1 元數(shù)據(jù)管理平臺
元數(shù)據(jù)采集層主要通過對各類數(shù)據(jù)源的適配,實現(xiàn)元數(shù)據(jù)的統(tǒng)一采集,并將其存儲于符合CWM標準的中央元數(shù)據(jù)倉庫中。
3. 元數(shù)據(jù)管理層
元數(shù)據(jù)管理層提供了對元數(shù)據(jù)的管理、維護、查詢功能,包括元數(shù)據(jù)查詢、元數(shù)據(jù)管理、元數(shù)據(jù)版本管理、元數(shù)據(jù)變更管理、元數(shù)據(jù)適配器管理等。
4. 元數(shù)據(jù)應用層
元數(shù)據(jù)應用層提供了元數(shù)據(jù)的瀏覽和分析功能,包括企業(yè)數(shù)據(jù)地圖、元數(shù)據(jù)血統(tǒng)分析、元數(shù)據(jù)影響分析、元數(shù)據(jù)冷熱度分析、元數(shù)據(jù)全鏈分析、元數(shù)據(jù)模型查詢等功能。元數(shù)據(jù)管理工具可以指導企業(yè)數(shù)據(jù)資產(chǎn)管理的建設,支持數(shù)據(jù)質(zhì)量的探查,促進企業(yè)數(shù)據(jù)標準的落地。
二、元數(shù)據(jù)采集
通過元數(shù)據(jù)管理平臺可以將分散、異構的信息資源進行統(tǒng)一采集、描述、定位、檢索、評估、分析,實現(xiàn)數(shù)據(jù)的結構化,為機器處理創(chuàng)造可能,從而大大降低數(shù)據(jù)治理的人工成本。
1. 采集內(nèi)容
元數(shù)據(jù)采集內(nèi)容主要包括業(yè)務元數(shù)據(jù)、技術元數(shù)據(jù)和操作元數(shù)據(jù),詳細說明見表1。
表1 元數(shù)據(jù)采集內(nèi)容說明
2. 采集方式
元數(shù)據(jù)采集方式主要有兩種:自動化采集和人工采集。
(1)自動化采集
自動化采集主要是通過元數(shù)據(jù)管理工具提供的各類適配器進行元數(shù)據(jù)采集。元數(shù)據(jù)適配器是基于不同數(shù)據(jù)源的元數(shù)據(jù)橋接器,不同數(shù)據(jù)源內(nèi)部的元數(shù)據(jù)橋是不同的,因此沒有一個萬能適配器可以用于所有類型數(shù)據(jù)源的元數(shù)據(jù)采集。
當前MySQL、Oracle、PostgreSQL等關系型數(shù)據(jù)庫的元數(shù)據(jù)采集方式大都是通過JDBC連接各種數(shù)據(jù)源的元數(shù)據(jù)所在庫,然后通過SQL的方式查詢各數(shù)據(jù)源的元數(shù)據(jù)庫表,提取出元數(shù)據(jù)信息。JDBC就是關系型數(shù)據(jù)庫的一個橋接器。
而對于一些半結構化、非結構化元數(shù)據(jù),則需要用到圖像識別、自然語言處理等人工智能技術,構建專業(yè)的元數(shù)據(jù)采集適配器,進行元數(shù)據(jù)的識別和采集。
在元數(shù)據(jù)采集過程中,元數(shù)據(jù)采集適配器十分重要,元數(shù)據(jù)采集既要適配各種DB、各類ETL、各類數(shù)據(jù)倉庫和報表產(chǎn)品,還要適配各類結構化或半結構化數(shù)據(jù)源。元數(shù)據(jù)采集適配器可以通過自動化的方式對企業(yè)各類數(shù)據(jù)源的元數(shù)據(jù)進行統(tǒng)一采集、統(tǒng)一管理。
(2)人工采集
在元數(shù)據(jù)管理實踐中,最難采集的往往不是技術元數(shù)據(jù)或操作元數(shù)據(jù),而是業(yè)務元數(shù)據(jù)。由于企業(yè)缺乏統(tǒng)一的數(shù)據(jù)標準,業(yè)務系統(tǒng)豎井化建設,系統(tǒng)建設過程中沒有對業(yè)務元數(shù)據(jù)進行統(tǒng)一定義,所以即使通過元數(shù)據(jù)適配器將業(yè)務系統(tǒng)的技術元數(shù)據(jù)采集到元數(shù)據(jù)倉庫中,也很難識別這些表、視圖、存儲過程、數(shù)據(jù)結構的業(yè)務含義。這就需要采用人工的方式對現(xiàn)有數(shù)據(jù)的業(yè)務元數(shù)據(jù)進行補齊,以實現(xiàn)元數(shù)據(jù)的統(tǒng)一管理。
三、元數(shù)據(jù)管理
1. 元數(shù)據(jù)管理功能
市場上主流的元數(shù)據(jù)管理產(chǎn)品基本都包括元數(shù)據(jù)查詢、元模型管理、元數(shù)據(jù)維護、元數(shù)據(jù)變更管理、元數(shù)據(jù)版本管理、采集適配器管理、元數(shù)據(jù)接口等功能。
元數(shù)據(jù)查詢:支持按關鍵字的全文搜索,通過元數(shù)據(jù)查詢功能可以準確定位元數(shù)據(jù)。
元模型管理:基于元數(shù)據(jù)管理工具構建符合CWM規(guī)范的元數(shù)據(jù)倉庫,實現(xiàn)元模型統(tǒng)一、集中化管理,支持元模型導入與導出,支持新增、修改、權限設置等功能。
元數(shù)據(jù)維護:提供對信息對象的基本信息、屬性、被依賴關系、依賴關系、組合關系等元數(shù)據(jù)的新增、修改、刪除、查詢、發(fā)布等功能,以管理企業(yè)的數(shù)據(jù)標準。
元數(shù)據(jù)變更管理:元數(shù)據(jù)的變更需要經(jīng)過審核才能發(fā)布,元數(shù)據(jù)管理工具提供元數(shù)據(jù)審核、元數(shù)據(jù)版本等功能,以支撐元數(shù)據(jù)的變更管理。
元數(shù)據(jù)版本管理:提供元數(shù)據(jù)的版本管理功能,對于元數(shù)據(jù)新增、修改、刪除、發(fā)布和狀態(tài)變更都有相應的流程,同時支持元數(shù)據(jù)版本的查詢、對比、回滾。
采集適配器管理:提供元數(shù)據(jù)采集適配器的新增、修改、刪除、配置等功能。
元數(shù)據(jù)接口:元數(shù)據(jù)管理工具提供統(tǒng)一的元數(shù)據(jù)訪問接口服務,一般支持REST或Web Service等接口協(xié)議。通過元數(shù)據(jù)訪問服務,支持企業(yè)元數(shù)據(jù)的共享。
2. 元數(shù)據(jù)分析功能
元數(shù)據(jù)分析功能包括數(shù)據(jù)資源地圖、血緣分析、影響分析、冷熱度分析、關聯(lián)度分析、對比分析等。
數(shù)據(jù)資源地圖:基于企業(yè)元數(shù)據(jù)生成并以拓撲圖的形式展示企業(yè)數(shù)據(jù)資源的全景地圖,方便用戶清晰直觀地查找和瀏覽企業(yè)數(shù)據(jù)資源。
血緣分析:也叫血統(tǒng)分析,采用向上追溯的方式查找數(shù)據(jù)來源于哪里,經(jīng)過了哪些加工和處理。常用于在發(fā)現(xiàn)數(shù)據(jù)問題時,快速定位和找到數(shù)據(jù)問題的原因。
影響分析:功能與血緣分析類似,只是血緣分析是向上追溯,而影響分析是向下追蹤,用來查詢和定位數(shù)據(jù)去了哪里。常用于當元數(shù)據(jù)發(fā)生變更時,分析和評估變更對下游業(yè)務的影響。
冷熱度分析:也叫活躍度分析,用于評估哪些數(shù)據(jù)是常用的,哪是數(shù)據(jù)是“沉睡”的。
關聯(lián)度分析:分析不同數(shù)據(jù)實體之間的關聯(lián)關系,從而判斷數(shù)據(jù)的重要程度。
對比分析:對于選定的多個元數(shù)據(jù)或者一個元數(shù)據(jù)的多個版本進行比較,找出差異,再根據(jù)差異分析對業(yè)務的影響。
四、元數(shù)據(jù)應用
元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),它可以幫助描述、理解、定位、查找企業(yè)的數(shù)據(jù),支持數(shù)據(jù)的管理和使用。元數(shù)據(jù)不僅是數(shù)據(jù)治理的基礎,而且在應用系統(tǒng)開發(fā)、數(shù)據(jù)倉庫建設過程中也發(fā)揮著重要作用。
1. 元數(shù)據(jù)在數(shù)據(jù)治理中的應用
元數(shù)據(jù)管理是數(shù)據(jù)治理的基礎,它用于定義和描述數(shù)據(jù)、數(shù)據(jù)之間的關系,以及數(shù)據(jù)如何管理、如何使用。元數(shù)據(jù)在數(shù)據(jù)治理中的主要應用如下:
- 定義和描述業(yè)務域、業(yè)務主題和數(shù)據(jù)實體;
- 描述數(shù)據(jù)結構和數(shù)據(jù)關系;
- 描述源系統(tǒng)、目標系統(tǒng)、表、視圖、存儲過程和字段屬性;
- 定義和描述數(shù)據(jù)資產(chǎn)目錄;
- 定義和描述主數(shù)據(jù)模型的屬性;
- 管理數(shù)據(jù)標準;
- 描述數(shù)據(jù)質(zhì)量規(guī)則和數(shù)據(jù)質(zhì)量檢核結果;
- 識別和定義數(shù)據(jù)集中的敏感數(shù)據(jù)、敏感屬性;
- 血緣分析和影響分析;
- 描述數(shù)據(jù)流向,數(shù)據(jù)來自哪里、流向哪里;
- 描述數(shù)據(jù)管理,誰負責管理數(shù)據(jù)、在哪里管理;
- 描述數(shù)據(jù)的使用,誰有權使用數(shù)據(jù)、在哪里使用。
2. 元數(shù)據(jù)在應用系統(tǒng)開發(fā)過程中的應用
應用系統(tǒng)的開發(fā)一般需要3個環(huán)境:開發(fā)環(huán)境、測試環(huán)境和生產(chǎn)環(huán)境。在應用系統(tǒng)開發(fā)上線的過程中,經(jīng)常會遇到在開發(fā)環(huán)境測試沒有問題的應用系統(tǒng),集成到測試環(huán)境中或遷移到生產(chǎn)環(huán)境中就會出現(xiàn)問題,例如SQL腳本執(zhí)行不了,缺少數(shù)據(jù)表或視圖,依賴的非空字段數(shù)據(jù)缺失,或者主外鍵關系、索引不正確等。
針對以上問題,元數(shù)據(jù)管理工具提供了一個行之有效的破解之法,如圖2所示。
圖2 元數(shù)據(jù)在應用開發(fā)過程中的應用
1)通過元數(shù)據(jù)管理工具對應用系統(tǒng)所涉及的數(shù)據(jù)模型、庫表結構進行規(guī)劃設計,落地系統(tǒng)級邏輯模型。
2)基于反向工程將元數(shù)據(jù)管理工具中的數(shù)據(jù)模型導入應用系統(tǒng)的開發(fā)、測試、生產(chǎn)等環(huán)境中,應用系統(tǒng)的開發(fā)可以在元數(shù)據(jù)管理工具提供的數(shù)據(jù)模型基礎之上構建物理庫表。
3)通過元數(shù)據(jù)管理工具自動化采集開發(fā)、測試、生產(chǎn)三個環(huán)境的庫結構、表結構、字段結構、視圖與存儲過程結構等元數(shù)據(jù)。
4)在應用系統(tǒng)開發(fā)過程中,從開發(fā)到測試部署之前,通過元數(shù)據(jù)管理工具的對比分析功能,迅速找到開發(fā)和測試環(huán)境中不一致的地方,支持在測試環(huán)境快速部署應用系統(tǒng),并確保數(shù)據(jù)環(huán)境的一致性。
同理,應用系統(tǒng)在生產(chǎn)環(huán)境中的部署和運行也可以采用第4)步,以確保生產(chǎn)環(huán)境與開發(fā)、測試環(huán)境一致,支持應用系統(tǒng)的快速上線。
3. 元數(shù)據(jù)在數(shù)據(jù)倉庫中的應用
數(shù)據(jù)倉庫是用于數(shù)據(jù)分析、支持管理決策的系統(tǒng)。一個數(shù)據(jù)分析圖表的誕生并不是一帆風順的,需要經(jīng)過多次的數(shù)據(jù)抽取、清洗、轉換、匯總,才能將數(shù)據(jù)的結構、數(shù)據(jù)依賴關系、數(shù)據(jù)層次關系等理清晰,統(tǒng)一數(shù)據(jù)口徑,將復雜的問題簡單化,讓設計者和使用者明確感知到數(shù)據(jù)的整個生命周期,以支持數(shù)據(jù)分析。
數(shù)據(jù)倉庫是一個典型的分層設計的數(shù)據(jù)架構,其分層設計反映了數(shù)據(jù)在數(shù)據(jù)倉庫中的加工處理過程。元數(shù)據(jù)作為數(shù)據(jù)倉庫的核心組成部分,主要用于記錄和管理數(shù)據(jù)在數(shù)據(jù)倉庫中的整個流轉過程,實現(xiàn)對數(shù)據(jù)倉庫各層級數(shù)據(jù)進行統(tǒng)一管理,如圖3所示。
圖3 元數(shù)據(jù)在數(shù)據(jù)倉庫中的應用
元數(shù)據(jù)在數(shù)據(jù)倉庫中的應用如下:
- 描述數(shù)據(jù)源的庫表結構、數(shù)據(jù)關系以及每個數(shù)據(jù)項的定義;
- 描述數(shù)據(jù)源中每個數(shù)據(jù)項的值域范圍和更新頻率;
- 描述數(shù)據(jù)源與數(shù)據(jù)倉庫之間的數(shù)據(jù)映射關系;
- 描述數(shù)據(jù)倉庫中有哪些數(shù)據(jù)以及它們來自哪里;
- 描述數(shù)據(jù)在數(shù)據(jù)倉庫各層中的加工處理過程;
- 元數(shù)據(jù)管理工具為數(shù)據(jù)管理者和使用者提供了理解和查詢數(shù)據(jù)的一致語言;
- 利用元數(shù)據(jù)管理工具的元數(shù)據(jù)變更和版本管理功能,管理數(shù)據(jù)倉庫的數(shù)據(jù)模型,支持將元數(shù)據(jù)恢復到某一版本;
- 利用元數(shù)據(jù)管理工具的血緣分析、影響分析等功能,對數(shù)據(jù)倉庫中的數(shù)據(jù)問題快速定位、快速查找;
- 利用元數(shù)據(jù)管理工具的開放式元數(shù)據(jù)交換標準,實現(xiàn)數(shù)據(jù)倉庫中數(shù)據(jù)的交換和共享。
五、總結
元數(shù)據(jù)管理工具提供了可靠、便捷的工具,能夠?qū)ζ髽I(yè)分散的元數(shù)據(jù)進行統(tǒng)一、集中化管理,幫助企業(yè)繪制數(shù)據(jù)地圖、統(tǒng)一數(shù)據(jù)口徑、標明數(shù)據(jù)方位、控制模型變更。利用元數(shù)據(jù)管理工具可以更好地獲取、共享、理解和應用企業(yè)的數(shù)據(jù)信息,降低數(shù)據(jù)集成和管理成本,提高數(shù)據(jù)資產(chǎn)的透明度。
關于作者:
羅小江,用友集團助理總裁、平臺和數(shù)據(jù)智能事業(yè)部總經(jīng)理、北京軟件和信息服務業(yè)協(xié)會云計算專委會副會長、中國企業(yè)財務管理協(xié)會企業(yè)風險管控專業(yè)委員會副主任委員。
石秀峰,用友集團數(shù)據(jù)治理專家、中國電子商會數(shù)據(jù)資源服務創(chuàng)新專業(yè)委員會受聘專家、數(shù)據(jù)質(zhì)量管理智庫(DQPro)受聘專家。
本文摘編于《一本書講透數(shù)據(jù)治理:戰(zhàn)略、方法、工具與實踐》,經(jīng)出版方授權發(fā)布。(ISBN:9787111694489)轉載請保留文章出處。