數(shù)據(jù)倉庫詳細(xì)介紹之?dāng)?shù)據(jù)質(zhì)量理論與經(jīng)驗
本文轉(zhuǎn)載自微信公眾號「數(shù)倉與大數(shù)據(jù)」,作者otw30 。轉(zhuǎn)載本文請聯(lián)系數(shù)倉與大數(shù)據(jù)公眾號。
數(shù)據(jù)質(zhì)量管理是對數(shù)據(jù)從計劃、收集、記錄、存儲、回收、分析和展示生命周期的每個階段里可能引發(fā)的數(shù)據(jù)質(zhì)量問題,進(jìn)行識別、度量、監(jiān)控、預(yù)警等一系列管理活動,并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。數(shù)據(jù)質(zhì)量管理的終極目標(biāo)是通過可靠的數(shù)據(jù)提升數(shù)據(jù)在使用中的價值,并最終為企業(yè)贏得經(jīng)濟(jì)效益。”——以上內(nèi)容摘自百度百科。
筆者觀點:“數(shù)據(jù)質(zhì)量管理不單純是一個概念,也不單純是一項技術(shù)、也不單純是一個系統(tǒng),更不單純是一套管理流程,數(shù)據(jù)質(zhì)量管理是一個集方法論、技術(shù)、業(yè)務(wù)和管理為一體的解決方案。通過有效的數(shù)據(jù)質(zhì)量控制手段,進(jìn)行數(shù)據(jù)的管理和控制,消除數(shù)據(jù)質(zhì)量問題進(jìn)而提升企業(yè)數(shù)據(jù)變現(xiàn)的能力。在數(shù)據(jù)治理過程中,一切業(yè)務(wù)、技術(shù)和管理活動都圍繞這個目標(biāo)和開展”。
備注:我覺得最后一句話不太嚴(yán)謹(jǐn),因為數(shù)據(jù)質(zhì)量只是數(shù)據(jù)治理的一個子集。
注:以上總結(jié)摘抄自公眾號“談數(shù)據(jù)”,作者石秀峰
0x00 聊聊四個常見的數(shù)據(jù)管理知識體系
網(wǎng)上數(shù)據(jù)質(zhì)量相關(guān)的文章真多,而且閱讀量都還挺高,很多數(shù)據(jù)方面的號主也喜歡反復(fù)寫。由此可見,數(shù)據(jù)質(zhì)量對于數(shù)據(jù)工作者的重要性非常之高。
DAMA 知識體系
國際數(shù)據(jù)管理協(xié)會(DAMA 國際)是一個全球性的專業(yè)組織,成立于 1980 年,一直致力于數(shù)據(jù)管理和數(shù)字化的研究、實踐及相關(guān)知識體系的建設(shè)。主要包含兩部分:DAMA 數(shù)據(jù)管理知識體系和專業(yè)考試認(rèn)證。
DAMA 數(shù)據(jù)管理知識體系(DMBOK框架),有車輪圖(由 11 個數(shù)據(jù)管理職能領(lǐng)域)和環(huán)境因素六邊形圖(包含 7 個基本環(huán)境要素)構(gòu)成。其中,數(shù)據(jù)管理職能包括數(shù)據(jù)治理、數(shù)據(jù)架構(gòu)、數(shù)據(jù)建模和設(shè)計、數(shù)據(jù)存儲和操作、數(shù)據(jù)安全、數(shù)據(jù)集成和互操作、文檔和內(nèi)容管理、參考數(shù)據(jù)和主數(shù)據(jù)管理、數(shù)據(jù)倉庫與商務(wù)智能、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理。基本環(huán)境要素包括目標(biāo)與原則、組織與文化、工具、活動、角色和職責(zé)、交付成果、技術(shù)。
DAMA 金字塔圖(Aiken 金字塔)中的四個階段
DAMA 金字塔圖,從數(shù)據(jù)、信息到知識逐層遞進(jìn),將數(shù)據(jù)管理知識劃分為四個階段,指導(dǎo)大家分階段學(xué)習(xí) DAMA 知識體系和開展數(shù)據(jù)管理工作。
專業(yè)考試認(rèn)證,在國外的名稱是數(shù)據(jù)管理專業(yè)人員認(rèn)證( CDMP ),引入國內(nèi)后,DAMA 中國對 CDMP 進(jìn)行了適當(dāng)本地化重構(gòu)。分為:數(shù)據(jù)治理工程師( CDGA)和數(shù)據(jù)治理專家( CDGP ),三個證書國際通用。
對于個人來說,想長期從事數(shù)據(jù)管理方面工作,有證和沒證多少還是有些區(qū)別的。退一步講,不為考證,學(xué)點知識也是好的。
數(shù)據(jù)管理成熟度評估模型
DCMM 是國家工信部信軟司主導(dǎo),具有中國特色,在數(shù)據(jù)管理領(lǐng)域的國家級標(biāo)準(zhǔn)。是企業(yè)數(shù)據(jù)管理能力建設(shè)的指導(dǎo)性理論和能力評估標(biāo)準(zhǔn)。
DCMM 建設(shè)概念圖
DCMM 等級定義
DCMM 將數(shù)據(jù)管理能力成熟度劃分為五個等級,自低向高依次為初始級、受管理級、穩(wěn)健級、量化管理級和優(yōu)化級,不同等級代表企業(yè)數(shù)據(jù)管理和應(yīng)用的成熟度水平不同。
當(dāng)然了,國家的認(rèn)證對很多企業(yè)還是很有吸引力的,這不還有人付費求 DCMM 評估申請材料模板的:付費求一套文件!!!
最近國家層面的數(shù)據(jù)管理證書 CDP(Certified DCMM Professional)也馬上要出臺了,該證書也是依賴于 DCMM 體系。喜大普奔!工信部數(shù)據(jù)管理人才證書!!!
數(shù)據(jù)治理
數(shù)據(jù)治理概念也是這幾年國內(nèi)的熱點了,數(shù)據(jù)方向的面試也經(jīng)常被問到,但每個人對其理解差異也很大。
這里給出認(rèn)可讀比較高的 DAMA 國際的定義:數(shù)據(jù)治理是對數(shù)據(jù)資產(chǎn)的管理活動行使權(quán)力和控制的活動集合(規(guī)劃、監(jiān)控和執(zhí)行)。
數(shù)據(jù)治理是一個大而全的知識體系。在數(shù)據(jù)管理的幾乎所有領(lǐng)域(或者數(shù)據(jù)生產(chǎn)加工應(yīng)用全流程),數(shù)據(jù)治理都應(yīng)該參與其中,保證數(shù)據(jù)管理能夠朝著一個更好的方向發(fā)展。
對于已經(jīng)構(gòu)建好的數(shù)據(jù)體系,我們需要搜集現(xiàn)有問題并排列好優(yōu)先級,做為數(shù)據(jù)治理工作的階段性目標(biāo),比如數(shù)據(jù)質(zhì)量、成本控制、數(shù)據(jù)規(guī)范、數(shù)據(jù)模型、數(shù)據(jù)安全等等。
數(shù)據(jù)資產(chǎn)管理
數(shù)據(jù)管理的概念從 80 年代提出已經(jīng)接近 40 年了,數(shù)據(jù)治理的提法也有近 20年了,而數(shù)據(jù)資產(chǎn)管理的提出基本是最近 5 年的事情。
數(shù)據(jù)資產(chǎn)(Data Asset)是指由企業(yè)擁有或者控制的,能夠為企業(yè)帶來未來經(jīng)濟(jì)利益的,以物理或電子的方式記錄的數(shù)據(jù)資源,如文件資料、電子數(shù)據(jù)等。在企業(yè)中,并非所有的數(shù)據(jù)都構(gòu)成數(shù)據(jù)資產(chǎn), 數(shù)據(jù)資產(chǎn)是能夠為企業(yè)產(chǎn)生價值的數(shù)據(jù)資源。
數(shù)據(jù)資產(chǎn)管理(DAM,Data Asset Management)是指規(guī)劃、控制和提供數(shù)據(jù)及信息資產(chǎn)的一組業(yè)務(wù)職能,包括開發(fā)、執(zhí)行和監(jiān)督有關(guān) 數(shù)據(jù)的計劃、政策、方案、項目、流程、方法和程序,從而控制、保 護(hù)、交付和提高數(shù)據(jù)資產(chǎn)的價值。數(shù)據(jù)資產(chǎn)管理是需要充分融合業(yè)務(wù)、 技術(shù)和管理,來確保數(shù)據(jù)資產(chǎn)保值增值。
企業(yè)管理數(shù)據(jù)資產(chǎn)就是通過對數(shù)據(jù)的生命周期的管理,提高數(shù)據(jù)資產(chǎn)質(zhì)量,促進(jìn)數(shù)據(jù)在“內(nèi)增值,外增效”兩方面的價值變現(xiàn)。數(shù)據(jù)先被規(guī)范性定義、創(chuàng)建或獲得,然后存儲、維護(hù)和使用,最終被銷毀。數(shù)據(jù)的生命周期開始于數(shù)據(jù)獲取之前,企業(yè)先期制定數(shù)據(jù)規(guī)劃、定義 數(shù)據(jù)規(guī)范,以期獲得實現(xiàn)數(shù)據(jù)采集、交付、存儲和控制所需的技術(shù)能 力。數(shù)據(jù)資產(chǎn)管理一般來說包括統(tǒng)籌規(guī)劃、管理實施、稽核檢查和資 產(chǎn)運(yùn)營四個主要階段。
數(shù)據(jù)資產(chǎn)的落地手段:
- 在底層包括數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)分級分類、數(shù)據(jù)地圖、數(shù)據(jù)安全和數(shù)據(jù)質(zhì)量保障機(jī)制。
- 在上層我們需要建立指標(biāo)體系、標(biāo)簽體系。
- 最后我們需要建立起一套有效的評估體系,去檢測數(shù)據(jù)管理成本和數(shù)據(jù)應(yīng)用價值。
數(shù)據(jù)倉庫
這個就不必再做介紹了。本系列主題部分共計十篇,數(shù)據(jù)治理是單獨的一篇,可見其重要性。但如果有人問我,數(shù)據(jù)倉庫最重要的是什么,我會回答數(shù)據(jù)應(yīng)用和數(shù)據(jù)質(zhì)量。
我們所有數(shù)據(jù)管理工作開展的終極目標(biāo)就是獲取信息創(chuàng)造價值(了解業(yè)務(wù)現(xiàn)狀、預(yù)測趨勢、支持決策、發(fā)現(xiàn)商機(jī)、輔助運(yùn)營、數(shù)據(jù)交易等等),而價值的最終體現(xiàn)基本上都在應(yīng)用上,比如各種報表、分析報告、用戶畫像、運(yùn)營支撐、風(fēng)控,甚至數(shù)據(jù)交易、聯(lián)合建模。當(dāng)然這個價值可以是現(xiàn)在的也可以是未來的。
數(shù)據(jù)的各種應(yīng)用解決了數(shù)據(jù)怎么用的問題,我們依托應(yīng)用去創(chuàng)造價值。而數(shù)據(jù)質(zhì)量是應(yīng)用能夠最終真正有用的必要條件。試想一下錯誤的數(shù)據(jù)、缺失的數(shù)據(jù)、遲到的數(shù)據(jù)對于數(shù)據(jù)的價值體現(xiàn),輕則無法使用,重則造成決策失誤引起重大損失。
0x01 五大數(shù)據(jù)質(zhì)量評估標(biāo)準(zhǔn)
從數(shù)據(jù)本身的角度:完整性、準(zhǔn)確性、一致性、時效性(及時+有效)。
從數(shù)據(jù)使用的角度:可訪問性。
完整性
完整性是指數(shù)據(jù)的記錄和信息是否完整,是否存在數(shù)據(jù)缺失情況。數(shù)據(jù)缺失主要包括記錄的缺失和重要字段信息的缺失,兩者都會造成統(tǒng)計結(jié)果不準(zhǔn)確。
完整性是數(shù)據(jù)質(zhì)量最基礎(chǔ)的保障。
例如,某個穩(wěn)定業(yè)務(wù)的數(shù)據(jù)量每天約為 100 萬條記錄,某天突然下降了 1 萬條,則可能是出現(xiàn)了記錄缺失。
例如,某科高考成績表中,每個考卷分?jǐn)?shù)都對應(yīng)一個準(zhǔn)考證號,當(dāng)準(zhǔn)考證號字段的空值數(shù)大于0時,則可能是出現(xiàn)了信息缺失。
一致性
一致性通常體現(xiàn)在跨度很大的數(shù)據(jù)倉庫中。
例如,某公司有很多業(yè)務(wù)數(shù)倉分支,對于同一份數(shù)據(jù),在不同的數(shù)倉分支中必須保證一致性。
例如,從在線業(yè)務(wù)庫加工到數(shù)據(jù)倉庫,再到各個數(shù)據(jù)應(yīng)用節(jié)點,用戶 ID 必須保持同一種類型,且長度也要保持一致。因此,您需要設(shè)計數(shù)倉的公共層以確保數(shù)據(jù)的一致性。
準(zhǔn)確性
準(zhǔn)確性是指數(shù)據(jù)中記錄的信息和數(shù)據(jù)是否準(zhǔn)確、是否存在異?;蛘咤e誤的信息。
例如,成績單中分?jǐn)?shù)出現(xiàn)負(fù)數(shù)或訂單中出現(xiàn)錯誤的買家信息等,這些數(shù)據(jù)都是問題數(shù)據(jù)。
確保記錄的準(zhǔn)確性也是保證數(shù)據(jù)質(zhì)量必不可少的一部分。
時效性
包含兩部分:及時+有效。保障數(shù)據(jù)的及時產(chǎn)出才能體現(xiàn)數(shù)據(jù)的價值,同時對于部分時間敏感型的數(shù)據(jù)也必須在有效期內(nèi)使用才行。
例如,決策分析師通常希望每天上班時候前就能看到前一天的數(shù)據(jù)。若等待時間過長,數(shù)據(jù)失去了及時性的價值,數(shù)據(jù)分析工作將失去意義。
例如,運(yùn)維人員需要在收到故障告警的同時立刻能夠拿到關(guān)鍵的運(yùn)行日志數(shù)據(jù),以便更快的排查問題恢復(fù)系統(tǒng)。
有效性
指數(shù)據(jù)的值、格式和展現(xiàn)形式符合數(shù)據(jù)定義和業(yè)務(wù)定義的要求。好吧,這個可以拿掉,應(yīng)該也是屬于準(zhǔn)確性的范疇吧。
可訪問性
對數(shù)據(jù)用戶來講,最核心的需求是當(dāng)他們需要用數(shù)據(jù)的時候,這些數(shù)據(jù)是可以被訪問的。他們想知道企業(yè)有哪些數(shù)據(jù)?存放在哪里?以及如何訪問到這些數(shù)據(jù)?我們看到很多數(shù)據(jù)平臺提供的統(tǒng)一數(shù)據(jù)資源目錄功能就是解決這個問題的。
數(shù)據(jù)質(zhì)量問題,可以分為這么三類:
- 源端數(shù)據(jù)問題(不準(zhǔn)確、不一致、不完整、不可訪問)
- 數(shù)據(jù)處理問題(同步集成、計算、存儲、查詢)(不準(zhǔn)確、不一致、不完整、不及時、不可訪問)。
- 數(shù)據(jù)口徑不一致、各方理解偏差(不準(zhǔn)確、不一致)。
數(shù)據(jù)質(zhì)量保障,是一個系統(tǒng)化的工程,我們需要全局協(xié)調(diào)一致才行。為了讓大家有更深刻的體會,接下來,我們從三個角度分別給大家闡述。
0x02 技術(shù)業(yè)務(wù)管理三位一體的保障體系
技術(shù)
我們需要保證數(shù)據(jù)從源端到最終應(yīng)用端流轉(zhuǎn)過程中的數(shù)據(jù)質(zhì)量,一方面我們需要提高每一位數(shù)據(jù)開發(fā)者的技術(shù)能力來提高模型和 ETL 的設(shè)計與落地質(zhì)量,另一方面我們使用數(shù)據(jù)質(zhì)量工具來對 ETL 過程進(jìn)行監(jiān)控。對于源端的數(shù)據(jù)問題,有時候也可以通過技術(shù)手段解決,比如編碼映射、ID-Mapping、缺失值補(bǔ)全等等。
- 數(shù)據(jù)模型設(shè)計的質(zhì)量問題,例如:數(shù)據(jù)庫表結(jié)構(gòu)、數(shù)據(jù)庫約束條件、數(shù)據(jù)校驗規(guī)則的設(shè)計開發(fā)不合理,造成數(shù)據(jù)錄入無法校驗或校驗不當(dāng),引起數(shù)據(jù)重復(fù)、不完整、不準(zhǔn)確。
- 數(shù)據(jù)源存在數(shù)據(jù)質(zhì)量問題,例如:有些數(shù)據(jù)是從生產(chǎn)系統(tǒng)采集過來的,在生產(chǎn)系統(tǒng)中這些數(shù)據(jù)就存在重復(fù)、不完整、不準(zhǔn)確等問題,而采集過程有沒有對這些問題做清洗處理,這種情況也比較常見。
- 數(shù)據(jù)采集過程質(zhì)量問題, 例如:采集點、采集頻率、采集內(nèi)容、映射關(guān)系等采集參數(shù)和流程設(shè)置的不正確,數(shù)據(jù)采集接口效率低,導(dǎo)致的數(shù)據(jù)采集失敗、數(shù)據(jù)丟失、數(shù)據(jù)映射和轉(zhuǎn)換失敗。
- 數(shù)據(jù)傳輸過程的問題,例如:數(shù)據(jù)接口本身存在問題、數(shù)據(jù)接口參數(shù)配置錯誤、網(wǎng)絡(luò)不可靠等都會造成數(shù)據(jù)傳輸過程中的發(fā)生數(shù)據(jù)質(zhì)量問題。
- 數(shù)據(jù)裝載過程的問題,例如:數(shù)據(jù)清洗規(guī)則、數(shù)據(jù)轉(zhuǎn)換規(guī)則、數(shù)據(jù)裝載規(guī)則配置有問題。
- 數(shù)據(jù)存儲的質(zhì)量問題,例如:數(shù)據(jù)存儲設(shè)計不合理,數(shù)據(jù)的存儲能力有限,人為后臺調(diào)整數(shù)據(jù),引起的數(shù)據(jù)丟失、數(shù)據(jù)無效、數(shù)據(jù)失真、記錄重復(fù)。
- 系統(tǒng)之間的數(shù)據(jù)不一致問題。
業(yè)務(wù)
有時候,數(shù)據(jù)質(zhì)量問題的根本原因是業(yè)務(wù)問題造成的,我們就需要從業(yè)務(wù)著手解決。
我們需要有業(yè)務(wù)專家或者業(yè)務(wù)部門參與,統(tǒng)一數(shù)據(jù)口徑、糾正理解偏差、通過深入的溝通明確業(yè)務(wù)方訴求。
數(shù)據(jù)質(zhì)量改進(jìn)的驅(qū)動因素永遠(yuǎn)來自業(yè)務(wù)目標(biāo),不能脫離業(yè)務(wù)需求談數(shù)據(jù)質(zhì)量。制定數(shù)據(jù)質(zhì)量改進(jìn)方案的基礎(chǔ),首先是清晰定義業(yè)務(wù)需求,然后是根據(jù)業(yè)務(wù)需求對企業(yè)業(yè)務(wù)的長期影響來定義數(shù)據(jù)質(zhì)量問題的優(yōu)先級。衡量業(yè)務(wù)影響、定義問題優(yōu)先級有助于明確治理目標(biāo)并跟進(jìn)數(shù)據(jù)質(zhì)量改進(jìn)的進(jìn)度。
- 業(yè)務(wù)需求不清晰,例如:數(shù)據(jù)的業(yè)務(wù)描述、業(yè)務(wù)規(guī)則不清晰,導(dǎo)致技術(shù)無法構(gòu)建出合理、正確的數(shù)據(jù)模型。
- 業(yè)務(wù)需求的變更,這個問題其實是對數(shù)據(jù)質(zhì)量影響非常大的,需求一變,數(shù)據(jù)模型設(shè)計、數(shù)據(jù)錄入、數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)裝載、數(shù)據(jù)存儲等環(huán)節(jié)都會受到影響,稍有不慎就會導(dǎo)致數(shù)據(jù)質(zhì)量問題的發(fā)生。
- 業(yè)務(wù)端數(shù)據(jù)輸入不規(guī)范,常見的數(shù)據(jù)錄入問題,如:大小寫、全半角、特殊字符等一不小心就會錄錯。人工錄入的數(shù)據(jù)質(zhì)量與錄數(shù)據(jù)的業(yè)務(wù)人員密切相關(guān),錄數(shù)據(jù)的人工作嚴(yán)謹(jǐn)、認(rèn)真,數(shù)據(jù)質(zhì)量就相對較好,反之就較差。
- 數(shù)據(jù)作假,對,你沒看錯,就是數(shù)據(jù)作假!操作人員為了提高或降低考核指標(biāo),對一些數(shù)據(jù)進(jìn)行處理,使得數(shù)據(jù)真實性無法保證。
管理
技術(shù)再努力起到的作用畢竟有限,有些事情必須通過管理手段去約束。通過管理使得規(guī)范得以貫徹,通過管理來提高團(tuán)隊成員的數(shù)據(jù)質(zhì)量意識,通過管理手段去協(xié)調(diào)各個參與方提高效率。
可以建立數(shù)據(jù)質(zhì)量保障委員會,源端團(tuán)隊負(fù)責(zé)人、數(shù)據(jù)團(tuán)隊負(fù)責(zé)人、業(yè)務(wù)團(tuán)隊負(fù)責(zé)人,都要參與其中。統(tǒng)一規(guī)劃頂層設(shè)計,制定統(tǒng)一數(shù)據(jù)架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn),設(shè)計數(shù)據(jù)質(zhì)量的管理機(jī)制,采用分類處理的方式持續(xù)提升數(shù)據(jù)質(zhì)量。源端的數(shù)據(jù)問題最好在源端解決,建立指標(biāo)體系統(tǒng)一各方的數(shù)據(jù)口徑,明確數(shù)據(jù)問題的責(zé)任誰的問題誰解決。
總之,只有管理上重視了,整體工作才好開展。
- 認(rèn)知問題。企業(yè)管理缺乏數(shù)據(jù)思維,沒有認(rèn)識到數(shù)據(jù)質(zhì)量的重要性,重系統(tǒng)而輕數(shù)據(jù),認(rèn)為系統(tǒng)是萬能的,數(shù)據(jù)質(zhì)量差些也沒關(guān)系。
- 沒有明確數(shù)據(jù)歸口管理部門或崗位,缺乏數(shù)據(jù)認(rèn)責(zé)機(jī)制,出現(xiàn)數(shù)據(jù)質(zhì)量問題找不到負(fù)責(zé)人。
- 缺乏數(shù)據(jù)規(guī)劃,沒有明確的數(shù)據(jù)質(zhì)量目標(biāo),沒有制定數(shù)據(jù)質(zhì)量相關(guān)的政策和制度。
- 數(shù)據(jù)輸入規(guī)范不統(tǒng)一,不同的業(yè)務(wù)部門、不同的時間、甚至在處理相同業(yè)務(wù)的時候,由于數(shù)據(jù)輸入規(guī)范不同,造成數(shù)據(jù)沖突或矛盾。
- 缺乏有效的數(shù)據(jù)質(zhì)量問題處理機(jī)制,數(shù)據(jù)質(zhì)量問題從發(fā)現(xiàn)、指派、處理、優(yōu)化沒有一個統(tǒng)一的流程和制度支撐,數(shù)據(jù)質(zhì)量問題無法閉環(huán)。
- 缺乏有效的數(shù)據(jù)管控機(jī)制,對歷史數(shù)據(jù)質(zhì)量檢查、新增數(shù)據(jù)質(zhì)量校驗沒有明確和有效的控制措施,出現(xiàn)數(shù)據(jù)質(zhì)量問題無法考核。
小結(jié):影響數(shù)據(jù)質(zhì)量的因素,可以總結(jié)為兩類,客觀因素和主觀因素??陀^因素:在數(shù)據(jù)各環(huán)節(jié)流轉(zhuǎn)中,由于系統(tǒng)異常和流程設(shè)置不當(dāng)?shù)纫蛩?,從而引起的?shù)據(jù)質(zhì)量問題。主觀因素:在數(shù)據(jù)各環(huán)節(jié)處理中,由于人員素質(zhì)低和管理缺陷等因素,從而操作不當(dāng)而引起的數(shù)據(jù)質(zhì)量問題。
0x03 數(shù)據(jù)全周期管理保障體系
數(shù)據(jù)的生命周期從數(shù)據(jù)規(guī)劃開始,中間是一個包括設(shè)計、創(chuàng)建、處理、部署、應(yīng)用、監(jiān)控、存檔、銷毀這幾個階段并不斷循環(huán)的過程。企業(yè)的數(shù)據(jù)質(zhì)量管理應(yīng)貫穿數(shù)據(jù)生命周期的全過程,覆蓋數(shù)據(jù)標(biāo)準(zhǔn)的規(guī)劃設(shè)計、數(shù)據(jù)的建模、數(shù)據(jù)質(zhì)量的監(jiān)控、數(shù)據(jù)問題診斷、數(shù)據(jù)清洗、優(yōu)化完善等方面。
數(shù)據(jù)規(guī)劃。從企業(yè)戰(zhàn)略的角度不斷完善企業(yè)數(shù)據(jù)模型的規(guī)劃,把數(shù)據(jù)質(zhì)量管理融入到企業(yè)戰(zhàn)略中,建立數(shù)據(jù)治理體系,并融入企業(yè)文化中。
數(shù)據(jù)設(shè)計。推動數(shù)據(jù)標(biāo)準(zhǔn)化制定和貫徹執(zhí)行,根據(jù)數(shù)據(jù)標(biāo)準(zhǔn)化要求統(tǒng)一建模管理,統(tǒng)一數(shù)據(jù)分類、數(shù)據(jù)編碼、數(shù)據(jù)存儲結(jié)構(gòu),為數(shù)據(jù)的集成、交換、共享、應(yīng)用奠定基礎(chǔ)。
數(shù)據(jù)創(chuàng)建。利用數(shù)據(jù)模型保證數(shù)據(jù)結(jié)構(gòu)完整、一致,執(zhí)行數(shù)據(jù)標(biāo)準(zhǔn)、規(guī)范數(shù)據(jù)維護(hù)過程,加入數(shù)據(jù)質(zhì)量檢查,從源頭系統(tǒng)保證數(shù)據(jù)的正確性、完整性、唯一性。
數(shù)據(jù)使用。利用元數(shù)據(jù)監(jiān)控數(shù)據(jù)使用;利用數(shù)據(jù)標(biāo)準(zhǔn)保證數(shù)據(jù)正確;利用數(shù)據(jù)質(zhì)量檢查加工正確。元數(shù)據(jù)提供各系統(tǒng)統(tǒng)一的數(shù)據(jù)模型進(jìn)行使用,監(jiān)控數(shù)據(jù)的來源去向,提供全息的數(shù)據(jù)地圖支持;企業(yè)從技術(shù)、管理、業(yè)務(wù)三個方面進(jìn)行規(guī)范,嚴(yán)格執(zhí)行數(shù)據(jù)標(biāo)準(zhǔn),保證數(shù)據(jù)輸入端的正確性;數(shù)據(jù)質(zhì)量提供了事前預(yù)防、事中預(yù)警、事后補(bǔ)救的三個方面措施,形成完整的數(shù)據(jù)治理體系。
0x04 數(shù)據(jù)流轉(zhuǎn)鏈路保障體系
數(shù)據(jù)源。源端的數(shù)據(jù)問題,最好在源端解決。有時候基于降低下游計算復(fù)雜度而對源端做些改造也是必要的。源端解決不了的問題需要跟數(shù)據(jù)應(yīng)用端協(xié)商一致制定改造方案。
數(shù)據(jù)集成存儲計算。通過制定規(guī)范保證設(shè)計和開發(fā)的高質(zhì)量開展減少錯誤,通過數(shù)據(jù)質(zhì)量稽核工具及時發(fā)現(xiàn)數(shù)據(jù)問題,通過監(jiān)控告警程序?qū)崟r發(fā)現(xiàn)并處理 ETL 任務(wù)異常。
數(shù)據(jù)應(yīng)用。統(tǒng)一口徑、糾正理解偏差。
0x05 數(shù)據(jù)處理前中后三階段保障體系
事前預(yù)防控制。數(shù)據(jù)開發(fā)人員需要提高保證數(shù)據(jù)質(zhì)量意識,同時組織內(nèi)構(gòu)建完善的數(shù)倉規(guī)范,保障模型設(shè)計、ETL 開發(fā)等核心流程的優(yōu)質(zhì)方法論能夠切實得到貫徹。
事中過程控制。通過建立一套切實可行的數(shù)據(jù)質(zhì)量監(jiān)控體系、設(shè)計數(shù)據(jù)質(zhì)量稽核規(guī)則、加強(qiáng)從數(shù)據(jù)源頭控制數(shù)據(jù)質(zhì)量、把控整個數(shù)倉設(shè)計和開發(fā)過程,形成覆蓋數(shù)據(jù)全生命周期的數(shù)據(jù)質(zhì)量管理。
事后監(jiān)督控制。出現(xiàn)數(shù)據(jù)質(zhì)量問題,清晰定位數(shù)據(jù)技術(shù)責(zé)任人,進(jìn)行整改迭代,保證數(shù)據(jù)質(zhì)量管理形成一個良性循環(huán),實現(xiàn)數(shù)據(jù)向優(yōu)質(zhì)資產(chǎn)的轉(zhuǎn)變。