數(shù)據(jù)安全:提高數(shù)據(jù)質(zhì)量的優(yōu)秀實(shí)踐
數(shù)據(jù)通常被描述為新油,但與種植精致水果相比,確保數(shù)據(jù)質(zhì)量更好。就像一棵果樹一樣,數(shù)據(jù)質(zhì)量需要從源頭上得到滋養(yǎng)。這就是為什么無法在數(shù)據(jù)倉庫中解決數(shù)據(jù)質(zhì)量問題的原因。
數(shù)據(jù)科學(xué)家大部分時(shí)間都在清理在這個(gè)關(guān)鍵階段被忽視的數(shù)據(jù)集,不僅浪費(fèi)了寶貴的時(shí)間,而且還產(chǎn)生了另一個(gè)問題。
當(dāng)稍后清理數(shù)據(jù)時(shí),會(huì)做出許多可能扭曲結(jié)果的假設(shè)。然而,數(shù)據(jù)科學(xué)家別無選擇,只能做出這些假設(shè)。這就是為什么數(shù)據(jù)治理對(duì)提高數(shù)據(jù)質(zhì)量非常重要。
談到質(zhì)量,數(shù)據(jù)不像油,而是像更水果,質(zhì)量需要在源頭和運(yùn)輸過程中得到培養(yǎng)。數(shù)據(jù)質(zhì)量無法在數(shù)據(jù)倉庫中修復(fù)。
獨(dú)立用戶的問題在于傾向于將精力集中在受影響最大的領(lǐng)域。例如,項(xiàng)目經(jīng)理可能更關(guān)心 IT 資產(chǎn)管理流程中的低效率,而 CFO 可能會(huì)向董事會(huì)或股東提交報(bào)告,并發(fā)現(xiàn)缺少重要數(shù)據(jù)。
為什么數(shù)據(jù)質(zhì)量會(huì)受到影響?
可以使用幾個(gè)相互關(guān)聯(lián)的參數(shù)來確定數(shù)據(jù)的質(zhì)量。這些參數(shù)包括數(shù)據(jù)的一致性、及時(shí)性或相關(guān)性、準(zhǔn)確性和完整性。
質(zhì)量差的數(shù)據(jù)有兩個(gè)關(guān)鍵原因。第一個(gè)與源系統(tǒng)有關(guān),第二個(gè)發(fā)生在分析階段。
源系統(tǒng)
當(dāng)組織在沒有適當(dāng)控制或標(biāo)準(zhǔn)化流程的情況下收集數(shù)據(jù)時(shí),可能會(huì)出現(xiàn)問題。這些問題發(fā)生在四個(gè)核心領(lǐng)域:
(1) 采集期間:數(shù)據(jù)采集是質(zhì)量控制過程的重要組成部分。這個(gè)初始步驟可以為質(zhì)量差的數(shù)據(jù)集設(shè)置路線。
例如,如果在此階段錯(cuò)誤地輸入了電話號(hào)碼,那么在數(shù)據(jù)旅程的后期,此信息可能會(huì)與其他系統(tǒng)中的記錄發(fā)生沖突,從而很難確認(rèn)客戶的身份。
(2) 轉(zhuǎn)換期間:隨著數(shù)據(jù)從用戶傳遞到用戶和系統(tǒng)傳遞到系統(tǒng),被轉(zhuǎn)換。例如,當(dāng)一個(gè)流程沒有正確記錄時(shí),就不可能有效地跟蹤這些數(shù)據(jù)的沿襲,結(jié)果,數(shù)據(jù)的質(zhì)量就會(huì)受到影響。
想象一個(gè)場景,會(huì)計(jì)記錄從財(cái)務(wù)部門的一名工作人員傳遞給另一名工作人員。如果第一位員工在轉(zhuǎn)移記錄之前未能更新記錄,他們可能會(huì)無意中讓客戶跳過到期付款。
(3) 由于時(shí)效性::即使數(shù)據(jù)捕獲階段產(chǎn)生了高質(zhì)量的數(shù)據(jù),隨著時(shí)間的推移,它也可能會(huì)減少。例如,有人可能會(huì)在捕獲數(shù)據(jù)時(shí)提供正確的地址或職位,但如果同一個(gè)人改變了他們的工作或地址,則必須更新這些字段。
(4) 由于不一致的流程和標(biāo)準(zhǔn):當(dāng)您使用不同標(biāo)準(zhǔn)從不同系統(tǒng)捕獲數(shù)據(jù)時(shí)會(huì)發(fā)生這種情況。例如,當(dāng)您在一個(gè)系統(tǒng)中捕獲計(jì)量單位時(shí),您可能會(huì)使用 EA 或 LB 之類的代碼。在另一個(gè)系統(tǒng)中,可能會(huì)使用不同的標(biāo)準(zhǔn),例如 EACH 或 POUND。
以國家代碼的類比來更詳細(xì)地解釋其中一些問題。許多系統(tǒng)要求用戶輸入國家代碼以完成注冊(cè)文件、進(jìn)行預(yù)訂等。在某些情況下,用戶需要手動(dòng)輸入這些代碼,而不是從預(yù)先建立的列表中選擇一個(gè)選項(xiàng)。
問題是,不能保證每個(gè)用戶都會(huì)輸入相同的信息。事實(shí)上,這幾乎是不可能的。當(dāng)要求人們獨(dú)立鍵入此信息時(shí),會(huì)無意中為同一個(gè)國家/地區(qū)創(chuàng)建許多代碼,并且系統(tǒng)將充滿相互沖突的數(shù)據(jù)點(diǎn)。
分析階段
由于多種原因,數(shù)據(jù)質(zhì)量可能會(huì)在分析階段受到影響。例如,字段可能被錯(cuò)誤地映射,或者用戶可能根據(jù)數(shù)據(jù)做出錯(cuò)誤的假設(shè)。
這種缺乏連貫性和標(biāo)準(zhǔn)的缺失也會(huì)影響數(shù)字化轉(zhuǎn)型。當(dāng)公司合并時(shí)——糟糕的數(shù)據(jù)質(zhì)量使這些合并變得困難。如果沒有定義標(biāo)準(zhǔn)或常見問題,數(shù)據(jù)質(zhì)量就會(huì)成為一個(gè)大問題。
當(dāng)數(shù)據(jù)質(zhì)量不完美時(shí),它就會(huì)變得不可信,從而難以說服員工將其用于數(shù)據(jù)驅(qū)動(dòng)的計(jì)劃。
為什么需要獨(dú)立的數(shù)據(jù)質(zhì)量經(jīng)理?
正如文章開頭提到的,數(shù)據(jù)質(zhì)量是數(shù)據(jù)治理計(jì)劃的核心成果。因此,數(shù)據(jù)治理團(tuán)隊(duì)、小組和部門的一個(gè)關(guān)鍵問題是提高數(shù)據(jù)的整體質(zhì)量。但是有一個(gè)問題:協(xié)調(diào)。
如果與來自不同部門的不同人談?wù)摂?shù)據(jù)質(zhì)量,總會(huì)得到不同的回應(yīng)。例如,如果詢問 ETL 開發(fā)人員他們?nèi)绾魏饬繑?shù)據(jù)質(zhì)量,他們可能會(huì)依賴一組特定的參數(shù)或規(guī)則來確保他們輸入的數(shù)據(jù)符合要求。
如果源頭質(zhì)量不好,他們就不太可能舉報(bào),甚至不會(huì)將其視為他們的擔(dān)憂?;蛘?,如果與處理 CRM 系統(tǒng)的人交談,他們將關(guān)注數(shù)據(jù)的一致性,因?yàn)樗麄儫o法匹配系統(tǒng)中的沖突術(shù)語。簡而言之,每個(gè)人都從不同的角度看待數(shù)據(jù)質(zhì)量。
由于大多數(shù)數(shù)據(jù)質(zhì)量問題是由于跨多個(gè)應(yīng)用程序的集成和數(shù)據(jù)轉(zhuǎn)換問題而發(fā)生的,因此擁有一個(gè)獨(dú)立的數(shù)據(jù)質(zhì)量經(jīng)理或數(shù)據(jù)治理經(jīng)理來負(fù)責(zé)提高整個(gè)組織的數(shù)據(jù)質(zhì)量非常重要。
因?yàn)橛泻芏嘞嗷ッ艿囊庖姡枰粋€(gè)獨(dú)立的機(jī)構(gòu)來調(diào)解和實(shí)施全公司范圍內(nèi)的數(shù)據(jù)質(zhì)量改進(jìn)工作,沒有偏見,并且基于重要性等級(jí)。該主體可以是數(shù)據(jù)治理經(jīng)理或組。
為了有效地解決數(shù)據(jù)質(zhì)量問題,需要確定優(yōu)先級(jí)。應(yīng)根據(jù)業(yè)務(wù)影響、流行程度和數(shù)據(jù)質(zhì)量問題的復(fù)雜性等參數(shù)對(duì)這些問題進(jìn)行優(yōu)先級(jí)排序。
數(shù)據(jù)質(zhì)量改進(jìn)生命周期
每個(gè)人的個(gè)人數(shù)據(jù)質(zhì)量問題對(duì)該個(gè)人都非常重要。但是,為了避免迷失在問題的海洋中,需要確定優(yōu)先級(jí)。應(yīng)根據(jù)業(yè)務(wù)影響、普遍性和數(shù)據(jù)質(zhì)量問題的復(fù)雜性等參數(shù)對(duì)數(shù)據(jù)質(zhì)量問題進(jìn)行優(yōu)先級(jí)排序。這能夠有效地解決這些問題。
以下是用于提高數(shù)據(jù)質(zhì)量的久經(jīng)考驗(yàn)的策略:數(shù)據(jù)質(zhì)量改進(jìn)生命周期。
1. 定義
第一步是定義數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)將成為努力實(shí)現(xiàn)的基準(zhǔn)。此步驟能夠設(shè)定目標(biāo)并建立關(guān)于如何提高數(shù)據(jù)質(zhì)量最終發(fā)展業(yè)務(wù)的愿景。
例如,每次捕獲社會(huì)安全號(hào)碼時(shí),都應(yīng)該捕獲九位數(shù)字?;蛘?,每次收集電子郵件地址時(shí),請(qǐng)確保輸入兩次作為輔助確認(rèn)步驟。
2. 收集
接下來,需要使用框架記錄組織中的所有數(shù)據(jù)質(zhì)量問題,以定位數(shù)據(jù)質(zhì)量問題。有兩種方法可以成功地做到這一點(diǎn)。首先是在公司內(nèi)部創(chuàng)建一個(gè)數(shù)據(jù)素養(yǎng)計(jì)劃。
一旦組織內(nèi)建立了廣泛的素養(yǎng),就可以建立一個(gè)報(bào)告機(jī)制,用戶可以去那里交流他們的數(shù)據(jù)質(zhì)量問題。此步驟的唯一目標(biāo)是從所有來源收集數(shù)據(jù)質(zhì)量問題,以便數(shù)據(jù)治理組將列出必須解決的問題。
捕獲數(shù)據(jù)質(zhì)量問題時(shí),必須記錄以下信息:
- 商業(yè)價(jià)值
- 問題所在
- 問題是什么
- 優(yōu)先級(jí)(從客戶的角度)
一旦在組織內(nèi)建立了廣泛的數(shù)據(jù)素養(yǎng),就可以建立一個(gè)報(bào)告機(jī)制,用戶可以去那里交流他們的數(shù)據(jù)質(zhì)量問題。
3. 優(yōu)先
下一部分是開發(fā)一種機(jī)制,幫助我們了解這些數(shù)據(jù)質(zhì)量問題對(duì)業(yè)務(wù)的影響。這是數(shù)據(jù)治理經(jīng)理需要做的最重要的任務(wù)。他們?cè)谠u(píng)估中必須考慮以下幾點(diǎn):
- 商業(yè)價(jià)值
- 主要原因分析
- 解決問題的大致努力
- 更換管理層
此過程使治理團(tuán)隊(duì)能夠有效地確定問題的優(yōu)先級(jí)。這種優(yōu)先排序過程通常會(huì)造成瓶頸,因?yàn)楹茈y做出一致的決定。
以國家代碼為例,不同的系統(tǒng)可能有不同的選擇,要做出決定,需要有一個(gè)框架,而這個(gè)框架的核心是一個(gè)數(shù)據(jù)治理委員會(huì)。該委員會(huì)應(yīng)由組織中所有不同業(yè)務(wù)部門的領(lǐng)導(dǎo)組成。
當(dāng)數(shù)據(jù)治理經(jīng)理提出問題時(shí),需要將其提交給委員會(huì)進(jìn)行評(píng)估。他們將根據(jù)包括成本/收益比和業(yè)務(wù)影響在內(nèi)的許多因素來權(quán)衡問題。
當(dāng)做出關(guān)鍵的數(shù)據(jù)質(zhì)量決策時(shí),需要對(duì)業(yè)務(wù)流程進(jìn)行某種更改。實(shí)質(zhì)上會(huì)導(dǎo)致額外的工作和支出,因此需要在跨部門、公正、委員會(huì)層面做出決定。
4. 分析
一旦確定了問題并確定了優(yōu)先級(jí),負(fù)責(zé)批準(zhǔn)和解決問題的人員需要進(jìn)行進(jìn)一步的根本原因分析。這個(gè)過程涉及提出問題,例如每個(gè)問題的根源來自哪里。問題的真正原因是什么?
使用國家代碼示例,需要確定這個(gè)無效字段是如何導(dǎo)致數(shù)據(jù)質(zhì)量問題的。問題的根源是用戶手動(dòng)輸入代碼,還是因?yàn)楣举徺I數(shù)據(jù)而無法控制?
5. 改進(jìn)
解決數(shù)據(jù)質(zhì)量問題有四種關(guān)鍵方法:
- 可以通過直接使用源代碼并在那里進(jìn)行相關(guān)更改來手動(dòng)修復(fù)問題。
- 可以在 ETL 管道中進(jìn)行更改。為此,需要開發(fā)代碼來決定如何通過已安裝的集成處理數(shù)據(jù),也稱為 ETL 邏輯。
- 另一種選擇是對(duì)特定流程進(jìn)行更改。例如,在國家代碼字段中選擇數(shù)據(jù)的過程會(huì)發(fā)生變化。可以添加一個(gè)下拉菜單,而不是要求用戶手動(dòng)輸入國家/地區(qū)代碼,這樣就別無選擇,只能選擇的國家/地區(qū)選擇正確的代碼。
- 第四種方法稱為主數(shù)據(jù)和參考數(shù)據(jù)管理。當(dāng)缺少主數(shù)據(jù)時(shí),明確定義的數(shù)據(jù)質(zhì)量問題會(huì)很明顯。例如,可能需要手動(dòng)輸入客戶名稱字段,因?yàn)闆]有正確的主數(shù)據(jù),所以沒有其他方法。
一種常見的主數(shù)據(jù)管理解決方案是創(chuàng)建一個(gè)存儲(chǔ)所有主數(shù)據(jù)的地方,其他系統(tǒng)可以使用密鑰來引用這些數(shù)據(jù)。主數(shù)據(jù)管理需要大量資金并且可能相當(dāng)復(fù)雜,但它非常有效。
參考數(shù)據(jù)通常是主數(shù)據(jù)可以參考的列表。與主數(shù)據(jù)不同,往往是相對(duì)靜態(tài)的。采取措施管理參考數(shù)據(jù),例如訪問控制和關(guān)系映射,也將有助于提高數(shù)據(jù)質(zhì)量。
6. 控制
該過程的最后一步是編寫一組數(shù)據(jù)質(zhì)量規(guī)則。這將確保如果再次出現(xiàn)此問題,則會(huì)創(chuàng)建通知或票證來解決問題。
通過這樣的通知,可以更輕松地快速處理問題,而不必咨詢多個(gè)人并進(jìn)行復(fù)雜的分析。