如何提高數(shù)據(jù)質量?
摘要:大數(shù)據(jù)時代帶來了海量、多樣、非結構化的數(shù)據(jù),我們得以進行更加廣泛且深入的分析,但這必須建立在高質量的數(shù)據(jù)上才有意義。本期以企業(yè)級的視角,介紹數(shù)據(jù)質量的評價、提升與監(jiān)控。
大數(shù)據(jù)時代帶來了海量、多樣、非結構化的數(shù)據(jù),我們得以進行更加廣泛且深入的分析,但這必須建立在高質量的數(shù)據(jù)上才有意義。本期以企業(yè)級的視角,介紹數(shù)據(jù)質量的評價、提升與監(jiān)控。
大數(shù)據(jù)的時代,數(shù)據(jù)資產(chǎn)及其價值利用能力逐漸成為構成企業(yè)核心競爭力的關鍵要素;然而,大數(shù)據(jù)應用必須建立在質量可靠的數(shù)據(jù)之上才有意義,建立在低質量甚至錯誤數(shù)據(jù)之上的應用有可能與其初心南轅北轍背道而馳。因此,數(shù)據(jù)質量正是企業(yè)應用數(shù)據(jù)的瓶頸,高質量的數(shù)據(jù)可以決定數(shù)據(jù)應用的上限,而低質量的數(shù)據(jù)則必然拉低數(shù)據(jù)應用的下限。
數(shù)據(jù)質量一般指數(shù)據(jù)能夠真實、完整反映經(jīng)營管理實際情況的程度,通??稍谝韵聨讉€方面衡量和評價:
- 準確性:數(shù)據(jù)在系統(tǒng)中的值與真實值相比的符合情況,數(shù)據(jù)應符合業(yè)務規(guī)則和統(tǒng)計口徑。常見數(shù)據(jù)準確性問題如:
    
- 與實際情況不符:數(shù)據(jù)來源存在錯誤,難以通過規(guī)范進行判斷與約束;
 - 與業(yè)務規(guī)范不符:在數(shù)據(jù)的采集、使用、管理、維護過程中,業(yè)務規(guī)范缺乏或執(zhí)行不力,導致數(shù)據(jù)缺乏準確性。
 
 - 完整性:數(shù)據(jù)的完備程度。常見數(shù)據(jù)完整性問題如:
    
- 系統(tǒng)已設定字段,但在實際業(yè)務操作中并未完整采集該字段數(shù)據(jù),導致數(shù)據(jù)缺失或不完整;
 - 系統(tǒng)未設定字段:存在數(shù)據(jù)需求,但未在系統(tǒng)中設定對應的取數(shù)字段。
 
 - 一致性:系統(tǒng)內外部數(shù)據(jù)源之間的數(shù)據(jù)一致程度,數(shù)據(jù)是否遵循了統(tǒng)一的規(guī)范,數(shù)據(jù)集合是否保持了統(tǒng)一的格式。常見一致性問題如:
 
缺乏系統(tǒng)聯(lián)動或聯(lián)動出錯:系統(tǒng)間應該相同的數(shù)據(jù)卻不一致,缺乏必要的聯(lián)動和核對。
- 及時性:數(shù)據(jù)在采集、傳送、處理等環(huán)節(jié)快速支持應用的程度,考察數(shù)據(jù)的時間特性對應用的滿足程度。及時性關系到系統(tǒng)能否在規(guī)定的時間內獲取到系統(tǒng)需要的特定時間產(chǎn)生的數(shù)據(jù),以完成系統(tǒng)功能。常見及時性問題如:
 
缺乏時效性:未按照規(guī)定的數(shù)據(jù)更新時間要求對數(shù)據(jù)進行更新。
- 可用性:用來衡量數(shù)據(jù)項整合和應用的可用程度。常見可用性問題如:
    
- 缺乏應用功能,沒有相關的數(shù)據(jù)處理、加工規(guī)則或數(shù)據(jù)模型的應用功能,獲取目標數(shù)據(jù);
 - 缺乏整合共享,數(shù)據(jù)分散,不易有效整合和共享。
 
 
其他衡量標準再如有效性可考慮對數(shù)據(jù)格式、類型、標準的遵從程度,合理性可考慮數(shù)據(jù)符合邏輯約束的程度。此前一項對某企業(yè)數(shù)據(jù)質量問題進行的調研顯示常見數(shù)據(jù)質量問題中準確性問題占33%,完整性問題占28%,可用性問題占24%,一致性問題占8%,在一定程度上代表了國內企業(yè)面臨的數(shù)據(jù)問題。
提高數(shù)據(jù)質量的首要任務是定義一套標準化的數(shù)據(jù)規(guī)范,對具體數(shù)據(jù)項的定義、口徑、格式、取值、單位等進行規(guī)范說明,形成對該數(shù)據(jù)項的具體質量要求。依托這套規(guī)范作為衡量和提高數(shù)據(jù)質量的標尺,可在數(shù)據(jù)采集、加工和應用的各環(huán)節(jié)對關鍵數(shù)據(jù)項進行預防性或監(jiān)測性的核檢。廣義的企業(yè)級數(shù)據(jù)字典可以作為數(shù)據(jù)標準化規(guī)范的載體,對企業(yè)運營過程中涉及的數(shù)據(jù)項名稱、業(yè)務定義和規(guī)則等要素進行收錄、規(guī)范和編制,對數(shù)據(jù)項描述信息進行標準化處理,統(tǒng)一定義對安全性和數(shù)據(jù)質量的要求,進而為業(yè)務運營提供可靠的數(shù)據(jù)服務、提高整體數(shù)據(jù)質量奠定基礎。理想情況下廣義的企業(yè)級數(shù)據(jù)字典是完備的,企業(yè)各系統(tǒng)全部數(shù)據(jù)項都被數(shù)據(jù)字典收錄,不存在同名不同義或同義不同名的情況。與此相對,狹義的數(shù)據(jù)字典通常是針對單一系統(tǒng)的技術屬性標準,為單一系統(tǒng)的開發(fā)和應用服務。
企業(yè)級數(shù)據(jù)字典通常分為三層:數(shù)據(jù)項、值域和域取值。數(shù)據(jù)項層面的規(guī)范主要包括名稱、業(yè)務規(guī)則定義、數(shù)據(jù)安全要求和數(shù)據(jù)質量要求等。
- 數(shù)據(jù)項名稱:包括數(shù)據(jù)項的中文名稱、英文名稱和英文簡稱,含義不同的數(shù)據(jù)項名稱不同,物理數(shù)據(jù)庫應沿用數(shù)據(jù)字典定義的全局唯一的英文簡稱對字段命名
 - 業(yè)務規(guī)則定義:包括數(shù)據(jù)的業(yè)務含義、轉換規(guī)則、加工規(guī)則等安全元數(shù)據(jù):包含數(shù)據(jù)來源、所有者和訪問權限等安全要求的定義
 - 數(shù)據(jù)質量要求:在數(shù)據(jù)規(guī)范定義基礎之上,提出滿足業(yè)務需要的數(shù)據(jù)長度、格式、取值、數(shù)據(jù)處理、勾稽關系等要求,以此作為數(shù)據(jù)質量管理的落腳點
 
值域可細分為代碼域、編碼域、文本域、金額域、數(shù)值域、時間域等。例如“出生地”數(shù)據(jù)項對應值域為“行政區(qū)劃”代碼域,引用國家標準GB-T2260-2016《中華人民共和國行政區(qū)劃代碼》,對應的域取值為該國標定義的代碼表。再如“借記卡號”數(shù)據(jù)項對應值域為“19位卡號”編碼域,定義16位卡號和19位卡號兩種編碼方式,不需列舉對應具體的域取值。
數(shù)據(jù)質量管理是指在數(shù)據(jù)創(chuàng)建、加工、使用和遷移等過程中,通過開展數(shù)據(jù)質量定義、過程控制、監(jiān)測、問題分析和整改、評估與考核等一系列管理活動,提高數(shù)據(jù)質量以滿足業(yè)務要求。數(shù)據(jù)質量管理工作遵循業(yè)務引領的原則,確定重點質量管控范圍,并動態(tài)調整階段性管控重點,持續(xù)優(yōu)化??砂凑?ldquo;誰創(chuàng)建、誰負責;誰加工、誰負責;誰提供、誰負責”的原則界定數(shù)據(jù)質量管理責任,由數(shù)據(jù)流轉環(huán)節(jié)的各責任方對管轄范圍內的數(shù)據(jù)質量負責。對數(shù)據(jù)質量規(guī)則優(yōu)先采取系統(tǒng)程序的自動化控制措施,并盡可能前移管控點,從源頭上控制數(shù)據(jù)質量。
數(shù)據(jù)質量監(jiān)控點通常針對關鍵數(shù)據(jù)項設置實施,定義數(shù)據(jù)質量監(jiān)控規(guī)則,生成監(jiān)控報警,按嚴重性等級分級報告,由相應層級進行處理和響應。關鍵數(shù)據(jù)項根據(jù)經(jīng)驗判斷,一般影響較廣如涉及多業(yè)務條線,或應用于關鍵業(yè)務環(huán)節(jié)如合約簽訂、會計核算、績效分析、產(chǎn)品定價、資金收付等,或應用于內部經(jīng)營管理、對外信息披露和行業(yè)監(jiān)管要求,例如財務報告數(shù)據(jù)和新資本協(xié)議實施中明確提出的重要指標項。
數(shù)據(jù)質量監(jiān)控點的控制手段分為預防型和監(jiān)測型:
- 預防性控制防止錯誤數(shù)據(jù)的產(chǎn)生,一般部署在數(shù)據(jù)采集點,用于控制手工輸入的源數(shù)據(jù),以及批量導入的源數(shù)據(jù)校驗:
    
- 數(shù)據(jù)輸入校驗:例如貸款利率的輸入校驗;
 - 數(shù)據(jù)閾值:例如數(shù)據(jù)非空,數(shù)據(jù)取值超出值域定義合理范圍,數(shù)據(jù)格式不符合標準等;
 - 質量控制方式:系統(tǒng)自動校驗/雙人手工復核;
 - 系統(tǒng)校驗方式:強制,如不符合規(guī)則無法通過。
 
 - 監(jiān)測型控制監(jiān)測錯誤數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)質量問題進行報警。一般部署在數(shù)據(jù)加工和應用環(huán)節(jié),驗證數(shù)據(jù)完整性、一致性和準確性等:
    
- 數(shù)據(jù)輸出校驗:例如貸款余額總分核對
 - 數(shù)據(jù)一致性:例如交易頭寸與總帳系統(tǒng)記錄的交易頭寸一致
 - 質量控制方式:系統(tǒng)自動校驗
 - 系統(tǒng)校驗方式:非強制,錯誤及差異提示
 
 
對選定的關鍵數(shù)據(jù)項,需定義數(shù)據(jù)質量規(guī)則以及數(shù)據(jù)質量等級。數(shù)據(jù)質量等級可利用“閾值”和“容忍度”進行分級:
- 良好:數(shù)據(jù)項質量評分高于“閾值”
 - 可容忍:數(shù)據(jù)項質量評分低于“閾值”,但高于“容忍度”
 - 報警:數(shù)據(jù)項質量評分低于“容忍度”
 - 嚴重報警:數(shù)據(jù)項的質量問題將帶來非常嚴重的影響,人工經(jīng)驗判斷
 
關鍵數(shù)據(jù)項監(jiān)控點的詳細信息應在企業(yè)級數(shù)據(jù)字典中維護更新,與其開發(fā)、實施和測試情況保持同步。
在進行數(shù)據(jù)質量分等級報告及響應糾錯時應遵守如下原則:
- 及時性。對導致數(shù)據(jù)質量等級進入“可容忍”、“報警”和“嚴重報警”狀態(tài)的數(shù)據(jù)質量事件能夠及時發(fā)現(xiàn)、報告和處理;
 - 規(guī)范性:針對分級別的數(shù)據(jù)質量問題,匯報至利益相關方,配置相應資源;
 - 高效性:數(shù)據(jù)質量問題,在分級別規(guī)定時間內被解決。應按照“可容忍”、“報警”和“嚴重報警”酌情規(guī)定響應時間;
 - 有序性。在開展數(shù)據(jù)質量分等級報告工作時,應有序上報、統(tǒng)一領導、分級負責。
 
部署在UDP層面的數(shù)據(jù)質量監(jiān)控程序實時或定期監(jiān)測關鍵數(shù)據(jù)項的質量,對其數(shù)據(jù)質量進行評分,通過比較該監(jiān)控點的“閾值”和“容忍度”,將數(shù)據(jù)質量進行分級,對于非“良好”的評價結果,數(shù)據(jù)質量監(jiān)控程序將發(fā)送報警消息通知數(shù)據(jù)質量管理人員。報警消息內容包括問題定位頭文件和具體描述。數(shù)據(jù)質量管理人員根據(jù)報警信息調查問題數(shù)據(jù)項,驗證報警內容,生成預警信息通知下游用戶,同時填制糾錯工單通知相關責任人員。相關責任人員依據(jù)糾錯通知提示的具體內容,開展數(shù)據(jù)質量問題調查,提出數(shù)據(jù)質量改進需求和解決方案,由實施運維團隊在數(shù)據(jù)應用層面修正,或在數(shù)據(jù)采集和集成層面修正。若糾錯告警問題由數(shù)據(jù)質量要求過于嚴苛或控制規(guī)則錯誤引起,應修改關鍵數(shù)據(jù)項清單及其相關監(jiān)控規(guī)則,并由實施運維團隊修改或取消已部署的對應監(jiān)控點。















 
 
 







 
 
 
 