從管、存、算、規(guī)、治看數(shù)據(jù)資產(chǎn)管理
?據(jù)研究表明,在數(shù)據(jù)分析的整個過程中,數(shù)據(jù)準(zhǔn)備會占大約80%的時間。怎樣把數(shù)據(jù)收集起來,并確保數(shù)據(jù)可直接用于分析展示,是最麻煩、最耗時的事情,這在企業(yè)級的數(shù)據(jù)分析中也被稱為是“最臟最累”的活。倘若數(shù)據(jù)未處理妥當(dāng),炫酷好看的可視化展示也毫無意義。
如果你參與過大型企業(yè)BI系統(tǒng)的建設(shè),那就一定能有所感觸。無數(shù)的決策分析系統(tǒng)成為臨時的“政績工程”,一時名聲大噪之后卻無人問津,大多因為后續(xù)數(shù)據(jù)不準(zhǔn)確,無法真正為業(yè)務(wù)、管理提供實質(zhì)的服務(wù)。這實則為數(shù)據(jù)分析項目建設(shè)的悲哀。
做好數(shù)據(jù)準(zhǔn)備、保證數(shù)據(jù)質(zhì)量,都是數(shù)據(jù)資產(chǎn)管理的范疇。國際數(shù)據(jù)管理協(xié)會(DAMA International)在《DAMA數(shù)據(jù)管理知識體系指南(原書第2版)》一書中,將數(shù)據(jù)管理(DM)定義為“為了交付、控制、保護并提升數(shù)據(jù)和信息資產(chǎn)的價值,在其整個生命周期中制訂計劃、制度、規(guī)程和實踐活動,并執(zhí)行和監(jiān)督的過程”。
對于數(shù)據(jù)管理的職能,DAMA將其歸為十一大類:數(shù)據(jù)治理、數(shù)據(jù)架構(gòu)、數(shù)據(jù)建模和設(shè)計、數(shù)據(jù)存儲和操作、數(shù)據(jù)安全、數(shù)據(jù)集成和互操作、文件和內(nèi)容管理、參考數(shù)據(jù)和主數(shù)據(jù)、數(shù)據(jù)倉庫和商務(wù)智能、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量,如圖1所示。
▲圖1 DAMA數(shù)據(jù)管理框架
其中,數(shù)據(jù)架構(gòu)、數(shù)據(jù)建模和設(shè)計、數(shù)據(jù)存儲和操作、數(shù)據(jù)集成和互操作、文件和內(nèi)容管理、參考數(shù)據(jù)和主數(shù)據(jù)、元數(shù)據(jù)管理、數(shù)據(jù)倉庫和商務(wù)智能屬于“數(shù)據(jù)準(zhǔn)備”的范疇,數(shù)據(jù)治理、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量可以統(tǒng)一歸類為“數(shù)據(jù)治理”。
結(jié)合DAMA對數(shù)據(jù)管理職能的分類及內(nèi)容,可將數(shù)據(jù)準(zhǔn)備分為“管”“存”“算”個層面,將數(shù)據(jù)治理分為“規(guī)”、“治”兩個層面,如圖2所示。
▲圖2 “管” “存” “算” “規(guī)” “治”
1.數(shù)據(jù)之“管”
數(shù)據(jù)之“管”指狹義的數(shù)據(jù)管理,是對不同類別的數(shù)據(jù)采取不同的數(shù)據(jù)管理模式。這里我們把數(shù)據(jù)分為四個層次:元數(shù)據(jù)、主數(shù)據(jù)、參考數(shù)據(jù)、一般數(shù)據(jù)(交易數(shù)據(jù))。通過數(shù)據(jù)之“管”,來確保數(shù)據(jù)來源的可靠性、數(shù)據(jù)內(nèi)容的準(zhǔn)確性、數(shù)據(jù)安全性及數(shù)據(jù)粒度的精細(xì)性。
不同的數(shù)據(jù),根據(jù)其特性在數(shù)據(jù)量、更新頻率、數(shù)據(jù)質(zhì)量和生命周期上有不同的特點。從數(shù)據(jù)的作用及管理的方式上來講,我們把數(shù)據(jù)分為四個層次:元數(shù)據(jù)、主數(shù)據(jù)、參考數(shù)據(jù)、一般數(shù)據(jù)(交易數(shù)據(jù)),如圖3所示。這里提到的數(shù)據(jù)之“管”,即指管理好這四個層次數(shù)據(jù)。
▲圖3 數(shù)據(jù)層次
元數(shù)據(jù)(Metadata):通俗地說就是描述數(shù)據(jù)的數(shù)據(jù),比如數(shù)據(jù)的名稱、屬性、分類、字段信息、大小、標(biāo)簽等等。要做好數(shù)據(jù)的管理,元數(shù)據(jù)起到了舉足輕重的作用。
參考數(shù)據(jù)(Reference Data):是用于將其他數(shù)據(jù)進行分類或目錄整編的數(shù)據(jù),它定義了數(shù)據(jù)可能的取值范圍,可以理解為屬性值域,也就是數(shù)據(jù)字典。參考數(shù)據(jù)一方面有助于在TP(業(yè)務(wù)處理)側(cè)提升業(yè)務(wù)流程的準(zhǔn)確性,另一方面在AP(數(shù)據(jù)分析)側(cè)規(guī)范數(shù)據(jù)的準(zhǔn)確性,為多系統(tǒng)綜合分析提供有利的保障。
主數(shù)據(jù)(Master Data):指具有高業(yè)務(wù)價值的,關(guān)于關(guān)鍵業(yè)務(wù)實體的權(quán)威的、最準(zhǔn)確的數(shù)據(jù),被稱為“黃金”數(shù)據(jù)。通常用于建立與交易數(shù)據(jù)的關(guān)聯(lián)關(guān)系來進行多維度的分析。
一般數(shù)據(jù):也就是交易數(shù)據(jù)。相對來說,我們可以認(rèn)為元數(shù)據(jù)、參考數(shù)據(jù)、主數(shù)據(jù)為靜態(tài)數(shù)據(jù),而一般數(shù)據(jù)則是動態(tài)數(shù)據(jù)。它一般隨著業(yè)務(wù)的發(fā)生而變化,比如資金交易流水。
2.數(shù)據(jù)之“存”
數(shù)據(jù)之“存”指數(shù)據(jù)存儲,指通過技術(shù)手段將數(shù)據(jù)存儲起來。涉及三個關(guān)鍵詞是“數(shù)據(jù)湖”、“數(shù)據(jù)倉庫”和“數(shù)據(jù)集市”。數(shù)據(jù)的有效性、及時性、相關(guān)性、一致性、安全性、準(zhǔn)確性,其來源的可靠性、粒度的精細(xì)性,最終都會體現(xiàn)在“存”之上,具備上述條件的數(shù)據(jù)組合,幫助數(shù)據(jù)實現(xiàn)了其“豐富性”。
如果把數(shù)據(jù)比作是源源不斷的水,那么,數(shù)據(jù)湖可以比作湖泊,數(shù)據(jù)倉庫可以比作水庫,數(shù)據(jù)集便是超市。水在不斷的加工制造中,最后成為超市中的瓶裝水供人直接食用,就好比原始數(shù)據(jù)經(jīng)過加工處理最終成為數(shù)據(jù)集市中直接可用于分析的數(shù)據(jù)。如圖4所示。
▲圖4 數(shù)據(jù)湖、數(shù)據(jù)倉庫和數(shù)據(jù)集
數(shù)據(jù)湖、數(shù)據(jù)倉庫和數(shù)據(jù)集形成了數(shù)據(jù)存儲的三個層次,三者層層遞進,各自發(fā)揮著其不同的作用。數(shù)據(jù)湖為非結(jié)構(gòu)化數(shù)據(jù)分析、機器學(xué)習(xí)、預(yù)測分析提供了豐富的數(shù)據(jù)土壤;數(shù)據(jù)倉庫通過規(guī)范化的管理,為企業(yè)、組織系統(tǒng)化的規(guī)范數(shù)據(jù)體系提供了支撐;數(shù)據(jù)集則將數(shù)據(jù)場景化,讓數(shù)據(jù)觸手可得,實現(xiàn)即席分析。
數(shù)據(jù)湖(Data Lake,DL),是指一個集中化存儲海量的、多個來源、多種類型數(shù)據(jù),并可以對數(shù)據(jù)進行快速加工、分析的平臺。數(shù)據(jù)倉庫(Data Warehouse,簡稱DW或DWH),是為支持決策而產(chǎn)生的數(shù)據(jù)池,它是整個組織中的各級人員可能感興趣的、當(dāng)前和歷史的所有類型數(shù)據(jù)的戰(zhàn)略集合。
數(shù)據(jù)集市(Data Mart,DM),是滿足特定的部門或者用戶的需求,按照多維的方式進行存儲,生成面向決策分析需求的數(shù)據(jù)集合。
3.數(shù)據(jù)之“算”
數(shù)據(jù)之“算”,指的是數(shù)據(jù)預(yù)處理之“算”。為了保證數(shù)據(jù)分析時數(shù)據(jù)可用、好用而對數(shù)據(jù)進行的加工。是指對數(shù)據(jù)的清洗和加工,包括簡單的清洗和處理,也包括通過智能手段如借助算法模型對數(shù)據(jù)的清洗和加工。
數(shù)據(jù)預(yù)處理的關(guān)鍵鏈路如圖5所示。原始數(shù)據(jù)納入數(shù)據(jù)湖的管理,通常混雜著各種數(shù)據(jù)。要防止數(shù)據(jù)湖變?yōu)閿?shù)據(jù)沼澤,就需要將數(shù)據(jù)碎片分門別類,將不可洞察的數(shù)據(jù)和無關(guān)數(shù)據(jù)歸類為數(shù)據(jù)噪聲,留下可洞察的數(shù)據(jù)和相關(guān)的數(shù)據(jù),我們稱之為“信息元”。這類數(shù)據(jù)進一步通過數(shù)據(jù)加工形成整理后的數(shù)據(jù),與可直接洞察的數(shù)據(jù)共同構(gòu)成了可分析的數(shù)據(jù)。
▲圖5 數(shù)據(jù)預(yù)處理
我們前面提到數(shù)據(jù)處理大約占了數(shù)據(jù)分析80%的時間,而在數(shù)據(jù)處理的過程中,數(shù)據(jù)清洗幾乎會占據(jù)40%~70%的時間,且數(shù)據(jù)質(zhì)量越差,其占比越高。數(shù)據(jù)清洗不能被孤立的看待,通過借助對元數(shù)據(jù)信息、數(shù)據(jù)分布情況的分析,甚至是根據(jù)分析結(jié)果的異常性來對數(shù)據(jù)進行有效的清理,會事半功倍。
所以,數(shù)據(jù)清洗和數(shù)據(jù)分析也是相輔相承,互相依賴、互相促進的。常見數(shù)據(jù)清洗包括對缺失值的處理和異常值的處理。
數(shù)據(jù)加工包括數(shù)據(jù)變換、數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換、表間數(shù)據(jù)處理等。ETL(抽取Extract、轉(zhuǎn)換Transform、加載Load)將上述數(shù)據(jù)清洗、數(shù)據(jù)加工的方法串聯(lián)起來,形成完整的數(shù)據(jù)之“算”鏈路體系,是數(shù)據(jù)準(zhǔn)備過程中最重要的一環(huán)。04數(shù)據(jù)之“規(guī)”
4.數(shù)據(jù)之“規(guī)”
指數(shù)據(jù)規(guī)范,包括對數(shù)據(jù)規(guī)范的制定和數(shù)據(jù)管理上的規(guī)章制度?!耙?guī)”是確保數(shù)據(jù)有效性、安全性的基石。
數(shù)據(jù)的規(guī)范,包括兩個層面。一方面針對數(shù)據(jù)本身,即數(shù)據(jù)標(biāo)準(zhǔn);另一方面是數(shù)據(jù)管理上的規(guī)范和制度。我們可以通俗的理解為數(shù)據(jù)分析中的“法”。
數(shù)據(jù)標(biāo)準(zhǔn)
數(shù)據(jù)來源的多樣化帶來了數(shù)據(jù)的不一致性,多源系統(tǒng)數(shù)據(jù)整合的關(guān)鍵首先就是建立數(shù)據(jù)標(biāo)準(zhǔn)。數(shù)據(jù)標(biāo)準(zhǔn)的定義應(yīng)遵循一定的原則,包括唯一性、統(tǒng)一性、通用性、穩(wěn)定性、前瞻性、可行性“六大特性”和系列化、模塊化“兩化原則”。
基于上述特性和原則,數(shù)據(jù)標(biāo)準(zhǔn)從內(nèi)容層次上可以分為語義標(biāo)準(zhǔn)、數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)和數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)。通過建立語義標(biāo)準(zhǔn)體系,保證整個組織層面關(guān)于數(shù)據(jù)分析的溝通“在一個頻道上”;通過建立數(shù)據(jù)結(jié)構(gòu)體系,統(tǒng)一數(shù)據(jù)資源目錄及數(shù)據(jù)命名規(guī)則以確保數(shù)據(jù)規(guī)整、易查找;通過建立數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn),根據(jù)業(yè)務(wù)梳理數(shù)據(jù)標(biāo)簽及數(shù)據(jù)描述規(guī)則以提升分析效率。
數(shù)據(jù)規(guī)范
數(shù)據(jù)標(biāo)準(zhǔn)的執(zhí)行,需要依賴制度的規(guī)范。無體系、無制度的管理無異于一般散沙。數(shù)據(jù)規(guī)范可以大致分為數(shù)據(jù)基礎(chǔ)規(guī)范、數(shù)據(jù)安全規(guī)范、數(shù)據(jù)質(zhì)量規(guī)范三大類,如圖7所示。
▲圖6 數(shù)據(jù)規(guī)范體系
5.數(shù)據(jù)之“治”
數(shù)據(jù)之“治”指狹義的數(shù)據(jù)治理,實質(zhì)上指數(shù)據(jù)治理相關(guān)的一套方法及體系,包括了實踐數(shù)據(jù)之“規(guī)”來確保數(shù)據(jù)質(zhì)量的過程和方法。它不僅是技術(shù)上的治理工作,更是以有效滿足組織各層級管理訴求的有效手段,它應(yīng)該是包括數(shù)據(jù)、應(yīng)用、技術(shù)和組織的四位一體均衡的治理體系。數(shù)據(jù)治理,最重要的目標(biāo)就是保證數(shù)據(jù)質(zhì)量,即數(shù)據(jù)的一致性及準(zhǔn)確性。理論體系總是看起來完美無缺,但應(yīng)用到實際中,
往往是“理想是豐滿的,現(xiàn)實是骨感的”。先不說平臺如何搭建、技術(shù)如何選擇、如何保障安全性,真正深入到工作中,會發(fā)現(xiàn),所有技術(shù)上的難題都不是最難的,如何說服各個部門主動配合數(shù)據(jù)收集工作,是最大的難點。所以,數(shù)據(jù)治理實質(zhì)上并不只是技術(shù)問題,更是一個管理問題。做好數(shù)據(jù)治理,一定首先是自上而下的發(fā)起,其次是有足夠的組織保障,再次是建立切實有效的機制體系。
▲圖7 數(shù)據(jù)治理
數(shù)據(jù)治理需要依賴強大的統(tǒng)籌能力和管理能力才能得以實現(xiàn),對于較大型的企業(yè)和組織來說,通常都是“吃力不討好”的活,要真正通過數(shù)據(jù)治理做出成效,是一件非常困難的事情。所以,這里一再強調(diào)的重中之重便是“高層負(fù)責(zé)”。
高層負(fù)責(zé)是基礎(chǔ),切實有效地將數(shù)據(jù)治理落實下去,還需要有合理的“組織保障”。各業(yè)務(wù)部門的人通常都會被各類事務(wù)纏身,對他們來說,數(shù)據(jù)的梳理、整合一直是被認(rèn)為重要但確經(jīng)常無暇關(guān)注的事情。建立專門的數(shù)據(jù)主責(zé)部門,負(fù)責(zé)統(tǒng)一的管理協(xié)調(diào)工作,再由各業(yè)務(wù)部門配合各類業(yè)務(wù)數(shù)據(jù)的提供和質(zhì)量保障,才是正解。
數(shù)據(jù)團隊快速的運轉(zhuǎn)離不開“機制建立”。機制需要建立在規(guī)范的基礎(chǔ)上,不同的是,它更側(cè)重強調(diào)管理、監(jiān)控和流程。因此,不同的企業(yè)、組織均需要根據(jù)自身的組織架構(gòu)和文化體系制定適合自己的機制。值得注意的,一方面是各環(huán)節(jié)責(zé)任人的落實,另一方面是需要在全面性和可執(zhí)行性、規(guī)范性和時效性方面做一個平衡。
做好數(shù)據(jù)資產(chǎn)管理,是數(shù)據(jù)分析的重要基礎(chǔ)和保障?!肮堋?、“存”、“算”、“規(guī)”、“治”是各類組織做好數(shù)據(jù)資產(chǎn)管理可以借鑒的有效手段。其中,“管”、“存”、“算”是業(yè)界已經(jīng)形成的標(biāo)準(zhǔn)的基礎(chǔ)知識,可以直接使用;“規(guī)”、“治”則在不同的企業(yè)、組織中需要因地制宜,選擇適合自身的規(guī)范制度及治理機制。關(guān)于作者:陳雪瑩 ,現(xiàn)就職于明源云,曾就職于遠(yuǎn)光軟件,擁有多年企業(yè)管理軟件實施及數(shù)據(jù)分析平臺產(chǎn)品管理一線從業(yè)經(jīng)歷,在數(shù)據(jù)分析、產(chǎn)品設(shè)計及項目管理方面擁有豐富的經(jīng)驗。
本文摘編于《智能數(shù)據(jù)分析:入門、實戰(zhàn)與平臺構(gòu)建》,經(jīng)出版方授權(quán)發(fā)布。(書號:9787111710646)轉(zhuǎn)載請保留文章來源。?