偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

數(shù)據(jù)質(zhì)量管理的一些思考

大數(shù)據(jù)
數(shù)據(jù)質(zhì)量在任何系統(tǒng)當(dāng)中都是十分重要卻容易被忽視的一部分。構(gòu)建完整的數(shù)據(jù)質(zhì)量管理體系,既是支持企業(yè)系統(tǒng)穩(wěn)定運(yùn)行的基本保障,同時(shí)也是企業(yè)進(jìn)行數(shù)字化轉(zhuǎn)型、創(chuàng)新的必備條件。

背景

在近期的項(xiàng)目當(dāng)中,我們?yōu)榭蛻?hù)落地實(shí)施了數(shù)據(jù)資產(chǎn)平臺(tái)。隨后,在數(shù)據(jù)平臺(tái)中接入了客戶(hù)子公司的一個(gè)業(yè)務(wù)系統(tǒng)的明細(xì)數(shù)據(jù)。客戶(hù)希望在我們的數(shù)據(jù)平臺(tái)上通過(guò)數(shù)據(jù)探索和數(shù)據(jù)分析,來(lái)挖掘一些業(yè)務(wù)價(jià)值和業(yè)務(wù)創(chuàng)新點(diǎn)。

當(dāng)我們拿到數(shù)據(jù)開(kāi)始進(jìn)行一些初步探索的時(shí)候,發(fā)現(xiàn)導(dǎo)入平臺(tái)的數(shù)據(jù)質(zhì)量存在一定的問(wèn)題:例如一些用于數(shù)據(jù)分析的關(guān)鍵字段的值為空、一些本應(yīng)該有主從關(guān)系的數(shù)據(jù)對(duì)應(yīng)不上、數(shù)據(jù)分類(lèi)混亂等。這些問(wèn)題直接影響到了對(duì)業(yè)務(wù)數(shù)據(jù)的分析和價(jià)值挖掘。因此,我們決定先對(duì)這份業(yè)務(wù)數(shù)據(jù)進(jìn)行一次質(zhì)量評(píng)估。如果評(píng)估的結(jié)果太差,不能做太多有價(jià)值的數(shù)據(jù)分析,那么我們的工作方向可能就需要轉(zhuǎn)變?yōu)閹椭蛻?hù)制定整改數(shù)據(jù)質(zhì)量的計(jì)劃和方案。

[[236182]]

數(shù)據(jù)質(zhì)量問(wèn)題

什么是質(zhì)量

關(guān)于質(zhì)量是有個(gè)一個(gè)標(biāo)準(zhǔn)定義的:一組固有特性滿(mǎn)足明示的、通常隱含的或必須履行的需求或期望(要求)的​程度。這里面包含了兩層意思,一個(gè)是說(shuō)質(zhì)量其實(shí)是一組特性,另一個(gè)是說(shuō)質(zhì)量需要滿(mǎn)足需求或期望。所以如果從數(shù)據(jù)分析的角度來(lái)說(shuō)數(shù)據(jù)質(zhì)量,就是看當(dāng)前數(shù)據(jù)的特性能否滿(mǎn)足我們做數(shù)據(jù)分析或挖掘這個(gè)需求。

質(zhì)量問(wèn)題的來(lái)源

數(shù)據(jù)問(wèn)題的來(lái)源可能產(chǎn)生于從數(shù)據(jù)源頭到數(shù)據(jù)存儲(chǔ)介質(zhì)的各個(gè)環(huán)節(jié)。在數(shù)據(jù)采集階段,數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、完整性、時(shí)效性都會(huì)影響數(shù)據(jù)質(zhì)量。除此之外,數(shù)據(jù)的加工、存儲(chǔ)過(guò)程都有可能涉及對(duì)原始數(shù)據(jù)的修改,從而引發(fā)數(shù)據(jù)的質(zhì)量問(wèn)題。所以,技術(shù)、流程、管理等多方面的因素都有可能會(huì)影響到數(shù)據(jù)質(zhì)量。

在企業(yè)中,隨著企業(yè)業(yè)務(wù)的增長(zhǎng),數(shù)據(jù)也是一個(gè)增量積累的過(guò)程。隨著數(shù)據(jù)類(lèi)型、數(shù)據(jù)來(lái)源的不斷豐富以及數(shù)據(jù)數(shù)量的快速增長(zhǎng),企業(yè)在數(shù)據(jù)管理工作和數(shù)據(jù)流程中面臨越來(lái)越多的數(shù)據(jù)質(zhì)量問(wèn)題。而且數(shù)據(jù)質(zhì)量的管理并沒(méi)有被企業(yè)重視起來(lái),其根本原因還是ROI并沒(méi)有那么明顯。

數(shù)據(jù)質(zhì)量管理相對(duì)來(lái)說(shuō)成本比較高。因?yàn)樗婕暗狡髽I(yè)數(shù)據(jù)標(biāo)準(zhǔn)的制定、規(guī)范的落地、生命周期的管理等多個(gè)環(huán)節(jié)。從收益上來(lái)說(shuō),數(shù)據(jù)質(zhì)量的效益和結(jié)果并不是十分明顯,大部分企業(yè)不會(huì)把數(shù)據(jù)質(zhì)量作為KPI。在企業(yè)的不同系統(tǒng)中,業(yè)務(wù)領(lǐng)域的關(guān)鍵指標(biāo)不一致,數(shù)據(jù)無(wú)法共享導(dǎo)致出現(xiàn)數(shù)據(jù)孤島,大量數(shù)據(jù)無(wú)法關(guān)聯(lián),并且有明顯的數(shù)據(jù)冗余等問(wèn)題,還有數(shù)據(jù)的維護(hù)需要投入大量的人員、時(shí)間、軟硬件成本。所以數(shù)據(jù)的質(zhì)量管理往往被會(huì)邊緣化甚至趨向于無(wú)。

[[236183]]

數(shù)據(jù)質(zhì)量評(píng)估

那么我們?nèi)绾螌?duì)一份數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估呢?這是一個(gè)比較難以回答的問(wèn)題。因?yàn)閿?shù)據(jù)質(zhì)量本身有這么幾個(gè)問(wèn)題。首先是數(shù)據(jù)質(zhì)量定義不一致,人們對(duì)數(shù)據(jù)質(zhì)量的理解并沒(méi)有一個(gè)參考標(biāo)準(zhǔn)或者標(biāo)準(zhǔn)的定義,所以人們理解的數(shù)據(jù)質(zhì)量就會(huì)呈現(xiàn)出多樣性,而無(wú)論是數(shù)據(jù)評(píng)估體系還是數(shù)據(jù)質(zhì)量控制體系,都離不開(kāi)關(guān)于數(shù)據(jù)質(zhì)量的清晰定義。其次,沒(méi)有權(quán)威性的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)模型或參考模型。再者,沒(méi)有系統(tǒng)化的數(shù)據(jù)質(zhì)量評(píng)估指標(biāo),也沒(méi)有對(duì)數(shù)據(jù)質(zhì)量評(píng)估的指標(biāo)形成一個(gè)量化的標(biāo)準(zhǔn)。所以現(xiàn)在多數(shù)對(duì)于數(shù)據(jù)質(zhì)量的研究都是針對(duì)特定領(lǐng)域或特定問(wèn)題的研究,并不具有普適性,很難推廣成為標(biāo)準(zhǔn)化的體系或模型。

那我們能不能像CMMI(能力成熟度模型, Capability Maturity Model Integration)和 AMM(敏捷成熟度模型,Agile Maturity Model)一樣對(duì)數(shù)據(jù)質(zhì)量建立一個(gè)模型,我們暫且稱(chēng)之為DQAM(數(shù)據(jù)質(zhì)量評(píng)估模型,Data Quality Assessment Model)。

首先思考一下,在進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估時(shí)我們會(huì)選取多個(gè)指標(biāo),所以很自然會(huì)想到借用一下模糊綜合評(píng)價(jià)理論。搜集了一下資料,這里選取以下若干個(gè)指標(biāo)來(lái)作為我們的數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)(當(dāng)然,可以根據(jù)實(shí)際需要選取其他指標(biāo),指標(biāo)的數(shù)量也可多可少):

  • Completeness:完整性,用于度量哪些數(shù)據(jù)丟失了或者哪些數(shù)據(jù)不可用
  • Conformity:規(guī)范性,用于度量哪些數(shù)據(jù)未按統(tǒng)一格式存儲(chǔ)
  • Consistency:一致性,用于度量哪些數(shù)據(jù)的值在信息含義上是沖突的
  • Accuracy:準(zhǔn)確性,用于度量哪些數(shù)據(jù)和信息是不正確的,或者數(shù)據(jù)是超期的
  • Uniqueness:唯一性,用于度量哪些數(shù)據(jù)是重復(fù)數(shù)據(jù)或者數(shù)據(jù)的哪些屬性是重復(fù)的
  • Integration:關(guān)聯(lián)性,用于度量哪些關(guān)聯(lián)的數(shù)據(jù)缺失或者未建立索引

那么評(píng)估模型應(yīng)該有這么幾個(gè)要素:

  • Dataset:被評(píng)估的數(shù)據(jù)集,對(duì)于關(guān)系型數(shù)據(jù)庫(kù)來(lái)說(shuō)就是一張表
  • Indicators:評(píng)估指標(biāo),就是上面列出來(lái)的6個(gè)指標(biāo)
  • Rule:評(píng)估規(guī)則,與上面的評(píng)估指標(biāo)對(duì)應(yīng),后續(xù)會(huì)根據(jù)規(guī)則的描述來(lái)編寫(xiě)腳本。
  • Weight:權(quán)重,此處的權(quán)重是每一條評(píng)估規(guī)則在全部規(guī)則的所占比重
  • Expectation:期望,根據(jù)每個(gè)評(píng)估規(guī)則給出一個(gè)評(píng)估前的期望值(0-100)
  • Score:結(jié)果,每個(gè)評(píng)估規(guī)則應(yīng)用到數(shù)據(jù)集后計(jì)算出來(lái)的結(jié)果值(0-100)

[[236184]]

那么構(gòu)造整個(gè)模型的過(guò)程基本就可以確定下來(lái),首先根據(jù)需要選取數(shù)據(jù)集當(dāng)中要進(jìn)行評(píng)估的數(shù)據(jù)視圖,再選取所需要的評(píng)估指標(biāo)。下一步需要制定規(guī)則集,根據(jù)所選的評(píng)估指標(biāo)來(lái)制定相應(yīng)的數(shù)據(jù)質(zhì)量評(píng)估規(guī)則,并確定它們相應(yīng)的權(quán)值和期望值。***一步就是根據(jù)規(guī)則集來(lái)計(jì)算結(jié)果得分。

對(duì)于數(shù)據(jù)集的N個(gè)規(guī)則計(jì)算出來(lái)的得分,***計(jì)算其加權(quán)平均值,得到質(zhì)量評(píng)估的絕對(duì)量化值。用該量化值和期望進(jìn)行差值比較,可以得出該數(shù)據(jù)集是比預(yù)期的好,還是不如預(yù)期。

以上是一個(gè)簡(jiǎn)單的評(píng)估模型,目前并沒(méi)有在實(shí)際的場(chǎng)景中應(yīng)用,當(dāng)然這個(gè)模型的精度并不會(huì)很高,也沒(méi)有處理誤差。僅僅提供一個(gè)思路,或許質(zhì)量的評(píng)估可以朝著這個(gè)方向來(lái)進(jìn)行。

數(shù)據(jù)質(zhì)量管理

數(shù)據(jù)工作流質(zhì)量管理

下面來(lái)談?wù)剶?shù)據(jù)質(zhì)量管理。質(zhì)量管理前面提到了,涉及到數(shù)據(jù)工作流的各個(gè)環(huán)節(jié)。數(shù)據(jù)的工作流可以分為以下幾部分:數(shù)據(jù)產(chǎn)生、加工處理、存儲(chǔ)、挖掘和應(yīng)用。質(zhì)量管理的前提是在每一個(gè)環(huán)節(jié)建立質(zhì)量標(biāo)準(zhǔn)。數(shù)據(jù)的來(lái)源包括:業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)、外部系統(tǒng)的數(shù)據(jù)、手動(dòng)錄入的數(shù)據(jù)等,從這些源頭采集數(shù)據(jù),然后經(jīng)過(guò)數(shù)據(jù)通道進(jìn)行加工處理(ETL,Extract-Transform-Load),數(shù)據(jù)進(jìn)入到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市當(dāng)中。然后業(yè)務(wù)人員、數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師等,會(huì)在數(shù)據(jù)平臺(tái)對(duì)數(shù)據(jù)進(jìn)行探索和挖掘,這個(gè)過(guò)程可能發(fā)生在數(shù)據(jù)倉(cāng)庫(kù),也可能是在數(shù)據(jù)沙箱中進(jìn)行,***對(duì)數(shù)據(jù)探索分析挖掘的產(chǎn)出結(jié)果,會(huì)以數(shù)據(jù)應(yīng)用的方式發(fā)布出來(lái),具體的形式包括:數(shù)據(jù)報(bào)表、數(shù)據(jù)門(mén)戶(hù)、OLAP、數(shù)據(jù)產(chǎn)品、數(shù)據(jù)服務(wù)、智能模型等等。

數(shù)據(jù)質(zhì)量監(jiān)督

除了制定質(zhì)量標(biāo)準(zhǔn)外,還需要對(duì)系統(tǒng)中的數(shù)據(jù)本身和數(shù)據(jù)工作流進(jìn)行監(jiān)督管理。

對(duì)數(shù)據(jù)系統(tǒng)進(jìn)行實(shí)時(shí)監(jiān)控,監(jiān)測(cè)數(shù)據(jù)工作環(huán)境的服務(wù)器軟硬件運(yùn)行狀態(tài)、性能、磁盤(pán)空間、數(shù)據(jù)庫(kù)事務(wù)、鎖、緩沖、會(huì)話(huà)量、備份等等一系列指標(biāo),實(shí)施預(yù)警機(jī)制,并監(jiān)測(cè)一些異常情況的發(fā)生。

對(duì)數(shù)據(jù)進(jìn)行定期校驗(yàn),除了對(duì)數(shù)據(jù)系統(tǒng)進(jìn)行實(shí)施監(jiān)控外,還需要對(duì)數(shù)據(jù)進(jìn)行校驗(yàn):日常校驗(yàn)、數(shù)據(jù)抽檢、全面校驗(yàn)等。

審核制度也是保證質(zhì)量的一個(gè)重要措施,特別是對(duì)于敏感數(shù)據(jù)和敏感操作。建立數(shù)據(jù)變更時(shí)候的分級(jí)審核制度,尤其是一些影響較大或者權(quán)限較高的操作。建立審批制度,對(duì)于數(shù)據(jù)的讀取,如果涉及到敏感數(shù)據(jù),必要時(shí),也需要數(shù)據(jù)審批或者是數(shù)據(jù)脫敏。

數(shù)據(jù)生命周期管理

數(shù)據(jù)的生命周期從數(shù)據(jù)規(guī)劃開(kāi)始,中間是一個(gè)包括產(chǎn)生、處理、部署、應(yīng)用、監(jiān)控、存檔、銷(xiāo)毀這幾個(gè)步驟并不斷循環(huán)的過(guò)程。隨著業(yè)務(wù)的發(fā)展,系統(tǒng)的業(yè)務(wù)數(shù)據(jù)類(lèi)型和業(yè)務(wù)規(guī)范不斷變化,一個(gè)完備的數(shù)據(jù)生命周期管理方案還應(yīng)當(dāng)包括對(duì)系統(tǒng)的優(yōu)化調(diào)整,根據(jù)業(yè)務(wù)系統(tǒng)實(shí)際運(yùn)行情況、新的業(yè)務(wù)類(lèi)型和規(guī)范、技術(shù)改進(jìn)等調(diào)整原有的數(shù)據(jù)存儲(chǔ)遷移策略和訪問(wèn)方式,以滿(mǎn)足業(yè)務(wù)系統(tǒng)發(fā)展及新的業(yè)務(wù)規(guī)范需求。數(shù)據(jù)生命周期管理的目的是對(duì)不同階段的數(shù)據(jù)采取不同的管理策略用來(lái)降低數(shù)據(jù)管理運(yùn)營(yíng)成本,并提高數(shù)據(jù)質(zhì)量度,實(shí)現(xiàn)數(shù)據(jù)價(jià)值***化的***目的。

總結(jié)

數(shù)據(jù)質(zhì)量在任何系統(tǒng)當(dāng)中都是十分重要卻容易被忽視的一部分。構(gòu)建完整的數(shù)據(jù)質(zhì)量管理體系,既是支持企業(yè)系統(tǒng)穩(wěn)定運(yùn)行的基本保障,同時(shí)也是企業(yè)進(jìn)行數(shù)字化轉(zhuǎn)型、創(chuàng)新的必備條件。

責(zé)任編輯:未麗燕 來(lái)源: ThoughtWorks中國(guó)
相關(guān)推薦

2011-08-01 10:37:29

軟件項(xiàng)目管理

2023-10-22 11:47:37

大數(shù)據(jù)質(zhì)量管理

2009-06-25 09:50:32

JSF

2020-02-03 16:03:36

疫情思考

2011-11-30 15:57:18

2022-08-23 09:36:25

數(shù)據(jù)遷移

2020-07-14 09:23:49

安全運(yùn)營(yíng)甲方乙方

2017-09-01 12:48:34

DevSecOps安全運(yùn)維

2017-12-21 07:54:07

2019-09-17 09:21:01

2018-06-14 09:35:35

2021-06-10 10:02:19

優(yōu)化緩存性能

2013-04-19 10:01:19

jQueryJS

2021-01-14 23:24:38

incaseforma蠕蟲(chóng)病毒

2024-10-28 09:02:12

2018-07-23 12:03:01

2009-08-27 11:02:22

JavaScript事

2024-12-27 10:51:53

2020-08-20 10:16:56

Golang錯(cuò)誤處理數(shù)據(jù)

2012-12-19 09:36:49

測(cè)試自動(dòng)化測(cè)試
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)