偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

淺談數(shù)據(jù)質(zhì)量管理

大數(shù)據(jù)
大數(shù)據(jù)平臺搭建之初,會優(yōu)先滿足業(yè)務(wù)的使用需求,數(shù)據(jù)質(zhì)量往往是被忽視的一環(huán)。但是隨著業(yè)務(wù)的逐漸穩(wěn)定,數(shù)據(jù)質(zhì)量越來越被人們所重視,千里之堤,潰于蟻穴,糟糕的數(shù)據(jù)質(zhì)量往往就會帶來低效的數(shù)據(jù)開發(fā),不準(zhǔn)確的數(shù)據(jù)分析,最終會導(dǎo)致錯誤的業(yè)務(wù)決策。

Part 01、  什么是數(shù)據(jù)質(zhì)量管理 

數(shù)據(jù)質(zhì)量管理,是DAMA數(shù)據(jù)管理知識體系指南中數(shù)據(jù)治理領(lǐng)域非常重要的一部分(圖1 所示),主要是指對數(shù)據(jù)從計劃、獲取、存儲、共享、維護(hù)、應(yīng)用、消亡生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識別、度量、監(jiān)控、預(yù)警等一列管理活動,并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。

圖1

Part 02、 數(shù)據(jù)質(zhì)量問題原因及評價標(biāo)準(zhǔn) 

數(shù)據(jù)在計劃、獲取、存儲、共享、維護(hù)等各個環(huán)節(jié)都有可能引發(fā)數(shù)據(jù)質(zhì)量問題,主要原因分為幾下幾個方面:

數(shù)據(jù)不完整:由于企業(yè)信息系統(tǒng)的孤立使用,各個業(yè)務(wù)系統(tǒng)或模塊按照各自的需要錄入系統(tǒng),沒有統(tǒng)一的錄入工具和數(shù)據(jù)出口,業(yè)務(wù)系統(tǒng)不需要的信息就不錄,造成同樣的數(shù)據(jù)有不同的信息屬性,再或者取數(shù)動作不規(guī)范,或許某個數(shù)據(jù)本身就是采集過來的,本來就是不完整的,數(shù)據(jù)完整性無法得到保障。

數(shù)據(jù)不合規(guī):沒有統(tǒng)一的數(shù)據(jù)管理平臺和數(shù)據(jù)源頭,數(shù)據(jù)生命周期管理不完整,同時企業(yè)各信息系統(tǒng)的數(shù)據(jù)錄入環(huán)節(jié)過于簡單且手工參與較多,就數(shù)據(jù)本身而言,缺少是否重復(fù)、合法、對錯等校驗環(huán)節(jié),導(dǎo)致各個信息系統(tǒng)的數(shù)據(jù)不夠準(zhǔn)確,格式混亂,各類數(shù)據(jù)難以集成和統(tǒng)一,沒有質(zhì)量控制導(dǎo)致海量數(shù)據(jù)因質(zhì)量過低而難以被利用。

數(shù)據(jù)時效性差:大數(shù)據(jù)項目對數(shù)據(jù)的時效性要求是非常嚴(yán)格的,比如離線項目是每天計算前一天的數(shù)據(jù),如果前一天的源數(shù)據(jù)因為某些原因沒有被及時的傳輸過來,這樣就會嚴(yán)重影響后面指標(biāo)的計算以及報表的生成。

數(shù)據(jù)冗余:各個信息系統(tǒng)針對數(shù)據(jù)的標(biāo)準(zhǔn)規(guī)范不一、編碼規(guī)則不一、校驗標(biāo)準(zhǔn)不一、且部分業(yè)務(wù)系統(tǒng)針對數(shù)據(jù)的驗證標(biāo)準(zhǔn)缺失,造成了企業(yè)頂層視角的數(shù)據(jù)出現(xiàn)“一物多碼,一碼多物”等現(xiàn)象。

數(shù)據(jù)不精確:數(shù)據(jù)的精確性也是指數(shù)據(jù)的準(zhǔn)確性,是指數(shù)據(jù)是否與目標(biāo)值匹配;比如一個訂購金額,如果遠(yuǎn)遠(yuǎn)大于或低于常規(guī)的數(shù)值,那么我們就要懷疑這個的數(shù)據(jù)的精確性不夠。

那么如何判斷數(shù)據(jù)質(zhì)量的優(yōu)劣?從哪些方面可以評估數(shù)據(jù)質(zhì)量?在實踐中,我們可以通過數(shù)據(jù)質(zhì)量評估維度進(jìn)行評估。數(shù)據(jù)質(zhì)量評估維度是數(shù)據(jù)質(zhì)量的特征之一,它們?yōu)槎攘亢凸芾頂?shù)據(jù)的質(zhì)量提供了一種途徑和標(biāo)準(zhǔn)。在一個具體的數(shù)據(jù)質(zhì)量項目中,要選擇最適用于業(yè)務(wù)需求的數(shù)據(jù)質(zhì)量維度進(jìn)行測量,以評價數(shù)據(jù)的質(zhì)量。

在《GB/T36344-信息技術(shù)數(shù)據(jù)質(zhì)量評價指標(biāo)》中,國家標(biāo)準(zhǔn)化管理委員會明確了數(shù)據(jù)質(zhì)量評價指標(biāo)框架如圖2所示。

圖2圖2

  • 規(guī)范性:數(shù)據(jù)符合數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模型、業(yè)務(wù)規(guī)則、元數(shù)據(jù)或權(quán)威參考數(shù)據(jù)的程度。
  • 完整性:按照數(shù)據(jù)規(guī)則要求,數(shù)據(jù)元素被賦予數(shù)值的程度。
  • 準(zhǔn)確性:數(shù)據(jù)準(zhǔn)確表示其所描述的真實實體(實際對象)真實值的程度。
  • 一致性:數(shù)據(jù)與其他特定上下文中使用的數(shù)據(jù)無矛盾的程度。
  • 時效性:數(shù)據(jù)在時間變化中的正確程度。
  • 可訪問性:數(shù)據(jù)能被訪問的程度。

Part 03、目前常用的數(shù)據(jù)質(zhì)量管理工具 

3.1 Apache Griffin

Griffin是一個開源的大數(shù)據(jù)質(zhì)量解決方案, 2016年12月07日進(jìn)入 Apache 孵化,由eBay開源,它支持批處理和流模式兩種數(shù)據(jù)質(zhì)量檢測方式,是一個基于Hadoop和Spark建立的數(shù)據(jù)質(zhì)量服務(wù)平臺 (DQSP),如圖3所示。它提供了一個全面的框架來處理不同的任務(wù),例如定義數(shù)據(jù)質(zhì)量模型、執(zhí)行數(shù)據(jù)質(zhì)量測量、自動化數(shù)據(jù)分析和驗證,以及跨多個數(shù)據(jù)系統(tǒng)的統(tǒng)一數(shù)據(jù)質(zhì)量可視化。

圖3圖3

Griffin由Define、Measure、Analyze三大模塊組成,各個部分的職責(zé)如下:

Define:主要負(fù)責(zé)定義數(shù)據(jù)質(zhì)量統(tǒng)計的維度,比如數(shù)據(jù)質(zhì)量統(tǒng)計的時間跨度、統(tǒng)計的目標(biāo)(源端和目標(biāo)端的數(shù)據(jù)數(shù)量是否一致,數(shù)據(jù)源里某一字段的非空的數(shù)量、不重復(fù)值的數(shù)量、最大值、最小值、top5的值數(shù)量等)。

Measure:主要負(fù)責(zé)執(zhí)行統(tǒng)計任務(wù),生成統(tǒng)計結(jié)果。這一塊主要技術(shù)棧使用的是Livy+ Spark,Spark作為執(zhí)行引擎,Apache Livy基于Spark的開源REST服務(wù),它能夠通過REST的方式將代碼片段或是序列化的二進(jìn)制代碼提交到Spark集群中去執(zhí)行。

Analyze:主要負(fù)責(zé)保存與展示統(tǒng)計結(jié)果。

-現(xiàn)狀分析:

  • Griffin的社區(qū)并不太活躍,現(xiàn)在最新版本還是0.6,網(wǎng)上技術(shù)文檔并不算太多, 擔(dān)心出了問題比較難找到解決方案。
  • 從技術(shù)棧的角度Livy過于小眾,數(shù)據(jù)存儲方面ES的運維對于一個小團(tuán)隊來說也比較麻煩。
  • 針對數(shù)據(jù)檢查任務(wù)的調(diào)度和數(shù)據(jù)檢查結(jié)果的后續(xù)處理方面,Griffin一般還需要和現(xiàn)有的大數(shù)據(jù)調(diào)度平臺打通,也有一定的工作量。

3.2 Apache DolphinScheduler

在2022年4月22日,Apache DolphinScheduler 正式宣布 3.0.0 alpha 版本發(fā)布,此版本中用戶期待已久的數(shù)據(jù)質(zhì)量校驗應(yīng)用功能上線,實現(xiàn)了數(shù)據(jù)質(zhì)量的原生支持,支持在工作流運行前進(jìn)行數(shù)據(jù)質(zhì)量的校驗,可由用戶自定義數(shù)據(jù)質(zhì)量的校驗規(guī)則,實現(xiàn)了任務(wù)運行過程中對數(shù)據(jù)質(zhì)量的嚴(yán)格控制和運行結(jié)果的監(jiān)控,如圖4所示。

圖4圖4

-現(xiàn)狀分析

  • DolphinScheduler作為一個任務(wù)調(diào)度系統(tǒng),具備了執(zhí)行任務(wù)的基礎(chǔ),不需要引入新的組件來提交任務(wù);
  • 數(shù)據(jù)質(zhì)量檢查可以作為一種任務(wù)類型無縫接入到工作流當(dāng)中;
  • 無需新增其他服務(wù)來增加運維的難度;
  • 可以很好地與社區(qū)共建開源。

基于以上現(xiàn)狀,DolphinScheduler是一款比較適合與業(yè)務(wù)相結(jié)合進(jìn)行二次開發(fā)的數(shù)據(jù)質(zhì)量工具,但是目前僅適用于離線數(shù)據(jù)驗證。

3.3 Deequ

Deequ是一個來自AWS實驗室的開源工具,可以用來驗證許多大型生產(chǎn)數(shù)據(jù)集的質(zhì)量。數(shù)據(jù)生產(chǎn)者可以通過添加和編輯數(shù)據(jù)質(zhì)量約束,使得系統(tǒng)定期計算數(shù)據(jù)質(zhì)量指標(biāo)。當(dāng)數(shù)據(jù)質(zhì)量約束成功時將數(shù)據(jù)集發(fā)布給消費者,錯誤時可停止數(shù)據(jù)集的發(fā)布,并通知生產(chǎn)者采取行動,這樣數(shù)據(jù)質(zhì)量問題就不會傳播到消費者的數(shù)據(jù)管道,從而減少它們的爆炸半徑。主要組件如圖5所示。

圖5圖5

  • 指標(biāo)計算(Metrics Computation),Deequ 計算數(shù)據(jù)質(zhì)量指標(biāo),即完整性、最大值或相關(guān)性等統(tǒng)計數(shù)據(jù)。Deequ 使用 Spark 從 Amazon S3 等源中讀取數(shù)據(jù),并通過一組優(yōu)化的聚合查詢計算指標(biāo)。
  • 約束驗證(Constraint Verification),作為用戶,可以專注于定義一組要驗證的數(shù)據(jù)質(zhì)量約束,Deequ負(fù)責(zé)利用該約束在數(shù)據(jù)集上進(jìn)行計算,進(jìn)而生成數(shù)據(jù)質(zhì)量報告,其中包含約束驗證的結(jié)果。
  • 約束建議(Constraint Suggestion),可以選擇自定義所需的數(shù)據(jù)質(zhì)量約束,或使用自動約束建議方法來分析數(shù)據(jù)以推斷有用的約束。

-現(xiàn)狀分析:

  • Deequ和spark關(guān)聯(lián)密切,使用spark技術(shù)框架的可以考慮。
  • 社區(qū)較為活躍,使用的較多。

3.4 Great Expectations

Great expectations是一個python的工具包,Python近幾年在數(shù)據(jù)分析領(lǐng)域大放異彩,而Python本身對于數(shù)據(jù)質(zhì)量問題的解決一直是一個大問題。而Great expectations正好彌補了這方面的不足。對于一些對Python支持良好的公司,可以優(yōu)先選擇Great expectations來進(jìn)行數(shù)據(jù)質(zhì)量的解決方案建設(shè)。

-現(xiàn)狀分析:

  • 版本更新快,Bug修復(fù)也快。
  • 社區(qū)非?;钴S,值得長期關(guān)注。
責(zé)任編輯:龐桂玉 來源: 移動Labs
相關(guān)推薦

2009-07-22 15:47:05

軟件質(zhì)量管理

2018-07-11 14:06:04

數(shù)據(jù)質(zhì)量數(shù)據(jù)治理數(shù)據(jù)清洗

2022-08-29 10:58:50

Kubernetes應(yīng)用質(zhì)量管理

2012-01-06 14:10:42

數(shù)據(jù)質(zhì)量管理大數(shù)據(jù)數(shù)據(jù)管理

2022-09-14 12:26:13

質(zhì)量管理企業(yè)關(guān)系管理

2017-12-15 15:38:00

2012-04-20 09:35:53

大數(shù)據(jù)數(shù)據(jù)中心數(shù)據(jù)質(zhì)量管理

2011-05-03 09:34:50

Sonar

2023-02-06 16:50:46

數(shù)據(jù)治理工具

2023-12-29 08:00:00

2012-03-15 17:11:51

JavaSonar

2011-01-07 10:43:45

應(yīng)用軟件質(zhì)量管理

2021-09-23 17:21:19

網(wǎng)易數(shù)據(jù)質(zhì)量大數(shù)據(jù)平臺

2023-10-29 16:44:39

數(shù)據(jù)質(zhì)量管理開源

2011-03-01 10:29:32

互聯(lián)網(wǎng)

2023-12-26 08:37:41

2009-10-27 11:31:00

系統(tǒng)集成項目管理師試題答案

2011-07-13 18:44:32

SEO

2013-09-24 15:14:46

普元軟件
點贊
收藏

51CTO技術(shù)棧公眾號