偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<button id="iyazk"></button>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

一篇文章說(shuō)清楚如何提升大數(shù)據(jù)質(zhì)量

作者：蘇槐 2020-04-15 16:34:48

新聞大數(shù)據(jù)

正如大家所知，大數(shù)據(jù)建設(shè)的目標(biāo)是為了融合組織數(shù)據(jù)，增加組織的洞察力和競(jìng)爭(zhēng)力，實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新和產(chǎn)業(yè)升級(jí)。而提高數(shù)據(jù)質(zhì)量是為了鞏固大數(shù)據(jù)建設(shè)成果，解決大數(shù)據(jù)建設(shè)成果不能滿足業(yè)務(wù)要求的問(wèn)題。

[[322322]]

正如大家所知，大數(shù)據(jù)建設(shè)的目標(biāo)是為了融合組織數(shù)據(jù)，增加組織的洞察力和競(jìng)爭(zhēng)力，實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新和產(chǎn)業(yè)升級(jí)。而提高數(shù)據(jù)質(zhì)量是為了鞏固大數(shù)據(jù)建設(shè)成果，解決大數(shù)據(jù)建設(shè)成果不能滿足業(yè)務(wù)要求的問(wèn)題。并且，數(shù)據(jù)質(zhì)量問(wèn)題不僅僅是一個(gè)技術(shù)問(wèn)題，它也可能出現(xiàn)在業(yè)務(wù)和管理的過(guò)程中。所以，要想提高數(shù)據(jù)質(zhì)量，就必須懂行業(yè)、懂組織、懂業(yè)務(wù)。當(dāng)然，正如“數(shù)據(jù)博士”Jim barker 所說(shuō)，我們可以簡(jiǎn)單地通過(guò)引入一些工具和規(guī)則就可以解決 80% 的問(wèn)題，也可以引入一個(gè)復(fù)雜的系統(tǒng)工程來(lái)解決 100% 的質(zhì)量問(wèn)題，取決于我們希望達(dá)到什么樣的質(zhì)量標(biāo)準(zhǔn)。

借此機(jī)會(huì)，我也很期待各位朋友能夠與我們分享你遇到的數(shù)據(jù)質(zhì)量問(wèn)題、故事和解決方法，這將對(duì)我們的研究和研發(fā)工作帶來(lái)莫大的幫助。

為了盡量說(shuō)清楚數(shù)據(jù)質(zhì)量問(wèn)題的來(lái)龍去脈和解決方法，篇幅較長(zhǎng)，我將它分為以下幾個(gè)部分：

大數(shù)據(jù)行業(yè)背景和現(xiàn)狀
大數(shù)據(jù)行業(yè)發(fā)展過(guò)程中出現(xiàn)的問(wèn)題
國(guó)家標(biāo)準(zhǔn)中的數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)
數(shù)據(jù)質(zhì)量出現(xiàn)的原因
解決數(shù)據(jù)質(zhì)量問(wèn)題的思路

1.大數(shù)據(jù)行業(yè)背景和現(xiàn)狀

2014 年大數(shù)據(jù)被寫(xiě)入政府工作報(bào)告，成為大數(shù)據(jù)政策元年，大數(shù)據(jù)開(kāi)始成為熱點(diǎn)；2015 年國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展的行動(dòng)綱要》，國(guó)家層面開(kāi)始“大數(shù)據(jù)”頂層設(shè)計(jì)；2016 年工信部發(fā)布《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃（2016 年 -2020 年）》，大數(shù)據(jù)上升為國(guó)家戰(zhàn)略；2019 年政府工作報(bào)告提出加強(qiáng)新一代信息基礎(chǔ)設(shè)施建設(shè)（新基建），我們也逐步從“數(shù)據(jù)大國(guó)”邁向“數(shù)據(jù)強(qiáng)國(guó)”。

ä¸€ç¯‡æ–‡ç« è¯´æ¸…æ¥šå¦‚ä½•æå‡å¤§æ•°æ®è´¨é‡

根據(jù)華為公司在 2019 年對(duì)其自身客戶關(guān)于數(shù)字化轉(zhuǎn)型的一項(xiàng)調(diào)查，只有 5% 的企業(yè)處于觀望，31% 的企業(yè)在規(guī)劃準(zhǔn)備，36% 的企業(yè)已經(jīng)開(kāi)始先期試點(diǎn)，26% 的企業(yè)已經(jīng)大規(guī)模推行，數(shù)據(jù)字化轉(zhuǎn)型已經(jīng)進(jìn)入深水期。這意味著 95% 的企業(yè)已經(jīng)開(kāi)始數(shù)字化轉(zhuǎn)弄的工作。

大數(shù)據(jù)經(jīng)過(guò) 6 年的快速發(fā)展期，已經(jīng)比較明顯地分為兩個(gè)階段，第一階段是大數(shù)據(jù)歸集、治理和價(jià)值探索，第二階段是大數(shù)據(jù)價(jià)值體現(xiàn)。當(dāng)下，部分政府和企業(yè)已經(jīng)在第一階段中完成了數(shù)據(jù)的歸集和治理，大步邁入數(shù)據(jù)價(jià)值體現(xiàn)的第二階段，努力實(shí)現(xiàn)組織的業(yè)務(wù)創(chuàng)新和產(chǎn)業(yè)升級(jí)。

ä¸€ç¯‡æ–‡ç« è¯´æ¸…æ¥šå¦‚ä½•æå‡å¤§æ•°æ®è´¨é‡

然而，大數(shù)據(jù)發(fā)展過(guò)程中仍然存在不少困難和問(wèn)題，缺少整體規(guī)劃和實(shí)施路徑，缺少高層支持，部門(mén)壁壘難以打破，業(yè)務(wù)價(jià)值體現(xiàn)不足，技術(shù)能力不足，等等。就我個(gè)人來(lái)看，這里最核心的一個(gè)問(wèn)題就是業(yè)務(wù)價(jià)值體現(xiàn)不足，沒(méi)有業(yè)務(wù)價(jià)值的支撐，就不會(huì)有各部門(mén)領(lǐng)導(dǎo)的支持，更不會(huì)有高層的支持和資金的支持。所以，數(shù)字化轉(zhuǎn)型一定要以價(jià)值為導(dǎo)向，在一個(gè)“點(diǎn)”上做出實(shí)際效果以后再進(jìn)行“面”上的拓展。

2. 大數(shù)據(jù)發(fā)展過(guò)程中的質(zhì)量問(wèn)題

要體現(xiàn)數(shù)據(jù)價(jià)值，前提就是數(shù)據(jù)質(zhì)量的保障，質(zhì)量沒(méi)有得到 100% 保證的數(shù)據(jù)是很難體現(xiàn)出業(yè)務(wù)價(jià)值的，如果基于這些有問(wèn)題的數(shù)據(jù)做決策支持，或做業(yè)務(wù)辦理，將會(huì)得到災(zāi)難性的結(jié)果，讓領(lǐng)導(dǎo)層和數(shù)據(jù)使用方對(duì)大數(shù)據(jù)失去信心。

根據(jù)哈工大王志宏先生在科技導(dǎo)報(bào)發(fā)表的研究表明，如果沒(méi)有良好的數(shù)據(jù)質(zhì)量，大數(shù)據(jù)將會(huì)對(duì)決策產(chǎn)生誤導(dǎo)，甚至產(chǎn)生有害的結(jié)果。

在數(shù)倉(cāng)建設(shè)上，50% 的數(shù)據(jù)倉(cāng)庫(kù)因數(shù)據(jù)質(zhì)量而被取消或延遲。
在經(jīng)濟(jì)損失上，數(shù)據(jù)錯(cuò)誤每年對(duì)美國(guó)工業(yè)界造成的經(jīng)濟(jì)損失約占 GDP 的 6%。
在醫(yī)療事故上，根據(jù)美國(guó)醫(yī)療委員會(huì)的統(tǒng)計(jì)，由于數(shù)據(jù)錯(cuò)誤引起的醫(yī)療事故僅在美國(guó)每年就導(dǎo)致高達(dá) 98000 名患者喪生。
在電信產(chǎn)業(yè)上，數(shù)據(jù)錯(cuò)誤經(jīng)常導(dǎo)致故障排除的延誤、多余設(shè)備租用和服務(wù)費(fèi)收取錯(cuò)誤，損害了企業(yè)信譽(yù)甚至?xí)虼耸ズ芏嘤脩簟?/li>
在商業(yè)上，美國(guó)零售業(yè)每年僅因標(biāo)價(jià)錯(cuò)誤就損失 25 億美元。
在金融企業(yè)中：因數(shù)據(jù)質(zhì)量問(wèn)題導(dǎo)致的信用卡欺詐失察在 2008 年即造成 48 億美元的損失。

被譽(yù)為“數(shù)據(jù)博士”的 Jim barker，用一個(gè)簡(jiǎn)單的醫(yī)學(xué)概念來(lái)定義兩種類(lèi)型的數(shù)據(jù)質(zhì)量問(wèn)題。

第一類(lèi)數(shù)據(jù)質(zhì)量問(wèn)題是比較簡(jiǎn)單而明顯的問(wèn)題，我們可以使用自動(dòng)化工具檢測(cè)到。
第二類(lèi)數(shù)據(jù)質(zhì)量問(wèn)題是非常隱秘的問(wèn)題，大家都知道它是存在的，但它看不見(jiàn)摸不著，更處理不了，因?yàn)樗枰旁谔厥馇榫巢拍鼙粰z測(cè)到。

它們之間的區(qū)別簡(jiǎn)而言之可歸納為如下幾點(diǎn)：

第一類(lèi)數(shù)據(jù)質(zhì)量問(wèn)題首先需要“know what”才能來(lái)檢測(cè)數(shù)據(jù)的完整性、一致性、唯一性和有效性。這些屬性靠數(shù)據(jù)質(zhì)量軟件甚至手動(dòng)很好地找到。你不需要有很多的背景知識(shí)，或者數(shù)據(jù)分析經(jīng)驗(yàn)。只要按照 4 個(gè)屬性驗(yàn)證它的存在，就可以判定它錯(cuò)誤的。例如，如果我們?cè)谛詣e領(lǐng)域插入一個(gè) 3，我們就可以判定它到底是不是一個(gè)有效值。
第二類(lèi)數(shù)據(jù)質(zhì)量問(wèn)題需要“know why”來(lái)檢測(cè)時(shí)效性、一致性和準(zhǔn)確性屬性。需要研究能力、洞察力和經(jīng)驗(yàn)，而不是簡(jiǎn)簡(jiǎn)單單就可以找得出來(lái)的。這些數(shù)據(jù)集經(jīng)常從表面上看起來(lái)沒(méi)有問(wèn)題。但是問(wèn)題往往存在于細(xì)節(jié)中，需要時(shí)間去發(fā)現(xiàn)。Jim 舉的例子就是一份退休人員的雇傭記錄，如果我們不知道他們?cè)缫淹诵莸脑?，是看不出?lái)這個(gè)數(shù)據(jù)是錯(cuò)的。

所以，解決這些數(shù)據(jù)質(zhì)量問(wèn)題的關(guān)鍵就是需要一個(gè)復(fù)雜的、策略化的方法，而非孤立的、片面的來(lái)看問(wèn)題。一旦數(shù)據(jù)質(zhì)量不好，我們就需要尋求自動(dòng)化與人工的雙重方式才能解決這個(gè)問(wèn)題了。

根據(jù) Jim barker 的經(jīng)驗(yàn)：

第一類(lèi)基本涵蓋了 80% 的數(shù)據(jù)質(zhì)量問(wèn)題，但只消耗了我們 20% 的經(jīng)費(fèi)成本。

第二類(lèi)數(shù)據(jù)問(wèn)題往往需要多方的輸入，以便發(fā)現(xiàn)、標(biāo)記和根除。雖然我們客戶關(guān)系管理系統(tǒng)中的每個(gè)人都有購(gòu)買(mǎi)日期，但購(gòu)買(mǎi)日期可能不正確，或者與發(fā)票或發(fā)貨清單不符。只有專家才能通過(guò)仔細(xì)核查其內(nèi)容來(lái)解決問(wèn)題并手動(dòng)改進(jìn)客戶關(guān)系管理系統(tǒng)。

第一類(lèi)數(shù)據(jù)質(zhì)量的挑戰(zhàn)可以快速解決，但第二類(lèi)問(wèn)題提出了一個(gè)挑戰(zhàn)，必須依靠人類(lèi)的專業(yè)知識(shí)才可以解決。后面會(huì)介紹龍石數(shù)據(jù)的做法，我們可以簡(jiǎn)單地通過(guò)引入一些工具和規(guī)則就可以解決 80% 的問(wèn)題，也可以引入一個(gè)復(fù)雜的系統(tǒng)工程來(lái)解決 100% 的質(zhì)量問(wèn)題，取決于我們希望達(dá)到什么樣的質(zhì)量標(biāo)準(zhǔn)。

3. 國(guó)家標(biāo)準(zhǔn)中的數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)

目前為止，最權(quán)威的標(biāo)準(zhǔn)是由全國(guó)信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)提出的數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)（GB/T36344-2018 ICS 35.24.01），它包含以下幾個(gè)方面：

ä¸€ç¯‡æ–‡ç« è¯´æ¸…æ¥šå¦‚ä½•æå‡å¤§æ•°æ®è´¨é‡

規(guī)范性：指的是數(shù)據(jù)符合數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模型、業(yè)務(wù)規(guī)則、元數(shù)據(jù)或權(quán)威參考數(shù)據(jù)的程度。例如 GB/T 2261.1-2003 中定義的性別代碼標(biāo)準(zhǔn)是 0 表示未知性別，1 表示男，2 表示女，9 表示未說(shuō)明。GB 11643-1999 中定義的居民身份證編碼規(guī)則是 6 位數(shù)字地址碼，8 位數(shù)字出生日期碼，三位數(shù)字順序碼，一位數(shù)字校驗(yàn)碼。

完整性： 指的是按照數(shù)據(jù)規(guī)則要求，數(shù)據(jù)元素被賦予數(shù)值的程度。例如互聯(lián)網(wǎng) + 監(jiān)管主題庫(kù)中，監(jiān)管對(duì)象為特種設(shè)備時(shí)，監(jiān)管對(duì)象標(biāo)識(shí)必須包含企業(yè)統(tǒng)一社會(huì)信用代碼 + 產(chǎn)品品牌 + 設(shè)備編碼，監(jiān)管對(duì)象為藥品時(shí)，監(jiān)管對(duì)象標(biāo)識(shí)必須包含藥品名稱 + 批準(zhǔn)文號(hào) + 生產(chǎn)批號(hào)。

準(zhǔn)確性：指的是數(shù)據(jù)準(zhǔn)確表示其所描述的真實(shí)實(shí)體（實(shí)際對(duì)象）真實(shí)值的程度。例如互聯(lián)網(wǎng) + 監(jiān)管行政檢查行為中的行政相對(duì)人為公民時(shí)，證件類(lèi)型和證件號(hào)碼只能是身份證號(hào)碼。

一致性：指的是數(shù)據(jù)與其它特定上下文中使用的數(shù)據(jù)無(wú)矛盾的程度。例如許可證信息與法人基礎(chǔ)信息是否一致，檢查計(jì)劃與檢查記錄是否匹配。

時(shí)效性：指的是數(shù)據(jù)在時(shí)間變化中的正確程度。例如企業(yè)住址搬遷后，企業(yè)法人庫(kù)中的住址是否及時(shí)更新了。營(yíng)業(yè)執(zhí)照已經(jīng)辦理，許可照辦理時(shí)是否可以及時(shí)獲取到營(yíng)業(yè)執(zhí)照信息。

可訪問(wèn)性：指的是數(shù)據(jù)能被訪問(wèn)的程度。

除此之外，還有一些業(yè)內(nèi)認(rèn)可的補(bǔ)充指標(biāo)，并且在質(zhì)量工作的實(shí)際開(kāi)展中，可以根據(jù)數(shù)據(jù)的實(shí)際情況和業(yè)務(wù)要求進(jìn)行擴(kuò)展，例如：

唯一性：描述數(shù)據(jù)是否存在重復(fù)記錄（國(guó)標(biāo)歸在準(zhǔn)確性中）。

穩(wěn)定性：描述數(shù)據(jù)的波動(dòng)是否是穩(wěn)定的，是否在其有效范圍內(nèi)。

可信性：描述數(shù)據(jù)來(lái)源的權(quán)威性、數(shù)據(jù)的真實(shí)性、數(shù)據(jù)產(chǎn)生的時(shí)間近、鮮活度高。

4. 數(shù)據(jù)質(zhì)量問(wèn)題出現(xiàn)的原因

大數(shù)據(jù)的建設(shè)和管理是一個(gè)專業(yè)且復(fù)雜的工程，涵蓋了業(yè)務(wù)梳理、標(biāo)準(zhǔn)制定、元數(shù)據(jù)管理、數(shù)據(jù)模型管理、數(shù)據(jù)匯聚、清洗加工、中心存儲(chǔ)、資源目錄編制、共享交換、數(shù)據(jù)維護(hù)、數(shù)據(jù)失效等等過(guò)程。在任何一個(gè)環(huán)節(jié)中出錯(cuò)，都將導(dǎo)致數(shù)據(jù)的錯(cuò)誤。甚至，源頭數(shù)據(jù)本身就是錯(cuò)誤的。所以，數(shù)據(jù)質(zhì)量問(wèn)題不僅僅是一個(gè)技術(shù)問(wèn)題，它也可能出現(xiàn)在業(yè)務(wù)和管理的過(guò)程中。

ä¸€ç¯‡æ–‡ç« è¯´æ¸…æ¥šå¦‚ä½•æå‡å¤§æ•°æ®è´¨é‡

數(shù)據(jù)質(zhì)量的技術(shù)因素：

數(shù)據(jù)標(biāo)準(zhǔn)制定的質(zhì)量問(wèn)題：數(shù)據(jù)輸入規(guī)范不統(tǒng)一，不同的業(yè)務(wù)部門(mén)、不同的時(shí)間、甚至在處理相同業(yè)務(wù)的時(shí)候，由于數(shù)據(jù)輸入規(guī)范不同，造成數(shù)據(jù)沖突或矛盾。如果在數(shù)據(jù)的生成過(guò)程中包含主觀判斷的結(jié)果，必然會(huì)導(dǎo)致數(shù)據(jù)中含有主觀的偏見(jiàn)因素。并且，不是所有行業(yè)都有公認(rèn)可信的數(shù)據(jù)標(biāo)準(zhǔn)，而組織標(biāo)準(zhǔn)制定過(guò)程中容易出現(xiàn)數(shù)據(jù)元描述及理解錯(cuò)誤，代碼碼集定義不正確、不完整等情況。
數(shù)據(jù)模型設(shè)計(jì)的質(zhì)量問(wèn)題：由于對(duì)業(yè)務(wù)理解的不到位或技術(shù)實(shí)踐水平不到位，數(shù)據(jù)庫(kù)表結(jié)構(gòu)、數(shù)據(jù)庫(kù)約束條件、數(shù)據(jù)校驗(yàn)規(guī)則的設(shè)計(jì)不合理，造成數(shù)據(jù)存儲(chǔ)混亂、重復(fù)、不完整、不準(zhǔn)確。
數(shù)據(jù)源本身存在質(zhì)量問(wèn)題：在生產(chǎn)系統(tǒng)中有些數(shù)據(jù)就存在不規(guī)范、不完整、不準(zhǔn)確、不一致等問(wèn)題，而采集過(guò)程沒(méi)有對(duì)這些問(wèn)題做清洗加工處理，或清洗加工的程序代碼不正確。
數(shù)據(jù)梳理過(guò)程的質(zhì)量問(wèn)題：在數(shù)據(jù)采集之前，需要梳理組織機(jī)構(gòu)、業(yè)務(wù)事項(xiàng)、信息系統(tǒng)、數(shù)據(jù)資源清單等信息，那么對(duì)業(yè)務(wù)的理解不到位，將造成梳理報(bào)告的不完整或不正確。
數(shù)據(jù)采集過(guò)程的質(zhì)量問(wèn)題：采集點(diǎn)、采集頻率、采集內(nèi)容、映射關(guān)系等采集參數(shù)和流程設(shè)置的不正確，數(shù)據(jù)采集接口效率低，導(dǎo)致的數(shù)據(jù)采集失敗、數(shù)據(jù)丟失、數(shù)據(jù)映射和轉(zhuǎn)換失敗。
數(shù)據(jù)清洗加工的質(zhì)量問(wèn)題：數(shù)據(jù)清洗規(guī)則、數(shù)據(jù)轉(zhuǎn)換規(guī)則、數(shù)據(jù)裝載規(guī)則配置有問(wèn)題，甚至未按照數(shù)據(jù)標(biāo)準(zhǔn)開(kāi)展相應(yīng)的清洗加工工作，自由發(fā)揮的空間過(guò)大。并且在數(shù)據(jù)匯聚的過(guò)程中，沒(méi)有及時(shí)建立數(shù)據(jù)的相關(guān)性，導(dǎo)致后期很難補(bǔ)充完善。

數(shù)據(jù)質(zhì)量的業(yè)務(wù)因素：

業(yè)務(wù)理解不到位：數(shù)據(jù)的業(yè)務(wù)描述、業(yè)務(wù)規(guī)則、相關(guān)性分析不到位，導(dǎo)致技術(shù)無(wú)法構(gòu)建出合理、正確的數(shù)據(jù)模型。
業(yè)務(wù)流程的變更：業(yè)務(wù)流程一變，數(shù)據(jù)模型設(shè)計(jì)、數(shù)據(jù)錄入、數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)清洗、數(shù)據(jù)存儲(chǔ)等環(huán)節(jié)都會(huì)受到影響，稍有不慎就會(huì)導(dǎo)致數(shù)據(jù)質(zhì)量問(wèn)題的發(fā)生。
數(shù)據(jù)輸入不規(guī)范：常見(jiàn)的數(shù)據(jù)錄入問(wèn)題，如：大小寫(xiě)、全半角、特殊字符等一不小心就會(huì)錄錯(cuò)，甚至還會(huì)將數(shù)據(jù)輸入到錯(cuò)誤的字段中，造成“張冠李戴”。人工錄入的數(shù)據(jù)質(zhì)量與錄數(shù)據(jù)的業(yè)務(wù)人員密切相關(guān)，錄數(shù)據(jù)的人工作嚴(yán)謹(jǐn)、認(rèn)真，數(shù)據(jù)質(zhì)量就相對(duì)較好，反之就較差。
業(yè)務(wù)系統(tǒng)煙囪林立：過(guò)去 20 年中，只要是稍大一點(diǎn)的企業(yè)和政府部門(mén)，都建設(shè)了一批信息化系統(tǒng)來(lái)解決業(yè)務(wù)問(wèn)題，但也導(dǎo)致了如今信息化整合的痛點(diǎn)和困難，變先發(fā)優(yōu)勢(shì)為數(shù)據(jù)困境。
數(shù)據(jù)作假：操作人員為了提高或降低考核指標(biāo)，對(duì)一些數(shù)據(jù)進(jìn)行處理，使得數(shù)據(jù)真實(shí)性無(wú)法保證。

數(shù)據(jù)質(zhì)量的管理因素：

人才缺乏：組織以自身的業(yè)務(wù)發(fā)展的主要原則組建團(tuán)隊(duì)，數(shù)據(jù)建設(shè)則依賴于外部服務(wù)公司，而自身沒(méi)有建立相應(yīng)的管理手段和監(jiān)督機(jī)制，從而無(wú)法準(zhǔn)確判斷數(shù)據(jù)項(xiàng)目的建設(shè)成效。
流程管理不完善：缺乏有效的數(shù)據(jù)質(zhì)量保障機(jī)制和問(wèn)題處理機(jī)制，數(shù)據(jù)質(zhì)量問(wèn)題從發(fā)現(xiàn)、指派、處理、優(yōu)化沒(méi)有一個(gè)統(tǒng)一的流程和制度支撐，數(shù)據(jù)質(zhì)量問(wèn)題無(wú)法閉環(huán)。
成員意識(shí)不開(kāi)放：組織管理缺乏數(shù)據(jù)思維，沒(méi)有認(rèn)識(shí)到數(shù)據(jù)質(zhì)量的重要性，重系統(tǒng)而輕數(shù)據(jù)，認(rèn)為系統(tǒng)是萬(wàn)能的，數(shù)據(jù)質(zhì)量差些也沒(méi)關(guān)系。組織成員沒(méi)有從組織戰(zhàn)略的視角來(lái)看待數(shù)據(jù)資產(chǎn)，而把數(shù)據(jù)看成是創(chuàng)造它的部門(mén)的資產(chǎn)，從而導(dǎo)致數(shù)據(jù)冗余、數(shù)據(jù)不一致、數(shù)據(jù)割裂，從而導(dǎo)致數(shù)據(jù)價(jià)值難以發(fā)掘。
獎(jiǎng)懲機(jī)制不明確：沒(méi)有明確數(shù)據(jù)歸口管理部門(mén)或崗位，缺乏數(shù)據(jù)認(rèn)責(zé)機(jī)制，出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題找不到權(quán)威源頭或找不到負(fù)責(zé)人。缺乏數(shù)據(jù)規(guī)劃，沒(méi)有明確的數(shù)據(jù)質(zhì)量目標(biāo)，沒(méi)有制定數(shù)據(jù)質(zhì)量相關(guān)的政策和制度。

5. 如何解決質(zhì)量問(wèn)題

如前所述，大數(shù)據(jù)的建設(shè)和管理是一個(gè)專業(yè)且復(fù)雜的工程，涵蓋了業(yè)務(wù)梳理、標(biāo)準(zhǔn)制定、元數(shù)據(jù)管理、數(shù)據(jù)模型管理、數(shù)據(jù)匯聚、清洗加工、中心存儲(chǔ)、資源目錄編制、共享交換、數(shù)據(jù)維護(hù)、數(shù)據(jù)失效等等過(guò)程。中間任何一個(gè)環(huán)節(jié)出問(wèn)題，都將導(dǎo)致數(shù)據(jù)質(zhì)量問(wèn)題。

大部分大型組織經(jīng)過(guò)大數(shù)據(jù)建設(shè)，已經(jīng)獲得比較好的數(shù)據(jù)建設(shè)成果，也有了比較可觀的數(shù)據(jù)量的積累，但將這些數(shù)據(jù)直接拿來(lái)支撐業(yè)務(wù)的辦理卻是一個(gè)很大的風(fēng)險(xiǎn)，原因就是只要一筆數(shù)據(jù)不正確，都可能帶來(lái)很大的業(yè)務(wù)風(fēng)險(xiǎn)，導(dǎo)致客戶的報(bào)怨，這也正是業(yè)務(wù)部門(mén)對(duì)大數(shù)據(jù)建設(shè)成果報(bào)有懷疑態(tài)度的重要原因。龍石數(shù)據(jù)根據(jù)多年數(shù)據(jù)治理和數(shù)據(jù)質(zhì)量實(shí)踐經(jīng)驗(yàn)，根據(jù)大數(shù)據(jù)建設(shè)項(xiàng)目的執(zhí)行過(guò)程，將它分為事前預(yù)防、事中監(jiān)控、事后改善三個(gè)階段。

ä¸€ç¯‡æ–‡ç« è¯´æ¸…æ¥šå¦‚ä½•æå‡å¤§æ•°æ®è´¨é‡

事前預(yù)防

制定質(zhì)量管理機(jī)制：基于數(shù)據(jù)管理的復(fù)雜性和誘因的多重性特點(diǎn)，解決數(shù)據(jù)質(zhì)量問(wèn)題僅僅依靠一個(gè)技術(shù)工具是不夠的，我們需要建立長(zhǎng)效工作機(jī)制。即根據(jù)組織特點(diǎn)，制定符合自身環(huán)境的工作制度，制定每個(gè)環(huán)節(jié)的工作流程，規(guī)定各個(gè)參與方的責(zé)任，確定各項(xiàng)數(shù)據(jù)的權(quán)威部門(mén)，制定數(shù)據(jù)質(zhì)量指標(biāo)，制定數(shù)據(jù)質(zhì)量修復(fù)流程等等。
制定數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)：數(shù)據(jù)標(biāo)準(zhǔn)成功定義的與否，直接決定了大數(shù)據(jù)建設(shè)的成果和數(shù)據(jù)質(zhì)量的高低，需要在融合國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)和地方標(biāo)準(zhǔn)的基礎(chǔ)上，融合組織自身的業(yè)務(wù)特色需求。
制定質(zhì)量監(jiān)測(cè)模型：數(shù)據(jù)質(zhì)量模型代表的是業(yè)務(wù)需求，它是從業(yè)務(wù)需求的角度而描述出來(lái)的質(zhì)量需求。
制定質(zhì)量監(jiān)測(cè)規(guī)則：數(shù)據(jù)監(jiān)測(cè)規(guī)則代表的具體的質(zhì)量檢測(cè)手段，它是從技術(shù)角度來(lái)描述數(shù)據(jù)質(zhì)量要求是如何被滿足的，包括規(guī)范性、完整性、準(zhǔn)確性、致性、時(shí)效性、可訪問(wèn)性，等等。

事中監(jiān)控

監(jiān)控原始數(shù)據(jù)質(zhì)量：數(shù)據(jù)采集工作從數(shù)據(jù)源頭獲取最原始的數(shù)據(jù)，在數(shù)據(jù)采集過(guò)程中將數(shù)據(jù)分為“好數(shù)據(jù)”“壞數(shù)據(jù)”，“好數(shù)據(jù)”入庫(kù)，“壞數(shù)據(jù)”則反饋給源頭修復(fù)，因?yàn)閿?shù)據(jù)來(lái)源部門(mén)最懂這些數(shù)據(jù)，也最能在源頭上把數(shù)據(jù)問(wèn)題徹底修復(fù)掉。
監(jiān)控?cái)?shù)據(jù)中心質(zhì)量：經(jīng)過(guò)各種采集、清洗、加工過(guò)程，數(shù)據(jù)被存入數(shù)據(jù)倉(cāng)庫(kù)中，這些數(shù)據(jù)也將被業(yè)務(wù)部門(mén)使用，所以，對(duì)于這些成果數(shù)據(jù)的質(zhì)量監(jiān)控和修復(fù)則猶為重要。對(duì)于這類(lèi)數(shù)據(jù)問(wèn)題，我們可能使用簡(jiǎn)單的空值檢查、規(guī)范性檢查、值域檢查、邏輯檢查、一致性檢查、等等規(guī)則就可以檢查出來(lái)，也可能需要諸如多源比較、數(shù)據(jù)佐證、數(shù)據(jù)探索、波動(dòng)檢查、離群檢查等等方法才可以檢查出來(lái)。
反饋數(shù)據(jù)質(zhì)量問(wèn)題：數(shù)據(jù)質(zhì)量監(jiān)控過(guò)程中，會(huì)發(fā)現(xiàn)兩類(lèi)問(wèn)題，一類(lèi)是源頭的數(shù)據(jù)質(zhì)量問(wèn)題，一類(lèi)是數(shù)據(jù)中心的數(shù)據(jù)質(zhì)量問(wèn)題，數(shù)據(jù)質(zhì)量團(tuán)隊(duì)需要將這些問(wèn)題及時(shí)反饋給源頭部門(mén)和數(shù)據(jù)倉(cāng)庫(kù)建設(shè)團(tuán)隊(duì)。
考核數(shù)據(jù)質(zhì)量考核：數(shù)據(jù)質(zhì)量的考核是為了能夠引起各個(gè)參與部門(mén)和參與團(tuán)隊(duì)對(duì)數(shù)據(jù)質(zhì)量的重視，需要及時(shí)統(tǒng)計(jì)分析各種數(shù)據(jù)質(zhì)量問(wèn)題，并制定出相應(yīng)的應(yīng)對(duì)措施。

事后改善

修復(fù)數(shù)據(jù)質(zhì)量問(wèn)題：發(fā)現(xiàn)質(zhì)量問(wèn)題不是最終的目標(biāo)，我們?nèi)砸⑾嚓P(guān)的流程和工具，通過(guò)手工、工單、自動(dòng)化等等手段將質(zhì)量問(wèn)題修復(fù)掉，從而為業(yè)務(wù)創(chuàng)新提供可靠的數(shù)據(jù)支撐。
收集數(shù)據(jù)質(zhì)量需求：通過(guò)數(shù)據(jù)中心的建設(shè)，質(zhì)量問(wèn)題的修復(fù)，必然能夠促進(jìn)數(shù)據(jù)的應(yīng)用，我們?nèi)砸⑼〞车臄?shù)據(jù)質(zhì)量反饋通道，讓各個(gè)部門(mén)參與到數(shù)據(jù)質(zhì)量的再次完善中來(lái)，從而形成建設(shè)、應(yīng)用和反饋的良性循環(huán)。
完善質(zhì)量管理制度：制度和流程的建設(shè)并不是一蹴而就的，我們要在數(shù)據(jù)建設(shè)和質(zhì)量完善的過(guò)程中，結(jié)合自身組織結(jié)構(gòu)和業(yè)務(wù)特色，不斷完善工作制度。
完善數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)：各行各業(yè)不斷涌現(xiàn)新的業(yè)務(wù)形態(tài)，原有的業(yè)務(wù)也在不斷的變化，我們要緊跟業(yè)務(wù)的變化，不斷完善符合業(yè)務(wù)需求的數(shù)據(jù)標(biāo)準(zhǔn)。
完善質(zhì)量監(jiān)測(cè)模型：如前所述，監(jiān)測(cè)模型代表的業(yè)務(wù)需求，業(yè)務(wù)形態(tài)的變化、數(shù)據(jù)標(biāo)準(zhǔn)的變化和質(zhì)量新需求的出現(xiàn)，同樣要求監(jiān)測(cè)模型能夠做出相應(yīng)的變化。
完善質(zhì)量監(jiān)測(cè)規(guī)則：同樣，如今的信息化技術(shù)發(fā)展日新月異，我們要不斷引入各種新技術(shù)來(lái)更加智能地發(fā)現(xiàn)和修復(fù)數(shù)據(jù)質(zhì)量問(wèn)題。

6. 總結(jié)

最后，我們要想把大數(shù)據(jù)建設(shè)做好，就要把數(shù)據(jù)質(zhì)量做好。要把數(shù)據(jù)質(zhì)量做好，就要充分理解業(yè)務(wù)，要了解大數(shù)據(jù)建設(shè)的全部過(guò)程，要從更高的視角來(lái)發(fā)現(xiàn)和解決大數(shù)據(jù)建設(shè)過(guò)程當(dāng)中的各種問(wèn)題。

責(zé)任編輯：張燕妮來(lái)源：架構(gòu)頭條

大數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)