數(shù)據(jù)測(cè)試:數(shù)據(jù)質(zhì)量中缺少的組成部分
如果沒有適當(dāng)?shù)臄?shù)據(jù)測(cè)試,生產(chǎn)中的數(shù)據(jù)質(zhì)量就是不完整的。在本文中,您將學(xué)習(xí)數(shù)據(jù)測(cè)試的基礎(chǔ)知識(shí)以及如何開始。
數(shù)據(jù)質(zhì)量對(duì)于數(shù)據(jù)倉庫、主數(shù)據(jù)管理(MDM)、客戶關(guān)系管理(CRM)和其他以數(shù)據(jù)為中心的項(xiàng)目至關(guān)重要。然而,在開發(fā)過程中,往往忽視了數(shù)據(jù)質(zhì)量,直到系統(tǒng)完全在生產(chǎn)環(huán)境中運(yùn)行才開始重視。這導(dǎo)致了數(shù)據(jù)質(zhì)量方面的巨大差距,因?yàn)樵陧?xiàng)目的開發(fā)階段幾乎沒有或沒有進(jìn)行測(cè)試。
數(shù)據(jù)就像是一個(gè)產(chǎn)品,而數(shù)據(jù)系統(tǒng)就像是生產(chǎn)這個(gè)產(chǎn)品的工廠。在工廠中,質(zhì)量分為兩個(gè)組成部分:質(zhì)量保證和質(zhì)量控制。讓我們深入了解這些概念以及它們?nèi)绾螒?yīng)用于數(shù)據(jù)質(zhì)量。
質(zhì)量保證(QA)與質(zhì)量控制(QC)質(zhì)量保證:通過質(zhì)量保證過程驗(yàn)證原材料和加工方法的質(zhì)量,以確保最終產(chǎn)品的缺陷最小化。
在數(shù)據(jù)領(lǐng)域,質(zhì)量保證(QA)和質(zhì)量控制(QC)的概念可以應(yīng)用于數(shù)據(jù)質(zhì)量的管理。傳統(tǒng)的數(shù)據(jù)質(zhì)量方法存在一些缺點(diǎn),其中數(shù)據(jù)測(cè)試經(jīng)常被忽視。
傳統(tǒng)數(shù)據(jù)質(zhì)量方法的局限性包括:
- ETL測(cè)試:數(shù)據(jù)質(zhì)量工具設(shè)計(jì)用于測(cè)試數(shù)據(jù),而不是進(jìn)行ETL測(cè)試。
- 太少、太遲:數(shù)據(jù)質(zhì)量流程僅在最終數(shù)據(jù)交付生產(chǎn)環(huán)境時(shí)應(yīng)用。到那時(shí),有缺陷的數(shù)據(jù)系統(tǒng)已經(jīng)投入使用。
- 垃圾輸入,垃圾輸出:開發(fā)過程中使用的原始數(shù)據(jù)從未經(jīng)過測(cè)試。因此,開發(fā)人員對(duì)數(shù)據(jù)的各種排列組合可能性并不清楚。
- 錯(cuò)誤的數(shù)據(jù)處理導(dǎo)致糟糕的數(shù)據(jù)質(zhì)量:數(shù)據(jù)處理過程本身可能是錯(cuò)誤的,從而導(dǎo)致低質(zhì)量的數(shù)據(jù)。
- 數(shù)據(jù)處理的錯(cuò)誤編排:通常,數(shù)據(jù)處理是按特定順序和時(shí)間執(zhí)行各種數(shù)據(jù)處理過程,以將來自多個(gè)源的數(shù)據(jù)集成為一個(gè)統(tǒng)一的視圖。
- 錯(cuò)誤的數(shù)據(jù)模式:如果數(shù)據(jù)模型存在問題,如錯(cuò)誤的數(shù)據(jù)類型、錯(cuò)誤的數(shù)據(jù)類型長(zhǎng)度、精度或缺少約束,則生產(chǎn)數(shù)據(jù)中可能會(huì)出現(xiàn)許多數(shù)據(jù)問題。
這些問題只能在項(xiàng)目的開發(fā)階段通過實(shí)施適當(dāng)?shù)腝A或數(shù)據(jù)測(cè)試來解決。
數(shù)據(jù)測(cè)試是在將代碼部署到生產(chǎn)環(huán)境之前測(cè)試和確認(rèn)數(shù)據(jù)及其處理過程的方法。它包括原始數(shù)據(jù)測(cè)試、ETL測(cè)試和流程編排的測(cè)試。
數(shù)據(jù)測(cè)試包括以下活動(dòng):
- 測(cè)試原始數(shù)據(jù),確保數(shù)據(jù)符合預(yù)期。
- 測(cè)試ETL過程,確保按照要求正確編碼和轉(zhuǎn)換數(shù)據(jù)。
- 對(duì)ETL過程生成的數(shù)據(jù)輸出進(jìn)行業(yè)務(wù)驗(yàn)證。
開始進(jìn)行數(shù)據(jù)測(cè)試的主要步驟包括:
- 確定需要進(jìn)行測(cè)試的過程。
- 查找數(shù)據(jù)過程使用的源表和目標(biāo)表。
- 連接數(shù)據(jù)庫,包括源數(shù)據(jù)庫和目標(biāo)數(shù)據(jù)庫。
- 創(chuàng)建和執(zhí)行數(shù)據(jù)測(cè)試規(guī)則,通過檢查數(shù)據(jù)轉(zhuǎn)換過程中的問題來驗(yàn)證數(shù)據(jù)質(zhì)量。
- 審查數(shù)據(jù)測(cè)試的輸出,檢查數(shù)據(jù)轉(zhuǎn)換過程中的缺陷。
綜上所述,數(shù)據(jù)質(zhì)量管理不僅僅是一個(gè)生產(chǎn)環(huán)境中的概念,同樣重要的是在開發(fā)階段進(jìn)行數(shù)據(jù)測(cè)試。
開發(fā)階段的數(shù)據(jù)測(cè)試和生產(chǎn)環(huán)境中的數(shù)據(jù)監(jiān)控相結(jié)合,可以在數(shù)據(jù)質(zhì)量方面提供最佳效果,并且非常有效。