偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

計(jì)算機(jī)審計(jì)中電子數(shù)據(jù)清洗的主要步驟

大數(shù)據(jù)
在這里我們將介紹計(jì)算機(jī)審計(jì)中電子數(shù)據(jù)清洗的主要步驟,包括數(shù)據(jù)分析和定義清洗轉(zhuǎn)換規(guī)則。

(一)定義和確定錯(cuò)誤的類型。

1.數(shù)據(jù)分析。數(shù)據(jù)分析是數(shù)據(jù)清洗的前提與基礎(chǔ),通過詳盡的數(shù)據(jù)分析來檢測(cè)數(shù)據(jù)中的錯(cuò)誤或不一致情況,除了手動(dòng)檢查數(shù)據(jù)或者數(shù)據(jù)樣本之外,還可以使用分析程序來獲得關(guān)于數(shù)據(jù)屬性的元數(shù)據(jù),從而發(fā)現(xiàn)數(shù)據(jù)集中存在的質(zhì)量問題。

2.定義清洗轉(zhuǎn)換規(guī)則。根據(jù)上一步進(jìn)行數(shù)據(jù)分析得到的結(jié)果來定義清洗轉(zhuǎn)換規(guī)則與工作流。根據(jù)數(shù)據(jù)源的個(gè)數(shù),數(shù)據(jù)源中不一致數(shù)據(jù)和“臟數(shù)據(jù)”多少的程度,需要執(zhí)行大量的數(shù)據(jù)轉(zhuǎn)換和清洗步驟。要盡可能的為模式相關(guān)的數(shù)據(jù)清洗和轉(zhuǎn)換指定一種查詢和匹配語言,從而使轉(zhuǎn)換代碼的自動(dòng)生成變成可能。

(二)搜尋并識(shí)別錯(cuò)誤的實(shí)例。

1.自動(dòng)檢測(cè)屬性錯(cuò)誤。檢測(cè)數(shù)據(jù)集中的屬性錯(cuò)誤,需要花費(fèi)大量的人力、物力和時(shí)間,而且這個(gè)過程本身很容易出錯(cuò),所以需要利用高的方法自動(dòng)檢測(cè)數(shù)據(jù)集中的屬性錯(cuò)誤,方法主要有:基于統(tǒng)計(jì)的方法、聚類方法、關(guān)聯(lián)規(guī)則的方法。

2.檢測(cè)重復(fù)記錄的算法。消除重復(fù)記錄可以針對(duì)兩個(gè)數(shù)據(jù)集或者一個(gè)合并后的數(shù)據(jù)集,首先需要檢測(cè)出標(biāo)識(shí)同一個(gè)現(xiàn)實(shí)實(shí)體的重復(fù)記錄,即匹配過程。檢測(cè)重復(fù)記錄的算法主要有:基本的字段匹配算法,遞歸的字段匹配算法,Smith—Waterman算法,Cosine相似度函數(shù)。

(三)糾正所發(fā)現(xiàn)的錯(cuò)誤。在數(shù)據(jù)源上執(zhí)行預(yù)先定義好的并且已經(jīng)得到驗(yàn)證的清洗轉(zhuǎn)換規(guī)則和工作流。當(dāng)直接在源數(shù)據(jù)上進(jìn)行清洗時(shí),需要備份源數(shù)據(jù),以防需要撤銷上一次或幾次的清洗操作。清洗時(shí)根據(jù)“臟數(shù)據(jù)”存在形式的不同,執(zhí)行一系列的轉(zhuǎn)換步驟來解決模式層和實(shí)例層的數(shù)據(jù)質(zhì)量問題。為處理單數(shù)據(jù)源問題并且為其與其他數(shù)據(jù)源的合并做好準(zhǔn)備,一般在各個(gè)數(shù)據(jù)源上應(yīng)該分別進(jìn)行幾種類型的轉(zhuǎn)換,主要包括:

1.從自由格式的屬性字段中抽取值(屬性分離)。自由格式的屬性一般包含著很多的信息,而這些信息有時(shí)候需要細(xì)化成多個(gè)屬性,從而進(jìn)一步支持后面重復(fù)記錄的清洗。

2. 確認(rèn)和改正。這一步驟處理輸入和拼寫錯(cuò)誤,并盡可能地使其自動(dòng)化?;谧值洳樵兊钠磳憴z查對(duì)于發(fā)現(xiàn)拼寫錯(cuò)誤是很有用的。

3. 標(biāo)準(zhǔn)化。為了使記錄實(shí)例匹配和合并變得更方便,應(yīng)該把屬性值轉(zhuǎn)換成一個(gè)一致和統(tǒng)一的格式。

(四)數(shù)據(jù)回流。當(dāng)數(shù)據(jù)被清洗后,干凈的數(shù)據(jù)應(yīng)該替換數(shù)據(jù)源中原來的“臟數(shù)據(jù)”。這樣可以提高原系統(tǒng)的數(shù)據(jù)質(zhì)量,還可避免將來再次抽取數(shù)據(jù)后進(jìn)行重復(fù)的清洗工作。

 
責(zé)任編輯:彭凡 來源: 中國(guó)蚌埠
相關(guān)推薦

2023-10-11 18:30:39

Web系統(tǒng)程序

2015-09-30 11:22:19

計(jì)算機(jī)大數(shù)據(jù)

2021-01-22 05:44:24

數(shù)據(jù)底層架構(gòu)

2023-11-22 13:45:37

計(jì)算機(jī)視覺數(shù)據(jù)預(yù)處理

2009-01-16 20:09:50

軟考計(jì)算機(jī)基礎(chǔ)數(shù)據(jù)傳送

2013-03-20 16:23:53

數(shù)據(jù)清洗

2014-06-06 13:04:25

2023-03-02 07:49:38

2019-09-10 12:58:03

電腦編程語言硬件

2021-01-27 14:18:17

量子計(jì)算傳統(tǒng)計(jì)算量子機(jī)器

2021-02-20 20:55:06

USB接口總線

2014-04-10 09:40:51

System 360計(jì)算機(jī)計(jì)算機(jī)系統(tǒng)

2012-06-20 10:40:36

量子計(jì)算機(jī)

2015-07-02 09:47:36

超級(jí)計(jì)算機(jī)大數(shù)據(jù)

2012-02-29 10:02:59

IBM量子計(jì)算機(jī)超級(jí)計(jì)算機(jī)

2014-11-25 15:36:47

雙主機(jī)計(jì)算機(jī)ITM

2023-06-28 09:57:43

2010-07-15 14:16:16

SQLServer恢復(fù)

2009-07-01 09:03:39

Linux綠壩操作系統(tǒng)

2023-11-23 13:47:26

系統(tǒng)計(jì)算機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)