偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

面試官:如何管控數(shù)據(jù)?

大數(shù)據(jù)
數(shù)據(jù)管控是在做大數(shù)據(jù)平臺包括傳統(tǒng)BI都需要做的工作,數(shù)據(jù)從各個數(shù)據(jù)源過來,我們都要進行數(shù)據(jù)質(zhì)量的管理,也就是我們常說的數(shù)據(jù)治理。那么在數(shù)據(jù)倉庫建設(shè)的時候如何進行數(shù)據(jù)管控呢?

[[409460]]

大家好,我是一哥,昨天分享一篇數(shù)倉面試的知識點《掌握這些數(shù)倉知識,再也不怕面試官!》,但是面試還缺少了一部分數(shù)據(jù)管控的知識,今天補上~

01數(shù)據(jù)管控背景

數(shù)據(jù)管控是在做大數(shù)據(jù)平臺包括傳統(tǒng)BI都需要做的工作,數(shù)據(jù)從各個數(shù)據(jù)源過來,我們都要進行數(shù)據(jù)質(zhì)量的管理,也就是我們常說的數(shù)據(jù)治理。那么在數(shù)據(jù)倉庫建設(shè)的時候如何進行數(shù)據(jù)管控呢?

我經(jīng)歷過的項目主要采用以下管控手段:數(shù)據(jù)質(zhì)量、數(shù)據(jù)生命周期、數(shù)據(jù)標準、元數(shù)據(jù)四方面的管控。

02管控手段

一、數(shù)據(jù)質(zhì)量

不管是做數(shù)據(jù)倉庫建設(shè)還是做數(shù)據(jù)分析,一致和準確的數(shù)據(jù)是數(shù)據(jù)模型與決策分析的基礎(chǔ)。在實際生產(chǎn)環(huán)境中,我們從不同的系統(tǒng)抽取數(shù)據(jù)到大數(shù)據(jù)平臺,那么我們就要提供一套數(shù)據(jù)監(jiān)控機制,對數(shù)據(jù)質(zhì)量進行監(jiān)控。良好的、高質(zhì)量的數(shù)據(jù)可以有效降低系統(tǒng)建設(shè)成本。

二、數(shù)據(jù)標準

保證標準命名、編碼、業(yè)務(wù)解釋等內(nèi)容的唯一性。只有建立相應(yīng)的標準,同時加強業(yè)務(wù)的標準化工作,規(guī)范重點業(yè)務(wù)內(nèi)容,強化業(yè)務(wù)管理。并在實時過程中加強現(xiàn)有數(shù)據(jù)的交互性,支撐統(tǒng)一的業(yè)務(wù)管理,只用建立的數(shù)據(jù)標準,才能推動主數(shù)據(jù)系統(tǒng)的建設(shè),完成重點數(shù)據(jù)的統(tǒng)一管理,為后期數(shù)據(jù)模型完全共享打下堅實的基礎(chǔ)。

同時在數(shù)據(jù)質(zhì)量監(jiān)控的同時,我們會不斷完善數(shù)據(jù)標準,以適應(yīng)企業(yè)內(nèi)部多變的系統(tǒng)環(huán)境,從而形成良性循環(huán)。

關(guān)于管控流程,概括三個字:查&管。

查,分為測試驗證和上線審核。

測試驗證:

a). 總量核對,核對上下兩步的數(shù)據(jù)總條數(shù),沒有過濾條件的話應(yīng)該是一致的

b). 多維度統(tǒng)計,復(fù)雜的多維度指標拆分成單維度SQL統(tǒng)計,對每個指標分別進行核查。

c). 多表關(guān)聯(lián)統(tǒng)計,拆分成中間表進行核對每一步驟的指標。

d). 明細到指標統(tǒng)計,比如隨機找一臺車的明細和最后統(tǒng)計的指標進行核對。

e). 新老統(tǒng)計對比,比如有些指標是遷移或者之前業(yè)務(wù)手工制作,可以開發(fā)后的新指標同老指標進行對比。

上線審核:

a). 對查詢表的where后面的條件、join關(guān)聯(lián)字段、group by分組字段等重點檢查邏輯,和需求理解結(jié)合審核。

b). 根據(jù)上面的數(shù)倉規(guī)范檢查數(shù)據(jù)集命名、數(shù)據(jù)集字段命名、任務(wù)名稱進行審核,是否按照數(shù)據(jù)倉庫建設(shè)規(guī)范中的業(yè)務(wù)域、維度、原子指標、修飾類型、修飾詞、時間周期、派生指標等標準進行命名。

c). 代碼注釋審核,每一步處理需要有注釋該步驟的作用,每個指標也要有注釋,where條件等也要添加注釋。

d). 重要任務(wù)是否開啟短信告警,任務(wù)啟動時間等審核。

e). 任務(wù)上線的位置是否符合上線標準,比如上線的數(shù)據(jù)層級與業(yè)務(wù)層級等。

管,開發(fā)過程中,大家需要遵循一些流程規(guī)則,以確保指標的定義,開發(fā)的準確性。

a). 需求上線時候需要在知識庫中完成所開發(fā)需求邏輯說明

b). 復(fù)雜需求(比如項目指標),需要團隊至少兩人以上評審需求后開發(fā)。

c). 提交上線申請的同事需要備注上需求邏輯說明。

審核上線人員為“輪值”,審核上線人員需要review開發(fā)人員的代碼,需要和開發(fā)人員共同承擔代碼質(zhì)量

三、數(shù)據(jù)生命周期

隨著企業(yè)業(yè)務(wù)的增長,越來越多的數(shù)據(jù)匯入大數(shù)據(jù)平臺,同時在建設(shè)數(shù)據(jù)倉庫的時候,我們還進行了數(shù)據(jù)分層管理,數(shù)據(jù)會存在多份共存情況,那么此時我們就要做數(shù)據(jù)生命周期管理,對不必須保存的數(shù)據(jù),進行冷數(shù)據(jù)管理。控制數(shù)據(jù)的生命周期,一方面可以減低成本、簡化管理,同時也為我們集群騰出了資源,提高了系統(tǒng)性能,盡可能滿足現(xiàn)有業(yè)務(wù)的高效運行。另外,在做數(shù)據(jù)生命周期管理的同事要注意一些風(fēng)險,比如法規(guī),對于很多互聯(lián)網(wǎng)、銀行、電信、車聯(lián)網(wǎng)等企業(yè),相關(guān)部門會提出原始數(shù)據(jù)必須保持多長時間的要求。在制定數(shù)據(jù)生命周期管理時,一定要注意!

可以參考前天分析的網(wǎng)易的技術(shù)經(jīng)驗《數(shù)倉治理之數(shù)據(jù)任務(wù)重構(gòu)實踐》

四、元數(shù)據(jù)

元數(shù)據(jù)就是對一些業(yè)務(wù)術(shù)語、標準等的統(tǒng)一定義、管理。對各種數(shù)據(jù)流接口的統(tǒng)一管理。同時在構(gòu)建數(shù)據(jù)模型的時候,通過元數(shù)據(jù)我們可以進行血緣分析等。

03總結(jié)

通過上面我們介紹的管控手段的幾個要點,那么在實施過程中是否能夠成功呢?大概率不會,因為團隊總會有那么幾個人嫌規(guī)范太繁瑣,不按套路出牌,所以建立一些標準的基礎(chǔ)上,在實施過程中我們還有建立一些規(guī)章制度,來幫助我們的規(guī)劃落地,比如和員工績效掛鉤、或者制定一些流程管控、增加上線審核機制等,只有規(guī)范和流程相結(jié)合了,才能更好的進行實施管控數(shù)據(jù),也只有管控好數(shù)據(jù),才能更好的保證數(shù)據(jù)分析的成功。

本文轉(zhuǎn)載自微信公眾號「數(shù)據(jù)社」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系數(shù)據(jù)社公眾號。

 

責(zé)任編輯:武曉燕 來源: 數(shù)據(jù)社
相關(guān)推薦

2015-08-13 10:29:12

面試面試官

2023-02-16 08:10:40

死鎖線程

2024-02-20 14:10:55

系統(tǒng)緩存冗余

2024-03-18 14:06:00

停機Spring服務(wù)器

2010-08-12 16:28:35

面試官

2024-04-03 00:00:00

Redis集群代碼

2024-09-11 22:51:19

線程通訊Object

2023-11-20 10:09:59

2025-03-17 00:00:00

2024-03-06 09:22:23

C#數(shù)據(jù)庫判重

2025-06-26 08:22:03

2024-02-19 11:49:23

JavaBitMap類型

2021-05-18 08:32:33

TCPIP協(xié)議

2024-04-09 10:40:04

2024-01-19 14:03:59

Redis緩存系統(tǒng)Spring

2024-01-26 13:16:00

RabbitMQ延遲隊列docker

2023-09-01 15:27:31

2010-08-27 10:53:14

面試

2024-10-22 16:39:07

2024-02-28 10:14:47

Redis數(shù)據(jù)硬盤
點贊
收藏

51CTO技術(shù)棧公眾號