面試官:如何管控數(shù)據(jù)?
大家好,我是一哥,昨天分享一篇數(shù)倉面試的知識點《掌握這些數(shù)倉知識,再也不怕面試官!》,但是面試還缺少了一部分數(shù)據(jù)管控的知識,今天補上~
01數(shù)據(jù)管控背景
數(shù)據(jù)管控是在做大數(shù)據(jù)平臺包括傳統(tǒng)BI都需要做的工作,數(shù)據(jù)從各個數(shù)據(jù)源過來,我們都要進行數(shù)據(jù)質量的管理,也就是我們常說的數(shù)據(jù)治理。那么在數(shù)據(jù)倉庫建設的時候如何進行數(shù)據(jù)管控呢?
我經歷過的項目主要采用以下管控手段:數(shù)據(jù)質量、數(shù)據(jù)生命周期、數(shù)據(jù)標準、元數(shù)據(jù)四方面的管控。
02管控手段
一、數(shù)據(jù)質量
不管是做數(shù)據(jù)倉庫建設還是做數(shù)據(jù)分析,一致和準確的數(shù)據(jù)是數(shù)據(jù)模型與決策分析的基礎。在實際生產環(huán)境中,我們從不同的系統(tǒng)抽取數(shù)據(jù)到大數(shù)據(jù)平臺,那么我們就要提供一套數(shù)據(jù)監(jiān)控機制,對數(shù)據(jù)質量進行監(jiān)控。良好的、高質量的數(shù)據(jù)可以有效降低系統(tǒng)建設成本。
二、數(shù)據(jù)標準
保證標準命名、編碼、業(yè)務解釋等內容的唯一性。只有建立相應的標準,同時加強業(yè)務的標準化工作,規(guī)范重點業(yè)務內容,強化業(yè)務管理。并在實時過程中加強現(xiàn)有數(shù)據(jù)的交互性,支撐統(tǒng)一的業(yè)務管理,只用建立的數(shù)據(jù)標準,才能推動主數(shù)據(jù)系統(tǒng)的建設,完成重點數(shù)據(jù)的統(tǒng)一管理,為后期數(shù)據(jù)模型完全共享打下堅實的基礎。
同時在數(shù)據(jù)質量監(jiān)控的同時,我們會不斷完善數(shù)據(jù)標準,以適應企業(yè)內部多變的系統(tǒng)環(huán)境,從而形成良性循環(huán)。
關于管控流程,概括三個字:查&管。
查,分為測試驗證和上線審核。
測試驗證:
a). 總量核對,核對上下兩步的數(shù)據(jù)總條數(shù),沒有過濾條件的話應該是一致的
b). 多維度統(tǒng)計,復雜的多維度指標拆分成單維度SQL統(tǒng)計,對每個指標分別進行核查。
c). 多表關聯(lián)統(tǒng)計,拆分成中間表進行核對每一步驟的指標。
d). 明細到指標統(tǒng)計,比如隨機找一臺車的明細和最后統(tǒng)計的指標進行核對。
e). 新老統(tǒng)計對比,比如有些指標是遷移或者之前業(yè)務手工制作,可以開發(fā)后的新指標同老指標進行對比。
上線審核:
a). 對查詢表的where后面的條件、join關聯(lián)字段、group by分組字段等重點檢查邏輯,和需求理解結合審核。
b). 根據(jù)上面的數(shù)倉規(guī)范檢查數(shù)據(jù)集命名、數(shù)據(jù)集字段命名、任務名稱進行審核,是否按照數(shù)據(jù)倉庫建設規(guī)范中的業(yè)務域、維度、原子指標、修飾類型、修飾詞、時間周期、派生指標等標準進行命名。
c). 代碼注釋審核,每一步處理需要有注釋該步驟的作用,每個指標也要有注釋,where條件等也要添加注釋。
d). 重要任務是否開啟短信告警,任務啟動時間等審核。
e). 任務上線的位置是否符合上線標準,比如上線的數(shù)據(jù)層級與業(yè)務層級等。
管,開發(fā)過程中,大家需要遵循一些流程規(guī)則,以確保指標的定義,開發(fā)的準確性。
a). 需求上線時候需要在知識庫中完成所開發(fā)需求邏輯說明
b). 復雜需求(比如項目指標),需要團隊至少兩人以上評審需求后開發(fā)。
c). 提交上線申請的同事需要備注上需求邏輯說明。
審核上線人員為“輪值”,審核上線人員需要review開發(fā)人員的代碼,需要和開發(fā)人員共同承擔代碼質量
三、數(shù)據(jù)生命周期
隨著企業(yè)業(yè)務的增長,越來越多的數(shù)據(jù)匯入大數(shù)據(jù)平臺,同時在建設數(shù)據(jù)倉庫的時候,我們還進行了數(shù)據(jù)分層管理,數(shù)據(jù)會存在多份共存情況,那么此時我們就要做數(shù)據(jù)生命周期管理,對不必須保存的數(shù)據(jù),進行冷數(shù)據(jù)管理??刂茢?shù)據(jù)的生命周期,一方面可以減低成本、簡化管理,同時也為我們集群騰出了資源,提高了系統(tǒng)性能,盡可能滿足現(xiàn)有業(yè)務的高效運行。另外,在做數(shù)據(jù)生命周期管理的同事要注意一些風險,比如法規(guī),對于很多互聯(lián)網(wǎng)、銀行、電信、車聯(lián)網(wǎng)等企業(yè),相關部門會提出原始數(shù)據(jù)必須保持多長時間的要求。在制定數(shù)據(jù)生命周期管理時,一定要注意!
可以參考前天分析的網(wǎng)易的技術經驗《數(shù)倉治理之數(shù)據(jù)任務重構實踐》
四、元數(shù)據(jù)
元數(shù)據(jù)就是對一些業(yè)務術語、標準等的統(tǒng)一定義、管理。對各種數(shù)據(jù)流接口的統(tǒng)一管理。同時在構建數(shù)據(jù)模型的時候,通過元數(shù)據(jù)我們可以進行血緣分析等。
03總結
通過上面我們介紹的管控手段的幾個要點,那么在實施過程中是否能夠成功呢?大概率不會,因為團隊總會有那么幾個人嫌規(guī)范太繁瑣,不按套路出牌,所以建立一些標準的基礎上,在實施過程中我們還有建立一些規(guī)章制度,來幫助我們的規(guī)劃落地,比如和員工績效掛鉤、或者制定一些流程管控、增加上線審核機制等,只有規(guī)范和流程相結合了,才能更好的進行實施管控數(shù)據(jù),也只有管控好數(shù)據(jù),才能更好的保證數(shù)據(jù)分析的成功。
本文轉載自微信公眾號「數(shù)據(jù)社」,可以通過以下二維碼關注。轉載本文請聯(lián)系數(shù)據(jù)社公眾號。




















 
 
 
















 
 
 
 