淺談數(shù)倉的數(shù)據(jù)治理
?絕大數(shù)公司建立數(shù)倉之初是沒有考慮好數(shù)據(jù)治理怎么做的,因為數(shù)據(jù)部門剛開始成立,必然要有一些“數(shù)據(jù)驅(qū)動”的成果,而數(shù)據(jù)治理不能很好的體現(xiàn)這些業(yè)績。所以,都是在業(yè)務(wù)發(fā)展的過程中,逐漸遇到了一些數(shù)據(jù)問題,才考慮做這件事的。

1.如何開始數(shù)據(jù)治理?
首先從數(shù)據(jù)管理開始,在開始數(shù)據(jù)治理之前,我們要先梳理數(shù)倉的核心資產(chǎn)。從數(shù)據(jù)的采集到數(shù)據(jù)的加工,再到數(shù)據(jù)的應(yīng)用(包括數(shù)倉報表數(shù)據(jù)、指標數(shù)據(jù))。
那么對于業(yè)務(wù)數(shù)據(jù)源,我們要明確數(shù)倉中主要的數(shù)據(jù)源都來自哪些業(yè)務(wù)系統(tǒng),哪些關(guān)鍵流程,明確關(guān)鍵來源數(shù)據(jù)的數(shù)據(jù)負責人,結(jié)合業(yè)務(wù)制定數(shù)據(jù)管理規(guī)范。

2.數(shù)倉數(shù)據(jù)治理的思路
數(shù)倉的數(shù)據(jù)治理可以從以下幾個關(guān)鍵點入手:數(shù)據(jù)目錄重新劃分,提高模型復用度,ETL任務(wù)優(yōu)化、數(shù)據(jù)質(zhì)量監(jiān)控。

數(shù)據(jù)目錄劃分:
很多數(shù)倉剛開始設(shè)計的時候是沒有完整清晰的規(guī)劃的,慢慢數(shù)據(jù)目錄會變得混亂無序,找某個模型會變得很繁瑣。那么,這時候一個好的目錄設(shè)計,會幫助我們理清數(shù)倉的架構(gòu),快速的查找定位模型,比如是在哪個層、哪個業(yè)務(wù)域等。 這些都清晰的展示出來時,數(shù)據(jù)開發(fā)的效率就會有快速的提升了。
模型復用:
離線數(shù)倉一般團隊都比較大,上次跟快手的一個朋友聊,他們離線數(shù)倉都有上百人。所以模型的復用一定要關(guān)注,,比如關(guān)注一些復用度較高的字段,可以放到中間層統(tǒng)一處理,也就是我們說的有個大寬表提供復用;比如復用較高的函數(shù)或者邏輯,我們開發(fā)統(tǒng)一的UDF函數(shù),提高數(shù)據(jù)處理性能。
任務(wù)優(yōu)化:
每當你申請資源時,領(lǐng)導都會問你要價值和用途,其實除了申請額外的資源,我們還可以優(yōu)化現(xiàn)有的資源。因為在數(shù)倉開發(fā)過程中,大家的技術(shù)水平良莠不齊,對業(yè)務(wù)理解程度相差甚大,那么此時,每個人開發(fā)的ETL任務(wù)的質(zhì)量必然不一樣。所以,我們需要時常對任務(wù)的執(zhí)行時長和調(diào)用的資源進行監(jiān)控,展開專項優(yōu)化,比如降低輸入數(shù)據(jù)量,大量distinct操作使用groupby替換等。當然,管理上可以把任務(wù)執(zhí)行效率作為一個考核項,對不達標的進行晾曬。
數(shù)據(jù)質(zhì)量:
主要是數(shù)據(jù)重復、空值、數(shù)據(jù)異常等情況的監(jiān)控,一定要配置規(guī)則校驗。上次直播,我講過,并不是任務(wù)執(zhí)行成功就完事大吉了,有時候任務(wù)執(zhí)行成功的代價更為慘重。比如,以前的一個項目,會給老板推送業(yè)務(wù)指標短信,所以對這個任務(wù)加了失敗告警監(jiān)控,但是沒有對內(nèi)容進行校驗,導致因為業(yè)務(wù)的異常數(shù)據(jù),引起最后的指標異常,老板很生氣,后果很嚴重。所以,我們還要考慮對于一些關(guān)鍵業(yè)務(wù)的數(shù)據(jù)指標監(jiān)控,發(fā)現(xiàn)異常,及時終止下游任務(wù),進行告警。當然,數(shù)據(jù)質(zhì)量還有很多工作,之前的一篇文章也講過,可以閱讀《談?wù)凟TL中的數(shù)據(jù)質(zhì)量》
3.總結(jié)
總而言之,數(shù)倉數(shù)據(jù)治理的價值很難量化,所以有很多數(shù)據(jù)團隊不愿意去做,但是不做,會很“癢”。
如果,你開始做數(shù)倉治理了,那么就要做好長期作戰(zhàn)的準備了,比如制定一些月度的資產(chǎn)管理相關(guān)的會議,進行回顧,定期對低效率任務(wù)進行優(yōu)化,這都是需要一套管理機制的,而管理機制落地的最好方式應(yīng)該就是和績效考核綁定了。?

































