數(shù)據(jù)架構(gòu)師: 您要治理什么?
Robert Catterall 是一位數(shù)據(jù)庫專家,他想確定實現(xiàn)數(shù)據(jù)治理的必要性。在 IBM Information Governance Solutions 的主管 Steven Adler 的幫助下,他探索了數(shù)據(jù)治理的原則以及它如何幫助數(shù)據(jù)庫團(tuán)隊。
我是一位數(shù)據(jù)庫工作者(更準(zhǔn)確地說,是 DB2 工作者)。我的工作處于 IBM Information Management 軟件組合的低層。如果說那些從事分析、主數(shù)據(jù)管理、數(shù)據(jù)集成和其他高層軟件技術(shù)的人是數(shù)據(jù)巨輪的高級船員,他們站在艦橋上,穿著帶金色肩章的白制服,用雙筒望遠(yuǎn)鏡了望遠(yuǎn)方,那么我是在輪機(jī)艙工作。當(dāng)艦橋上傳來指令,命令我加快數(shù)據(jù)流動的速度時,我回答說,“我們已經(jīng)到極限了,船長!” … 但是我仍然要想辦法完成任務(wù)。你們成天談?wù)搼?zhàn)略和模式,而我談?wù)摰氖潜忍睾妥止?jié)、速度和供應(yīng)。歡迎來到我的世界。好了,不打比方了,我們來討論實際問題吧!
我曾經(jīng)遇到過許多似是而非的概念,最近遇到的一個是 “數(shù)據(jù)治理”。對不起,長官,但是這聽起來是針對某個問題的解決方案。讓我告訴您一個小秘密:數(shù)據(jù)是沒有自主行動力的,這意味著它不需要 “治理”。它需要操控,我和我的朋友們能夠應(yīng)付,謝謝您。請找別的什么東西去 “治理” 吧!
您說什么?您在談到治理數(shù)據(jù)時,實際上是打算治理別的什么東西?OK,現(xiàn)在我感興趣了。請多說點(diǎn)兒,我洗耳恭聽。
重點(diǎn)在于人
關(guān)于數(shù)據(jù)治理,我應(yīng)該聽取誰的意見?沒人比 Steve Adler 更合適了,他是 IBM Information Governance Solutions 的主管和 IBM Information Governance Council 的主席。他在電話上告訴我 “數(shù)據(jù)治理” 這個詞在修辭方面的矛盾性實際上是有意義的:它提醒人們提出問題。“‘數(shù)據(jù)治理’ 究竟是什么意思?” 談話就此展開了。Adler 指出,真正的目標(biāo)是對行為進(jìn)行治理。
人與數(shù)據(jù)庫交互:他們引導(dǎo)數(shù)據(jù)流的走向;他們解釋并處理數(shù)據(jù)請求。人也會犯錯 — 常常是由于他們采用的過程和依賴的應(yīng)用程序系統(tǒng)有缺陷 — 這會在信息管道中引入錯誤,給下游造成數(shù)據(jù)質(zhì)量問題。Adler 指出,數(shù)據(jù)治理的意圖主要是系統(tǒng)化地找到并解決可能引入錯誤的點(diǎn)。目標(biāo)是形成決策者能夠信任的數(shù)據(jù) — 還要向他們提供數(shù)據(jù)可信的證明。
這是一個很不錯的說詞。但在加入您的事業(yè)之前,我想看看 “藍(lán)色巨人” 是如何吃 “垃圾食品” 的。Adler 問我是否了解 IBM 的產(chǎn)品目錄。我確實了解 — 畢竟我為 IBM 工作了 17 年。IBM 有大量信息,有多達(dá) 1.2 億條記錄。顯然,這些記錄中很大一部分包含錯誤的信息:錯誤、缺失和未及時發(fā)布的數(shù)據(jù)。在 255 個 IBM 產(chǎn)品公告中,只有 5 個完全沒有錯誤。這真是讓人震撼的統(tǒng)計數(shù)字。
為了找出數(shù)據(jù)質(zhì)量問題的來源,團(tuán)隊在通向生產(chǎn)數(shù)據(jù)庫的數(shù)據(jù)流中不同的位置上設(shè)置 “捕捉器”。捕捉器幫助團(tuán)隊發(fā)現(xiàn)在特定條件下可能發(fā)生的錯誤。找出問題的原因之后,團(tuán)隊就可以設(shè)計和實現(xiàn)基于過程和基于技術(shù)的解決方案,從而消除不準(zhǔn)確的信息的來源。
不是我的問題(也許是?)
我想,只要消除可能導(dǎo)致數(shù)據(jù)質(zhì)量問題的條件就行了,所以由您負(fù)責(zé)。我希望您成功。不需要圍著我和 DBA 照管的數(shù)據(jù)庫打轉(zhuǎn) — 它們很可靠。有多可靠?精確度至少有 99.9%。我談?wù)摰臄?shù)據(jù)庫有多少數(shù)據(jù)記錄?生產(chǎn)數(shù)據(jù)庫可能有超過 10 億條記錄。是的,由于數(shù)據(jù)庫規(guī)模如此之大,盡管錯誤率非常低,錯誤數(shù)量仍然相當(dāng)大。好吧,您說的有道理。在數(shù)據(jù)庫內(nèi)部和周圍放上一些捕捉器可能是好主意。
Adler 說,但是不要就此止步,因為數(shù)據(jù)質(zhì)量問題不僅僅是數(shù)據(jù)記錄不準(zhǔn)確。有時候,急迫的問題是必須處理數(shù)據(jù)分類。例如,一個組織通過并購形成了更大的規(guī)模,最終通過多個業(yè)務(wù)線為更大型的企業(yè)客戶提供服務(wù)??蛻艄局槐г拐f,當(dāng)他們通過不同業(yè)務(wù)線的代表向服務(wù)提供組織提出同一個問題時,卻得到了不同的回答。這是因為對于不同的業(yè)務(wù)線,相同術(shù)語的含義不同。這是數(shù)據(jù)定義問題 — 數(shù)據(jù)治理要通過有效的主數(shù)據(jù)管理 (MDM) 消除此類問題。
如何從 A 到 B?
我承認(rèn),我開始看出數(shù)據(jù)治理的一些價值了。這個概念不像我最初認(rèn)為的那么不知所謂。但是,看到潛在價值和獲得實際價值是兩回事兒。如何通過數(shù)據(jù)治理工作獲取價值?從哪里做起?如何推動不斷進(jìn)步?
Adler 告訴我他喜歡的方式分為六個步驟:
確定目標(biāo)。一些目標(biāo)可以有變動,其他目標(biāo)是固定的(例如處理數(shù)據(jù)質(zhì)量問題)。是的 — 在出發(fā)之前,必須明確要去哪里。
確定要度量什么。如果想要提高數(shù)據(jù)質(zhì)量,那么如何能夠知道是否已經(jīng)取得了進(jìn)步?可能要檢查存儲庫中一定比例的文檔,記錄信息不正確或缺失的情況。決定度量的過程和條件對于評估基線情況和跟蹤過程很重要。我明白了。說說容易:如果想要說服人,就要提供數(shù)字。
了解組織的決策模型。是專制模型?代表模型?還是民主模型?無論是哪種,它適合您的公司嗎?您正在開發(fā)的數(shù)據(jù)治理策略支持這種決策模型嗎?決策 “更好” 的含義是什么?需要做出大量決策嗎?還是要更快地做出決策?我想,在改進(jìn)數(shù)據(jù)質(zhì)量時,總是要花時間評估數(shù)據(jù)在自己的環(huán)境中如何驅(qū)動決策。可能會發(fā)現(xiàn)需要改進(jìn)的東西。
有效地傳播數(shù)據(jù)治理策略。如何把策略的相關(guān)信息告訴相關(guān)人員和感興趣的其他各方?通過電子郵件?通過時事通訊?不能只依靠同事之間的口頭交流。
度量結(jié)果。數(shù)據(jù)治理策略取得的實際效果如何?如果已經(jīng)制定了度量進(jìn)展的計劃(這個列表中的第二項),那么得到具體的數(shù)字應(yīng)該不太困難。解釋這些數(shù)字會很有意思。
審查整個數(shù)據(jù)治理工作。是否采用了適當(dāng)?shù)倪^程?是否應(yīng)用了適當(dāng)?shù)募夹g(shù)?是否實現(xiàn)了有效的控制?“審查” 這個詞有點(diǎn)兒讓我不舒服,但是我知道對于策略來說這是不可缺少的,無論是數(shù)據(jù)治理策略還是其他策略。我不喜歡評判別人的工作,但是我理解有時候需要這么做。
這些是非常高級的檢查項,具體的項目計劃應(yīng)該遠(yuǎn)遠(yuǎn)不只六個步驟。但是,在面對復(fù)雜的任務(wù)時,以適當(dāng)方式對難題進(jìn)行拆分確實有助于明確工作重點(diǎn)。對于我來說,Adler 的方法看起來是不錯的問題拆分方式??梢砸源藶榛A(chǔ)開展工作。
好吧,我接受了
一個城市的居民嘲笑另一個城市時會說,“那兒沒有 ‘那兒’ 這個概念”。我過去也是這么看待數(shù)據(jù)治理的:很有意思的概念,但是拜托 — 它有什么實際意義嗎?Steve Adler 在關(guān)于數(shù)據(jù)治理的業(yè)務(wù)價值的爭論中說服了我。我現(xiàn)在認(rèn)為數(shù)據(jù)治理是有價值的。
因此,如果信息管理領(lǐng)域的大人物再到數(shù)據(jù)庫 “輪機(jī)艙” 與您談?wù)摂?shù)據(jù)治理,那么好好聽他們說。***考慮一下自己能夠在哪些方面發(fā)揮作用。宏大的計劃如果能夠參考實干家的意見,往往會取得更好的結(jié)果。
就到這里吧。也許我會在咖啡機(jī)旁遇到您。誰知道呢?也許我們會輕松地談?wù)撘幌聰?shù)據(jù)治理。