新數(shù)據(jù)倉庫模式設計有利于企業(yè)用戶
業(yè)務分析師的目標之一是用數(shù)據(jù)講述完整的故事,提供有關(guān)業(yè)務如何進行或如何改進的見解。這是通過商業(yè)智能儀表板來實現(xiàn),該儀表板從數(shù)據(jù)倉庫提取數(shù)據(jù)。
當嘗試關(guān)聯(lián)數(shù)據(jù)倉庫中不同儀表板的信息時,企業(yè)用戶開始面臨挑戰(zhàn)。這通常需要求助于數(shù)據(jù)工程師,數(shù)據(jù)工程師需要在數(shù)據(jù)倉庫中創(chuàng)建數(shù)據(jù)集市–由多個星形圖組成,而這可能導致數(shù)據(jù)丟失或數(shù)據(jù)重復。
這種復雜性促使Francesco Puppini探索可更好地支持最終用戶的數(shù)據(jù)倉庫模式設計。他在與Bill Inmon合著的《The Unified Star Schema: An Agile and Resilient Approach to Data Warehouse and Analytics Design》一書中探討了這一問題,該書由Technics Publications出版。
什么是星型圖和雪花圖?
在討論Unified Star Schema之前,讓我們看一下星型模式本身。
星型模式是最簡單的尺寸建模形式。該模式由事實和維度組成。事實以事件為中心,而維度則引用與事實有關(guān)的信息。維度以類似于星型的方式與事實相關(guān)。
此外,雪花模式將維度與其他維度相關(guān)聯(lián)并繼續(xù)分支。Puppini認為,當數(shù)據(jù)沒有問題時,雪花模式最適合。
他說:“但數(shù)據(jù)總是有問題。“
Unified Star Schema的好處
Puppini說:“當你將數(shù)據(jù)寫入數(shù)據(jù)庫時,它是按某種方式組織。但是當你閱讀它,最好以一種不同的方式組織它。”
對于最終用戶而言,星型和雪花模式的主要挑戰(zhàn)是,企業(yè)用戶在尋找見解方面缺乏獨立性。為了使用此類數(shù)據(jù)倉庫模式設計對數(shù)據(jù)執(zhí)行復雜查詢,最終用戶需要數(shù)據(jù)工程師手動關(guān)聯(lián)數(shù)據(jù)表。Puppini說,這就像每次需要一杯水時都叫水管工一樣。此外,當關(guān)聯(lián)不兼容表時,整合將事實表與聯(lián)接通常會導致重復數(shù)據(jù)。
他說,數(shù)據(jù)重復的核心問題是扇形陷阱。當兩個或多個一對多聯(lián)接鏈接時,就會發(fā)生扇形陷阱。這會與數(shù)據(jù)產(chǎn)生沖突,從而導致數(shù)據(jù)重復。從歷史上看,這是通過手動重復數(shù)據(jù)刪除或這些臨時連接解決。
Unified Star Schema的關(guān)鍵是連接事實表的橋接。在書中,Puppini將橋接與電話總機進行比較。在Unified Star Schema中,橋接處于中心位置,所有事實表和維度表圍繞它,每個表都連接到該橋接。然后,這限制了對數(shù)據(jù)的轉(zhuǎn)換次數(shù)。
Puppini說:“現(xiàn)在的數(shù)據(jù)倉庫問題是它們不堪重負,正在過度轉(zhuǎn)換。”
通過使用橋接并執(zhí)行聯(lián)合而不是聯(lián)接,這使用戶可以訪問數(shù)據(jù)而無需進行轉(zhuǎn)換。
他說:“你轉(zhuǎn)換數(shù)據(jù)越多,你就越會陷入混亂。我只是采取最少步驟以將信息整合在一起。”
請點擊此處查看由Technics Publications出版的Bill Inmon和Francesco Puppini撰寫的《The Unified Star Schema》的摘錄,以了解有關(guān)Unified Star Schema的部署和用例的更多信息。