動態(tài)數(shù)據(jù)倉庫設(shè)計與應(yīng)用淺談
數(shù)據(jù)倉庫技術(shù)的每次演進都以發(fā)掘企業(yè)數(shù)據(jù)中更多價值作為目標(biāo)。而近期流行的動態(tài)數(shù)據(jù)倉庫技術(shù),不僅在靈活性、可視化方面有了長足進步,還能夠?qū)ζ髽I(yè)決策、合作伙伴及客戶服務(wù)提供更為強大的支持。
數(shù)據(jù)倉庫發(fā)展歷程
數(shù)據(jù)倉庫的發(fā)展歷史具體可以劃分為五個階段。數(shù)據(jù)倉庫系統(tǒng)發(fā)展之初,其主要作用是為企業(yè)內(nèi)部的某些部門提供一些固定的報表。因此這一階段通產(chǎn)被成為“報表”階段。在該階段,數(shù)據(jù)倉庫的結(jié)構(gòu)可以根據(jù)具體問題進行優(yōu)化,即使數(shù)據(jù)查詢?nèi)藛T要求訪問的信息量極其巨大,處理這些資料的效率仍然可以很高。
當(dāng)企業(yè)用戶的關(guān)注點從“發(fā)生了什么”轉(zhuǎn)向“為什么會發(fā)生”,數(shù)據(jù)倉庫進入了“分析”階段。在這一階段,決策者開始對數(shù)據(jù)進行分析,實質(zhì)上是在了解報表數(shù)據(jù)的真實涵義。這就需要更詳細地對數(shù)據(jù)進行多角度分析。為了解決數(shù)據(jù)查詢的瓶頸,出現(xiàn)了聯(lián)機分析處理(OLAP)環(huán)境。它可以使對數(shù)據(jù)進行多角度分析的反應(yīng)時間以秒或分鐘來計算。因為在OLAP環(huán)境中,很多聚合數(shù)據(jù)都是預(yù)先計算好的,而且數(shù)據(jù)的存儲格式也和傳統(tǒng)的關(guān)系型數(shù)據(jù)庫環(huán)境存在本質(zhì)區(qū)別。
擁有了量化的數(shù)據(jù)支持后,企業(yè)對經(jīng)營的動態(tài)情況以及這種情況為什么發(fā)生都會有所體驗,接下來就要將業(yè)務(wù)信息用于預(yù)測了。數(shù)據(jù)倉庫也隨之進入“預(yù)測”階段,即數(shù)據(jù)挖掘階段。數(shù)據(jù)挖掘能夠預(yù)知企業(yè)即將發(fā)生的動向,幫助管理者更為積極地管理和實施企業(yè)戰(zhàn)略。數(shù)據(jù)挖掘為用戶提供豐富的數(shù)據(jù)采集工具,以便利用歷史數(shù)據(jù)創(chuàng)建預(yù)測模型。
數(shù)據(jù)倉庫演進的第4階段即是動態(tài)數(shù)據(jù)倉庫。第1到第3階段的數(shù)據(jù)倉庫技術(shù)都以支持企業(yè)內(nèi)部戰(zhàn)略性決策為重點。而第4階段則側(cè)重在“戰(zhàn)術(shù)性”的決策支持,為“執(zhí)行企業(yè)戰(zhàn)略的員工”提供支持。我們將這一階段稱為“營運導(dǎo)向”階段。
動態(tài)數(shù)據(jù)倉庫技術(shù)在企業(yè)環(huán)境成熟應(yīng)用后,將***企業(yè)“動態(tài)性”階段。伴隨著動態(tài)數(shù)據(jù)倉庫在決策支持領(lǐng)域所扮演的角色越來越重要,企業(yè)實現(xiàn)決策自動化的積極性也在不斷提高。在人工操作效果不明顯時,為了尋求決策的有效性和連續(xù)性,企業(yè)會趨向于采取自動決策方式。
數(shù)據(jù)倉庫“動”起來
“動態(tài)數(shù)據(jù)倉庫”是一種創(chuàng)新理念,但其技術(shù)基礎(chǔ)和架構(gòu)思想還是來自傳統(tǒng)數(shù)據(jù)倉庫技術(shù)。關(guān)鍵的區(qū)別是動態(tài)數(shù)據(jù)倉庫增加了“動態(tài)”特性,與傳統(tǒng)數(shù)據(jù)倉庫相比,它具有如下特點:
1.動態(tài)訪問
動態(tài)訪問是指一線用戶可以動態(tài)、或?qū)崟r地訪問所需要的信息。傳統(tǒng)的數(shù)據(jù)倉庫用戶只針對高端管理層,而如果要實現(xiàn)大量客戶經(jīng)理和客戶代表同時訪問,是一個很大的壓力。動態(tài)數(shù)據(jù)倉庫采用不同于傳統(tǒng)數(shù)據(jù)倉庫的技術(shù)手段,擴展了數(shù)據(jù)倉庫系統(tǒng)的用戶范圍,實現(xiàn)動態(tài)訪問。可以說,動態(tài)數(shù)據(jù)倉庫讓一線員工真正“動了起來”。
2.動態(tài)數(shù)據(jù)加載
傳統(tǒng)數(shù)據(jù)倉庫保存的是歷史的、相對靜止的、集成的企業(yè)數(shù)據(jù)。其往往是先加載好數(shù)據(jù),再去支撐業(yè)務(wù)查詢。而動態(tài)數(shù)據(jù)倉庫的數(shù)據(jù)加載卻可以在加載數(shù)據(jù)的同時,滿足用戶的查詢請求,而且動態(tài)加載的負荷不影響用戶使用數(shù)據(jù)倉庫。不僅如此,動態(tài)數(shù)據(jù)倉庫的數(shù)據(jù)也是準(zhǔn)實時加載的,這樣就可以使用戶能夠訪問幾乎和生產(chǎn)環(huán)境時效相當(dāng)?shù)臄?shù)據(jù)。
3.動態(tài)事件
傳統(tǒng)數(shù)據(jù)倉庫只是支持用戶對企業(yè)歷史數(shù)據(jù)的分析,或者經(jīng)過一些模型對未來的一些發(fā)展進行預(yù)測。它無法支持一線員工在遇到一些“動態(tài)事件”(例如銀行柜臺向客戶推薦理財產(chǎn)品)時,進行一些實時的業(yè)務(wù)操作。而動態(tài)數(shù)據(jù)倉庫就可以支持一線員工在遇到這些“動態(tài)事件”時,及時做出響應(yīng),成功抓住業(yè)務(wù)機會,從而大幅提升業(yè)績。因為,從事情發(fā)生到采取行動的時間越短,成功銷售的命中率就越高,所獲的價值也就越高。
4.動態(tài)負載管理
傳統(tǒng)數(shù)據(jù)倉庫在負載管理方面,沒有什么特殊要求。而動態(tài)數(shù)據(jù)倉庫則包含策略動態(tài)負載管理和操作動態(tài)負載管理。其中,操作動態(tài)負載管理一般是比較簡單的訪問,不需要看太多的信息;而策略動態(tài)負載管理則需要實施復(fù)雜的數(shù)據(jù)挖掘。
5.動態(tài)企業(yè)集成
傳統(tǒng)數(shù)據(jù)倉庫主要用來支持企業(yè)用戶對數(shù)據(jù)進行分析。而動態(tài)數(shù)據(jù)倉庫則可以將企業(yè)所有系統(tǒng)都很好地整合在一起,形成一個閉環(huán),從而實現(xiàn)流程的自動化,而不是一個獨立的系統(tǒng)。
6.動態(tài)可用性
因為動態(tài)數(shù)據(jù)庫已經(jīng)不是一個純粹的后臺系統(tǒng),而是業(yè)務(wù)運營的一部分,因此對可靠性、穩(wěn)定性的要求更為嚴(yán)格。#p#
動態(tài)數(shù)據(jù)倉庫設(shè)計
前面提到,“動態(tài)數(shù)據(jù)倉庫”在技術(shù)設(shè)施上采用得都是已有技術(shù),而實現(xiàn)的難點在于“動態(tài)”,即如何實現(xiàn)數(shù)據(jù)倉庫的“動態(tài)”特性,這也是部署“動態(tài)數(shù)據(jù)倉庫”系統(tǒng)的關(guān)鍵所在。動態(tài)數(shù)據(jù)倉庫中包含了傳統(tǒng)數(shù)據(jù)倉庫的各種元素,例如元數(shù)據(jù)管理、數(shù)據(jù)分發(fā)、對外服務(wù)、調(diào)度管理、代碼自動化、數(shù)據(jù)質(zhì)量管理等。
要實現(xiàn)動態(tài)數(shù)據(jù)倉庫中的動態(tài)數(shù)據(jù)加載,有多個實施方案供用戶選擇。目前,市場中存在多個接近實時的數(shù)據(jù)同步解決方案。例如,在專有工具方面,可以借助IBM WRS SQL復(fù)制和IBM WRS基于Q的復(fù)制實現(xiàn);ETL工具包含Informatica PowerExchange、IBM DataStage加CDC組件;數(shù)據(jù)庫工具包括,甲骨文數(shù)據(jù)庫的復(fù)制技術(shù)、DB2基于CD/CCD的SQL復(fù)制,以及SQL Server的出版社訂閱復(fù)制技術(shù);另外,數(shù)據(jù)捕獲器與消息中間件的集成可以提供動態(tài)數(shù)據(jù)倉庫的客戶化集成解決方案。
上述方案基本上是基于現(xiàn)有的數(shù)據(jù)庫復(fù)制技術(shù)進行。除此之外,還有一些專業(yè)的數(shù)據(jù)同步軟件,例如GoldenGate就是進行數(shù)據(jù)實時同步的一個非常好的工具。有報道稱,美國領(lǐng)先衛(wèi)星電視服務(wù)提供商DIRECTV就是采用GoldenGate和Teradata來部署動態(tài)數(shù)據(jù)倉庫,并獲得成功的。
動態(tài)數(shù)據(jù)倉庫的應(yīng)用
現(xiàn)階段,動態(tài)數(shù)據(jù)倉庫的實踐者主要為速遞服務(wù)公司和金融保險類企業(yè)。軟件解決方案方面,NCR teradata的ADW(Active Data Warehouse)、Sybase IQ能夠為企業(yè)的動態(tài)數(shù)據(jù)倉庫應(yīng)用提供比較好的支持。其中,Sybase IQ的特色在于采用了按列存儲的創(chuàng)新技術(shù)和專有的數(shù)據(jù)壓縮技術(shù)。
近期速遞服務(wù)行業(yè)紛紛開始構(gòu)建郵件速遞的實時動態(tài)查詢系統(tǒng)。作為這一系統(tǒng)的主要支撐技術(shù),動態(tài)數(shù)據(jù)倉庫將幫助速遞服務(wù)企業(yè)構(gòu)建覆蓋業(yè)務(wù)分析、時限控制、財務(wù)結(jié)算等內(nèi)容的業(yè)務(wù)應(yīng)用平臺。日前,國內(nèi)某速遞服務(wù)公司就以Teradata平臺作為其特快專遞系統(tǒng)的硬件平臺,并采用Teradata ADW解決方案搭建起其第三代速遞跟蹤查詢系統(tǒng)。
系統(tǒng)上線后,該公司的速遞郵件實時動態(tài)跟蹤查詢系統(tǒng)每天處理超過千萬筆信息,全天郵件查詢量從上線之初的幾十萬件次增加到了上百萬件次,高峰訪問時段可達到每小時十幾萬件次。借助動態(tài)數(shù)據(jù)倉庫,該公司速遞郵件的收寄、投遞信息在處理完成幾分鐘內(nèi)即可發(fā)送上網(wǎng),而對于采用無線手持終端方式上傳的郵件狀態(tài),可以在幾秒鐘內(nèi)即體現(xiàn)出郵件的***狀態(tài),大大提高了查詢的時效性,更好地滿足了用戶的需求。
而在金融行業(yè),現(xiàn)階段的動態(tài)數(shù)據(jù)倉庫應(yīng)用主要是主動預(yù)防和管控某些業(yè)務(wù)風(fēng)險,而不是等到風(fēng)險發(fā)生后再報告。該過程將原來的被動管理轉(zhuǎn)化為現(xiàn)在的主動防范。而除了風(fēng)險控管,企業(yè)還可以通過對數(shù)據(jù)的分析和整理來判定自己的交易行為或客戶的交易行為是否符合法律法規(guī)的要求。
【編輯推薦】