偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路

大數(shù)據(jù)
隨著互聯(lián)網(wǎng)規(guī)模不斷的擴大,數(shù)據(jù)也在爆炸式地增長,各種結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)不斷地產(chǎn)生。新環(huán)境下的數(shù)據(jù)應(yīng)用呈現(xiàn)業(yè)務(wù)變化快、數(shù)據(jù)來源多、系統(tǒng)耦合多、應(yīng)用深度深等特征。那么基于這些特征,該如何構(gòu)建數(shù)據(jù)倉庫呢?

總體思路

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

隨著互聯(lián)網(wǎng)規(guī)模不斷的擴大,數(shù)據(jù)也在爆炸式地增長,各種結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)不斷地產(chǎn)生。新環(huán)境下的數(shù)據(jù)應(yīng)用呈現(xiàn)業(yè)務(wù)變化快、數(shù)據(jù)來源多、系統(tǒng)耦合多、應(yīng)用深度深等特征。那么基于這些特征,該如何構(gòu)建數(shù)據(jù)倉庫呢?我認(rèn)為應(yīng)該從穩(wěn)定、可信、豐富、透明四個關(guān)鍵詞入手。其中,穩(wěn)定要求數(shù)據(jù)的產(chǎn)出穩(wěn)定、有保障;可信意味著數(shù)據(jù)的質(zhì)量要足夠高;豐富是指數(shù)據(jù)涵蓋的業(yè)務(wù)面要足夠豐富;透明要求數(shù)據(jù)構(gòu)成流程體系是透明,讓用戶放心使用。

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

我們之所以選擇基于大數(shù)據(jù)平臺構(gòu)建數(shù)據(jù)倉庫,是由大數(shù)據(jù)平臺豐富的特征決定的:

  • 強大的計算和存儲能力,使得更扁平化的數(shù)據(jù)流程設(shè)計成為可能,簡化計算過程;
  • 多樣的編程接口和框架,豐富了數(shù)據(jù)加工的手段;
  • 豐富的數(shù)據(jù)采集通道,能夠?qū)崿F(xiàn)非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的采集;
  • 各種安全和管理措施,保障了平臺的可用性。

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

倉庫架構(gòu)設(shè)計原則包括四點:第一自下而上結(jié)合自上而下的方式,保障數(shù)據(jù)搜集的全面性;第二高容錯性,隨著系統(tǒng)耦合度的增加,任何一個系統(tǒng)出現(xiàn)問題都會對數(shù)倉服務(wù)產(chǎn)生影響,因此在數(shù)倉構(gòu)建時,高容錯性是必不可少的因素;第三數(shù)據(jù)質(zhì)量監(jiān)控需要貫穿整個數(shù)據(jù)流程,毫不夸張地說,數(shù)據(jù)質(zhì)量監(jiān)控消耗的資源可以等同于數(shù)據(jù)倉庫構(gòu)建的資源;第四無需擔(dān)心數(shù)據(jù)冗余,充分利用存儲換易用。

模型設(shè)計

構(gòu)建數(shù)倉的首要步驟就是進行模型設(shè)計。

維度莫建?;?qū)嶓w關(guān)系建模

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

常見的模型設(shè)計思路包括維度建模和實體關(guān)系建模。維度建模實施簡單,便于實時數(shù)據(jù)分析,適用于業(yè)務(wù)分析報表和BI;實體關(guān)系建模結(jié)構(gòu)較復(fù)雜,但它便于主體數(shù)據(jù)打通,適合復(fù)雜數(shù)據(jù)內(nèi)容的深度挖掘。

每個企業(yè)在構(gòu)建自己數(shù)倉時,應(yīng)該根據(jù)業(yè)務(wù)形態(tài)和需求場景選擇合適的建模方式。對于應(yīng)用復(fù)雜性企業(yè),可以采用多種建模結(jié)合的方式,例如在基礎(chǔ)層采用維度建模的方式,讓維度更加清晰;中間層采用實體關(guān)系建模方式,使得中間層更容易被上層應(yīng)用使用。

星型模型和雪花模型

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

除了建模方式之外,在星型模型和雪花模型的選擇上也有可能讓使用者左右為難。事實上,兩種模型是并存的,星型是雪花模型的一種。理論上真實數(shù)據(jù)的模型都是雪花模型;實際數(shù)據(jù)倉庫中兩種模型是并存的。

由于星型模型相對結(jié)構(gòu)簡單,我們可以在數(shù)據(jù)中間層利用數(shù)據(jù)冗余將雪花模型轉(zhuǎn)換成星型模型,從而有利于數(shù)據(jù)應(yīng)用和減少計算資源消耗。

數(shù)據(jù)分層

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

在確定建模思路和模型類型之后,下一步的工作是數(shù)據(jù)分層。數(shù)據(jù)分層可以使得數(shù)據(jù)構(gòu)建體系更加清晰,便于數(shù)據(jù)使用者快速對數(shù)據(jù)進行定位;同時數(shù)據(jù)分層也可以簡化數(shù)據(jù)加工處理流程,降低計算復(fù)雜度。

我們常用的數(shù)據(jù)倉庫的數(shù)據(jù)分層通常分為集市層、中間層、基礎(chǔ)數(shù)據(jù)層上下三層結(jié)構(gòu)。由傳統(tǒng)的多層結(jié)構(gòu)減少到上下三層結(jié)構(gòu)的目的是為了壓縮整體數(shù)據(jù)處理流程的長度,同時扁平化的數(shù)據(jù)處理流程有助于數(shù)據(jù)質(zhì)量控制和數(shù)據(jù)運維。

在上下三層的結(jié)構(gòu)的右側(cè),我們增加了流式數(shù)據(jù),將其添加成數(shù)據(jù)體系的一部分。這是因為當(dāng)前的數(shù)據(jù)應(yīng)用方向會越來越關(guān)注數(shù)據(jù)的時效性,越實時的數(shù)據(jù)價值度越高。

但是,由于流式數(shù)據(jù)集的采集、加工和管理的成本較高,一般都會按照需求驅(qū)動的方式建設(shè);此外,考慮到成本因素,流式數(shù)據(jù)體系的結(jié)構(gòu)更加扁平化,通常不會設(shè)計中間層。

下面來具體看下每一層的具體作用。

數(shù)據(jù)基礎(chǔ)層

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

數(shù)據(jù)基礎(chǔ)層主要完成的工作包括以下幾點:

  • 數(shù)據(jù)采集:把不同數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一采集到一個平臺上;
  • 數(shù)據(jù)清洗,清洗不符合質(zhì)量要求的數(shù)據(jù),避免臟數(shù)據(jù)參與后續(xù)數(shù)據(jù)計算;
  • 數(shù)據(jù)歸類,建立數(shù)據(jù)目錄,在基礎(chǔ)層一般按照來源系統(tǒng)和業(yè)務(wù)域進行分類;
  • 數(shù)據(jù)結(jié)構(gòu)化,對于半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),進行結(jié)構(gòu)化;
  • 數(shù)據(jù)規(guī)范化,包括規(guī)范維度標(biāo)識、統(tǒng)一計量單位等規(guī)范化操作。

數(shù)據(jù)中間層

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

數(shù)據(jù)中間層最為重要的目標(biāo)就是把同一實體不同來源的數(shù)據(jù)打通起來,這是因為當(dāng)前業(yè)務(wù)形態(tài)下,同一實體的數(shù)據(jù)可能分散在不同的系統(tǒng)和來源,且這些數(shù)據(jù)對同一實體的標(biāo)識符可能不同。此外,數(shù)據(jù)中間層還可以從行為中抽象關(guān)系。從行為中抽象出來的基礎(chǔ)關(guān)系,會是未來上層應(yīng)用一個很重要的數(shù)據(jù)依賴。例如抽象出的興趣、偏好、習(xí)慣等關(guān)系數(shù)據(jù)是推薦、個性化的基礎(chǔ)生產(chǎn)資料。

在中間層,為了保證主題的完整性或提高數(shù)據(jù)的易用性,經(jīng)常會進行適當(dāng)?shù)臄?shù)據(jù)冗余。比如某一實事數(shù)據(jù)和兩個主題相關(guān)但自身又沒有成為獨立主題,則會放在兩個主題庫中;為了提高單數(shù)據(jù)表的復(fù)用性和減少計算關(guān)聯(lián),通常會在事實表中冗余部分維度信息。

數(shù)據(jù)集市層

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

數(shù)據(jù)集市層是上下三層架構(gòu)的最上層,通常是由需求場景驅(qū)動建設(shè)的,并且各集市間垂直構(gòu)造。在數(shù)據(jù)集市層,我們可以深度挖掘數(shù)據(jù)價值。值得注意的是,數(shù)據(jù)集市層需要能夠快速試錯。

數(shù)據(jù)架構(gòu)

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

數(shù)據(jù)架構(gòu)包括數(shù)據(jù)整合、數(shù)據(jù)體系、數(shù)據(jù)服務(wù)三部分。其中,數(shù)據(jù)整合又可以分為結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化三類。

數(shù)據(jù)整合

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

結(jié)構(gòu)化數(shù)據(jù)采集又可細(xì)分為全量采集、增量采集、實時采集三類。三種采集方式的各自特點和適應(yīng)場合如上圖所示,其中全量采集的方式最為簡單;實時采集的采集質(zhì)量最難控制。

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

在傳統(tǒng)的架構(gòu)中,日志的結(jié)構(gòu)化處理是放在數(shù)倉體系之外的。在大數(shù)據(jù)平臺倉庫架構(gòu)中,日志在采集到平臺之前不做結(jié)構(gòu)化處理;在大數(shù)據(jù)平臺上按行符分割每條日志,整條日志存儲在一個數(shù)據(jù)表字段;后續(xù),通過UDF或MR計算框架實現(xiàn)日志結(jié)構(gòu)化。

在我們看來,日志結(jié)構(gòu)越規(guī)范,解析成本越低。在日志結(jié)構(gòu)化的過程中,并不一定需要完全平鋪數(shù)據(jù)內(nèi)容,只需結(jié)構(gòu)化出重要常用字段;同時,為了保障擴展性,我們可以利用數(shù)據(jù)冗余保存原始符合字段(如useragent字段)。

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

非結(jié)構(gòu)化的數(shù)據(jù)需要結(jié)構(gòu)化才能使用。非結(jié)構(gòu)化數(shù)據(jù)特征提取包括語音轉(zhuǎn)文本、圖片識別、自然語言處理、圖片達(dá)標(biāo)、視頻識別等方式。盡管目前數(shù)倉架構(gòu)體系中并不包含非結(jié)構(gòu)化數(shù)據(jù)特征提取操作,但在未來,這將成為可能。

數(shù)據(jù)服務(wù)化

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

數(shù)據(jù)服務(wù)化包括統(tǒng)計服務(wù)、分析服務(wù)和標(biāo)簽服務(wù):

  • 統(tǒng)計服務(wù)主要是偏傳統(tǒng)的報表服務(wù),利用大數(shù)據(jù)平臺將數(shù)據(jù)加工后的結(jié)果放入關(guān)系型數(shù)據(jù)庫中,供前端的報表系統(tǒng)或業(yè)務(wù)系統(tǒng)查詢;
  • 分析服務(wù)用來提供明細(xì)的事實數(shù)據(jù),利用大數(shù)據(jù)平臺的實時計算能力,允許操作人員自主靈活的進行各種維度的交叉組合查詢。分析服務(wù)的能力類似于傳統(tǒng)cube提供的內(nèi)容,但是在大數(shù)據(jù)平臺下不需要預(yù)先建好cube,更靈活、更節(jié)省成本;
  • 標(biāo)簽服務(wù),大數(shù)據(jù)的應(yīng)用場景下,經(jīng)常會對主體進行特征刻畫,比如客戶的消費能力、興趣習(xí)慣、物理特征等等,這些數(shù)據(jù)通過打標(biāo)簽轉(zhuǎn)換成KV的數(shù)據(jù)服務(wù),用于前端應(yīng)用查詢。

架構(gòu)設(shè)計中一些實用的點

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

在架構(gòu)設(shè)計中有一些實用的點,這里給大家分享一下:

第一,通過巧用虛擬節(jié)點實現(xiàn)多系統(tǒng)數(shù)據(jù)源同步,實現(xiàn)跨系統(tǒng)間的數(shù)據(jù)傳輸,實現(xiàn)多應(yīng)用間數(shù)據(jù)交互。通過巧用虛擬節(jié)點減少運維人員在實際出現(xiàn)問題時的運維成本。

第二,采用強制分區(qū),在所有的表都上都加上時間分區(qū)。通過分區(qū),保證每個任務(wù)都能夠獨立重跑,而不產(chǎn)生數(shù)據(jù)質(zhì)量問題,降低了數(shù)據(jù)修復(fù)成本;此外通過分區(qū)裁剪,還可以降低計算成本。

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

第三,應(yīng)用計算框架完成日志結(jié)構(gòu)化、同類數(shù)據(jù)計算過程等操作,減輕了開發(fā)人員的負(fù)擔(dān),同時更容易維護。

第四,優(yōu)化關(guān)鍵路徑。優(yōu)化關(guān)鍵路徑中耗時最長的任務(wù)是最有效的保障數(shù)據(jù)產(chǎn)出時間的手段。

數(shù)據(jù)治理

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

數(shù)據(jù)治理不是獨立于系統(tǒng)之外的保障,它應(yīng)該貫穿在數(shù)倉架構(gòu)內(nèi)部和數(shù)據(jù)處理的流程之中。

數(shù)據(jù)質(zhì)量

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

保障數(shù)據(jù)質(zhì)量,可以從事前、事中、事后入手。事前,我們可以通過制定每份數(shù)據(jù)的數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則,越重要的數(shù)據(jù)對應(yīng)的監(jiān)控規(guī)則應(yīng)該越多;事中,通過監(jiān)控和影響數(shù)據(jù)生產(chǎn)過程,對不符合質(zhì)量要求的數(shù)據(jù)進行干預(yù),使其不影響下流數(shù)據(jù)的質(zhì)量;事后,通過對數(shù)據(jù)質(zhì)量情況進行分析和打分,將一些不足和改進反饋數(shù)據(jù)監(jiān)控體系,推動整體的數(shù)據(jù)質(zhì)量提升。

數(shù)據(jù)生命周期管理

 

企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路[轉(zhuǎn)]

出于成本等因素的考慮,在大數(shù)據(jù)平臺上我們依然需要對數(shù)據(jù)生命周期進行管理。根據(jù)使用頻率將數(shù)據(jù)分為冰、冷、溫、熱四類。一個合理的數(shù)據(jù)生命周期管理要保證溫?zé)釘?shù)據(jù)占整個數(shù)據(jù)體系大部分;同時為了保障數(shù)據(jù)資產(chǎn)的完整性,對于重要的基礎(chǔ)數(shù)據(jù)會長久保留。

對于數(shù)據(jù)中間計算過程數(shù)據(jù),在保障滿足絕大部分應(yīng)用訪問歷史數(shù)據(jù)需要的前提下,縮短數(shù)據(jù)保留周期,有助于降低存儲成本;最后一點值得注意的是,冷備已經(jīng)成為歷史,在大數(shù)據(jù)平臺下不需要單獨的冷備設(shè)備。

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2015-04-15 09:26:34

大數(shù)據(jù)平臺用友

2018-05-15 15:26:20

大數(shù)據(jù)平臺 CIO

2021-07-15 10:49:08

數(shù)據(jù)平臺企業(yè)

2018-11-12 13:34:17

工業(yè)大數(shù)據(jù)制造業(yè)結(jié)構(gòu)化數(shù)據(jù)

2015-11-26 17:49:05

商務(wù)大數(shù)據(jù)工業(yè)

2021-02-22 10:55:59

大數(shù)據(jù)大數(shù)據(jù)平臺數(shù)據(jù)平臺建設(shè)

2020-12-17 19:15:48

大數(shù)據(jù)大數(shù)據(jù)平臺架構(gòu)數(shù)據(jù)平臺建設(shè)

2017-08-10 16:12:51

2017-11-28 17:41:39

大數(shù)據(jù)

2013-09-25 13:47:35

Oracle甲骨文

2013-02-21 16:36:09

大數(shù)據(jù)

2013-03-18 10:14:00

大數(shù)據(jù)小數(shù)據(jù)

2016-12-01 19:07:46

大數(shù)據(jù)數(shù)據(jù)分析

2018-05-08 14:35:03

大數(shù)據(jù)數(shù)據(jù)處理存儲

2013-07-02 09:46:11

大數(shù)據(jù)分析基礎(chǔ)設(shè)施架構(gòu)

2020-05-29 17:10:15

數(shù)據(jù)架構(gòu)數(shù)據(jù)一切數(shù)據(jù)體系

2015-01-13 09:38:20

大數(shù)據(jù)數(shù)據(jù)孤島

2017-07-03 13:53:17

大數(shù)據(jù)大數(shù)據(jù)平臺數(shù)據(jù)治理

2010-05-27 11:35:43

2009-01-18 16:50:31

數(shù)據(jù)倉庫數(shù)據(jù)倉庫概念模型數(shù)據(jù)挖掘
點贊
收藏

51CTO技術(shù)棧公眾號