偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

聊聊數(shù)倉(cāng)模型雜燴

大數(shù)據(jù) 數(shù)據(jù)分析
人的大腦算力有限,世界又太過于復(fù)雜。需要將你的關(guān)注點(diǎn)抽象出簡(jiǎn)單模型,用于問題的研究和解決。

 [[379616]]

本文轉(zhuǎn)載自微信公眾號(hào)「曾二爺」,作者曾二爺。轉(zhuǎn)載本文請(qǐng)聯(lián)系曾二爺公眾號(hào)。

一、什么是建模

人的大腦算力有限,世界又太過于復(fù)雜。需要將你的關(guān)注點(diǎn)抽象出簡(jiǎn)單模型,用于問題的研究和解決。

比如數(shù)學(xué)建模,將關(guān)注的問題抽象成數(shù)學(xué)模型進(jìn)行解決;比如AAARR增長(zhǎng)黑客模型,抽象出用戶的5個(gè)生命周期進(jìn)行研究和指導(dǎo)行動(dòng)。

而數(shù)據(jù)建模便是將問題域用數(shù)據(jù)表示出。

二、業(yè)務(wù)模型

接下來我們以下面的公立校業(yè)務(wù)場(chǎng)景來進(jìn)行探討:

老師創(chuàng)建作業(yè)布置到多個(gè)班級(jí)

班級(jí)里的學(xué)生做完后提交作業(yè)(一個(gè)學(xué)生只有一個(gè)班級(jí))

這里涉四種實(shí)體(老師、作業(yè)、班級(jí)、學(xué)生)及四個(gè)業(yè)務(wù)流程(創(chuàng)建作業(yè)、布置作業(yè)、做作業(yè)、交作業(yè))。

三、關(guān)系型三范式模型

服務(wù)端的同學(xué)為了在關(guān)系型數(shù)據(jù)庫(kù)中滿足業(yè)務(wù)快速增刪改查,盡量減少數(shù)據(jù)冗余,常常采用三范式進(jìn)行數(shù)據(jù)建模。

針對(duì)上述業(yè)務(wù)一般會(huì)有(老師、作業(yè)、班級(jí)、學(xué)生)四種實(shí)體表和(班級(jí)-作業(yè)、學(xué)生-作業(yè))兩個(gè)關(guān)系表。

創(chuàng)建作業(yè)這個(gè)業(yè)務(wù)弱化到了作業(yè)表中

布置作業(yè)體現(xiàn)在班級(jí)-作業(yè)關(guān)系表中

做作業(yè)和交作業(yè)融合到學(xué)生-作業(yè)關(guān)系表中

這樣我們6個(gè)表的增刪改查就可以實(shí)現(xiàn)這個(gè)業(yè)務(wù)。

四、數(shù)倉(cāng)模型

4.1 維度建模

到了數(shù)倉(cāng)我們主要將數(shù)據(jù)用于分析,一般采用維度建模將三范式模型進(jìn)行重構(gòu)。劃分維度和事實(shí),建立不同層級(jí)的數(shù)據(jù),滿足多種分析場(chǎng)景。

當(dāng)我們需要分析的是老師布置作業(yè)到班級(jí)這個(gè)業(yè)務(wù)過程時(shí),作業(yè)-班級(jí)就相當(dāng)于事實(shí)表,維度表有班級(jí)、作業(yè)。

4.2 粒度

業(yè)務(wù)過程會(huì)有不同的粒度,比如學(xué)生-作業(yè)的粒度就比班級(jí)-作業(yè)更細(xì)。粗粒度的班級(jí)-作業(yè)能匯總學(xué)生-作業(yè)的一些信息,比如某份作業(yè)某個(gè)班級(jí)有多少人提交。

一般我們會(huì)重點(diǎn)建設(shè)各個(gè)業(yè)務(wù)過程的最細(xì)粒度的事實(shí)表,方便后面的多級(jí)粒度的匯總。

4.3 歷史與現(xiàn)在

通常來說數(shù)倉(cāng)從業(yè)務(wù)庫(kù)同步過來的數(shù)據(jù)都是當(dāng)前數(shù)據(jù)的一個(gè)鏡像,業(yè)務(wù)庫(kù)的模型都是針對(duì)于當(dāng)前業(yè)務(wù)的,不會(huì)保存歷史的信息。比如新的學(xué)期班級(jí)表中的年級(jí)屬性會(huì)變更,業(yè)務(wù)庫(kù)就直接進(jìn)行更改。

到了數(shù)倉(cāng)如果我們要計(jì)算歷史作業(yè)的提交信息,那就得保存學(xué)生提交作業(yè)的當(dāng)時(shí)他所在的年級(jí)。像年級(jí)慢慢變化的維度我們稱之為緩慢變化維。

處理方式既可以建立一個(gè)班級(jí)歷史信息表,關(guān)聯(lián)的時(shí)候帶上時(shí)間,也可以將年級(jí)信息‘退化’到學(xué)生-作業(yè)的事實(shí)表中不再放維度表。

4.4 多事實(shí)融合

所謂寬表既可能是多個(gè)維度退化到事實(shí)表形成的,也可能是多個(gè)有關(guān)聯(lián)的事實(shí)融合而來。

比如 文中的例子我們可以通過信息的冗余和置空實(shí)現(xiàn)一個(gè)最極端的寬表:老師-作業(yè)-班級(jí)-學(xué)生

該表記錄了所以老師的信息,如果沒有創(chuàng)建過作業(yè)那其他的信息都為空

如果老師有創(chuàng)建過多個(gè)作業(yè)那老師的信息冗余存儲(chǔ)到每條作業(yè)信息

班級(jí)和學(xué)生信息也全都記錄到這個(gè)表上,如果沒有作業(yè)信息,那老師、作業(yè)信息都為空,如果有多條作業(yè)信息也進(jìn)行冗余存儲(chǔ)

使用的時(shí)候就需要按需去重或者過濾空值

這樣融合了多個(gè)業(yè)務(wù)流程的明細(xì),可以支撐各種業(yè)務(wù)的分析,但維護(hù)成本、存儲(chǔ)成本等都是很高的。

 

責(zé)任編輯:武曉燕 來源: 曾二爺
相關(guān)推薦

2022-03-01 17:16:16

數(shù)倉(cāng)建模ID Mapping

2021-01-04 05:42:48

數(shù)倉(cāng)模型設(shè)計(jì)

2022-12-08 10:16:58

數(shù)據(jù)模型

2021-09-01 07:21:41

數(shù)倉(cāng)RFM模型

2022-08-22 17:46:56

虛擬數(shù)倉(cāng)Impala

2024-08-20 08:39:41

大數(shù)據(jù)天穹數(shù)倉(cāng)數(shù)據(jù)治理

2022-07-26 15:38:58

數(shù)據(jù)倉(cāng)數(shù)據(jù)治理數(shù)據(jù)團(tuán)隊(duì)

2023-01-03 17:43:39

網(wǎng)易郵箱數(shù)倉(cāng)

2021-09-06 08:26:08

JavaScript數(shù)獨(dú) LeetCode

2023-11-20 08:01:38

并發(fā)處理數(shù)Tomcat

2024-12-12 00:02:58

2021-12-02 08:41:30

數(shù)倉(cāng)建模設(shè)計(jì)

2025-06-11 02:45:00

2023-11-23 16:53:56

數(shù)據(jù)倉(cāng)庫(kù)大數(shù)據(jù)

2022-02-18 09:02:04

數(shù)據(jù)倉(cāng)庫(kù)治理

2022-01-13 10:45:48

數(shù)倉(cāng)對(duì)象主題域

2023-08-07 01:25:39

2021-08-11 07:53:22

數(shù)倉(cāng)維度建模

2021-01-05 05:30:30

數(shù)倉(cāng)維度SCD

2022-12-06 17:52:57

離線數(shù)倉(cāng)治理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)