偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

漫談數(shù)據(jù)倉(cāng)庫(kù)之拉鏈表(原理、設(shè)計(jì)以及在Hive中的實(shí)現(xiàn))

大數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)
本文將會(huì)談一談在數(shù)據(jù)倉(cāng)庫(kù)中拉鏈表相關(guān)的內(nèi)容,包括它的原理、設(shè)計(jì)、以及在我們大數(shù)據(jù)場(chǎng)景下的實(shí)現(xiàn)方式。

0x00 前言

本文將會(huì)談一談在數(shù)據(jù)倉(cāng)庫(kù)中拉鏈表相關(guān)的內(nèi)容,包括它的原理、設(shè)計(jì)、以及在我們大數(shù)據(jù)場(chǎng)景下的實(shí)現(xiàn)方式。

[[191222]]

全文由下面幾個(gè)部分組成:

  1. 先分享一下拉鏈表的用途、什么是拉鏈表。
  2. 通過(guò)一些小的使用場(chǎng)景來(lái)對(duì)拉鏈表做近一步的闡釋,以及拉鏈表和常用的切片表的區(qū)別。
  3. 舉一個(gè)具體的應(yīng)用場(chǎng)景,來(lái)設(shè)計(jì)并實(shí)現(xiàn)一份拉鏈表,***并通過(guò)一些例子說(shuō)明如何使用我們?cè)O(shè)計(jì)的這張表(因?yàn)楝F(xiàn)在Hive的大規(guī)模使用,我們會(huì)以Hive場(chǎng)景下的設(shè)計(jì)為例)。
  4. 分析一下拉鏈表的優(yōu)缺點(diǎn),并對(duì)前面的提到的一些內(nèi)容進(jìn)行補(bǔ)充說(shuō)明,比如說(shuō)拉鏈表和流水表的區(qū)別。

0x01 什么是拉鏈表

拉鏈表是針對(duì)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中表存儲(chǔ)數(shù)據(jù)的方式而定義的,顧名思義,所謂拉鏈,就是記錄歷史。記錄一個(gè)事物從開始,一直到當(dāng)前狀態(tài)的所有變化的信息。

我們先看一個(gè)示例,這就是一張拉鏈表,存儲(chǔ)的是用戶的最基本信息以及每條記錄的生命周期。我們可以使用這張表拿到***的當(dāng)天的***數(shù)據(jù)以及之前的歷史數(shù)據(jù)。

我們暫且不對(duì)這張表做細(xì)致的講解,后文會(huì)專門來(lái)闡述怎么來(lái)設(shè)計(jì)、實(shí)現(xiàn)和使用它。

拉鏈表的使用場(chǎng)景

在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型設(shè)計(jì)過(guò)程中,經(jīng)常會(huì)遇到下面這種表的設(shè)計(jì):

  1. 有一些表的數(shù)據(jù)量很大,比如一張用戶表,大約10億條記錄,50個(gè)字段,這種表,即使使用ORC壓縮,單張表的存儲(chǔ)也會(huì)超過(guò)100G,在HDFS使用雙備份或者三備份的話就更大一些。
  2. 表中的部分字段會(huì)被update更新操作,如用戶聯(lián)系方式,產(chǎn)品的描述信息,訂單的狀態(tài)等等。
  3. 需要查看某一個(gè)時(shí)間點(diǎn)或者時(shí)間段的歷史快照信息,比如,查看某一個(gè)訂單在歷史某一個(gè)時(shí)間點(diǎn)的狀態(tài)。
  4. 表中的記錄變化的比例和頻率不是很大,比如,總共有10億的用戶,每天新增和發(fā)生變化的有200萬(wàn)左右,變化的比例占的很小。

那么對(duì)于這種表我該如何設(shè)計(jì)呢?下面有幾種方案可選:

  1. 方案一:每天只留***的一份,比如我們每天用Sqoop抽取***的一份全量數(shù)據(jù)到Hive中。
  2. 方案二:每天保留一份全量的切片數(shù)據(jù)。
  3. 方案三:使用拉鏈表。

為什么使用拉鏈表

現(xiàn)在我們對(duì)前面提到的三種進(jìn)行逐個(gè)的分析。

方案一

這種方案就不用多說(shuō)了,實(shí)現(xiàn)起來(lái)很簡(jiǎn)單,每天drop掉前一天的數(shù)據(jù),重新抽一份***的。

優(yōu)點(diǎn)很明顯,節(jié)省空間,一些普通的使用也很方便,不用在選擇表的時(shí)候加一個(gè)時(shí)間分區(qū)什么的。

缺點(diǎn)同樣明顯,沒(méi)有歷史數(shù)據(jù),先翻翻舊賬只能通過(guò)其它方式,比如從流水表里面抽。

方案二

每天一份全量的切片是一種比較穩(wěn)妥的方案,而且歷史數(shù)據(jù)也在。

缺點(diǎn)就是存儲(chǔ)空間占用量太大太大了,如果對(duì)這邊表每天都保留一份全量,那么每次全量中會(huì)保存很多不變的信息,對(duì)存儲(chǔ)是極大的浪費(fèi),這點(diǎn)我感觸還是很深的……

當(dāng)然我們也可以做一些取舍,比如只保留近一個(gè)月的數(shù)據(jù)?但是,需求是無(wú)恥的,數(shù)據(jù)的生命周期不是我們能完全左右的。

拉鏈表

拉鏈表在使用上基本兼顧了我們的需求。

首先它在空間上做了一個(gè)取舍,雖說(shuō)不像方案一那樣占用量那么小,但是它每日的增量可能只有方案二的千分之一甚至是萬(wàn)分之一。

其實(shí)它能滿足方案二所能滿足的需求,既能獲取***的數(shù)據(jù),也能添加篩選條件也獲取歷史的數(shù)據(jù)。

所以我們還是很有必要來(lái)使用拉鏈表的。

0x02 拉鏈表的設(shè)計(jì)和實(shí)現(xiàn)

如何設(shè)計(jì)一張拉鏈表

下面我們來(lái)舉個(gè)栗子詳細(xì)看一下拉鏈表。

我們先看一下在Mysql關(guān)系型數(shù)據(jù)庫(kù)里的user表中信息變化。

在2017-01-01這一天表中的數(shù)據(jù)是:

在2017-01-02這一天表中的數(shù)據(jù)是, 用戶002和004資料進(jìn)行了修改,005是新增用戶:

在2017-01-03這一天表中的數(shù)據(jù)是, 用戶004和005資料進(jìn)行了修改,006是新增用戶:

如果在數(shù)據(jù)倉(cāng)庫(kù)中設(shè)計(jì)成歷史拉鏈表保存該表,則會(huì)有下面這樣一張表,這是***一天(即2017-01-03)的數(shù)據(jù):

說(shuō)明

  • t_start_date表示該條記錄的生命周期開始時(shí)間,t_end_date表示該條記錄的生命周期結(jié)束時(shí)間。
  • t_end_date = ‘9999-12-31’表示該條記錄目前處于有效狀態(tài)。
  • 如果查詢當(dāng)前所有有效的記錄,則select * from user where t_end_date = ‘9999-12-31’。
  • 如果查詢2017-01-02的歷史快照,則select from user where t_start_date <= ‘2017-01-02’ and t_end_date >= ‘2017-01-02’。(*此處要好好理解,是拉鏈表比較重要的一塊。**)

在Hive中實(shí)現(xiàn)拉鏈表

在現(xiàn)在的大數(shù)據(jù)場(chǎng)景下,大部分的公司都會(huì)選擇以Hdfs和Hive為主的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)。目前的Hdfs版本來(lái)講,其文件系統(tǒng)中的文件是不能做改變的,也就是說(shuō)Hive的表智能進(jìn)行刪除和添加操作,而不能進(jìn)行update?;谶@個(gè)前提,我們來(lái)實(shí)現(xiàn)拉鏈表。

還是以上面的用戶表為例,我們要實(shí)現(xiàn)用戶的拉鏈表。在實(shí)現(xiàn)它之前,我們需要先確定一下我們有哪些數(shù)據(jù)源可以用。

  1. 我們需要一張ODS層的用戶全量表。至少需要用它來(lái)初始化。
  2. 每日的用戶更新表。

而且我們要確定拉鏈表的時(shí)間粒度,比如說(shuō)拉鏈表每天只取一個(gè)狀態(tài),也就是說(shuō)如果一天有3個(gè)狀態(tài)變更,我們只取***一個(gè)狀態(tài),這種天粒度的表其實(shí)已經(jīng)能解決大部分的問(wèn)題了。

另外,補(bǔ)充一下每日的用戶更新表該怎么獲取,據(jù)筆者的經(jīng)驗(yàn),有3種方式拿到或者間接拿到每日的用戶增量,因?yàn)樗容^重要,所以詳細(xì)說(shuō)明:

  1. 我們可以監(jiān)聽Mysql數(shù)據(jù)的變化,比如說(shuō)用Canal,***合并每日的變化,獲取到***的一個(gè)狀態(tài)。
  2. 假設(shè)我們每天都會(huì)獲得一份切片數(shù)據(jù),我們可以通過(guò)取兩天切片數(shù)據(jù)的不同來(lái)作為每日更新表,這種情況下我們可以對(duì)所有的字段先進(jìn)行concat,再取md5,這樣就ok了。
  3. 流水表!有每日的變更流水表。

ods層的user表

現(xiàn)在我們來(lái)看一下我們ods層的用戶資料切片表的結(jié)構(gòu):

  1. CREATE EXTERNAL TABLE ods.user ( 
  2.   user_num STRING COMMENT '用戶編號(hào)'
  3.   mobile STRING COMMENT '手機(jī)號(hào)碼'
  4.   reg_date STRING COMMENT '注冊(cè)日期' 
  5. COMMENT '用戶資料表' 
  6. PARTITIONED BY (dt string) 
  7. ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' 
  8. STORED AS ORC 
  9. LOCATION '/ods/user'

ods層的user_update表

然后我們還需要一張用戶每日更新表,前面已經(jīng)分析過(guò)該如果得到這張表,現(xiàn)在我們假設(shè)它已經(jīng)存在。

  1. CREATE EXTERNAL TABLE ods.user_update ( 
  2.   user_num STRING COMMENT '用戶編號(hào)'
  3.   mobile STRING COMMENT '手機(jī)號(hào)碼'
  4.   reg_date STRING COMMENT '注冊(cè)日期' 
  5. COMMENT '每日用戶資料更新表' 
  6. PARTITIONED BY (dt string) 
  7. ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' 
  8. STORED AS ORC 
  9. LOCATION '/ods/user_update'

拉鏈表

現(xiàn)在我們創(chuàng)建一張拉鏈表:

  1. CREATE EXTERNAL TABLE dws.user_his ( 
  2.   user_num STRING COMMENT '用戶編號(hào)'
  3.   mobile STRING COMMENT '手機(jī)號(hào)碼'
  4.   reg_date STRING COMMENT '用戶編號(hào)'
  5.   t_start_date , 
  6.   t_end_date 
  7. COMMENT '用戶資料拉鏈表' 
  8. ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' 
  9. STORED AS ORC 
  10. LOCATION '/dws/user_his'

實(shí)現(xiàn)sql語(yǔ)句

然后初始化的sql就不寫了,其實(shí)就相當(dāng)于是拿一天的ods層用戶表過(guò)來(lái)就行,我們寫一下每日的更新語(yǔ)句。

現(xiàn)在我們假設(shè)我們已經(jīng)已經(jīng)初始化了2017-01-01的日期,然后需要更新2017-01-02那一天的數(shù)據(jù),我們有了下面的Sql。

然后把兩個(gè)日期設(shè)置為變量就可以了。

  1. INSERT OVERWRITE TABLE dws.user_his 
  2. SELECT * FROM 
  3.     SELECT A.user_num, 
  4.            A.mobile, 
  5.            A.reg_date, 
  6.            A.t_start_time, 
  7.            CASE 
  8.                 WHEN A.t_end_time = '9999-12-31' AND B.user_num IS NOT NULL THEN '2017-01-01' 
  9.                 ELSE A.t_end_time 
  10.            END AS t_end_time 
  11.     FROM dws.user_his AS A 
  12.     LEFT JOIN ods.user_update AS B 
  13.     ON A.user_num = B.user_num 
  14. UNION 
  15.     SELECT C.user_num, 
  16.            C.mobile, 
  17.            C.reg_date, 
  18.            '2017-01-02' AS t_start_time, 
  19.            '9999-12-31' AS t_end_time 
  20.     FROM ods.user_update AS C 
  21. AS T 

0x03 補(bǔ)充

好了,我們分析了拉鏈表的原理、設(shè)計(jì)思路、并且在Hive環(huán)境下實(shí)現(xiàn)了一份拉鏈表,下面對(duì)拉鏈表做一些小的補(bǔ)充。

拉鏈表和流水表

流水表存放的是一個(gè)用戶的變更記錄,比如在一張流水表中,一天的數(shù)據(jù)中,會(huì)存放一個(gè)用戶的每條修改記錄,但是在拉鏈表中只有一條記錄。

這是拉鏈表設(shè)計(jì)時(shí)需要注意的一個(gè)粒度問(wèn)題。我們當(dāng)然也可以設(shè)置的粒度更小一些,一般按天就足夠。

查詢性能

拉鏈表當(dāng)然也會(huì)遇到查詢性能的問(wèn)題,比如說(shuō)我們存放了5年的拉鏈數(shù)據(jù),那么這張表勢(shì)必會(huì)比較大,當(dāng)查詢的時(shí)候性能就比較低了,個(gè)人認(rèn)為兩個(gè)思路來(lái)解決:

  1. 在一些查詢引擎中,我們對(duì)start_date和end_date做索引,這樣能提高不少性能。
  2. 保留部分歷史數(shù)據(jù),比如說(shuō)我們一張表里面存放全量的拉鏈表數(shù)據(jù),然后再對(duì)外暴露一張只提供近3個(gè)月數(shù)據(jù)的拉鏈表。

0xFF 總結(jié)

我們?cè)谶@篇文章里面詳細(xì)地分享了一下和拉鏈表相關(guān)的知識(shí)點(diǎn),但是仍然會(huì)有一會(huì)遺漏。歡迎交流。

在后面的使用中又有了一些心得,補(bǔ)充進(jìn)來(lái):

  1. 使用拉鏈表的時(shí)候可以不加t_end_date,即失效日期,但是加上之后,能優(yōu)化很多查詢。
  2. 可以加上當(dāng)前行狀態(tài)標(biāo)識(shí),能快速定位到當(dāng)前狀態(tài)。
  3. 在拉鏈表的設(shè)計(jì)中可以加一些內(nèi)容,因?yàn)槲覀兠刻毂4嬉粋€(gè)狀態(tài),如果我們?cè)谶@個(gè)狀態(tài)里面加一個(gè)字段,比如如當(dāng)天修改次數(shù),那么拉鏈表的作用就會(huì)更大。
責(zé)任編輯:武曉燕 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2017-10-20 12:59:05

數(shù)據(jù)分層數(shù)據(jù)建設(shè)數(shù)據(jù)倉(cāng)庫(kù)

2021-09-01 10:03:44

數(shù)據(jù)倉(cāng)庫(kù)云數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)

2021-01-08 05:27:49

數(shù)據(jù)庫(kù)拉鏈表存儲(chǔ)

2016-12-21 12:46:47

數(shù)據(jù)倉(cāng)庫(kù)SQLHive

2011-05-13 14:17:27

智能數(shù)據(jù)倉(cāng)庫(kù)

2013-03-20 16:23:53

數(shù)據(jù)清洗

2021-04-15 07:40:44

數(shù)據(jù)倉(cāng)庫(kù)Hive環(huán)境搭建

2009-01-18 15:48:31

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ)OLTP

2020-01-03 09:40:13

大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)分層

2017-11-24 17:20:37

數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)讀寫分離

2023-12-01 14:55:32

數(shù)據(jù)網(wǎng)格數(shù)據(jù)湖

2011-07-15 10:28:18

OLTP數(shù)據(jù)倉(cāng)庫(kù)

2023-08-14 16:56:53

2017-03-16 20:00:17

Kafka設(shè)計(jì)原理達(dá)觀產(chǎn)品

2022-12-13 09:54:52

數(shù)據(jù)倉(cāng)庫(kù)

2018-03-15 08:50:46

Hive-數(shù)據(jù)存儲(chǔ)

2022-02-18 09:02:04

數(shù)據(jù)倉(cāng)庫(kù)治理

2021-10-27 11:33:31

數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)

2017-02-28 09:21:56

HadoopHive數(shù)據(jù)倉(cāng)庫(kù)

2018-03-20 09:36:57

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ)知識(shí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)