偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Hadoop HBase存儲原理結(jié)構(gòu)學(xué)習(xí)

作者：佚名 2018-06-13 08:53:39

存儲存儲軟件 Hadoop

hbase是bigtable的開源山寨版本。是建立的hdfs之上，提供高可靠性、高性能、列存儲、可伸縮、實(shí)時(shí)讀寫的數(shù)據(jù)庫系統(tǒng)。

一、簡介

hbase是bigtable的開源山寨版本。是建立的hdfs之上，提供高可靠性、高性能、列存儲、可伸縮、實(shí)時(shí)讀寫的數(shù)據(jù)庫系統(tǒng)。

它介于nosql和RDBMS之間，僅能通過主鍵(row key)和主鍵的range來檢索數(shù)據(jù)，僅支持單行事務(wù)(可通過hive支持來實(shí)現(xiàn)多表join等復(fù)雜操作)。主要用來存儲非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。

與hadoop一樣，Hbase目標(biāo)主要依靠橫向擴(kuò)展，通過不斷增加廉價(jià)的商用服務(wù)器，來增加計(jì)算和存儲能力。

HBase中的表一般有這樣的特點(diǎn)：

1 大：一個(gè)表可以有上億行，上百萬列

2 面向列：面向列(族)的存儲和權(quán)限控制，列(族)獨(dú)立檢索。

3 稀疏：對于為空(null)的列，并不占用存儲空間，因此，表可以設(shè)計(jì)的非常稀疏。

二、邏輯視圖

Row Key

與nosql數(shù)據(jù)庫們一樣,row key是用來檢索記錄的主鍵。訪問hbase table中的行，只有三種方式：

1 通過單個(gè)row key訪問

2 通過row key的range

3 全表掃描

Row key行鍵 (Row key)可以是任意字符串(最大長度是 64KB，實(shí)際應(yīng)用中長度一般為 10-100bytes)，在hbase內(nèi)部，row key保存為字節(jié)數(shù)組。

存儲時(shí)，數(shù)據(jù)按照Row key的字典序(byte order)排序存儲。設(shè)計(jì)key時(shí)，要充分排序存儲這個(gè)特性，將經(jīng)常一起讀取的行存儲放到一起。(位置相關(guān)性)

注意：

字典序?qū)nt排序的結(jié)果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序，行鍵必須用0作左填充。

行的一次讀寫是原子操作 (不論一次讀寫多少列)。這個(gè)設(shè)計(jì)決策能夠使用戶很容易的理解程序在對同一個(gè)行進(jìn)行并發(fā)更新操作時(shí)的行為。

列族

hbase表中的每個(gè)列，都?xì)w屬與某個(gè)列族。列族是表的schema的一部分(而列不是)，必須在使用表之前定義。列名都以列族作為前綴。例如courses:history，courses:math都屬于courses這個(gè)列族。

訪問控制、磁盤和內(nèi)存的使用統(tǒng)計(jì)都是在列族層面進(jìn)行的。實(shí)際應(yīng)用中，列族上的控制權(quán)限能幫助我們管理不同類型的應(yīng)用：我們允許一些應(yīng)用可以添加新的基本數(shù)據(jù)、一些應(yīng)用可以讀取基本數(shù)據(jù)并創(chuàng)建繼承的列族、一些應(yīng)用則只允許瀏覽數(shù)據(jù)（甚至可能因為隱私的原因不能瀏覽所有數(shù)據(jù)）。

時(shí)間戳

HBase中通過row和columns確定的為一個(gè)存貯單元稱為cell。每個(gè)cell都保存著同一份數(shù)據(jù)的多個(gè)版本。版本通過時(shí)間戳來索引。時(shí)間戳的類型是64位整型。時(shí)間戳可以由hbase(在數(shù)據(jù)寫入時(shí)自動 )賦值，此時(shí)時(shí)間戳是精確到毫秒的當(dāng)前系統(tǒng)時(shí)間。時(shí)間戳也可以由客戶顯式賦值。如果應(yīng)用程序要避免數(shù)據(jù)版本沖突，就必須自己生成具有唯一性的時(shí)間戳。每個(gè)cell中，不同版本的數(shù)據(jù)按照時(shí)間倒序排序，即最新的數(shù)據(jù)排在最前面。

為了避免數(shù)據(jù)存在過多版本造成的的管理 (包括存貯和索引)負(fù)擔(dān)，hbase提供了兩種數(shù)據(jù)版本回收方式。

一是保存數(shù)據(jù)的最后n個(gè)版本

二是保存最近一段時(shí)間內(nèi)的版本（比如最近七天）。

用戶可以針對每個(gè)列族進(jìn)行設(shè)置。

Cell

由{row key, column(=<family> + <label>), version}唯一確定的單元。cell中的數(shù)據(jù)是沒有類型的，全部是字節(jié)碼形式存貯。

三、物理存儲

1 已經(jīng)提到過，Table中的所有行都按照row key的字典序排列。

2 Table在行的方向上分割為多個(gè)Hregion。

3 region按大小分割的，每個(gè)表一開始只有一個(gè)region，隨著數(shù)據(jù)不斷插入表，region不斷增大，當(dāng)增大到一個(gè)閥值的時(shí)候，Hregion就會等分會兩個(gè)新的Hregion。當(dāng)table中的行不斷增多，就會有越來越多的Hregion。

4 Hregion是Hbase中分布式存儲和負(fù)載均衡的最小單元。最小單元就表示不同的Hregion可以分布在不同的HRegion server上。但一個(gè)Hregion是不會拆分到多個(gè)server上的。

5 HRegion雖然是分布式存儲的最小單元，但并不是存儲的最小單元。

事實(shí)上，HRegion由一個(gè)或者多個(gè)Store組成，每個(gè)store保存一個(gè)columns family。

每個(gè)Strore又由一個(gè)memStore和0至多個(gè)StoreFile組成。如圖：StoreFile以HFile格式保存在HDFS上。

HFile的格式為：

Trailer部分的格式：

HFile分為六個(gè)部分：

Data Block 段–保存表中的數(shù)據(jù)，這部分可以被壓縮

Meta Block 段 (可選的)–保存用戶自定義的kv對，可以被壓縮。

File Info 段–Hfile的元信息，不被壓縮，用戶也可以在這一部分添加自己的元信息。

Data Block Index 段–Data Block的索引。每條索引的key是被索引的block的第一條記錄的key。

Meta Block Index段 (可選的)–Meta Block的索引。

Trailer–這一段是定長的。保存了每一段的偏移量，讀取一個(gè)HFile時(shí)，會首先讀取Trailer，Trailer保存了每個(gè)段的起始位置(段的Magic Number用來做安全check)，然后，DataBlock Index會被讀取到內(nèi)存中，這樣，當(dāng)檢索某個(gè)key時(shí)，不需要掃描整個(gè)HFile，而只需從內(nèi)存中找到key所在的block，通過一次磁盤io將整個(gè)block讀取到內(nèi)存中，再找到需要的key。DataBlock Index采用LRU機(jī)制淘汰。

HFile的Data Block，Meta Block通常采用壓縮方式存儲，壓縮之后可以大大減少網(wǎng)絡(luò)IO和磁盤IO，隨之而來的開銷當(dāng)然是需要花費(fèi)cpu進(jìn)行壓縮和解壓縮。

目標(biāo)Hfile的壓縮支持兩種方式：Gzip，Lzo。

HLog(WAL log)

WAL 意為Write ahead log(http://en.wikipedia.org/wiki/Write-ahead_logging)，類似mysql中的binlog,用來做災(zāi)難恢復(fù)只用，Hlog記錄數(shù)據(jù)的所有變更,一旦數(shù)據(jù)修改，就可以從log中進(jìn)行恢復(fù)。

每個(gè)Region Server維護(hù)一個(gè)Hlog,而不是每個(gè)Region一個(gè)。這樣不同region(來自不同table)的日志會混在一起，這樣做的目的是不斷追加單個(gè)文件相對于同時(shí)寫多個(gè)文件而言，可以減少磁盤尋址次數(shù)，因此可以提高對table的寫性能。帶來的麻煩是，如果一臺region server下線，為了恢復(fù)其上的region，需要將region server上的log進(jìn)行拆分，然后分發(fā)到其它region server上進(jìn)行恢復(fù)。

HLog文件就是一個(gè)普通的Hadoop Sequence File，Sequence File 的Key是HLogKey對象，HLogKey中記錄了寫入數(shù)據(jù)的歸屬信息，除了table和region名字外，同時(shí)還包括 sequence number和timestamp，timestamp是”寫入時(shí)間”，sequence number的起始值為0，或者是最近一次存入文件系統(tǒng)中sequence number。HLog Sequece File的Value是HBase的KeyValue對象，即對應(yīng)HFile中的KeyValue，可參見上文描述。

四、系統(tǒng)架構(gòu)

Client

1 包含訪問hbase的接口，client維護(hù)著一些cache來加快對hbase的訪問，比如regione的位置信息。

Zookeeper

1 保證任何時(shí)候，集群中只有一個(gè)master

2 存貯所有Region的尋址入口。

3 實(shí)時(shí)監(jiān)控Region Server的狀態(tài)，將Region server的上線和下線信息實(shí)時(shí)通知給Master

4 存儲Hbase的schema,包括有哪些table，每個(gè)table有哪些column family

Master

1 為Region server分配region

2 負(fù)責(zé)region server的負(fù)載均衡

3 發(fā)現(xiàn)失效的region server并重新分配其上的region

4 GFS上的垃圾文件回收

5 處理schema更新請求

Region Server

1 Region server維護(hù)Master分配給它的region，處理對這些region的IO請求

2 Region server負(fù)責(zé)切分在運(yùn)行過程中變得過大的region

可以看到，client訪問hbase上數(shù)據(jù)的過程并不需要master參與（尋址訪問zookeeper和region server，數(shù)據(jù)讀寫訪問regione server），master僅僅維護(hù)者table和region的元數(shù)據(jù)信息，負(fù)載很低。

五、關(guān)鍵算法/流程

region定位

系統(tǒng)如何找到某個(gè)row key (或者某個(gè) row key range)所在的region

bigtable 使用三層類似B+樹的結(jié)構(gòu)來保存region位置。

第一層是保存zookeeper里面的文件，它持有root region的位置。

第二層root region是.META.表的第一個(gè)region其中保存了.META.z表其它region的位置。通過root region，我們就可以訪問.META.表的數(shù)據(jù)。

.META.是第三層，它是一個(gè)特殊的表，保存了hbase中所有數(shù)據(jù)表的region 位置信息。

說明：

1 root region永遠(yuǎn)不會被split，保證了最需要三次跳轉(zhuǎn)，就能定位到任意region 。

2.META.表每行保存一個(gè)region的位置信息，row key 采用表名+表的最后一樣編碼而成。

3 為了加快訪問，.META.表的全部region都保存在內(nèi)存中。

假設(shè)，.META.表的一行在內(nèi)存中大約占用1KB。并且每個(gè)region限制為128MB。

那么上面的三層結(jié)構(gòu)可以保存的region數(shù)目為：

(128MB/1KB) * (128MB/1KB) = = 2(34)個(gè)region

4 client會將查詢過的位置信息保存緩存起來，緩存不會主動失效，因此如果client上的緩存全部失效，則需要進(jìn)行6次網(wǎng)絡(luò)來回，才能定位到正確的region(其中三次用來發(fā)現(xiàn)緩存失效，另外三次用來獲取位置信息)。

讀寫過程

上文提到，hbase使用MemStore和StoreFile存儲對表的更新。

數(shù)據(jù)在更新時(shí)首先寫入Log(WAL log)和內(nèi)存(MemStore)中，MemStore中的數(shù)據(jù)是排序的，當(dāng)MemStore累計(jì)到一定閾值時(shí)，就會創(chuàng)建一個(gè)新的MemStore，并且將老的MemStore添加到flush隊(duì)列，由單獨(dú)的線程flush到磁盤上，成為一個(gè)StoreFile。于此同時(shí)，系統(tǒng)會在zookeeper中記錄一個(gè)redo point，表示這個(gè)時(shí)刻之前的變更已經(jīng)持久化了。(minor compact)

當(dāng)系統(tǒng)出現(xiàn)意外時(shí)，可能導(dǎo)致內(nèi)存(MemStore)中的數(shù)據(jù)丟失，此時(shí)使用Log(WAL log)來恢復(fù)checkpoint之后的數(shù)據(jù)。

前面提到過StoreFile是只讀的，一旦創(chuàng)建后就不可以再修改。因此Hbase的更新其實(shí)是不斷追加的操作。當(dāng)一個(gè)Store中的StoreFile達(dá)到一定的閾值后，就會進(jìn)行一次合并(major compact),將對同一個(gè)key的修改合并到一起，形成一個(gè)大的StoreFile，當(dāng)StoreFile的大小達(dá)到一定閾值后，又會對StoreFile進(jìn)行split，等分為兩個(gè)StoreFile。

由于對表的更新是不斷追加的，處理讀請求時(shí)，需要訪問Store中全部的StoreFile和MemStore，將他們的按照row key進(jìn)行合并，由于StoreFile和MemStore都是經(jīng)過排序的，并且StoreFile帶有內(nèi)存中索引，合并的過程還是比較快。

寫請求處理過程

1 client向region server提交寫請求

2 region server找到目標(biāo)region

3 region檢查數(shù)據(jù)是否與schema一致

4 如果客戶端沒有指定版本，則獲取當(dāng)前系統(tǒng)時(shí)間作為數(shù)據(jù)版本

5 將更新寫入WAL log

6 將更新寫入Memstore

7 判斷Memstore的是否需要flush為Store文件。

region分配

任何時(shí)刻，一個(gè)region只能分配給一個(gè)region server。master記錄了當(dāng)前有哪些可用的region server。以及當(dāng)前哪些region分配給了哪些region server，哪些region還沒有分配。當(dāng)存在未分配的region，并且有一個(gè)region server上有可用空間時(shí)，master就給這個(gè)region server發(fā)送一個(gè)裝載請求，把region分配給這個(gè)region server。region server得到請求后，就開始對此region提供服務(wù)。

region server上線

master使用zookeeper來跟蹤region server狀態(tài)。當(dāng)某個(gè)region server啟動時(shí)，會首先在zookeeper上的server目錄下建立代表自己的文件，并獲得該文件的獨(dú)占鎖。由于master訂閱了server目錄上的變更消息，當(dāng)server目錄下的文件出現(xiàn)新增或刪除操作時(shí)，master可以得到來自zookeeper的實(shí)時(shí)通知。因此一旦region server上線，master能馬上得到消息。

region server下線

當(dāng)region server下線時(shí)，它和zookeeper的會話斷開，zookeeper而自動釋放代表這臺server的文件上的獨(dú)占鎖。而master不斷輪詢server目錄下文件的鎖狀態(tài)。如果master發(fā)現(xiàn)某個(gè)region server丟失了它自己的獨(dú)占鎖，(或者master連續(xù)幾次和region server通信都無法成功),master就是嘗試去獲取代表這個(gè)region server的讀寫鎖，一旦獲取成功，就可以確定：

1 region server和zookeeper之間的網(wǎng)絡(luò)斷開了。

2 region server掛了。

的其中一種情況發(fā)生了，無論哪種情況，region server都無法繼續(xù)為它的region提供服務(wù)了，此時(shí)master會刪除server目錄下代表這臺region server的文件，并將這臺region server的region分配給其它還活著的同志。

如果網(wǎng)絡(luò)短暫出現(xiàn)問題導(dǎo)致region server丟失了它的鎖，那么region server重新連接到zookeeper之后，只要代表它的文件還在，它就會不斷嘗試獲取這個(gè)文件上的鎖，一旦獲取到了，就可以繼續(xù)提供服務(wù)。

master上線

master啟動進(jìn)行以下步驟:

1 從zookeeper上獲取唯一一個(gè)代碼master的鎖，用來阻止其它master成為master。

2 掃描zookeeper上的server目錄，獲得當(dāng)前可用的region server列表。

3 和2中的每個(gè)region server通信，獲得當(dāng)前已分配的region和region server的對應(yīng)關(guān)系。

4 掃描.META.region的集合，計(jì)算得到當(dāng)前還未分配的region，將他們放入待分配region列表。

master下線

由于master只維護(hù)表和region的元數(shù)據(jù)，而不參與表數(shù)據(jù)IO的過程，master下線僅導(dǎo)致所有元數(shù)據(jù)的修改被凍結(jié)(無法創(chuàng)建刪除表，無法修改表的schema，無法進(jìn)行region的負(fù)載均衡，無法處理region上下線，無法進(jìn)行region的合并，唯一例外的是region的split可以正常進(jìn)行，因?yàn)橹挥衦egion server參與)，表的數(shù)據(jù)讀寫還可以正常進(jìn)行。因此master下線短時(shí)間內(nèi)對整個(gè)hbase集群沒有影響。從上線過程可以看到，master保存的信息全是可以冗余信息（都可以從系統(tǒng)其它地方收集到或者計(jì)算出來），因此，一般hbase集群中總是有一個(gè)master在提供服務(wù)，還有一個(gè)以上的’master’在等待時(shí)機(jī)搶占它的位置。

責(zé)任編輯：武曉燕來源： java一日一條

Hadoop HBase 存儲

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營