偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Hadoop HBase存儲原理結(jié)構(gòu)學(xué)習(xí)

存儲 存儲軟件 Hadoop
hbase是bigtable的開源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數(shù)據(jù)庫系統(tǒng)。

 一、簡介 

hbase是bigtable的開源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數(shù)據(jù)庫系統(tǒng)。 

它介于nosql和RDBMS之間,僅能通過主鍵(row key)和主鍵的range來檢索數(shù)據(jù),僅支持單行事務(wù)(可通過hive支持來實現(xiàn)多表join等復(fù)雜操作)。主要用來存儲非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。 

與hadoop一樣,Hbase目標(biāo)主要依靠橫向擴(kuò)展,通過不斷增加廉價的商用服務(wù)器,來增加計算和存儲能力。 

HBase中的表一般有這樣的特點: 

1 大:一個表可以有上億行,上百萬列 

2 面向列:面向列(族)的存儲和權(quán)限控制,列(族)獨立檢索。 

3 稀疏:對于為空(null)的列,并不占用存儲空間,因此,表可以設(shè)計的非常稀疏。 

[[232739]]

二、邏輯視圖 

Row Key 

與nosql數(shù)據(jù)庫們一樣,row key是用來檢索記錄的主鍵。訪問hbase table中的行,只有三種方式: 

1 通過單個row key訪問 

2 通過row key的range 

3 全表掃描 

Row key行鍵 (Row key)可以是任意字符串(最大長度是 64KB,實際應(yīng)用中長度一般為 10-100bytes),在hbase內(nèi)部,row key保存為字節(jié)數(shù)組。 

存儲時,數(shù)據(jù)按照Row key的字典序(byte order)排序存儲。設(shè)計key時,要充分排序存儲這個特性,將經(jīng)常一起讀取的行存儲放到一起。(位置相關(guān)性) 

注意: 

字典序?qū)nt排序的結(jié)果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序,行鍵必須用0作左填充。 

行的一次讀寫是原子操作 (不論一次讀寫多少列)。這個設(shè)計決策能夠使用戶很容易的理解程序在對同一個行進(jìn)行并發(fā)更新操作時的行為。 

列族 

hbase表中的每個列,都?xì)w屬與某個列族。列族是表的schema的一部分(而列不是),必須在使用表之前定義。列名都以列族作為前綴。例如courses:history,courses:math都屬于courses這個列族。 

訪問控制、磁盤和內(nèi)存的使用統(tǒng)計都是在列族層面進(jìn)行的。實際應(yīng)用中,列族上的控制權(quán)限能幫助我們管理不同類型的應(yīng)用:我們允許一些應(yīng)用可以添加新的基本數(shù)據(jù)、一些應(yīng)用可以讀取基本數(shù)據(jù)并創(chuàng)建繼承的列族、一些應(yīng)用則只允許瀏覽數(shù)據(jù)(甚至可能因 為隱私的原因不能瀏覽所有數(shù)據(jù))。 

時間戳 

HBase中通過row和columns確定的為一個存貯單元稱為cell。每個cell都保存著同一份數(shù)據(jù)的多個版本。版本通過時間戳來索引。時間戳的類型是64位整型。時間戳可以由hbase(在數(shù)據(jù)寫入時自動 )賦值,此時時間戳是精確到毫秒的當(dāng)前系統(tǒng)時間。時間戳也可以由客戶顯式賦值。如果應(yīng)用程序要避免數(shù)據(jù)版本沖突,就必須自己生成具有唯一性的時間戳。每個cell中,不同版本的數(shù)據(jù)按照時間倒序排序,即最新的數(shù)據(jù)排在最前面。 

為了避免數(shù)據(jù)存在過多版本造成的的管理 (包括存貯和索引)負(fù)擔(dān),hbase提供了兩種數(shù)據(jù)版本回收方式。 

一是保存數(shù)據(jù)的最后n個版本 

二是保存最近一段時間內(nèi)的版本(比如最近七天)。 

用戶可以針對每個列族進(jìn)行設(shè)置。 

Cell 

由{row key, column(=<family> + <label>), version}唯一確定的單元。cell中的數(shù)據(jù)是沒有類型的,全部是字節(jié)碼形式存貯。 

三、物理存儲 

1 已經(jīng)提到過,Table中的所有行都按照row key的字典序排列。 

2 Table在行的方向上分割為多個Hregion。 

3 region按大小分割的,每個表一開始只有一個region,隨著數(shù)據(jù)不斷插入表,region不斷增大,當(dāng)增大到一個閥值的時候,Hregion就會等分會兩個新的Hregion。當(dāng)table中的行不斷增多,就會有越來越多的Hregion。 

4 Hregion是Hbase中分布式存儲和負(fù)載均衡的最小單元。最小單元就表示不同的Hregion可以分布在不同的HRegion server上。但一個Hregion是不會拆分到多個server上的。 

5 HRegion雖然是分布式存儲的最小單元,但并不是存儲的最小單元。 

事實上,HRegion由一個或者多個Store組成,每個store保存一個columns family。 

每個Strore又由一個memStore和0至多個StoreFile組成。如圖:StoreFile以HFile格式保存在HDFS上。 

HFile的格式為: 

 

Trailer部分的格式: 

HFile分為六個部分: 

Data Block 段–保存表中的數(shù)據(jù),這部分可以被壓縮 

Meta Block 段 (可選的)–保存用戶自定義的kv對,可以被壓縮。 

File Info 段–Hfile的元信息,不被壓縮,用戶也可以在這一部分添加自己的元信息。 

Data Block Index 段–Data Block的索引。每條索引的key是被索引的block的第一條記錄的key。 

Meta Block Index段 (可選的)–Meta Block的索引。 

Trailer–這一段是定長的。保存了每一段的偏移量,讀取一個HFile時,會首先 讀取Trailer,Trailer保存了每個段的起始位置(段的Magic Number用來做安全check),然后,DataBlock Index會被讀取到內(nèi)存中,這樣,當(dāng)檢索某個key時,不需要掃描整個HFile,而只需從內(nèi)存中找到key所在的block,通過一次磁盤io將整個block讀取到內(nèi)存中,再找到需要的key。DataBlock Index采用LRU機(jī)制淘汰。 

HFile的Data Block,Meta Block通常采用壓縮方式存儲,壓縮之后可以大大減少網(wǎng)絡(luò)IO和磁盤IO,隨之而來的開銷當(dāng)然是需要花費cpu進(jìn)行壓縮和解壓縮。 

目標(biāo)Hfile的壓縮支持兩種方式:Gzip,Lzo。 

HLog(WAL log) 

WAL 意為Write ahead log(http://en.wikipedia.org/wiki/Write-ahead_logging),類似mysql中的binlog,用來 做災(zāi)難恢復(fù)只用,Hlog記錄數(shù)據(jù)的所有變更,一旦數(shù)據(jù)修改,就可以從log中進(jìn)行恢復(fù)。 

每個Region Server維護(hù)一個Hlog,而不是每個Region一個。這樣不同region(來自不同table)的日志會混在一起,這樣做的目的是不斷追加單個文件相對于同時寫多個文件而言,可以減少磁盤尋址次數(shù),因此可以提高對table的寫性能。帶來的麻煩是,如果一臺region server下線,為了恢復(fù)其上的region,需要將region server上的log進(jìn)行拆分,然后分發(fā)到其它region server上進(jìn)行恢復(fù)。 

HLog文件就是一個普通的Hadoop Sequence File,Sequence File 的Key是HLogKey對象,HLogKey中記錄了寫入數(shù)據(jù)的歸屬信息,除了table和region名字外,同時還包括 sequence number和timestamp,timestamp是”寫入時間”,sequence number的起始值為0,或者是最近一次存入文件系統(tǒng)中sequence number。HLog Sequece File的Value是HBase的KeyValue對象,即對應(yīng)HFile中的KeyValue,可參見上文描述。 

四、系統(tǒng)架構(gòu) 

Client 

1 包含訪問hbase的接口,client維護(hù)著一些cache來加快對hbase的訪問,比如regione的位置信息。 

Zookeeper 

1 保證任何時候,集群中只有一個master 

2 存貯所有Region的尋址入口。 

3 實時監(jiān)控Region Server的狀態(tài),將Region server的上線和下線信息實時通知給Master 

4 存儲Hbase的schema,包括有哪些table,每個table有哪些column family 

Master 

1 為Region server分配region 

2 負(fù)責(zé)region server的負(fù)載均衡 

3 發(fā)現(xiàn)失效的region server并重新分配其上的region 

4 GFS上的垃圾文件回收 

5 處理schema更新請求 

Region Server 

1 Region server維護(hù)Master分配給它的region,處理對這些region的IO請求 

2 Region server負(fù)責(zé)切分在運行過程中變得過大的region 

可以看到,client訪問hbase上數(shù)據(jù)的過程并不需要master參與(尋址訪問zookeeper和region server,數(shù)據(jù)讀寫訪問regione server),master僅僅維護(hù)者table和region的元數(shù)據(jù)信息,負(fù)載很低。 

五、關(guān)鍵算法/流程 

region定位 

系統(tǒng)如何找到某個row key (或者某個 row key range)所在的region 

bigtable 使用三層類似B+樹的結(jié)構(gòu)來保存region位置。 

第一層是保存zookeeper里面的文件,它持有root region的位置。 

第二層root region是.META.表的第一個region其中保存了.META.z表其它region的位置。通過root region,我們就可以訪問.META.表的數(shù)據(jù)。 

.META.是第三層,它是一個特殊的表,保存了hbase中所有數(shù)據(jù)表的region 位置信息。 

說明: 

1 root region永遠(yuǎn)不會被split,保證了最需要三次跳轉(zhuǎn),就能定位到任意region 。 

2.META.表每行保存一個region的位置信息,row key 采用表名+表的最后一樣編碼而成。 

3 為了加快訪問,.META.表的全部region都保存在內(nèi)存中。 

假設(shè),.META.表的一行在內(nèi)存中大約占用1KB。并且每個region限制為128MB。 

那么上面的三層結(jié)構(gòu)可以保存的region數(shù)目為: 

(128MB/1KB) * (128MB/1KB) = = 2(34)個region 

4 client會將查詢過的位置信息保存緩存起來,緩存不會主動失效,因此如果client上的緩存全部失效,則需要進(jìn)行6次網(wǎng)絡(luò)來回,才能定位到正確的region(其中三次用來發(fā)現(xiàn)緩存失效,另外三次用來獲取位置信息)。 

讀寫過程 

上文提到,hbase使用MemStore和StoreFile存儲對表的更新。 

數(shù)據(jù)在更新時首先寫入Log(WAL log)和內(nèi)存(MemStore)中,MemStore中的數(shù)據(jù)是排序的,當(dāng)MemStore累計到一定閾值時,就會創(chuàng)建一個新的MemStore,并且將老的MemStore添加到flush隊列,由單獨的線程flush到磁盤上,成為一個StoreFile。于此同時,系統(tǒng)會在zookeeper中記錄一個redo point,表示這個時刻之前的變更已經(jīng)持久化了。(minor compact) 

當(dāng)系統(tǒng)出現(xiàn)意外時,可能導(dǎo)致內(nèi)存(MemStore)中的數(shù)據(jù)丟失,此時使用Log(WAL log)來恢復(fù)checkpoint之后的數(shù)據(jù)。 

前面提到過StoreFile是只讀的,一旦創(chuàng)建后就不可以再修改。因此Hbase的更 新其實是不斷追加的操作。當(dāng)一個Store中的StoreFile達(dá)到一定的閾值后,就會進(jìn)行一次合并(major compact),將對同一個key的修改合并到一起,形成一個大的StoreFile,當(dāng)StoreFile的大小達(dá)到一定閾值后,又會對StoreFile進(jìn)行split,等分為兩個StoreFile。 

由于對表的更新是不斷追加的,處理讀請求時,需要訪問Store中全部的StoreFile和MemStore,將他們的按照row key進(jìn)行合并,由于StoreFile和MemStore都是經(jīng)過排序的,并且StoreFile帶有內(nèi)存中索引,合并的過程還是比較快。 

寫請求處理過程 

1 client向region server提交寫請求 

2 region server找到目標(biāo)region 

3 region檢查數(shù)據(jù)是否與schema一致 

4 如果客戶端沒有指定版本,則獲取當(dāng)前系統(tǒng)時間作為數(shù)據(jù)版本 

5 將更新寫入WAL log 

6 將更新寫入Memstore 

7 判斷Memstore的是否需要flush為Store文件。 

region分配 

任何時刻,一個region只能分配給一個region server。master記錄了當(dāng)前有哪些可用的region server。以及當(dāng)前哪些region分配給了哪些region server,哪些region還沒有分配。當(dāng)存在未分配的region,并且有一個region server上有可用空間時,master就給這個region server發(fā)送一個裝載請求,把region分配給這個region server。region server得到請求后,就開始對此region提供服務(wù)。 

region server上線 

master使用zookeeper來跟蹤region server狀態(tài)。當(dāng)某個region server啟動時,會首先在zookeeper上的server目錄下建立代表自己的文件,并獲得該文件的獨占鎖。由于master訂閱了server目錄上的變更消息,當(dāng)server目錄下的文件出現(xiàn)新增或刪除操作時,master可以得到來自zookeeper的實時通知。因此一旦region server上線,master能馬上得到消息。 

region server下線 

當(dāng)region server下線時,它和zookeeper的會話斷開,zookeeper而自動釋放代表這臺server的文件上的獨占鎖。而master不斷輪詢server目錄下文件的鎖狀態(tài)。如果master發(fā)現(xiàn)某個region server丟失了它自己的獨占鎖,(或者master連續(xù)幾次和region server通信都無法成功),master就是嘗試去獲取代表這個region server的讀寫鎖,一旦獲取成功,就可以確定: 

1 region server和zookeeper之間的網(wǎng)絡(luò)斷開了。 

2 region server掛了。 

的其中一種情況發(fā)生了,無論哪種情況,region server都無法繼續(xù)為它的region提供服務(wù)了,此時master會刪除server目錄下代表這臺region server的文件,并將這臺region server的region分配給其它還活著的同志。 

如果網(wǎng)絡(luò)短暫出現(xiàn)問題導(dǎo)致region server丟失了它的鎖,那么region server重新連接到zookeeper之后,只要代表它的文件還在,它就會不斷嘗試獲取這個文件上的鎖,一旦獲取到了,就可以繼續(xù)提供服務(wù)。 

master上線 

master啟動進(jìn)行以下步驟: 

1 從zookeeper上獲取唯一一個代碼master的鎖,用來阻止其它master成為master。 

2 掃描zookeeper上的server目錄,獲得當(dāng)前可用的region server列表。 

3 和2中的每個region server通信,獲得當(dāng)前已分配的region和region server的對應(yīng)關(guān)系。 

4 掃描.META.region的集合,計算得到當(dāng)前還未分配的region,將他們放入待分配region列表。 

master下線 

由于master只維護(hù)表和region的元數(shù)據(jù),而不參與表數(shù)據(jù)IO的過程,master下線僅導(dǎo)致所有元數(shù)據(jù)的修改被凍結(jié)(無法創(chuàng)建刪除表,無法修改表的schema,無法進(jìn)行region的負(fù)載均衡,無法處理region上下線,無法進(jìn)行region的合并,唯一例外的是region的split可以正常進(jìn)行,因為只有region server參與),表的數(shù)據(jù)讀寫還可以正常進(jìn)行。因此master下線短時間內(nèi)對整個hbase集群沒有影響。從上線過程可以看到,master保存的 信息全是可以冗余信息(都可以從系統(tǒng)其它地方收集到或者計算出來),因此,一般hbase集群中總是有一個master在提供服務(wù),還有一個以上 的’master’在等待時機(jī)搶占它的位置。

責(zé)任編輯:武曉燕 來源: java一日一條
相關(guān)推薦

2010-07-19 11:07:13

Perl控制結(jié)構(gòu)

2009-08-13 16:02:29

C#結(jié)構(gòu)

2009-12-22 18:36:17

WCF知識結(jié)構(gòu)

2011-04-11 17:09:37

稀疏矩陣矩陣C++

2011-04-11 11:23:17

隊列數(shù)據(jù)結(jié)構(gòu)

2011-04-11 12:22:11

數(shù)據(jù)結(jié)構(gòu)C++

2011-04-11 12:48:36

隊列數(shù)據(jù)結(jié)構(gòu)C++

2020-05-07 15:10:23

HBaseHadoop數(shù)據(jù)平臺

2010-06-03 19:38:26

Hadoop

2022-10-27 16:07:24

littlefs存儲結(jié)構(gòu)

2022-03-31 11:17:58

JavaScript數(shù)組方法

2017-01-17 09:38:52

ZooKeeperHadoopHBase

2010-06-03 13:08:51

2010-04-21 16:07:04

Oracle邏輯存儲結(jié)

2019-09-04 15:07:15

代碼開發(fā)開源

2010-04-21 16:55:06

Oracle物理存儲結(jié)

2011-08-29 10:15:13

FacebookHadoopHBase

2010-06-03 14:08:56

Hadoop創(chuàng)建Hba

2020-11-19 10:30:28

Linux

2017-08-07 09:39:52

HBase大數(shù)據(jù)存儲
點贊
收藏

51CTO技術(shù)棧公眾號