云計算背后的秘密(7)-YunTable的故事
在本系列之前的一篇文章,和大家提到過,其實(shí)業(yè)界已經(jīng)出現(xiàn)很多NoSQL產(chǎn)品,那么筆者為什么在這些產(chǎn)品的基礎(chǔ)上,研發(fā)新的NoSQL數(shù)據(jù)庫呢? 因為在研發(fā)YunEngine的時候,筆者發(fā)現(xiàn)在業(yè)界還缺乏一款在架構(gòu)上非常簡潔,并同時可以適應(yīng)各種云計算場景的NoSQL數(shù)據(jù)庫,所以在那時本人就開始進(jìn)行YunTable的開發(fā)工作。
YunTable的目標(biāo)并不是做一個像BigTable那樣大而全的數(shù)據(jù)庫,而是主要做一個精簡版的分布式Key-Value數(shù)據(jù)庫,上層的云計算應(yīng)用將會根據(jù)其自身的需求去利用YunTable或者做修改,從而使YunTable能適應(yīng)云計算各種場景,并且非常易用。YunTable已經(jīng)在10月初正式開源,并發(fā)布其0.8版,官方地址是http://code.google.com/p/yuntable/。下面將對YunTable進(jìn)行分析和介紹,包括它的設(shè)計、架構(gòu)和如何適應(yīng)不同的云計算環(huán)境。
YunTable的設(shè)計
談到一個NoSQL數(shù)據(jù)庫的設(shè)計時,肯定離不開數(shù)據(jù)模型、分布式架構(gòu)和數(shù)據(jù)存儲這三方面。
在數(shù)據(jù)模型上,YunTable是Key-Value的,雖然Key-value這種數(shù)據(jù)模型在結(jié)構(gòu)方面和傳統(tǒng)的關(guān)系型相比較簡單,有點(diǎn)類似常見的HashTable,一個Key對應(yīng)一個Value,但是其能提供非??斓牟樵兯俣取⒋蟮臄?shù)據(jù)存放量和高并發(fā)地操作,并非常適合通過主鍵(Key)來對數(shù)據(jù)進(jìn)行查詢和修改等操作,雖然不支持復(fù)雜的操作,但是可以通過上層的開發(fā)來彌補(bǔ)這個缺陷。
在分布式架構(gòu)方面,YunTable選擇了Single Master模式來管理整個集群,雖然這個模式存在單點(diǎn)失敗的隱患,但是不論是在實(shí)現(xiàn),還是在語義方面都非常簡單,而且為了避免Master出現(xiàn)單點(diǎn)失敗的情況,YunTable將會在今后版本中引入Shadow-Master這種機(jī)制。
在數(shù)據(jù)存儲方面,YunTable選擇了SSTable這種文件格式。簡單而言,SSTable是一個用于存儲已排序Key-Value對的文件格式,并且是不可變動的(Immutable),也就是寫了之后,只能將其更新附加在其之后,而不能直接進(jìn)行修改,這樣是為了讓系統(tǒng)能執(zhí)行Disk所擅長的順序訪問,而不是隨機(jī)訪問。在內(nèi)部格式方面,SSTable文件主要有Index和Data Block這兩部分組成。在實(shí)際運(yùn)行時,系統(tǒng)常會把Index載入內(nèi)存,以確保查詢的效率。
YunTable的架構(gòu)
在架構(gòu)方面,主要可分為Region、Master和Client這三個模塊,而且這三個模塊都是獨(dú)立的,并負(fù)責(zé)各自的業(yè)務(wù)邏輯。
▲圖1. YunTable的架構(gòu)
首先,介紹一下Master節(jié)點(diǎn),Master節(jié)點(diǎn)在功能上面屬于比較“輕”調(diào),主要負(fù)責(zé)維護(hù)Table和Region節(jié)點(diǎn)之間的對應(yīng)關(guān)系,實(shí)際數(shù)據(jù)的查詢和輸入則都通過Region節(jié)點(diǎn)和Client端之間的交互完成,和Master節(jié)點(diǎn)無關(guān),這樣能有效地減輕Master節(jié)點(diǎn)的負(fù)擔(dān),使得其能支撐百臺服務(wù)器以上的集群。舉個例子,比如,當(dāng)一個Client端需要處理某個Table的時候,它只需在***次處理時候,向Master請求和這個Table相關(guān)的Region節(jié)點(diǎn)的地址,當(dāng)之后再次處理到這個Table的時候,Client端無需再和Master節(jié)點(diǎn)進(jìn)行溝通,而是直接和相關(guān)的Region節(jié)點(diǎn)進(jìn)行交互即可。
其次,談?wù)凴egion節(jié)點(diǎn),其作用是負(fù)責(zé)處理來自Client端的請求,并存儲和管理大量的數(shù)據(jù),Region節(jié)點(diǎn)非常類似BigTable論文中所提到的Tablet服務(wù)器。每個Region服務(wù)器管理多個Tablet,每個Tablet對應(yīng)一個Table,并負(fù)責(zé)存儲屬于這個Table的數(shù)據(jù)。除了管理多個Tablet之外,Region服務(wù)器還自帶WAL日志,全稱為“Write-Ahead Log”,主要用于暫存那些***的數(shù)據(jù)更新請求,以避免當(dāng)Tablet中的Memstore被意外關(guān)閉時所造成的數(shù)據(jù)丟失,而當(dāng)Memstore完成對數(shù)據(jù)的寫入之后,WAL也會清空那些對應(yīng)的數(shù)據(jù)。用于存儲數(shù)據(jù)的Tablet主要有兩大部分組成:其一是Memstore:其是緩存在內(nèi)存中的數(shù)據(jù)文件,主要存儲***添加的數(shù)據(jù),當(dāng)Memstore存儲的數(shù)據(jù)接近限定值時,在Memstore上緩存的數(shù)據(jù)都將會被沖刷(Flush)到Y(jié)File中;其二是YFile,它是主要用于存儲數(shù)據(jù)的持久化文件,它是基于上面提到的SSTable格式,YFile只會在當(dāng)Memstore被觸發(fā)沖刷時創(chuàng)建,平時常被順序讀,這樣能有效地利用硬盤順序讀性能好的特性,文件的位置在其所屬Tablet的目錄中。
現(xiàn)在Client端主要以名為“YunCli”的命令行為主,主要用于讓用戶輸入與數(shù)據(jù)處理相關(guān)的命令,并與后端的Master節(jié)點(diǎn)和Region節(jié)點(diǎn)進(jìn)行交互,但隨著時間的發(fā)展,在形式上,Client端有可能是類似JDBC的驅(qū)動等。
如何適應(yīng)不同的云計算環(huán)境
云計算主要常見的有兩類場景:需要低延遲和高并發(fā)的讀寫能力,數(shù)據(jù)量雖大,但稱不上海量,估計最多在TB級別,大部分現(xiàn)在使用RDBMS的Web應(yīng)用基本上都屬于這一類,有點(diǎn)類似傳統(tǒng)的OLTP(聯(lián)機(jī)事務(wù)處理);海量數(shù)據(jù)的存儲和操作,比如PB級別的,這方面的例子有傳統(tǒng)的數(shù)據(jù)倉庫、Google海量的Web頁面和圖片存儲等,有點(diǎn)類似傳統(tǒng)的OLAP(聯(lián)機(jī)分析處理)。
那么YunTable是如何適應(yīng)這兩種環(huán)境?首先,堅持Key-Value、Single-Master和SSTable這樣經(jīng)典和通用的設(shè)計。其次,在數(shù)據(jù)存儲方面,加入Hotness這個機(jī)制,主要是通過設(shè)置Hotness值來決定之前為了完成查詢而讀取到內(nèi)存中的Data Block的生存時間,假設(shè)如果是低延遲的情況,那么將Hotness值設(shè)置長一點(diǎn),如果是海量數(shù)據(jù),則相反。
***,YunTable作為新一代的PaaS平臺YunEngine的后端數(shù)據(jù)庫已經(jīng)投入實(shí)際運(yùn)行中,而且即將發(fā)布其0.9版,在這個版本中,YunTable的單點(diǎn)性能和穩(wěn)定性將會走上一個新的臺階。還有,下一篇將繼續(xù)給大家關(guān)注NoSQL。
作者簡介
吳朱華,之前在IBM中國研究院參與過多個云計算產(chǎn)品的開發(fā)工作,現(xiàn)在專注于YunTable(http://code.google.com/p/yuntable/)和YunEngine(http://yunengine.com/)的研發(fā),并即將發(fā)表《剖析云計算》一書,敬請期待。
【編輯推薦】
- 云計算背后的秘密(3)-BigTable
- 云計算背后的秘密(2)-GFS
- 云計算背后的秘密(1)-MapReduce
- 云計算背后的秘密(4)-Chubby
- 云計算背后的秘密(6)-NoSQL數(shù)據(jù)庫綜述




















