為 Key-Value 數(shù)據(jù)庫(kù)實(shí)現(xiàn)MVCC 事務(wù)
ACID 是軟件領(lǐng)域使用最廣泛的技術(shù)之一,它是關(guān)系數(shù)據(jù)庫(kù)的基石,是企業(yè)級(jí)中間件不可或缺的部分,但通常通過(guò)黑盒的方式提供。但是在許多情況下,這種古老的事務(wù)方式已經(jīng)不能夠適應(yīng)現(xiàn)代大規(guī)模系統(tǒng)和NoSQL數(shù)據(jù)庫(kù)的需要了,現(xiàn)代系統(tǒng)要求更高的性能要求,更大的數(shù)據(jù)量,更高的可用性。在這種情況下,傳統(tǒng)的事務(wù)模型被定制的事務(wù)或者半事務(wù)模型所取代,而在這些模型中事務(wù)性并不像以往那樣被看重。
在本文中我們會(huì)討論一下key-value數(shù)據(jù)庫(kù)的無(wú)鎖事務(wù)操作,這種技術(shù)可以廣泛應(yīng)用于任何一種數(shù)據(jù)庫(kù)系統(tǒng)。在GridDynamics中,我們就用這種技術(shù)在Oracle Coherence上實(shí)現(xiàn)了一個(gè)輕量級(jí)的非標(biāo)準(zhǔn)的事務(wù)機(jī)制。在***部分我們會(huì)通過(guò)幾個(gè)重要的用例來(lái)了解兩種簡(jiǎn)單的方法,在第二部分我們會(huì)研究更多更通用的方法,比如說(shuō)PostgreSQL的MVCC實(shí)現(xiàn)。
原子性緩存切換,讀提交隔離
讓我們從一個(gè)簡(jiǎn)單易于實(shí)現(xiàn)的方法開(kāi)始,這個(gè)方法適用于讀遠(yuǎn)多于寫(xiě)的系統(tǒng)。比如說(shuō)電子商務(wù)系統(tǒng)中每天要進(jìn)行的數(shù)據(jù)更新,一些管理性操作例如無(wú)效貨品的修復(fù)以及緩存更新。
最簡(jiǎn)單的例子是把所有數(shù)據(jù)都加載進(jìn)緩存里,然后通過(guò)一個(gè)代理接口來(lái)執(zhí)行諸如 get() 和 put() 這樣的操作。這個(gè)接口會(huì)與兩個(gè)緩存打交道,A和B,按照以下邏輯運(yùn)行(圖 1):
任何時(shí)候只能有一個(gè)緩存處于可用狀態(tài),代理接口會(huì)把所有的請(qǐng)求路由給它(圖1.1)。
更新數(shù)據(jù)的時(shí)候把新數(shù)據(jù)加載到目前不可用的緩存中(圖1.2)。
更新進(jìn)程切換標(biāo)志哪個(gè)緩存可用的標(biāo)記(圖1.3),代理接口開(kāi)始把新的讀請(qǐng)求分發(fā)到新標(biāo)記為可用的緩存。
緩存切換階段的事務(wù)可以依據(jù)不用的持久性和隔離性要求來(lái)分別處理。如果允許“不可重復(fù)讀” ,那么切換很簡(jiǎn)單,老數(shù)據(jù)會(huì)被立刻清理掉。否則,代理接口會(huì)維護(hù)一個(gè)仍未結(jié)束的事務(wù)列表,并把屬于這個(gè)列表中的每一個(gè)請(qǐng)求都路由到原來(lái)的緩存中。只有當(dāng)列表中的所有事物都提交或者放棄之后老數(shù)據(jù)才會(huì)被清空。
Fig.1 Cache Switch
相同的技術(shù)也可用于部分更新。依據(jù)存儲(chǔ)方式的不同也有多種實(shí)現(xiàn)方法,我們來(lái)看一個(gè)有三個(gè)緩存簡(jiǎn)單例子。這個(gè)例子中的框架遇上一個(gè)類(lèi)似,但是代理接口按照以下邏輯運(yùn)行(圖 2):
用戶請(qǐng)求被路由到主緩存("PRIMARY"緩存)(圖 2.1)
新增數(shù)據(jù)和更新數(shù)據(jù)加載進(jìn)2號(hào)緩存(“NEW”緩存),刪除項(xiàng)的key放入3號(hào)緩存("DELETE"緩存)(圖2.2)
提交進(jìn)程(特指寫(xiě)事務(wù))切換全局標(biāo)示,這個(gè)標(biāo)示會(huì)告訴代理接口先去"NEW"和"DELETE"緩存去查找所請(qǐng)求的數(shù)據(jù),如果在這兩個(gè)區(qū)域中沒(méi)有發(fā)現(xiàn)再去"PRIMARY"緩存查找(圖2.3)。換句話說(shuō),在這一步所有的請(qǐng)求都被改派到了更新過(guò)的數(shù)據(jù)中查找。
提交進(jìn)程將 NEW 和 DELETE 區(qū)域的變化傳遞給PRIMARY。也即在PRIMARY緩存區(qū)以非原子的方式更新、增加、刪除數(shù)據(jù)項(xiàng)(圖2.4)。
***,所有的提交進(jìn)程把全局標(biāo)識(shí)切換回來(lái),所有的請(qǐng)求仍然路由到 PRIMARY 緩存區(qū)域(圖2.5)。
在第4步,可以把老數(shù)據(jù)拷貝到另一個(gè)緩存區(qū),這樣就可以支持回滾操作。即使是全量更新也可以用這種方法。
Fig.2 Partial Cache Switch
從上面的兩個(gè)例子我們可以看出,專(zhuān)用于讀的數(shù)據(jù)快照避免了數(shù)據(jù)更新的干擾,大大降低了復(fù)雜性。在一個(gè)寫(xiě)密集型的環(huán)境中就不容易做到這一點(diǎn)了。在下一節(jié)我們會(huì)討論一種非常好的方法可以***的解決這個(gè)問(wèn)題。
MVCC 事務(wù),可重復(fù)讀隔離
事物間的隔離可以通過(guò)給數(shù)據(jù)項(xiàng)加上版本號(hào)來(lái)實(shí)現(xiàn)。有許多方法能做到這一點(diǎn),下面我們會(huì)介紹一種與PostgreSQL 的事務(wù)處理方法非常相似的辦法。
正如前面所說(shuō),每個(gè)事務(wù)可以對(duì)應(yīng)于一個(gè)部分?jǐn)?shù)據(jù)快照。在同一時(shí)間,每一個(gè)數(shù)據(jù)項(xiàng)都有他自己的生命周期 - 從加入緩存到移出緩存或者被更新(被新版本所取代)。所以可以通過(guò)給每條數(shù)據(jù)打兩個(gè)時(shí)間戳來(lái)實(shí)現(xiàn)隔離,每個(gè)事物通過(guò)開(kāi)始時(shí)間(兩個(gè)時(shí)間戳之一,譯者注)來(lái)找出在事務(wù)開(kāi)始時(shí)處于可見(jiàn)狀態(tài)的數(shù)據(jù)。但在實(shí)踐中常用一個(gè)單調(diào)遞增的計(jì)數(shù)來(lái)代替時(shí)間戳:
- 新事務(wù)開(kāi)始的時(shí)候:
它會(huì)獲得一個(gè)全局唯一且單調(diào)遞增的事務(wù)ID ,也叫 XID。
進(jìn)程里保存著所有事務(wù)的XID.
- 緩存里的每個(gè)數(shù)據(jù)項(xiàng)有兩個(gè)額外標(biāo)記,xmin 和 xmax。按照以下規(guī)則賦值:
當(dāng)數(shù)據(jù)項(xiàng)被某個(gè)事務(wù)建立的時(shí)候, xmin 設(shè)置為該事務(wù)的XID ,xmax 無(wú)值。
當(dāng)數(shù)據(jù)被某個(gè)事務(wù)移除的時(shí)候,xmin 不變,xmax 設(shè)置為該事務(wù)的XID。數(shù)據(jù)并沒(méi)有真的從緩存中清除,只是被標(biāo)記為已刪除。
當(dāng)數(shù)據(jù)被某個(gè)事務(wù)更新的時(shí)候,老數(shù)據(jù)仍然保存在緩存里,xmax 被賦值為事務(wù)的XID,同時(shí)增加一條新的數(shù)據(jù),新數(shù)據(jù)的 xmin 也賦值為XID 并且xmax 為空。換句話說(shuō)更新操作等于一次刪除加一次增加。
- 如果以下兩個(gè)條件成立,那么數(shù)據(jù)對(duì)于某次事務(wù)是可見(jiàn)的:
xmin 有值并且小于或等于當(dāng)前事務(wù)ID。
xmax 為空,或者等于未提交事務(wù)(放棄的或者還未完成的)的XID ,或者大于當(dāng)前事務(wù)ID。
xmin 和 xmax 可以存儲(chǔ)兩個(gè)位標(biāo)記,表明事務(wù)是否放棄或者提交,這樣才能進(jìn)行上面的檢查(xmax 是否等于未提交事務(wù)的ID)。
邏輯如下圖所示:
Fig.3 PostgeSQL-like MVCC
這種方法的缺點(diǎn)是廢棄數(shù)據(jù)的移除有些繁瑣。因?yàn)椴煌聞?wù)看到的數(shù)據(jù)版本不同,決定何時(shí)將數(shù)據(jù)標(biāo)為不可見(jiàn)或者移除是比較復(fù)雜的。不過(guò)也有兩種以上的方法能夠做到,***種是PostgreSQL中使用的,第二種是Oracle使用的:
所有的版本都存儲(chǔ)在同一個(gè)key-value空間中,對(duì)版本數(shù)量沒(méi)有限制(也即可以儲(chǔ)存任意多的版本,譯者注)。由一個(gè)后臺(tái)進(jìn)程來(lái)回收老版本數(shù)據(jù),這個(gè)回收可以按計(jì)劃調(diào)度執(zhí)行也可以再讀或者寫(xiě)的時(shí)候觸發(fā)。
主key-value 空間只儲(chǔ)存***的版本,之前的版本儲(chǔ)存在另外的地方,且儲(chǔ)存老版本的空間大小是固定的。 ***的版本會(huì)指向之前的版本,但是卻不能夠由此上溯到之前的任意版本, 因?yàn)榇鎯?chǔ)老版本數(shù)據(jù)的區(qū)域大小是固定的, 太早的版本會(huì)被移除。如果某個(gè)事務(wù)不能夠找到指定版本的數(shù)據(jù)就會(huì)失敗。