大數(shù)據(jù)如何為備份和恢復(fù)改變游戲規(guī)則?
譯文在如今的分布式數(shù)據(jù)庫中,想針對所有那些PB級的數(shù)據(jù)獲得一份可靠的快照并非易事。
這是IT界眾所周知的事實:改變軟件堆棧的一部分,你很有可能要改變另一個部分。如果舉個明顯的例子,只要看看大數(shù)據(jù)。
首先,大數(shù)據(jù)徹底改變了數(shù)據(jù)庫領(lǐng)域,帶來了一批新的“向外擴展型”技術(shù)。Hadoop、MongoDB和Cassandra之類的產(chǎn)品就體現(xiàn)了這一點:數(shù)據(jù)分布在多臺商用服務(wù)器上,而不是被塞入到一臺大型服務(wù)器上。當(dāng)然,這么做的優(yōu)點在于靈活性:若想容納更多PB級的數(shù)據(jù),你只需要添加另外一兩臺廉價的服務(wù)器,而不是“向上擴展”,支付大筆費用購買更龐大的服務(wù)器。
這一切很好,不過現(xiàn)在出現(xiàn)了一個新的棘手問題:備份和恢復(fù)。
知名調(diào)研機構(gòu)Gartner的副總裁戴夫·拉塞爾(Dave Russell)說:“傳統(tǒng)的備份產(chǎn)品處理數(shù)量非常多的數(shù)據(jù)時面臨挑戰(zhàn)。架構(gòu)具有的向外擴展性對傳統(tǒng)的備份應(yīng)用軟件來說也難以處理。”
拉塞爾表示,如今的橫向擴展型數(shù)據(jù)庫確實包括可用性和恢復(fù)方面的一些功能,但是它們通常不如IT用戶已經(jīng)習(xí)慣的那些功能來得強大、可靠。
如果出現(xiàn)系統(tǒng)停運,這個問題就會導(dǎo)致大企業(yè)岌岌可危。不過與此同時,一類新的數(shù)據(jù)保護產(chǎn)品開始浮出水面。Datos IO公司的RecoverX就是其中之一。
Datos IO的聯(lián)合創(chuàng)始人兼首席執(zhí)行官塔倫·塔庫爾(Tarun Thakur)說:“如果你有一個傳統(tǒng)的數(shù)據(jù)庫,比如甲骨文或MySQL,它又是向上擴展的,那么始終存在持久性日志(durable log)這個概念。”
在這類情況下,如果出現(xiàn)了問題,該日志的副本就成為了備份。
在如今下一代數(shù)據(jù)庫盛行的世界(數(shù)據(jù)分布在多臺小型機器上),這并不是那么簡單。
塔庫爾解釋道:“根本沒有持久性日志這個概念,因為沒有主系統(tǒng),每個節(jié)點都在處理各自的事務(wù)。不同的節(jié)點可能獲得不同的權(quán)利,每一個節(jié)點對于操作有不同的視圖。”
這一方面是由于為了適應(yīng)通常所說的大數(shù)據(jù)的“三個V”:數(shù)量、速度和種類而做出的取舍。具體來說,為了提供可擴展性,同時適應(yīng)以越來越快的速度向我們涌來的海量數(shù)據(jù),如今的分布式數(shù)據(jù)庫背離了傳統(tǒng)關(guān)系數(shù)據(jù)庫通常承諾的“ACID”標(biāo)準(zhǔn)。相反,它們采用了所謂的“BASE”原則。
這是一個重大區(qū)別。最密切相關(guān)的是,相比傳統(tǒng)數(shù)據(jù)庫承諾在整個過程中有很強的一致性(也就是ACID中的“C”),分布式數(shù)據(jù)庫而是力爭實現(xiàn)所謂的“最終一致性”。更新會遲早體現(xiàn)在數(shù)據(jù)庫的所有節(jié)點中,不過存在時間滯后。
塔庫爾說:“如果你需要可擴展性,就需要放棄一致性――你必須得放棄其中一個。”
這樣一來就很難為時間點恢復(fù)獲得全局的一份可靠快照。451 Research的研究副總裁西蒙·魯賓遜(Simon Robinson)表示,不僅更難在任何一個給定的時間點跟蹤哪些數(shù)據(jù)可能轉(zhuǎn)移到了分布式數(shù)據(jù)庫中的哪個地方,如果數(shù)據(jù)出現(xiàn)了損壞,常常被“整合”到更新穎分布式數(shù)據(jù)庫中的彈性功能(比如復(fù)制)也無法保護你。
他說:“你剛剛復(fù)制了那個損壞的數(shù)據(jù)。”
本月早些時候,Datos IO推出了RecoverX,借助功能特性(包括所謂的可擴展版本控制和語義重復(fù)數(shù)據(jù)刪除),解決那些問題。該公司表示,其結(jié)果是,與集群一致的備份不僅節(jié)省空間,還能夠以原生格式出現(xiàn)。
索維克·達斯(Souvik Das)就在不久前還是第一資本汽車金融公司(CapitalOne Auto Finance)的首席技術(shù)官兼主管工程技術(shù)的執(zhí)行副總裁,他對備份難題可是深有體會。
達斯表示,使用了多年的傳統(tǒng)數(shù)據(jù)庫后,第一資本早在幾年前進行了一次“巨大的轉(zhuǎn)變”,包括推出新的分布式技術(shù),比如Cassandra?,F(xiàn)在,他是面向醫(yī)療保健行業(yè)的初創(chuàng)公司Grand Rounds主管工程技術(shù)的高級副總裁。
這就意味著為備份和恢復(fù)尋找一種新的策略。
他解釋道:“大多數(shù)備份廠商和軟件通常適應(yīng)它們備份的系統(tǒng)的類型。”
他表示,如果使用老式備份產(chǎn)品的同時使用新式的分布式數(shù)據(jù)庫,可能會帶來麻煩。
達斯說:“不是該軟件會因不知道如何備份新的數(shù)據(jù)存儲系統(tǒng)而完全失效,就是它會以一種很不理想的方式運行。我們知道,那樣的話,我們就要使用不同的備份解決方案。”
達斯表示,第一資本一直在評估Datos IO以及這個領(lǐng)域的另一家大廠商:Talena。
提供較傳統(tǒng)備份產(chǎn)品的廠商也在針對大數(shù)據(jù),逐步調(diào)整自己的技術(shù)。
451 Research的羅賓遜說:“老牌的備份廠商通常需要一些時間來支持新穎的技術(shù)。”
他補充說:“回到10年前,最初為VMware虛擬機輕松進行備份是件很難的事情。這就給了Veeam之類的廠商大好機會,得以從老牌廠商的眼皮子底下進入并搶奪虛擬機備份市場。”






























