重復(fù)數(shù)據(jù)刪除技術(shù)對(duì)備份有著深刻影響
導(dǎo)讀:重復(fù)數(shù)據(jù)刪除是一種非常高級(jí)的數(shù)據(jù)縮減方式,可以極大的減少備份數(shù)據(jù)的數(shù)量。這種技術(shù)通過減少存儲(chǔ)的數(shù)據(jù)量,改變數(shù)據(jù)保護(hù)方式,卓越的提升了磁盤備份方式的經(jīng)濟(jì)性。重復(fù)數(shù)據(jù)刪除被業(yè)界公認(rèn)為備份技術(shù)的下一代發(fā)展步驟,是今日數(shù)據(jù)中心的"必備"技術(shù)。可重復(fù)數(shù)據(jù)的刪除技術(shù)對(duì)備份又會(huì)產(chǎn)生一定的影響。
重復(fù)數(shù)據(jù)刪除應(yīng)運(yùn)而生
重復(fù)數(shù)據(jù)刪除是一項(xiàng)非常新的技術(shù),專門用于在減少需要備份的數(shù)據(jù)量、***化存儲(chǔ)利用率的同時(shí),使更多的備份數(shù)據(jù)在線保留更長(zhǎng)時(shí)間。通常來講,重復(fù)數(shù)據(jù)刪除技術(shù)會(huì)將***的備份數(shù)據(jù)與已有的之前的備份數(shù)據(jù)進(jìn)行比對(duì),從而消除冗余數(shù)據(jù)。這項(xiàng)技術(shù)的優(yōu)勢(shì)在于數(shù)據(jù)的減少不僅使存儲(chǔ)的效率更高、成本更節(jié)約,帶寬的利用也降到***,使更經(jīng)濟(jì)、更快速的實(shí)現(xiàn)備份數(shù)據(jù)的遠(yuǎn)程復(fù)制成為可能。然而,目前市場(chǎng)中的重復(fù)數(shù)據(jù)刪除解決方案還有很大差異,有些解決方案會(huì)使備份處理的速度變的很慢,甚至引發(fā)無法預(yù)計(jì)且不可恢復(fù)的數(shù)據(jù)丟失。
塊級(jí)重復(fù)數(shù)據(jù)刪除
多年以前的重復(fù)數(shù)據(jù)刪除技術(shù),可以看作是文件級(jí)的技術(shù),當(dāng)時(shí)稱之為“單一實(shí)例存儲(chǔ)(SingleInstanceStore,SIS)”,通過SIS技術(shù),整個(gè)文件系統(tǒng)或電子郵件系統(tǒng)的重復(fù)文件可以被減少為單一的拷貝,當(dāng)再出現(xiàn)這一文件時(shí),會(huì)被指向到這一單一拷貝,從而減少容量需求。這一技術(shù)通常被用于電子郵件管理及歸檔系統(tǒng)。
今天的重復(fù)數(shù)據(jù)刪除技術(shù)利用了與SIS類似的數(shù)據(jù)縮減概念,但卻使之向前邁進(jìn)了一大步–實(shí)現(xiàn)了塊級(jí)(子文件)重復(fù)數(shù)據(jù)刪除。當(dāng)讀取數(shù)據(jù)時(shí),系統(tǒng)利用Hash算法識(shí)別唯一的數(shù)據(jù)塊,系統(tǒng)將保留Hash索引,每個(gè)Hash編碼指向一個(gè)不同的數(shù)據(jù)塊。當(dāng)新的備份發(fā)生時(shí),會(huì)自動(dòng)的與現(xiàn)有的塊進(jìn)行比對(duì),如果索引中已經(jīng)有相同的塊,數(shù)據(jù)將會(huì)被刪除或被指向塊的指針?biāo)?反之,則會(huì)被保存并在索引中為其創(chuàng)建一個(gè)新的Hash編碼。這里提到的唯一數(shù)據(jù)塊的大小,會(huì)根據(jù)用戶選擇的不同的重復(fù)數(shù)據(jù)刪除解決方案而不同,平均大小在4KB-24KB之間。
與文件級(jí)SIS技術(shù)相比,塊級(jí)的重復(fù)數(shù)據(jù)刪除技術(shù)可以說更具優(yōu)勢(shì)。它可以在不同的文件或應(yīng)用中消除冗余數(shù)據(jù)塊。比如,如果一個(gè)文件只做了想當(dāng)小的一點(diǎn)修改并保存,塊級(jí)重復(fù)數(shù)據(jù)刪除技術(shù)則將只保存發(fā)生變化的數(shù)據(jù)塊。按這種方式,塊級(jí)重復(fù)數(shù)據(jù)刪除可以提供更好的壓縮比率,特別是應(yīng)用于巨大數(shù)據(jù)量的情況下,如數(shù)據(jù)庫或全備份之后。
下面的例子進(jìn)一步說明了SIS和塊級(jí)兩種重復(fù)數(shù)據(jù)刪除技術(shù)的結(jié)果比較。
一個(gè)企業(yè)向1000個(gè)郵件地址發(fā)出一封帶有注冊(cè)內(nèi)容的活動(dòng)邀請(qǐng)函,傳統(tǒng)的備份應(yīng)用將會(huì)把文件備份1000次。SIS解決方案可以識(shí)別出文件是相同的,將只會(huì)保留一份備份,然后生成999個(gè)指針指向那個(gè)唯一的備份,因此,大概節(jié)省了99.9%的空間。但是,之后這1000個(gè)參會(huì)人可能會(huì)將注冊(cè)內(nèi)容填好后回復(fù)給發(fā)件人,由于他們的名字不同,SIS解決方案就會(huì)備份1000份回執(zhí)。
塊級(jí)解決方案在發(fā)出邀請(qǐng)函的時(shí)候執(zhí)行了相同的重復(fù)數(shù)據(jù)刪除處理,也實(shí)現(xiàn)了99.9%的存儲(chǔ)空間節(jié)省。但是,當(dāng)收到1000份參會(huì)人的回執(zhí)時(shí),塊級(jí)解決方案會(huì)發(fā)現(xiàn)每個(gè)回執(zhí)的大部分內(nèi)容與***封收到的是相同的并已經(jīng)備份過,因此,它只會(huì)對(duì)其它999封回執(zhí)的相異數(shù)據(jù)塊(塊級(jí))進(jìn)行備份。這種方法與SIS技術(shù)相比,則還可以節(jié)省額外的99.9%的存儲(chǔ)空間。
綠色存儲(chǔ)與重復(fù)數(shù)據(jù)刪除
由于塊級(jí)重復(fù)數(shù)據(jù)刪除技術(shù)只保存發(fā)生變化的數(shù)據(jù),極大的減少了所需的備份容量,使用戶不用再像從前一樣購(gòu)置大量磁盤,從而將用戶備份系統(tǒng)的總成本降到***。更少的磁盤致使存儲(chǔ)系統(tǒng)更少,電力及制冷需求更小,同時(shí)還降低了整體系統(tǒng)的復(fù)雜性。
與傳統(tǒng)的磁帶備份解決方案相比,重復(fù)數(shù)據(jù)刪除技術(shù)完全改變了磁盤備份的經(jīng)濟(jì)性。通過這一技術(shù),更多的用戶可以負(fù)擔(dān)得起用磁盤備份取代整個(gè)或是部分磁帶備份的解決方案。磁盤備份相對(duì)于磁帶備份來說,提供了更好的備份及恢復(fù)性能。通過利用磁盤備份的方式,用戶可以進(jìn)一步改善他們的服務(wù)品質(zhì)協(xié)議(Service-LevelAgreements,SLAs)。
當(dāng)通過數(shù)據(jù)復(fù)制實(shí)現(xiàn)災(zāi)備時(shí),重復(fù)數(shù)據(jù)刪除技術(shù)也可以帶來卓越利益。由于減少了備份數(shù)據(jù)量,重復(fù)數(shù)據(jù)刪除技術(shù)將主站點(diǎn)與遠(yuǎn)程數(shù)據(jù)中心之間的帶寬需求、數(shù)據(jù)傳輸成本、復(fù)制時(shí)間都降到***。企業(yè)利用相對(duì)經(jīng)濟(jì)的WAN網(wǎng)絡(luò)即可在任意地理空間范圍內(nèi)執(zhí)行復(fù)制,實(shí)現(xiàn)了額外的成本節(jié)約。
重復(fù)數(shù)據(jù)刪除最適用于哪里?
理論上講,重復(fù)數(shù)據(jù)刪除技術(shù)可以用于任意地點(diǎn)存在的數(shù)據(jù)。它可以與在線或是離線的數(shù)據(jù)一起工作,可以在文件系統(tǒng)或是數(shù)據(jù)庫,也可以在其它應(yīng)用。總的來說,哪里有大量的重復(fù)數(shù)據(jù),它就能在哪呈現(xiàn)出***的利益回報(bào)。
而***的應(yīng)用示例是在企業(yè)級(jí)備份。企業(yè)大都是每天做一次全備份,兩日的全備份中通常只有很小部分不會(huì)超過5%的數(shù)據(jù)是不同的,大部分備份扇區(qū)都是相似的。這種情況下,重復(fù)刪除為備份系統(tǒng)帶來了***的利益回報(bào)。因此,大多數(shù)重復(fù)數(shù)據(jù)刪除解決方案都是專為備份系統(tǒng)而設(shè)計(jì)的。
【編輯推薦】























