重磅干貨:OPENSTACK與DRaaS典型架構與設計
隨著IT基礎架構在新時代中的發(fā)展,采用云計算替代傳統(tǒng)基礎架構的趨勢已日漸明顯。其中以OpenStack為首的開源云正在逐步靠近各類IT業(yè)務系統(tǒng)的核心,承擔起更加重要的角色。
隨著OpenStack內(nèi)部架構的逐步完善,對于核心業(yè)務的容災需求也應當被加入到整個架構當中。在以OpenStack為基礎的容災架構中不僅涵蓋業(yè)務的數(shù)據(jù)和應用,還包括云主機配置,認證授權,網(wǎng)絡等等容災云的元素。OpenStack容災架構的部署,對于提高IT業(yè)務的可靠性,可用性和連續(xù)性至關重要。
本文主要介紹OpenStack在DR災難恢復場景下對應的技術解決方案,以及OpenStack災難恢復服務DRaaS的規(guī)劃、實施和建設。
一、DRaaS的思想和原則
(一)幾個概念
災難(Disaster)是由于人為或自然的原因,造成一個數(shù)據(jù)中心內(nèi)的信息系統(tǒng)運行嚴重故障或癱瘓,使信息系統(tǒng)支持的業(yè)務功能停頓或服務水平不可接受、達到特定的時間的突發(fā)性事件,通常導致信息系統(tǒng)需要切換到備用場地運行。
災難恢復(Diaster Recovery)是指當災難破壞生產(chǎn)中心時在不同地點的數(shù)據(jù)中心內(nèi)恢復數(shù)據(jù)、應用或者業(yè)務的能力。
容災是指除了生產(chǎn)站點以外,用戶另外建立的冗余站點,當災難發(fā)生,生產(chǎn)站點受到破壞時,冗余站點可以接管用戶正常的業(yè)務,達到業(yè)務不間斷的目的。為了達到更高的可用性,許多用戶甚至建立多個冗余站點。
衡量容災系統(tǒng)有兩個主要指標:RPO(Recovery Point Objective)和 RTO(Recovery Time Object),其中 RPO代表 了當災難發(fā)生時允許丟失的數(shù)據(jù)量,而 RTO 則代表了系統(tǒng)恢復的時間。RPO 與 RTO 越小,系統(tǒng)的可用性就越高,當然用戶需要的投資也越大。
(二)容災級別
級別 |
定義 |
RTO |
數(shù)據(jù)級 |
指通過建立同城/異地容災中心和數(shù)據(jù)的遠程備份/復制,在災難發(fā)生之后要確保原有的數(shù)據(jù)不會丟失或者遭到破壞。容災切換時需要重新部署云主機,利用備份/復制數(shù)據(jù)恢復業(yè)務運行。 |
RTO 最長(若干小時) |
應用級 |
在數(shù)據(jù)級容災的基礎之上,在備份站點同樣構建一套相同的OpenStack云,通過數(shù)據(jù)復制技術,保證關鍵應用在允許的時間范圍內(nèi)恢復運行,盡可能減少災難帶來的損失。 |
RTO 中等(若干分鐘) |
業(yè)務級 |
全業(yè)務的災備,將災備的范圍擴大到整個Animbus OpenStack云。通過對控制節(jié)點元數(shù)據(jù)的復制,恢復一個完整的云環(huán)境,以及云上的所有組件和業(yè)務系統(tǒng)。 |
RTO 最?。ㄈ舾煞?/span>鐘或者秒) |
(三)設計目標
設計的目標是通過部署DRaaS服務,能夠滿足并支撐:
- 實現(xiàn)云主機與云硬盤數(shù)據(jù)跨站點備份/復制,確保災難發(fā)生后,防止數(shù)據(jù)丟失或遭到破壞。
- 實現(xiàn)OpenStack云容災能力,云主機和數(shù)據(jù)具有異地恢復能力,提高系統(tǒng)的可靠性和連續(xù)性。
- 優(yōu)化DRaaS部署方式,提供模塊化,可選擇,可擴展的部署方式。提供一體化管理界面和可視化管理能力。
二、架構與設計
(一)DRaaS容災架構
DRaaS容災架構通過將Animbus OpenStack劃分成三個層次,虛擬化層,控制層,管理層。虛擬化層集合了Animbus OpenStack的虛擬化資源,包括計算,存儲和網(wǎng)絡資源,屬于容災架構的核心層;控制層融合了Animbus OpenStack的管理組件,包括計算,認證,網(wǎng)絡,存儲,鏡像等,屬于容災架構的中間層;管理層提供了對于整個DRaaS容災環(huán)境的集中管理與監(jiān)控,屬于容災架構的管理層。
在主備容災兩個Animbus OpenStack 環(huán)境之間,采用分層的容災技術結構,包括云存儲復制技術,云系統(tǒng)復制技術,云管理同步技術。通過整體容災架構的部署,使得主備Animbus OpenStack環(huán)境具備容災切換的能力。
DRaaS架構示意圖
(二)DRaaS容災分級
DRaaS容災架構可以根據(jù)業(yè)務場景和需求,實現(xiàn)三個不同等級的容災級別。包括:
數(shù)據(jù)級容災DRaaS of Data
通過采用云存儲復制技術,實現(xiàn)對Animbus OpenStack的數(shù)據(jù)級容災。在災難發(fā)生時,需重新部署云主機,利用Animbus OpenStack存儲上的容災數(shù)據(jù)實現(xiàn)數(shù)據(jù)恢復。這種方案價格最為低廉,RTO時間較長(若干小時)
應用級容災DRaaS of Application
通過采用云系統(tǒng)復制技術,實現(xiàn)對Animbus OpenStack的應用級容災。在災難發(fā)生時,可以直接恢復云主機以及Animbus OpenStack后臺存儲的數(shù)據(jù),局部或者全部恢復業(yè)務應用系統(tǒng)環(huán)境。這種方案價格相對經(jīng)濟,RTO時間較短(若干分鐘)
業(yè)務級容災DRaaS of Business
通過采用云管理同步技術,實現(xiàn)對Animbus OpenStack云環(huán)境的業(yè)務級容災。在災難發(fā)生時,通過容災轉移一鍵切換,可以快速的恢復整個Animbus OpenStack云平臺環(huán)境。這種方案價格相對昂貴,RTO時間最短(若干分鐘或秒)
三、容災DRaaS的應用
(一)災難定義
在信息系統(tǒng)服務時間段內(nèi),生產(chǎn)環(huán)境出現(xiàn)嚴重故障,系統(tǒng)中斷,無法在短時間內(nèi)本地恢復,可以通過啟用同城災備(異地災備)環(huán)境實現(xiàn)業(yè)務的接管,可以根據(jù)災難決策,實施災難切換操作。
由于每次災難產(chǎn)生的原因,影響的范圍和時間長度,以及應對措施的差異。需要在制定容災方案中,事先假設對于災難場景的預設,然后可以根據(jù)不同的災難場景,制定容災方案以及災難恢復計劃。
(二)災難場景
在DRaaS的容災架構中,已經(jīng)預設了多樣的災難場景,以及與之對應的容災架構設計和容災方案。通過這些容災體系的建設,可以使整個Animbus OpenStack應對多樣的災難場景,實現(xiàn)快速的,安全的容災切換。
- ***類-自然災害,例如:火災,水災,地震……
- 第二類-核心基礎架構故障,例如:數(shù)據(jù)中心停電、核心存儲宕機、廣域網(wǎng)絡中斷、內(nèi)部網(wǎng)絡癱瘓、空調(diào)系統(tǒng)宕機……
- 第三類-單個系統(tǒng)故障,例如:操作系統(tǒng)或者數(shù)據(jù)庫系統(tǒng)崩潰、服務器硬件故障造成的宕機……
(三)DRaaS在實際災難場景中的應用例子
某公司數(shù)據(jù)中心停電
案情:
由于電力故障,使其數(shù)據(jù)中心機房大面積停電。決定將IT業(yè)務系統(tǒng)整體容災切換到位于另一處的備用數(shù)據(jù)中心。
在主備數(shù)據(jù)中心之間部署了基于Animbus OpenStack的DRaaS for Bussiness容災環(huán)境,通過啟用容災環(huán)境的Animbus OpenStack云,迅速恢復原有的業(yè)務系統(tǒng)。保證業(yè)務應用的持續(xù)運行。
容災恢復過程
災難發(fā)生,業(yè)務應用出現(xiàn)無響應狀態(tài)。
收集系統(tǒng)信息輔助決策,觸發(fā)容災切換方案。
關閉主中心Animbus OpenStack應用服務,斷開數(shù)據(jù)復制線路。
恢復Animbus OpenStack備中心,并恢復業(yè)務訪問。
DRaaS在實際災難場景中的應用示意圖