云計(jì)算應(yīng)急措施:中小企業(yè)應(yīng)吸取的教訓(xùn)
2023年7月CrowdStrike的宕機(jī)事件提醒我們,無(wú)論企業(yè)規(guī)模大小,都高度依賴于其IT系統(tǒng)。例如,一些醫(yī)院因宕機(jī)無(wú)法進(jìn)行預(yù)定的手術(shù),多架航班被取消,全球范圍內(nèi)的旅客因此滯留。
對(duì)于許多人來(lái)說(shuō),航空公司系統(tǒng)的全球癱瘓似乎只是“大企業(yè)”的問(wèn)題,畢竟,只有涉及廣泛系統(tǒng)的問(wèn)題才會(huì)帶來(lái)如此深遠(yuǎn)的影響。
但現(xiàn)在塵埃落定,顯然中小型企業(yè)也能從中汲取許多教訓(xùn),了解應(yīng)急計(jì)劃的重要性,以及在選擇云服務(wù)提供商時(shí)盡職調(diào)查的必要性。應(yīng)提出的問(wèn)題包括:該云提供商是否有外部依賴可能影響其服務(wù)?該云提供商是否完全掌控其云服務(wù)的所有方面?在部署過(guò)程中使用了哪些操作系統(tǒng)和軟件?
為宕機(jī)做好準(zhǔn)備
此次宕機(jī)是由內(nèi)容更新引發(fā)的。雖然問(wèn)題很快被診斷出來(lái),但由于受影響的系統(tǒng)無(wú)法啟動(dòng),更新無(wú)法自動(dòng)推送,必須進(jìn)行手動(dòng)干預(yù)。
以下是一些應(yīng)對(duì)宕機(jī)并提前規(guī)劃的建議:
1. 了解你的云依賴性。軟件生態(tài)系統(tǒng)中充滿了可能影響軟件、服務(wù)器、平臺(tái)以及最重要的日常業(yè)務(wù)操作的依賴關(guān)系。以上事件中,一些Microsoft Azure用戶依賴于CrowdStrike。用戶應(yīng)該對(duì)這種風(fēng)險(xiǎn)有所了解。如果你理解這些依賴關(guān)系,就能更好地評(píng)估風(fēng)險(xiǎn)并做好相應(yīng)的準(zhǔn)備。
2. 構(gòu)建云冗余系統(tǒng)。事實(shí)上,宕機(jī)隨時(shí)可能發(fā)生。我們可能不知道,因?yàn)樗赡苤挥绊懮俨糠钟脩簦罱K,你的環(huán)境也可能遭遇宕機(jī)。因此,擁有備份非常重要。如果你依賴云服務(wù)提供商,務(wù)必要深入了解他們的冗余機(jī)制和備份策略。冗余系統(tǒng)能確保在宕機(jī)期間的業(yè)務(wù)連續(xù)性。
3. 了解你的更新策略。此次受到CrowdStrike更新影響的公司依賴于自動(dòng)更新,而如果管理不當(dāng),自動(dòng)更新可能引入漏洞。中小企業(yè)應(yīng)制定相應(yīng)的政策,控制更新的應(yīng)用方式和時(shí)間,確保在向所有系統(tǒng)部署更新之前進(jìn)行測(cè)試,以防止大范圍的問(wèn)題。
4. 投資業(yè)務(wù)連續(xù)性規(guī)劃。一份完善的業(yè)務(wù)連續(xù)性計(jì)劃可能復(fù)雜、昂貴且耗時(shí),但它也能帶來(lái)巨大的回報(bào)。舉例來(lái)說(shuō),如果你的業(yè)務(wù)周期具有季節(jié)性,想象一下如果系統(tǒng)宕機(jī)三小時(shí)會(huì)帶來(lái)多大損失。有些企業(yè)可能在一年中某個(gè)月完成了80%的業(yè)務(wù),失去三小時(shí)的可用性可能對(duì)企業(yè)的利潤(rùn)產(chǎn)生重大影響。
有很多服務(wù)可以幫助你實(shí)現(xiàn)這一點(diǎn)。一些云服務(wù)提供商也可以協(xié)助此事,因?yàn)樵频牟捎猛ǔJ菫榱舜_保業(yè)務(wù)連續(xù)性,然而,僅僅有一份書(shū)面的計(jì)劃是不夠的。進(jìn)行演練和壓力測(cè)試系統(tǒng)同樣重要。這樣不僅能讓你放心,還能向保險(xiǎn)公司證明在發(fā)生宕機(jī)時(shí),你的公司已經(jīng)盡職盡責(zé)地做好了準(zhǔn)備。
平衡風(fēng)險(xiǎn)與成本
許多公司可能會(huì)拖延或推遲為宕機(jī)做準(zhǔn)備。他們甚至可能認(rèn)為這種情況不會(huì)發(fā)生在自己身上,或者認(rèn)為準(zhǔn)備太昂貴,幾小時(shí)或幾天的宕機(jī)也無(wú)關(guān)緊要。
但I(xiàn)T和數(shù)字化運(yùn)營(yíng)已逐漸成為企業(yè)的核心。應(yīng)急計(jì)劃不能被忽視。幸運(yùn)的是,現(xiàn)代IT環(huán)境比幾年前更加健全。企業(yè)有多種選擇和策略來(lái)保持業(yè)務(wù)的可用性:為本地企業(yè)提供的云備份、混合云以及包括保險(xiǎn)公司和災(zāi)難恢復(fù)顧問(wèn)在內(nèi)的服務(wù)生態(tài)系統(tǒng)。
這些流程不必成為公司財(cái)務(wù)的負(fù)擔(dān)。企業(yè)可以評(píng)估其風(fēng)險(xiǎn)、風(fēng)險(xiǎn)承受能力以及宕機(jī)的潛在影響,但最糟糕的情況是企業(yè)不解決這些問(wèn)題。雖然新聞報(bào)道集中在7月宕機(jī)期間影響到的大型全球企業(yè),但許多小型企業(yè)也受到了影響,且其中許多的恢復(fù)過(guò)程并不輕松。
立即采取措施保障公司運(yùn)營(yíng)健康,是企業(yè)長(zhǎng)遠(yuǎn)發(fā)展最重要的投資之一。
俗話說(shuō),防患于未然比事后補(bǔ)救要好。