黑色八月,細(xì)數(shù)宕機(jī)的那些事
當(dāng)今社會,我們?nèi)粘I钪卸紩佑|到各種各樣的網(wǎng)絡(luò)服務(wù)和應(yīng)用。遇到問題時,百度或google一下尋找解決辦法;閑暇時候,可以通過微信和朋友聊上幾句。不想上街逛超市,也可以通過網(wǎng)購購買自己心儀的商品。
但最近一段時間里,網(wǎng)絡(luò)應(yīng)用和服務(wù)都頻繁地出現(xiàn)問題——國外蘋果iclould、谷歌、微軟、Amazon等巨頭先后宕機(jī),讓小伙伴都捏了一把汗;國內(nèi)百度、微信也發(fā)生故障,被不少的網(wǎng)友吐槽。一時間內(nèi),宕機(jī)和避免宕機(jī)成為人們和企業(yè)機(jī)構(gòu)的熱門話題。
一、8月宕機(jī)的那些日子:
1.Amazon兩次宕機(jī)損失近700萬美元
8月可謂是Amazon最為悲劇的一月,在8月19日和8月26日發(fā)生兩次宕機(jī)。據(jù)推測兩次宕機(jī)致使Amazon損失了約700萬美元。
美國東部時間8月19日下午2點(diǎn)45分開始,有用戶率先發(fā)現(xiàn)了Amazon網(wǎng)站出現(xiàn)宕機(jī),大約在20多分鐘后又恢復(fù)正常。此次宕機(jī)讓Amazon損失近200萬美元。
在此期間,消費(fèi)者無法通過Amazon.com、Amazon移動端以及Amazon.ca等網(wǎng)站進(jìn)行購物。
用戶登錄Amazon網(wǎng)站時,只能看到一條報錯信息:“哦,我們非常抱歉,我們在滿足你們的需求方面面臨難題。請再給我們機(jī)會——點(diǎn)擊你瀏覽器上的返回鍵,再次嘗試請求,或者再從我們的主頁開始。”
此外,禍不單行Amazon北弗吉尼亞數(shù)據(jù)中心在8月26日再一次宕機(jī)。據(jù)悉,這次的宕機(jī)源于網(wǎng)絡(luò)故障,并持續(xù)從美國時間25日下午12時51持續(xù)直到下午1時42分。截至下午3時23分,AWS報告說,受影響最大的Elastic Compute Cloud服務(wù)已經(jīng)重新啟動和運(yùn)行。
作為世界最大最著名的云計算服務(wù)供應(yīng)商——AWS,很難數(shù)清楚有多少的用戶因AWS的宕機(jī)而受到影響, Instagram 月活躍用戶數(shù)超 1.3 億,Vine 用戶數(shù)超 4000 萬,F(xiàn)lipboard 用戶數(shù)超 7500 萬,租房網(wǎng)站 Airbnb 用戶數(shù)超 400 萬。不考慮對其它影響網(wǎng)站,僅僅這四家網(wǎng)站宕機(jī)就會影響了數(shù)億用戶。
據(jù)《普吉特海灣商業(yè)雜志》(Puget Sound Business Journal)估計,若按照亞馬遜的每分鐘平均銷售額11.7882萬美元計算,宕機(jī)40分鐘,亞馬遜可能損失了近500萬美元的銷售額。
2.蘋果iClould宕機(jī)300萬用戶受影響
美國太平洋時間2013年8月21日21點(diǎn)30分左右,從蘋果的服務(wù)狀態(tài)網(wǎng)頁的信息來看,iMessage、Photo Stream、Documents in the Cloud、Backup and Restore和iPhoto Journals等服務(wù)都處于無法訪問的狀態(tài)。另外有大約17%的iTunes用戶在一個小時時間內(nèi)無法進(jìn)行購買操作。

服務(wù)狀態(tài)網(wǎng)頁稱,此次宕機(jī)事故而受到影響的用戶接近300萬人,不到用戶總量的1%。
蘋果并沒有對周四的宕機(jī)給出任何的解釋,而且也沒有證據(jù)表明蘋果的服務(wù)遭到惡意攻擊。據(jù)據(jù)業(yè)內(nèi)人士分析此次蘋果宕機(jī)可能是因?yàn)檐浖e誤或設(shè)備的功能缺陷導(dǎo)致。
此外,在8月28日上午,蘋果iTunes Store再次宕機(jī)近3個半小時,造成20%用戶無法購買媒體內(nèi)容。蘋果系統(tǒng)狀態(tài)網(wǎng)頁顯示,該次宕機(jī)事故是從太平洋時間早上6:00開始,一直持續(xù)到上午9:26,影響到了20%的用戶,目前尚不清楚這次宕機(jī)原因。
3.谷歌全面宕機(jī),5分鐘全球流量下降40%
美國太平洋時間8月16日下午3點(diǎn)50分到3點(diǎn)55分(北京時間8月17日6點(diǎn)50分到6點(diǎn)55分),谷歌遭遇了宕機(jī)。此次宕機(jī)影響了了包括谷歌網(wǎng)站首頁、YouTube視頻網(wǎng)站、Google Drive云存儲服務(wù)以及Gmail郵件服務(wù)在內(nèi)的所有谷歌服務(wù)。
在互聯(lián)網(wǎng)領(lǐng)域,恐怕沒有哪家企業(yè)像Google這樣能如此深入而廣泛地影響全球用戶??梢哉f, “Google打個噴嚏,全球互聯(lián)網(wǎng)都要感冒”。市場研究公司GoSquared稱,Google在5分鐘的時間里就讓全球的網(wǎng)絡(luò)流量下降了40%。

按照谷歌公布的今年第二季度營收141億美元的財務(wù)情況來推算,此次宕機(jī)事件將對谷歌造成約55萬美元的損失。
目前,谷歌已經(jīng)重新恢復(fù)了所有服務(wù)的正常運(yùn)行,但仍未出面解釋造成此次宕機(jī)事故的具體原因。
但是令人驚奇的是,谷歌在8月17日的宕機(jī)作為一個維護(hù)問題的負(fù)面新聞卻由于谷歌的應(yīng)急機(jī)制的成功而轉(zhuǎn)變成正面新聞。谷歌的宕機(jī)讓人們見識了什么是集群服務(wù)器,更讓人見識了一個集群服務(wù)器的恢復(fù)僅僅花了11分鐘的時間,這給國內(nèi)外的互聯(lián)網(wǎng)企業(yè)帶來巨大的深思和啟發(fā)。
4.微軟Outlook和SkyDrive云存儲等服務(wù)遭宕機(jī)
2013年8月14日21點(diǎn)左右,微軟的郵箱服務(wù)Hotmail、即時通訊服務(wù)Messenger及云存儲服務(wù)SkyDrive等在全球范圍內(nèi)出現(xiàn)了技術(shù)故障。15日1點(diǎn)20分,微軟賬戶、Messenger及日歷已恢復(fù)正常,但Outlook郵箱、社交應(yīng)用People及SkyDrive仍然無法使用,直到美國東部時間8月17日4點(diǎn)30分才基本修復(fù)正常。
由于Outlook.com的此次宕機(jī)導(dǎo)致了一些用戶三天未能使用相關(guān)的服務(wù),為此,微軟還發(fā)布聲明,向用戶致歉,解釋了此次宕機(jī)的原因以及采取了哪些防范措施來防止未來發(fā)生類似情況。
以下是微軟道歉聲明(節(jié)選):
在此,我們向那些在本周深受Outlook.com宕機(jī)影響的用戶致歉。如今我們已經(jīng)恢復(fù)了所有帳戶的服務(wù),用戶可以登錄帳戶,并更改設(shè)置,以便將來這些服務(wù)仍能夠更好的恢復(fù)使用。我們認(rèn)識到我們肩負(fù)的責(zé)任——就是讓使用我們服務(wù)的用戶能夠與他們最為關(guān)注的人士進(jìn)行交流和分享。我們再次向那些在本周受影響的用戶致歉。
此次事件是由與使用微軟Exchange Activesync的設(shè)備相連接的緩沖貯存區(qū)出現(xiàn)的問題所引起的,……為了恢復(fù)整個電子郵件服務(wù),我們暫時關(guān)閉了通過Exchange ActiveSync進(jìn)行連接的渠道。這將有助于我們幫助用戶通過網(wǎng)頁方式來恢復(fù)使用Outlook.com,并恢復(fù)SkyDrive的共享功能。
我們已經(jīng)從此宕機(jī)事件中汲取了一些教訓(xùn),我們已經(jīng)采取了兩大調(diào)整措施,來加固我們系統(tǒng),以防止未來發(fā)生類似的情況。其一是,增加系統(tǒng)中受影響部門的網(wǎng)絡(luò)帶寬,其二是改變了使用Exchange ActiveSync設(shè)備處理錯誤的方式。我們將繼續(xù)監(jiān)控系統(tǒng),并進(jìn)行其它必要的調(diào)整,以此保證服務(wù)的穩(wěn)定。
現(xiàn)在,我們已經(jīng)恢復(fù)了服務(wù),因此所有的用戶都應(yīng)當(dāng)能夠正常使用他們設(shè)備上的所有服務(wù)。我們在此再次向那些受宕機(jī)影響的所有用戶致歉,我們也對用戶在我們解決問題過程中體現(xiàn)出的耐心表示感激。
5.百度短暫性不可訪問
2013年8月14日17點(diǎn)左右,百度出現(xiàn)大面積訪問故障,具體表現(xiàn)為無法打開baidu.com首頁,無法訪問服務(wù)器,約15分鐘后故障排除。

目前仍不清楚是什么原因?qū)е掳俣仁醉摕o法訪問。
6.微信再次發(fā)生大面積故障
8月19日晚上10點(diǎn)左右,微信再次發(fā)生大面積故障,出現(xiàn)包括微信公眾平臺無法登陸、用戶無法正常登陸微信和朋友圈無法刷新等狀況。對此,微信團(tuán)隊(duì)稱是因?yàn)榫W(wǎng)絡(luò)硬件出現(xiàn)故障,導(dǎo)致部分用戶無法登錄或信息收發(fā)延遲。目前微信個人賬戶及公共平臺已經(jīng)恢復(fù)正常。
隨后微信騰訊微信團(tuán)隊(duì)做出回應(yīng)稱:由于機(jī)房的網(wǎng)絡(luò)設(shè)備出現(xiàn)故障,部分微信用戶的信息收發(fā)和登錄可能會受到影響。目前我們正在緊急搶修中。

凌晨1點(diǎn)52分,微信團(tuán)隊(duì)再次發(fā)消息稱:經(jīng)團(tuán)隊(duì)全力搶修,現(xiàn)在您可以正常登錄和使用微信功能了。此次是由于網(wǎng)絡(luò)硬件出現(xiàn)故障,導(dǎo)致部分用戶昨日晚間無法登錄或信息收發(fā)延遲。
二、如何規(guī)避宕機(jī)
宕機(jī)的代價是多大?或許無人知曉確切的答案。不過,從谷歌僅僅宕機(jī)5分鐘就損失損失近55萬美元,Amazon兩次宕機(jī)不到100分鐘內(nèi)損失近700萬美元。而且據(jù)國外媒體報道,自從2007年到2012年,13次著名的云服務(wù)宕機(jī)導(dǎo)致了568小時的服務(wù)中斷,造成了超過7170萬美元的經(jīng)濟(jì)損失。如此巨大的損失使得企業(yè)和機(jī)構(gòu)不斷地尋找避免宕機(jī)和減少宕機(jī)損失的方法。
ptime Institute副會長Rick Schuknecht表示良好的規(guī)劃可以減少宕機(jī)發(fā)生的幾率。從此次Google宕機(jī)實(shí)踐中我們可以得出避免宕機(jī)發(fā)生的3個注意事項(xiàng):
1.選擇適合自己的服務(wù)器
如今服務(wù)器產(chǎn)品種類繁多,但是企業(yè)選擇服務(wù)器產(chǎn)品不能人云亦云,企業(yè)應(yīng)根據(jù)自身的實(shí)際情況選擇合適自己的服務(wù)器產(chǎn)品。
2.要做好避免宕機(jī)的準(zhǔn)備工作
服務(wù)器每天都在運(yùn)行,企業(yè)要加強(qiáng)對服務(wù)器運(yùn)行情況的巡檢、檢修工作,所以企業(yè)要選擇一個有保障的實(shí)時監(jiān)控商。此外企業(yè)需準(zhǔn)備一個備用的服務(wù)器,這樣就不用擔(dān)心服務(wù)器宕機(jī)之后所帶來的巨大影響。
3.制定好宕機(jī)之后的修復(fù)計劃
既然服務(wù)器出現(xiàn)宕機(jī)的可能性隨時存在,為了避免宕機(jī)之后手忙腳亂的局面,企業(yè)要做好未雨綢繆的準(zhǔn)備。在部署服務(wù)器時,企業(yè)需要邀請相關(guān)IT專家進(jìn)行討論,分析該企業(yè)可能出現(xiàn)宕機(jī)情況,思考宕機(jī)情況出現(xiàn)時的解決策略,制定一套宕機(jī)后的修復(fù)計劃。