案例 | 一份令人警醒的網(wǎng)絡(luò)重大故障報(bào)告
2018年12月6日,對(duì)于日本運(yùn)營(yíng)商軟銀,簡(jiǎn)直是噩夢(mèng)般的一天。
下午13點(diǎn)39分,軟銀東日本和西日本兩大中心機(jī)房的18臺(tái)4G核心網(wǎng)網(wǎng)元突發(fā)故障,造成全網(wǎng)大量用戶無(wú)法正常通信。
軟銀被這突如其來(lái)的大故障驚呆了,從CTO到工程師,上上下下忙成一團(tuán),整整花了近兩個(gè)小時(shí)才定位出故障原因,直到下午18點(diǎn)04分才恢復(fù)故障。
本次故障歷時(shí)4小時(shí)25分,共計(jì)造成約3060萬(wàn)軟銀用戶無(wú)法正常通信,是日本通信史上一次罕見(jiàn)的重大通信事故。
事故發(fā)生后,軟銀高層向用戶公開(kāi)道歉,并承諾以后將加強(qiáng)設(shè)備備份管理,嚴(yán)防事故再次發(fā)生。
由于故障發(fā)生在白天,影響范圍廣,對(duì)軟銀造成了極大的負(fù)面影響,股票大跌,5天內(nèi)超過(guò)1萬(wàn)戶用戶解約。
估計(jì)連日本總務(wù)省也驚呆了,直到20天后,也就是今天,才官方公布確認(rèn)“收到軟銀提交的嚴(yán)重事故報(bào)告”。
以下內(nèi)容來(lái)自軟銀的故障報(bào)告…
概要
發(fā)生時(shí)間:
2018年12月6日 13:39至18:04(4小時(shí)25分鐘)
影響內(nèi)容:
•4G LTE移動(dòng)電話無(wú)法進(jìn)行語(yǔ)音通話和數(shù)據(jù)通信。
•部分LTE 固話和家庭Wi-Fi無(wú)法正常使用
•由于4G網(wǎng)絡(luò)故障,導(dǎo)致3G網(wǎng)絡(luò)擁塞
影響范圍:
全國(guó)(約3060萬(wàn)線用戶)
故障原因:
4G核心網(wǎng)設(shè)備(MME)軟件缺陷導(dǎo)致。
故障原因分析
故障具體原因?yàn)楹诵木W(wǎng)網(wǎng)元MME(移動(dòng)管理實(shí)體),即4G分組交換設(shè)備的數(shù)字證書(TSL證書)過(guò)期導(dǎo)致。
TLS(Transport Layer Security,傳輸層安全)是為網(wǎng)絡(luò)通信提供安全及數(shù)據(jù)完整性的一種安全協(xié)議。
軟銀解釋到,他們?cè)跂|日本和西日本兩大中心機(jī)房合計(jì)部署了18臺(tái)分組交換設(shè)備,這些設(shè)備都是按照遠(yuǎn)期需求配置,有足夠的負(fù)荷冗余量,目前僅使用了30%-40%的負(fù)荷。
同時(shí),18臺(tái)設(shè)備相互備份,且均為池化部署,這意味著即使任何一臺(tái)甚至多臺(tái)設(shè)備發(fā)生故障都不會(huì)影響服務(wù)正常提供。
但是,數(shù)字證書過(guò)期這種事就不一樣了。
TSL數(shù)字證書過(guò)期,意味著系統(tǒng)無(wú)法識(shí)別那些連接分組交換設(shè)備的其他設(shè)備是否合法,此時(shí),系統(tǒng)檢測(cè)到異常,根據(jù)軟銀現(xiàn)網(wǎng)設(shè)置,會(huì)采用重啟的方式來(lái)試圖恢復(fù)。
不過(guò),數(shù)字證書過(guò)期這種事,即使重啟N次,也是無(wú)法恢復(fù)的,因此,就發(fā)生了不斷重啟的死循環(huán),從而導(dǎo)致了這次重大故障。
此外,由于4G網(wǎng)絡(luò)服務(wù)中斷,導(dǎo)致大量用戶轉(zhuǎn)移到3G網(wǎng)絡(luò),這也造成3G網(wǎng)絡(luò)嚴(yán)重?fù)砣?/p>
數(shù)字證書過(guò)期了
為什么沒(méi)有及早發(fā)現(xiàn)?
軟銀解釋到,該分組交換設(shè)備的數(shù)字證書不同于其他網(wǎng)絡(luò)設(shè)備。
通常,對(duì)于其他網(wǎng)絡(luò)設(shè)備,我們?cè)谫?gòu)買設(shè)備后,是可以自行確認(rèn)數(shù)字證書到期時(shí)間的。
但分組交換設(shè)備的數(shù)字證書是通過(guò)嵌入式軟件固化在相應(yīng)硬件里的,作為運(yùn)營(yíng)商,我們無(wú)法確認(rèn)到期時(shí)間。
解決措施
臨時(shí)解決措施
本次故障是由2018年4月升級(jí)的Ver.1.14版本引起,而之前的Ver.1.08版本沒(méi)有問(wèn)題,因此,臨時(shí)解決措施是從Ver.1.14版本回滾到Ver.1.08版本,但這會(huì)導(dǎo)致一些4G物聯(lián)網(wǎng)功能無(wú)法使用。
中期解決措施
1)全網(wǎng)普查所有設(shè)備的相關(guān)證書是否到期,包括全網(wǎng)基站設(shè)備。
2)制定更加嚴(yán)格的新設(shè)備和新軟件版本入網(wǎng)測(cè)試規(guī)范。
3)要求在設(shè)備升級(jí)后一年內(nèi),保留舊版本軟件,以在新版軟件出現(xiàn)類似問(wèn)題后,快速回滾到舊版本。
***性措施
1)要求以后所有購(gòu)買的網(wǎng)絡(luò)設(shè)備和軟件,運(yùn)營(yíng)商均可自行檢查數(shù)字證書是否到期。
2)更改系統(tǒng)異常檢測(cè)和應(yīng)急機(jī)制,當(dāng)系統(tǒng)檢測(cè)到網(wǎng)絡(luò)異常時(shí),不再只是重啟恢復(fù),而是設(shè)置異常告警級(jí)別,根據(jù)門限判定是重啟還是繼續(xù)運(yùn)行。
3)由于引起本次重大事故的原因之一是由于所有設(shè)備都來(lái)自同一家供應(yīng)商,因此,要求在2019年6月30日之前引入多家設(shè)備供應(yīng)商,以分散風(fēng)險(xiǎn)。
看完軟銀的故障報(bào)告,感覺(jué)是字里行間透露出一萬(wàn)個(gè)“萬(wàn)萬(wàn)沒(méi)想到”,盡管各種備份容災(zāi)都做到位了,但意外還是發(fā)生了。真是網(wǎng)絡(luò)安全無(wú)小事,運(yùn)維責(zé)任重如山,令人警醒。


























 
 
 










 
 
 
 