運(yùn)維經(jīng)驗(yàn)分享:緊急故障不可怕,從容對待才是真
原創(chuàng)【51CTO獨(dú)家特稿】今天天氣不錯(cuò),PM2.5只有50多,順路在KFC吃了個(gè)早餐,到公司已經(jīng)9:50了,打開電腦,接了杯水剛坐到工位被同事叫住了,告訴我A機(jī)房的公網(wǎng)流量出口快跑滿了,看能不能找?guī)讉€(gè)流量大的站點(diǎn)遷移到B機(jī)房。我的***反應(yīng)就是說好擴(kuò)充的流量為什么沒有到位?(注:流量及硬件采購不屬于運(yùn)維部工作范疇)
我從心里很抵觸做這種事情,原因很簡單:幾百個(gè)域名,分布到不同的IDC,從DNS管理解析到后端Web集群訪問,都不是一個(gè)小數(shù)量級的。在自動化平臺、管理平臺不完善的情況下,做這種遷移后患無窮。片刻思考及分析后,迅速著手遷移。因?yàn)楝F(xiàn)在A機(jī)房公網(wǎng)流量已經(jīng)達(dá)到極限,核心站點(diǎn)已經(jīng)出現(xiàn)訪問緩慢、無法加載的現(xiàn)象。
這種類型的遷移有兩不碰:
- 不碰核心站點(diǎn),重要性不言而喻;
 - 不碰小流量站點(diǎn),因?yàn)檫w移訪問量較小的站點(diǎn)需要遷移多個(gè)站點(diǎn)才能有冗余流量,明顯耽誤時(shí)間。
 
在無可視化數(shù)據(jù)平臺、完全靠自己對業(yè)務(wù)的了解程度的情況下,分別遷移了像個(gè)人中心、企業(yè)中心、發(fā)布、無線M。遷移過程很簡單,將A機(jī)房服務(wù)器上的Nginx配置分發(fā)到B機(jī)房服務(wù)器,隨后更改DNS解析,A機(jī)房流量平穩(wěn)下降,核心業(yè)務(wù)逐漸恢復(fù)正常??僧?dāng)A機(jī)房流量剛降下時(shí),B機(jī)房流量又接近上升到極限,因?yàn)榇丝淌敲刻熘械牧髁糠逯惦A段,加上春節(jié)后的流量增長幅度,都已遠(yuǎn)遠(yuǎn)超過節(jié)前預(yù)估。
此時(shí),大BOSS走近運(yùn)維部開始“罵街”了:“就你們這么拖,花那么錢打再多廣告有什么用,這種影響(網(wǎng)站打不開)是毀滅性的...”
做運(yùn)維,練的就是心態(tài),要足夠淡定,無論遇到多大的事情都不能手忙腳亂。在我身后站著CEO、總經(jīng)理、總監(jiān)的情況下,我很淡定的將B機(jī)房部分域名遷移到C機(jī)房。至此,A、B、C三個(gè)機(jī)房流量平穩(wěn),所有業(yè)務(wù)已基本恢復(fù)正常。
吃一塹長一智,出了問題并不可怕,可怕的是我們從問題中學(xué)不到什么,怕的是類似的問題重現(xiàn)!面對如上這么大的一次故障,我們從中學(xué)到了些什么呢?
1、缺少數(shù)據(jù)可視化平臺
雖然有zabbix來監(jiān)控服務(wù)器流量,但是zabbix只能監(jiān)控到服務(wù)器整機(jī)物理流量,無法監(jiān)控到某個(gè)域名的當(dāng)前流量。若有一套能實(shí)時(shí)查看所有域名流量,通過縱向(每臺服務(wù)器流量多少,當(dāng)前HTTP并發(fā)多少)、橫向(每個(gè)服務(wù)器上運(yùn)行了多少個(gè)域名、每個(gè)域名流量多少、域名訪問來源是什么)做可視化展示的系統(tǒng),也不至于遇到問題才開始著手分析,若是對業(yè)務(wù)沒有足夠的了解,就很可能在解決問題時(shí)雪上加霜。
2、自動化平臺建設(shè)不完善
當(dāng)把某個(gè)域名從A機(jī)房遷移到B機(jī)房時(shí),用的是命令行拷貝,費(fèi)時(shí)費(fèi)力,還容易發(fā)生誤操作,缺少基于web形式的自動化管理平臺。近期會做一個(gè)基于Nginx的管理系統(tǒng),該系統(tǒng)可顯示當(dāng)前Nginx主機(jī)上正在使用的域名、單機(jī)總流量、并發(fā)、單個(gè)域名流量等,比如想把A機(jī)房服務(wù)器上的域名遷移到B機(jī)房服務(wù)器上,只需在web平臺上選擇一下源服務(wù)器和目標(biāo)服務(wù)器然后點(diǎn)擊確認(rèn)就可以了。若做到這樣,業(yè)務(wù)切換時(shí)間可大幅縮短。
3、資源擴(kuò)充滯后
首先,由于流量擴(kuò)容及硬件采購均不屬于運(yùn)維部工作范疇,加上流程上的影響,所以在效率上有著嚴(yán)重的滯后,這也是本次故障的直接原因之一;其次,多個(gè)機(jī)房公網(wǎng)交換設(shè)備均是千兆網(wǎng)口,且流量飽和度已達(dá)70%,若有大于30%的訪問量增長,后果就可想而知了,這也是很大的潛在隱患。面對這種問題,網(wǎng)絡(luò)組同學(xué)已連夜對機(jī)房公網(wǎng)交換設(shè)備做了升級。
【作者簡介】
| 姓名 | 陸文舉(@陸文舉) | 
| 職位 | 58同城 運(yùn)維主管 | 
| 技術(shù)特長 | 大規(guī)模web運(yùn)維 | 
| 關(guān)注方向 | 運(yùn)維自動化、可視化 | 















 
 
 





 
 
 
 