關(guān)于故障復(fù)盤(pán)的一些總結(jié)
有句話(huà)說(shuō),常在河邊走,哪有不濕鞋。我身邊經(jīng)常會(huì)看到不少數(shù)據(jù)故障。每每碰到這些問(wèn)題,原因都是讓人唏噓不已。
而碰到故障的時(shí)候,除了通常都會(huì)說(shuō)的后續(xù)改進(jìn),其實(shí)很多人對(duì)于問(wèn)題的認(rèn)識(shí)和理解還不夠深入,這里主要包含幾個(gè)方面:
1)害怕承擔(dān)更多責(zé)任,會(huì)選擇性的縮小問(wèn)題影響范圍和通知范圍
2)如果問(wèn)題不是出在自己身上,切身的感受不夠深刻,覺(jué)得是在討論別人的事情,持旁觀(guān)態(tài)度
3)對(duì)于問(wèn)題的改進(jìn)方向錯(cuò)誤,比如說(shuō)因?yàn)槭止ふ`操作導(dǎo)致故障,如果反思是直接杜絕任何手工操作,就簡(jiǎn)單粗暴,而且很難落地了
4)關(guān)注的還是問(wèn)題本身,沒(méi)有從更高的角度來(lái)看待問(wèn)題,通常故障都是和規(guī)范,標(biāo)準(zhǔn),流程相關(guān)的
所以對(duì)于故障的復(fù)盤(pán),我覺(jué)得可以從兩個(gè)大的方向來(lái)進(jìn)行思考和總結(jié),也參考了很多資料,直接搬過(guò)來(lái)了。
1)如果快速高效的處理故障,是直面故障時(shí)信息的快速上傳下達(dá)
2)如何避免后續(xù)出現(xiàn)此類(lèi)故障,潛臺(tái)詞就是可以規(guī)避,如果規(guī)避不了,參考第1條。
所以順著故障的背景信息來(lái)展開(kāi),我們可以嘗試用如下的兩個(gè)表格來(lái)進(jìn)行故障復(fù)盤(pán)和總結(jié)。
1)如何快速高效的處理故障
| 
             復(fù)盤(pán)項(xiàng)  | 
            
             問(wèn)題點(diǎn)  | 
            
             總結(jié)改進(jìn)  | 
        
| 
             監(jiān)控報(bào)警  | 
            
             監(jiān)控是否足夠完備?  | 
            
             流程監(jiān)控  | 
        
| 
             報(bào)警是否足夠及時(shí)?  | 
            
             秒級(jí)監(jiān)控、自動(dòng)報(bào)障  | 
        |
| 
             故障響應(yīng)  | 
            
             故障響應(yīng)時(shí)間是否過(guò)長(zhǎng)、能否縮短、如何縮短?  | 
            
             故障電話(huà)、主備負(fù)責(zé)人  | 
        
| 
             故障定位  | 
            
             故障定位時(shí)間是否過(guò)長(zhǎng)、能否縮短、如何縮短?  | 
            
             故障看板、調(diào)用網(wǎng)格  | 
        
| 
             故障修復(fù)  | 
            
             故障修復(fù)時(shí)間是否過(guò)長(zhǎng)、能否縮短、如何縮短?  | 
            
             故障緊急發(fā)布通道、大招系統(tǒng)  | 
        
| 
             故障流程  | 
            
             故障信息同步是否及時(shí)?  | 
            
             故障信息流轉(zhuǎn)系統(tǒng)  | 
        
| 
             用戶(hù)投訴反饋是否關(guān)注到?  | 
            
             投訴反饋?zhàn)詣?dòng)聚合上報(bào)  | 
        |
| 
             客戶(hù)端故障公告是否按預(yù)期周知到位?  | 
            
             聯(lián)動(dòng)客服,定期演習(xí);及時(shí)彈公告安撫用戶(hù)  | 
        |
| 
             是否還存在不符合流程規(guī)范的問(wèn)題  | 
            
             引起二次故障的一些操作等  | 
        
2)如何避免后續(xù)出現(xiàn)此類(lèi)故障
| 
             復(fù)盤(pán)項(xiàng)  | 
            
             問(wèn)題點(diǎn)  | 
            
             總結(jié)改進(jìn)  | 
        
| 
             防患于未然  | 
            
             有沒(méi)有故障征兆?  | 
            
             系統(tǒng)缺陷的發(fā)現(xiàn)機(jī)制:運(yùn)維系統(tǒng)風(fēng)險(xiǎn)工單  | 
        
| 
             故障征兆為何沒(méi)有及時(shí)扼殺?  | 
            
             系統(tǒng)缺陷的跟進(jìn)與升級(jí)機(jī)制  | 
        |
| 
             不可抗力  | 
            
             挖斷光纖  | 
            
             備用專(zhuān)線(xiàn)  | 
        
| 
             機(jī)房斷電  | 
            
             柴發(fā)續(xù)供  | 
        |
| 
             上聯(lián)交換機(jī)故障  | 
            
             帶狀態(tài)服務(wù)打散,避免交換機(jī)聚集  | 
        |
| 
             外網(wǎng)故障  | 
            
             客戶(hù)端容災(zāi),自研解析  | 
        |
| 
             用戶(hù)群體性行為  | 
            
             容量靈活伸縮能力  | 
        |
| 
             驅(qū)動(dòng)因素  | 
            
             為什么要做這個(gè)變更操作?  | 
            
             必要性把關(guān)  | 
        
| 
             變更方案和代碼變動(dòng)有沒(méi)有審核review?  | 
            
             變更風(fēng)險(xiǎn)評(píng)估  | 
        |
| 
             影響面控制  | 
            
             是否先發(fā)布到測(cè)試環(huán)境和預(yù)發(fā)布環(huán)境驗(yàn)證效果?  | 
            
             增加變更測(cè)試和預(yù)發(fā)布驗(yàn)證的強(qiáng)制流程  | 
        
| 
             測(cè)試環(huán)境和預(yù)發(fā)布環(huán)境,為什么沒(méi)有感知和攔截異常?  | 
            
             預(yù)發(fā)布驗(yàn)證流程監(jiān)控反饋建設(shè)  | 
        |
| 
             這個(gè)變更操作有沒(méi)有灰度  | 
            
             強(qiáng)制灰度  | 
        |
| 
             這個(gè)變更操作是否支持回退?  | 
            
             變更前置的回退評(píng)估  | 
        |
| 
             回退是否足夠及時(shí)快速?  | 
            
             升級(jí)加速渠道  | 
        |
| 
             系統(tǒng)架構(gòu)  | 
            
             過(guò)載保護(hù)是否符合預(yù)期  | 
            
             review分析有效輸出比例  | 
        
| 
             環(huán)境耦合情況評(píng)估  | 
            
             頂層高扇出,底層高扇入  | 
        |
| 
             是否柔性可用  | 
            
             有損大招機(jī)制  | 
        |
| 
             變更管理  | 
            
             變更權(quán)限管理  | 
            
             按負(fù)責(zé)人收斂權(quán)限  | 
        
| 
             變更計(jì)劃性  | 
            
             嚴(yán)控緊急上線(xiàn)行為  | 
        |
| 
             變更時(shí)間窗口  | 
            
             非工作時(shí)間限制變更  | 
        |
| 
             變更質(zhì)量反饋  | 
            
             變更監(jiān)控建設(shè)  | 
        
上面的這些問(wèn)題感覺(jué)還是挺不錯(cuò)的,可以作為一個(gè)復(fù)盤(pán)總結(jié)時(shí)的切入點(diǎn),把大大小小的故障和問(wèn)題的處理過(guò)程都總結(jié)出來(lái)。
運(yùn)維無(wú)小事,如果按照復(fù)盤(pán)的思維總結(jié)很多問(wèn)題,那么你的知識(shí)集會(huì)越來(lái)越豐富。而相應(yīng)的處理機(jī)制也會(huì)越來(lái)越健全。
我經(jīng)常和團(tuán)隊(duì)成員說(shuō):你怎么證明你做的事情是正確的,如果能夠按照這種自證的方式解決問(wèn)題,那么完全就是一種自驅(qū)模式,前途不可限量。
本文轉(zhuǎn)載自微信公眾號(hào)「楊建榮的學(xué)習(xí)筆記 」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系楊建榮的學(xué)習(xí)筆記公眾號(hào)。
















 
 
 



 
 
 
 