關(guān)于故障復(fù)盤(pán)的一些總結(jié)
有句話(huà)說(shuō),常在河邊走,哪有不濕鞋。我身邊經(jīng)常會(huì)看到不少數(shù)據(jù)故障。每每碰到這些問(wèn)題,原因都是讓人唏噓不已。
而碰到故障的時(shí)候,除了通常都會(huì)說(shuō)的后續(xù)改進(jìn),其實(shí)很多人對(duì)于問(wèn)題的認(rèn)識(shí)和理解還不夠深入,這里主要包含幾個(gè)方面:
1)害怕承擔(dān)更多責(zé)任,會(huì)選擇性的縮小問(wèn)題影響范圍和通知范圍
2)如果問(wèn)題不是出在自己身上,切身的感受不夠深刻,覺(jué)得是在討論別人的事情,持旁觀態(tài)度
3)對(duì)于問(wèn)題的改進(jìn)方向錯(cuò)誤,比如說(shuō)因?yàn)槭止ふ`操作導(dǎo)致故障,如果反思是直接杜絕任何手工操作,就簡(jiǎn)單粗暴,而且很難落地了
4)關(guān)注的還是問(wèn)題本身,沒(méi)有從更高的角度來(lái)看待問(wèn)題,通常故障都是和規(guī)范,標(biāo)準(zhǔn),流程相關(guān)的
所以對(duì)于故障的復(fù)盤(pán),我覺(jué)得可以從兩個(gè)大的方向來(lái)進(jìn)行思考和總結(jié),也參考了很多資料,直接搬過(guò)來(lái)了。
1)如果快速高效的處理故障,是直面故障時(shí)信息的快速上傳下達(dá)
2)如何避免后續(xù)出現(xiàn)此類(lèi)故障,潛臺(tái)詞就是可以規(guī)避,如果規(guī)避不了,參考第1條。
所以順著故障的背景信息來(lái)展開(kāi),我們可以嘗試用如下的兩個(gè)表格來(lái)進(jìn)行故障復(fù)盤(pán)和總結(jié)。
1)如何快速高效的處理故障
復(fù)盤(pán)項(xiàng) |
問(wèn)題點(diǎn) |
總結(jié)改進(jìn) |
監(jiān)控報(bào)警 |
監(jiān)控是否足夠完備? |
流程監(jiān)控 |
報(bào)警是否足夠及時(shí)? |
秒級(jí)監(jiān)控、自動(dòng)報(bào)障 |
|
故障響應(yīng) |
故障響應(yīng)時(shí)間是否過(guò)長(zhǎng)、能否縮短、如何縮短? |
故障電話(huà)、主備負(fù)責(zé)人 |
故障定位 |
故障定位時(shí)間是否過(guò)長(zhǎng)、能否縮短、如何縮短? |
故障看板、調(diào)用網(wǎng)格 |
故障修復(fù) |
故障修復(fù)時(shí)間是否過(guò)長(zhǎng)、能否縮短、如何縮短? |
故障緊急發(fā)布通道、大招系統(tǒng) |
故障流程 |
故障信息同步是否及時(shí)? |
故障信息流轉(zhuǎn)系統(tǒng) |
用戶(hù)投訴反饋是否關(guān)注到? |
投訴反饋?zhàn)詣?dòng)聚合上報(bào) |
|
客戶(hù)端故障公告是否按預(yù)期周知到位? |
聯(lián)動(dòng)客服,定期演習(xí);及時(shí)彈公告安撫用戶(hù) |
|
是否還存在不符合流程規(guī)范的問(wèn)題 |
引起二次故障的一些操作等 |
2)如何避免后續(xù)出現(xiàn)此類(lèi)故障
復(fù)盤(pán)項(xiàng) |
問(wèn)題點(diǎn) |
總結(jié)改進(jìn) |
防患于未然 |
有沒(méi)有故障征兆? |
系統(tǒng)缺陷的發(fā)現(xiàn)機(jī)制:運(yùn)維系統(tǒng)風(fēng)險(xiǎn)工單 |
故障征兆為何沒(méi)有及時(shí)扼殺? |
系統(tǒng)缺陷的跟進(jìn)與升級(jí)機(jī)制 |
|
不可抗力 |
挖斷光纖 |
備用專(zhuān)線(xiàn) |
機(jī)房斷電 |
柴發(fā)續(xù)供 |
|
上聯(lián)交換機(jī)故障 |
帶狀態(tài)服務(wù)打散,避免交換機(jī)聚集 |
|
外網(wǎng)故障 |
客戶(hù)端容災(zāi),自研解析 |
|
用戶(hù)群體性行為 |
容量靈活伸縮能力 |
|
驅(qū)動(dòng)因素 |
為什么要做這個(gè)變更操作? |
必要性把關(guān) |
變更方案和代碼變動(dòng)有沒(méi)有審核review? |
變更風(fēng)險(xiǎn)評(píng)估 |
|
影響面控制 |
是否先發(fā)布到測(cè)試環(huán)境和預(yù)發(fā)布環(huán)境驗(yàn)證效果? |
增加變更測(cè)試和預(yù)發(fā)布驗(yàn)證的強(qiáng)制流程 |
測(cè)試環(huán)境和預(yù)發(fā)布環(huán)境,為什么沒(méi)有感知和攔截異常? |
預(yù)發(fā)布驗(yàn)證流程監(jiān)控反饋建設(shè) |
|
這個(gè)變更操作有沒(méi)有灰度 |
強(qiáng)制灰度 |
|
這個(gè)變更操作是否支持回退? |
變更前置的回退評(píng)估 |
|
回退是否足夠及時(shí)快速? |
升級(jí)加速渠道 |
|
系統(tǒng)架構(gòu) |
過(guò)載保護(hù)是否符合預(yù)期 |
review分析有效輸出比例 |
環(huán)境耦合情況評(píng)估 |
頂層高扇出,底層高扇入 |
|
是否柔性可用 |
有損大招機(jī)制 |
|
變更管理 |
變更權(quán)限管理 |
按負(fù)責(zé)人收斂權(quán)限 |
變更計(jì)劃性 |
嚴(yán)控緊急上線(xiàn)行為 |
|
變更時(shí)間窗口 |
非工作時(shí)間限制變更 |
|
變更質(zhì)量反饋 |
變更監(jiān)控建設(shè) |
上面的這些問(wèn)題感覺(jué)還是挺不錯(cuò)的,可以作為一個(gè)復(fù)盤(pán)總結(jié)時(shí)的切入點(diǎn),把大大小小的故障和問(wèn)題的處理過(guò)程都總結(jié)出來(lái)。
運(yùn)維無(wú)小事,如果按照復(fù)盤(pán)的思維總結(jié)很多問(wèn)題,那么你的知識(shí)集會(huì)越來(lái)越豐富。而相應(yīng)的處理機(jī)制也會(huì)越來(lái)越健全。
我經(jīng)常和團(tuán)隊(duì)成員說(shuō):你怎么證明你做的事情是正確的,如果能夠按照這種自證的方式解決問(wèn)題,那么完全就是一種自驅(qū)模式,前途不可限量。
本文轉(zhuǎn)載自微信公眾號(hào)「楊建榮的學(xué)習(xí)筆記 」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系楊建榮的學(xué)習(xí)筆記公眾號(hào)。