通過滴滴技術(shù)博客:探尋造成此次P0故障的真正原因
2023年11月27日晚至2023年11月28日早晨,滴滴發(fā)生了長達(dá)12小時的P0級故障,導(dǎo)致滴滴核心業(yè)務(wù)都受到了影響,比如不顯示定位無法打車、滴滴單車無法掃碼等問題,期間滴滴進(jìn)行了多次致歉。
圖片
來源:https://weibo.com/2838754010/NuMAAaUEl
目前問題故障已經(jīng)恢復(fù),根據(jù)最新的消息得知造成此次事故的原因,是由于升級K8S 集群導(dǎo)致。
圖片
1. 集群體量大
最大集群規(guī)模已經(jīng)遠(yuǎn)遠(yuǎn)超出了社區(qū)推薦的5千個 node 上限,有問題的爆炸半徑大。
圖片
2. 版本升級跨度大
直接從1.12 升級到了1.20,跨越多個版本,有可能存在api不兼容的問題。
3. 升級方式應(yīng)該選擇了原地升級
雖然滴滴有能力基于K8S二次開發(fā),但是由于版本跨度較大,細(xì)節(jié)點(diǎn)較多,原地升級風(fēng)險我覺得比替換升級大不少。
比如集群版本已經(jīng)升級為1.20,但是Node節(jié)點(diǎn)的kubelet的版本還是 1.12,如果api不兼容,那么這個影響是非常大的,集群回滾又沒有那么快。
圖片
至于為什么采用原地升級方案,估計(jì)還有很多細(xì)節(jié)我們不得而知,但是此種方式確實(shí)有點(diǎn)激進(jìn),船大不好掉頭。