偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

記一次 Kubernetes 排錯實戰(zhàn)

云計算
數(shù)據(jù)的不一致性(inconsistent)指對象的大小不正確、恢復結(jié)束后某副本出現(xiàn)了對象丟失的情況。數(shù)據(jù)的不一致性會導致清理失敗(scrub error)。

[[434523]]

背景

收到測試環(huán)境集群告警,登陸Kubernetes集群進行排查。

故障定位

查看Pod

查看kube-system node2節(jié)點calico pod異常。

查看詳細信息,查看node2節(jié)點沒有存儲空間,cgroup泄露。

查看存儲

登陸node2查看服務(wù)器存儲信息,目前空間還很充足。

集群使用到的分布式存儲為Ceph,因此查看Ceph集群狀態(tài)。

操作

Ceph修復

目前查看到Ceph集群異常,可能導致node2節(jié)點cgroup泄露異常,進行手動修復Ceph集群。

數(shù)據(jù)的不一致性(inconsistent)指對象的大小不正確、恢復結(jié)束后某副本出現(xiàn)了對象丟失的情況。數(shù)據(jù)的不一致性會導致清理失敗(scrub error)。

Ceph在存儲的過程中,由于特殊原因,可能遇到對象信息大小和物理磁盤上實際大小數(shù)據(jù)不一致的情況,這也會導致清理失敗。

數(shù)據(jù)的不一致性(inconsistent)指對象的大小不正確、恢復結(jié)束后某副本出現(xiàn)了對象丟失的情況。數(shù)據(jù)的不一致性會導致清理失敗(scrub error)。

Ceph在存儲的過程中,由于特殊原因,可能遇到對象信息大小和物理磁盤上實際大小數(shù)據(jù)不一致的情況,這也會導致清理失敗。

由圖可知,pg編號1.7c 存在問題,進行修復。

pg修復:

  1. ceph pg repair 1.7c 

進行修復后,稍等一會,再次進行查看,Ceph集群已經(jīng)修復。

進行Pod修復

對異常Pod進行刪除,由于有控制器,會重新拉起最新的Pod。

查看Pod還是和之前一樣,分析可能由于Ceph異常,導致node2節(jié)點cgroup泄露,網(wǎng)上檢索重新編譯。

Google一番后發(fā)現(xiàn)與https://github.com/rootsongjc/kubernetes-handbook/issues/313這個同學的問題基本一致。存在的可能有:

  • Kubelet宿主機的Linux內(nèi)核過低 - Linux version 3.10.0-862.el7.x86_64
  • 可以通過禁用kmem解決

查看系統(tǒng)內(nèi)核卻是低版本。

故障再次定位

最后,因為在啟動容器的時候runc的邏輯會默認打開容器的kmem accounting,導致3.10內(nèi)核可能的泄漏問題。

在此需要對no space left的服務(wù)器進行reboot重啟,即可解決問題,出現(xiàn)問題的可能為段時間內(nèi)刪除大量的Pod所致。

初步思路,可以在今后的集群管理匯總,對服務(wù)器進行維修,通過刪除節(jié)點,并對節(jié)點進行reboot處理。

對node2節(jié)點進行維護

標記node2為不可調(diào)度

  1. kubectl cordon node02 

驅(qū)逐node2節(jié)點上的Pod

  1. kubectl drain node02 --delete-local-data --ignore-daemonsets --force 
  • --delete-local-data 刪除本地數(shù)據(jù),即使emptyDir也將刪除;
  • --ignore-daemonsets 忽略DeamonSet,否則DeamonSet被刪除后,仍會自動重建;
  • --force 不加force參數(shù)只會刪除該Node節(jié)點上的ReplicationController,ReplicaSet,DaemonSet,StatefulSet or Job,加上后所有Pod都將刪除。

目前查看基本node2的Pod均已剔除完畢。

此時與默認遷移不同的是,Pod會先重建再終止,此時的服務(wù)中斷時間=重建時間+服務(wù)啟動時間+readiness探針檢測正常時間,必須等到1/1 Running服務(wù)才會正常。因此在單副本時遷移時,服務(wù)終端是不可避免的。

對node02進行重啟

重啟后node02已經(jīng)修復完成。

對node02進行恢復:

恢復node02可以正常調(diào)度。

  1. kubectl uncordon node02 

反思

后期可以對部署Kubernetes集群內(nèi)核進行升級。

集群內(nèi)可能Pod的異常,由于底層存儲或者其他原因?qū)е拢枰唧w定位到問題進行針對性修復。 

原文鏈接:https://juejin.cn/post/6969571897659015205

 

責任編輯:武曉燕 來源: 幽鬼
相關(guān)推薦

2021-11-27 18:50:55

Kubernetes邊緣計算

2021-03-29 12:35:04

Kubernetes環(huán)境TCP

2021-05-26 11:06:06

Kubernetes網(wǎng)絡(luò)故障集群節(jié)點

2021-08-20 11:35:04

服務(wù)運維 故障

2021-02-25 10:00:19

企業(yè)安全互聯(lián)網(wǎng)云平臺安全

2022-02-17 11:19:33

Kubernetes服務(wù)器運維

2022-01-07 11:48:59

RabbitMQGolang 項目

2014-08-11 09:31:52

2017-07-07 16:07:41

2023-04-06 07:53:56

Redis連接問題K8s

2017-12-19 14:00:16

數(shù)據(jù)庫MySQL死鎖排查

2011-02-22 09:29:23

jQueryJavaScript

2019-03-15 16:20:45

MySQL死鎖排查命令

2013-04-01 10:27:37

程序員失業(yè)

2019-08-26 09:50:09

2023-06-07 07:31:04

PC端app脫殼技巧

2021-12-20 10:15:16

zip密碼命令網(wǎng)絡(luò)安全

2020-12-29 10:25:07

漏洞JSONP注入

2023-10-10 12:05:45

2021-01-08 13:52:15

Consul微服務(wù)服務(wù)注冊中心
點贊
收藏

51CTO技術(shù)棧公眾號