容器云平臺API Server卡頓問題排查

作者：aoxiang 2019-07-01 15:46:35

云平臺的建設(shè)過程不是一帆風(fēng)順，也不乏出現(xiàn)一些問題挑戰(zhàn)，本文就針對云平臺現(xiàn)實中遇到的一個問題和大家分享。

58云計算平臺是58集團架構(gòu)線基于Kubernetes + Docker技術(shù)為集團內(nèi)部服務(wù)開發(fā)的一套業(yè)務(wù)實例管理平臺，它具有簡單，輕量的特點及高效利用物理資源，更快的部署和統(tǒng)一規(guī)范的標(biāo)準(zhǔn)化運行環(huán)境，通過云平臺，使得服務(wù)標(biāo)準(zhǔn)化，上線流程規(guī)范化，資源利用合理化。然而云平臺的建設(shè)過程不是一帆風(fēng)順，也不乏出現(xiàn)一些問題挑戰(zhàn)，本文就針對云平臺現(xiàn)實中遇到的一個問題和大家分享。

1、關(guān)于問題

1.1 問題概述

近期，很多業(yè)務(wù)同事反饋使用云平臺上線存在容器部署慢，平臺反應(yīng)慢的問題。通過詳細的問題排查定位后，最終問題得以解決。

1.2 Kubernetes基本知識

私有云平臺通過Kubernetes對容器進行編排。Kubernetes整體架構(gòu)如下圖所示：

其中幾個主要的模塊的功能簡要描述如下：

etcd：用于Kubernetes的后端存儲。
Pod：Kubernetes最基本的操作單元，包含一個或多個緊密相關(guān)的容器。
Replication Controller：副本控制器，用來保證Deployment或者RC中副本的數(shù)量。
Scheduler：Kubernetes的調(diào)度器，Scheduler監(jiān)聽API Server，當(dāng)需要創(chuàng)建新的Pod時Scheduler負責(zé)選擇該Pod與哪個Node進行綁定。
Kubelet：每個Node節(jié)點上都會有一個Kubelet負責(zé)Master下發(fā)到該節(jié)點的具體任務(wù)，管理該節(jié)點上的Pod和容器。
API Server：對于整個Kubernetes集群而言，API Server是通過暴露Kubernetes API的方式提供給內(nèi)部組件或者外部程序調(diào)用去完成對Kubernetes的操作。各個組件之間也是通過API Server作為橋梁進行間接通信，這種方式做到各個組件間充分解耦。

業(yè)務(wù)同事操作管理平臺發(fā)出創(chuàng)建集群請求到集群創(chuàng)建完成的整個流程如下：

業(yè)務(wù)同學(xué)操作管理平臺進行升級操作，管理平臺通過http方式向API Server發(fā)出請求。
API Server處理和解析請求參數(shù)，將待創(chuàng)建的Pod信息通過API Server存儲到etcd。
Scheduler通過API Server的watch機制，查看到新的Pod，嘗試為Pod綁定Node。
經(jīng)過預(yù)選篩除不合適節(jié)點及從待選節(jié)點中根據(jù)一定規(guī)則選出最適合的節(jié)點。
對選中的節(jié)點及Pod進行binding操作，將相關(guān)的結(jié)果通過API Server存儲到etcd。
對應(yīng)Node的Kubelet進程調(diào)用容器運行時創(chuàng)建容器。

2. 定位問題

2.1 問題排查

從1.2可以看到，API Server在創(chuàng)建Pod過程中起到非常關(guān)鍵的中間橋梁作用，解析外部請求及讀寫etcd。因此決定首先從API Server進程所在宿主機的各項性能指標(biāo)及日志方面進行排查，看是否有所發(fā)現(xiàn)。

目前線上環(huán)境有3臺主機運行API Server，以達到流量負載均衡的目的，異常時間段網(wǎng)卡eth2入流量如下圖所示：

由3臺API Server主機的監(jiān)控數(shù)據(jù)，發(fā)現(xiàn)服務(wù)器A的網(wǎng)卡入流量遠高于另外兩臺，說明絕大部分請求發(fā)送到了服務(wù)器A。

通過對比三臺服務(wù)器API Server 的CPU利用率，發(fā)現(xiàn)服務(wù)器A的API Server進程CPU使用率一直保持在2000%(20核)上下波動，而另外兩臺服務(wù)器的API Server的CPU利用率沒有超過100%(1核)。進一步證實了A的API Server進程處理了絕大多數(shù)的請求。

查看A服務(wù)器的API Server的相關(guān)log，發(fā)現(xiàn)正在大量輸出如下的日志：

這個日志顯示有大量請求通過API Server到etcd查詢Pod的狀態(tài)。

對于Kubernetes后端的存儲目前采用5個etcd節(jié)點組成etcd集群。登陸其中一個節(jié)點(E1)，發(fā)現(xiàn)對E1節(jié)點執(zhí)行etcd操作命令，比如命令：“etcdctl ls /registry/pods/default”，命令執(zhí)行也會經(jīng)常超時。如果你想和更多Kubernetes技術(shù)專家交流，可以加我微信liyingjiese，備注『加群』。群里每周都有全球各大公司的***實踐以及行業(yè)***動態(tài)。

同時對比5臺etcd節(jié)點的流量，發(fā)現(xiàn)有一個節(jié)點網(wǎng)卡入流量遠高于其他四個節(jié)點，該節(jié)點(E1)的etcd進程的CPU利用率在100%左右，明顯高于剩余的4個節(jié)點CPU利用率。查看節(jié)點E1的etcd進程日志，經(jīng)?？吹饺缦聢箦e：

可以推斷節(jié)點E1的負載非常高，節(jié)點間同步心跳都已經(jīng)超時，無法正常的響應(yīng)外部的請求了。

2.2 問題分析

經(jīng)過上述排查，主要集中在這兩個問題上：

2.2.1負載均衡策略失效

首先可以看到對Kubernetes集群的操作請求大部分都落在某個API Server上，導(dǎo)致其中一個API Server負載很高，那么有可能負載均衡策略有些問題。那就先看看當(dāng)前負載均衡策略是如何的。

當(dāng)前我們租賃的是騰訊的機房，負載均衡策略采用的是TGW(Tencent Gateway)系統(tǒng)所自帶支持的負載均衡策略。騰訊云上有關(guān)介紹如下：

TGW負載均衡策略保證請求的分攤轉(zhuǎn)發(fā)，也會自動對resource server(RS)進行存活檢測，每分鐘會有心跳包去對接入TGW的IP Port進行探測。

關(guān)于TGW相關(guān)配置具體如下：

做域名解析：我們對需要訪問到API Server的物理機都做了本地DNS，將一個固定域名(D)解析到一個特定的VIP(V)，而該VIP就是TGW對外提供的虛擬IP。
配置TGW服務(wù)的RS列表：將三臺API Server節(jié)點對應(yīng)的物理IP加入到RS列表。

正常情況下，所有需要訪問API Server的請求都先本地域名解析到虛擬IP V，將請求的數(shù)據(jù)包都發(fā)送到V，V相當(dāng)于是TGW對外的接入點，再通過TGW內(nèi)部負載均衡策略將請求數(shù)據(jù)包進行目的網(wǎng)絡(luò)地址轉(zhuǎn)換(DNAT)，分發(fā)到不同的RS上。

經(jīng)排查，TGW的監(jiān)控檢測模塊定期向所有的RS發(fā)送心跳包，但是TGW監(jiān)控檢測模塊只能收到A服務(wù)器的回包，因此TGW認為只有A節(jié)點是存活狀態(tài)，所有的請求數(shù)據(jù)包最終就由TGW轉(zhuǎn)發(fā)到A服務(wù)器上了，這就是負載均衡策略失效的根本原因。

這里還有一個現(xiàn)象是為什么etcd集群中只有一個節(jié)點的負載很高呢?

五個節(jié)點的etcd集群中只有一個節(jié)點負載很高，其他正常，通過查看A服務(wù)器的API Server的log，可以看到的大量的讀請求都固定發(fā)送到了同一個etcd節(jié)點。

對于這個現(xiàn)象，可以看下API Server訪問后端存儲的源碼，目前線上Kubernetes基于v1.7.12的源碼編譯運行，API Server訪問etcd是在內(nèi)部初始化一個etcd client端，然后通過etcd client端發(fā)送請求到etcd server端。etcd client端有v2和v3兩個版本。線上API Server使用的是v2版本客戶端。主要代碼如下：

//初始化etcd工作 
func New(cfg Config) (Client, error) { 
c := &httpClusterClient{//返回一個http類型的client 
clientFactory: newHTTPClientFactory(cfg.transport(), cfg.checkRedirect(), cfg.HeaderTimeoutPerRequest), 
rand:          rand.New(rand.NewSource(int64(time.Now().Nanosecond()))),//傳入一個當(dāng)前時間的隨機種子 
selectionMode: cfg.SelectionMode, 
} 
 
if err := c.SetEndpoints(cfg.Endpoints); err != nil { 
return nil, err 
} 
return c, nil 
} 
//對etcd列表進行打亂 
func (c *httpClusterClient) SetEndpoints(eps []string) error { 
... 
neps, err := c.parseEndpoints(eps) 
c.Lock() 
defer c.Unlock() 
c.endpoints = shuffleEndpoints(c.rand, neps)//打亂etcd列表 
c.pinned = 0 
... 
return nil 
} 
 
func shuffleEndpoints(r *rand.Rand, eps []url.URL) []url.URL { 
p := r.Perm(len(eps))//rank庫的Perm方法可以返回[0,n)之間的隨機亂序數(shù)組 
neps := make([]url.URL, len(eps)) 
for i, k := range p { 
neps[i] = eps[k] 
} 
return neps 
}

可以看到在初始化etcd客戶端時候會傳入一個當(dāng)前時間的隨機種子去打亂所有Endpoints(etcd節(jié)點)的順序。

對于etcd的操作都是通過API Server內(nèi)部的etcd客戶端發(fā)送http請求到etcd Server端，最主要是調(diào)用如下方法：

func (c *httpClusterClient) Do(ctx context.Context, act httpAction) (*http.Response, []byte, error) { 
... 
for i := pinned; i < leps+pinned; i++ { 
k := i % leps 
hc := c.clientFactory(eps[k]) 
resp, body, err = hc.Do(ctx, action) 
... 
if resp.StatusCode/100 == 5 { 
  switch resp.StatusCode { 
  case http.StatusInternalServerError, http.StatusServiceUnavailable: 
    cerr.Errors = ... 
  default: 
    cerr.Errors = ... 
  } 
  ... 
  continue 
} 
if k != pinned { 
  c.Lock() 
  c.pinned = k 
  c.Unlock() 
} 
return resp, body, nil 
} 
return nil, nil, cerr 
}

該方法表明每次請求時候，會從pinned節(jié)點開始嘗試發(fā)送請求，如果發(fā)送請求異常，則按照初始化時候打亂順序的下一個節(jié)點(pinned++)開始嘗試發(fā)送數(shù)據(jù)。如此看來，如果API Server使用了某個endpoint發(fā)送數(shù)據(jù)，除非用壞了這個節(jié)點，否則會一直使用該節(jié)點(pinned)發(fā)送數(shù)據(jù)。這就說明了，沒有異常情況下，一個API Server就對應(yīng)往一個固定的etcd發(fā)送請求。

對于etcd集群，如果是寫請求的話，follower節(jié)點會把請求先轉(zhuǎn)發(fā)給leader節(jié)點處理，然后leader再轉(zhuǎn)發(fā)給follower同步。那么5個節(jié)點CPU負載不會這么不均衡，但是根據(jù)2.1排查API Server日志看到這里是大量的讀請求，相對于寫請求，讀請求是所有follower節(jié)點都能對外提供的。也就是大量請求由于負載均衡策略失效都轉(zhuǎn)發(fā)到A服務(wù)器，A再把查詢請求都打到其中一個固定的etcd，導(dǎo)致該節(jié)點忙于處理etcd查詢請求，負載就會飆高。

總的來說，TGW做負載均衡時候，由于心跳檢測模塊和其中兩個Resource Server間連接不通，導(dǎo)致誤將所有請求都轉(zhuǎn)發(fā)到其中一個API Server，而一個特定的API Server使用v2版本etcd客戶端就只會往一個固定的etcd服務(wù)端發(fā)請求，這樣整個負載均衡策略就失效了。

2.2.2 etcd存取數(shù)據(jù)緩慢

namespace未做劃分：

從2.1中查看API Server 的日志可以看出，很多get請求Pod對象信息，比如：“Get /api/v1/namespaces/default/pods?...” 這些都是從default namespace下獲取Pod信息，這就說明線上并沒有對Pod的namespace做劃分。

Kubernetes是通過namespace對容器資源進行隔離，默認情況下，如果未指定namespace的話，創(chuàng)建的容器都被劃分到default namespace下，因為這個原因也給后面往etcd中存儲容器元數(shù)據(jù)信息也留下了坑。所有的Kuberentes的元數(shù)據(jù)都存儲在etcd的/registry目錄下，整體如下圖所示：

Kubernetes中Pod的信息存儲在/registry/pods/#{命名空間}/#{具體實例名}的目錄結(jié)構(gòu)中，正因為如果不指定namespace的話，就會存儲到default的namespace中，也就是/registry/pods/default目錄下保存了線上全部Pod對象信息。

也就是說大量get請求Pod對象信息，由于未做namespace劃分,每次都會去訪問default子目錄，每次請求相當(dāng)于都要做全局搜索，隨著集群的增多，Pod不斷的存入到該子目錄中，搜索性能也會變得越來越差。

查詢結(jié)果未加入緩存：

從2.1中查看API Server 的日志看到很多Get/List操作，那么可以仔細看看相關(guān)方法的執(zhí)行流程，下面是List方法執(zhí)行過程中調(diào)用的中間函數(shù)：

f 
 
unc (c *Cacher) GetToList(ctx context.Context, key string, resourceVersion string, pred SelectionPredicate, listObj runtime.Object) error { 
if resourceVersion == "" { 
return c.storage.GetToList(ctx, key, resourceVersion, pred, listObj)//直接查詢etcd 
} 
listRV, err := ParseListResourceVersion(resourceVersion) 
... 
obj, exists, readResourceVersion, err := c.watchCache.WaitUntilFreshAndGet(listRV, key, trace)//從緩存中獲取 
... 
return nil 
}

可以看到，GetToList方法中傳入的有個resourceVersion 參數(shù)，如果設(shè)置了就會從緩存中獲取，如果不設(shè)置就會去etcd中查詢。這個也是一個關(guān)鍵點，有關(guān)resourceVersion 的相關(guān)使用如下：

不設(shè)置：通過API Server從etcd讀取。
設(shè)置成0：從API Server的cache讀取，減輕API Server和etcd壓力。例如Kubelet經(jīng)常通過此方法Get Node對象，Kubernetes Infomer***次啟動時List也通過此方法獲得對象。
大于0：讀取對象指定版本。

線上管理平臺通過http接口去查詢Pod信息時候是沒有設(shè)置resourceVersion，所以每次通過Get/List方法獲取資源時候都會查詢etcd，如此一來經(jīng)常大量高頻率的查詢etcd會導(dǎo)致其壓力較大，開啟緩存策略不僅可以減輕訪問etcd壓力而且還可以加快查詢速度。

總結(jié)以上兩點：所有的請求都發(fā)往一個固定的API Server，導(dǎo)致該API Server節(jié)點負載較高，同時該API Server又會將查詢請求固定的發(fā)給某個etcd節(jié)點，然而請求結(jié)果并沒有在API Server端做緩存，每次都會直接查詢etcd，在從etcd中獲取Pod信息又是從default這個大的子目錄中全局搜索，每次請求都比較費時，這樣導(dǎo)致某一個固定的etcd一直處理大量的費時的請求，最終將該etcd資源耗盡，負載過高，因而查詢結(jié)果不能及時返回給API Server，導(dǎo)致創(chuàng)建Pod時候拿不到相關(guān)的信息，Pod創(chuàng)建工作無法進行，所以最終表象是集群部署長時間卡頓。

3、解決方案

切換負載均衡方案：臨時切換為DNS輪詢方式，保證每個API Server節(jié)點的流量均衡。同時跟進TGW對于某些網(wǎng)段的RS和TGW服務(wù)不能探測心跳及后續(xù)改進。

將Kubernetes中Pod按多個namespace劃分，目前線上所有的Pod都劃分到默認的default的namespace下，每次讀取Pod信息都是從etcd檢索整個namespace，比較損耗etcd性能，目前已經(jīng)將Pod的namespace進行細分，加快了讀取Pod信息速度同時減少了etcd性能損耗。

etcd v3版本客戶端會對Endpoints定期打亂，后續(xù)我們會升級到v3版本，這樣同一個API Server的請求就不會一直落到某一個etcd上，這樣即使負載均衡策略失效也能做到對etcd請求的分攤。

查詢Kubernetes資源信息時帶入resourceVersion開啟緩存機制，減輕對etcd的訪問壓力。

4、總結(jié)

從API Server卡頓問題排查過程來看，潛在的問題是長期存在的，只是積累到一定量后，問題的影響才會凸顯。這就要求我們平時對Kubernetes相關(guān)組件的性能指標(biāo)，日志等要保持時刻敏感，要對Kubernetes各種默認策略及參數(shù)非常熟悉，同時對于重要功能模塊做到源碼層面了解，這樣才能規(guī)避潛在風(fēng)險和出問題后能快速定位，保證生產(chǎn)環(huán)境穩(wěn)定健康的運行。

責(zé)任編輯：未麗燕來源： Dockone.in

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

容器云平臺API Server卡頓問題排查