排查構(gòu)建鏡像時(shí) IO 慢問題
?1. 遇到的問題
項(xiàng)目介紹:
- 文件大小 5.6 GB
 - 文件數(shù)量 529352
 
Dockerfile
構(gòu)建命令及輸入如下:
其中比較花時(shí)間的是:
- 10s,load build context
 - 26s,執(zhí)行 COPY 操作
 - 67s,導(dǎo)出鏡像,鏡像大小 5.79GB
 
以下也是按照這個(gè)思路進(jìn)行逐一排查,測(cè)試驗(yàn)證,尋找構(gòu)建時(shí)的 IO 瓶頸。
2. 自制 go client 直接提交給 Dockerd 構(gòu)建效果不佳
工程 https://github.com/shaowenchen/demo/tree/master/buidl-cli 實(shí)現(xiàn)的功能就是將本地的 Dockerfile 及上下文提交給 Dockerd 進(jìn)行構(gòu)建,從而測(cè)試 Docker CLI 是否有提交文件上的瓶頸。
2.1 編譯生成二進(jìn)制文件
2.2 自制二進(jìn)制提交構(gòu)建任務(wù)
使用 Go 寫的 cli 工具,將構(gòu)建上下文提交給 Dockerd 進(jìn)行構(gòu)建,時(shí)長急劇增加;與此同時(shí),構(gòu)建機(jī)的負(fù)載飆升。
也可能還有其他優(yōu)化點(diǎn),需要慢慢調(diào)試。而 Docker CLI 其實(shí)也有相關(guān)的參數(shù)可以用于減少 IO 占用時(shí)間。
3. 構(gòu)建參數(shù) compress、stream 參數(shù)優(yōu)化效果不佳
compress 會(huì)將上下文壓縮為 gzip 格式進(jìn)行傳輸,而 stream 會(huì)以流的形式傳輸上下文。
3.1 使用 compress 優(yōu)化
3.2 使用 stream 優(yōu)化
這兩個(gè)參數(shù)對(duì)縮短構(gòu)建時(shí)間,并沒有什么效果。但需要注意的是測(cè)試項(xiàng)目的文件大而且數(shù)量多,如果測(cè)試用例發(fā)生變化,可能產(chǎn)生不同的效果。接著,我們一起看看文件數(shù)量、文件大小對(duì) Dockerd 構(gòu)建鏡像的影響。
4. 文件數(shù)量對(duì) COPY 影響遠(yuǎn)不及文件大小
4.1 準(zhǔn)備測(cè)試文件
在 data 目錄下放置了一個(gè) 119MB 的文件,通過復(fù)制該文件不斷增加 build context 的大小。
4.2 測(cè)試 Dockerfile
4.3 構(gòu)建命令
4.4 測(cè)試文件大小對(duì) COPY 影響明顯
文件大小  | 構(gòu)建時(shí)長  | 文件個(gè)數(shù)  | 
119M  | 0.3s  | 1個(gè)  | 
237M  | 0.4s  | 2個(gè)  | 
355M  | 0.5s  | 3個(gè)  | 
473M  | 0.6s  | 4個(gè)  | 
1.3G  | 3.7s  | 11個(gè)  | 
2.6G  | 9.0s  | 22個(gè)  | 
文件大小對(duì) COPY 影響明顯,接近線性增長。
4.5 測(cè)試文件數(shù)量對(duì) COPY 影響甚微
文件大小  | 構(gòu)建時(shí)長  | 文件個(gè)數(shù)  | 
2.9G  | 13.8s  | 264724個(gè)  | 
5.6G  | 37.1s  | 529341個(gè)  | 
文件數(shù)量對(duì) COPY 影響不大。這是由于在 Docker CLI 將 build context 發(fā)送給 Dockerd 時(shí),會(huì)對(duì) context 進(jìn)行 tar 打包,并不是一個(gè)一個(gè)文件傳輸。
4.6 構(gòu)建并發(fā)數(shù)的瓶頸在磁盤IO
5.6G 529341個(gè)
并發(fā)量  | 構(gòu)建時(shí)長  | 
1  | 37.1s  | 
2  | 46s  | 
3  | 81s  | 
通過 iotop 可以實(shí)時(shí)觀測(cè)到磁盤寫速度,最快能達(dá)到 200MB/s,與文件系統(tǒng) 4K 隨機(jī)寫速度最接近。
由于公用一個(gè) Dockerd,并發(fā)時(shí) Dockerd 吞吐會(huì)有瓶頸,系統(tǒng)磁盤 IO 也會(huì)成為瓶頸。
5. 不清理 Buildkit 緩存對(duì)新的構(gòu)建影響甚微
如果提示找不到 docker build?,則需要開啟EXPERIMENTAL? 或者沒有 buildx,需要下載 docker-buildx? 到 /usr/libexec/docker/cli-plugins/ 目錄。
- 查看 build 緩存
 
- 清理全部 build 緩存
 
僅當(dāng)開啟 BuildKit 時(shí),才會(huì)產(chǎn)生 Build cache。生產(chǎn)環(huán)境的緩存大小達(dá)到 1.408TB,但比較清理前后,對(duì)于新項(xiàng)目的構(gòu)建并沒有發(fā)現(xiàn)明顯構(gòu)建速度變化;對(duì)于老項(xiàng)目,如果沒有變動(dòng),命中緩存后速度很快??赡艿脑蚴蔷彺骐m大但條目不多,查詢是否有緩存的時(shí)間開銷很小。
但定期定理緩存,有利于預(yù)防磁盤被占滿的風(fēng)險(xiǎn)。
- 定時(shí)清理遠(yuǎn)期的構(gòu)建緩存
 
清理掉 72h 之前的緩存
6. 構(gòu)建不會(huì)限制 CPU 但 IO 速度很慢
6.1 測(cè)試 CPU 限制
Dockerfile 文件
構(gòu)建機(jī)有 40C,構(gòu)建時(shí)機(jī)器 CPU 負(fù)載能達(dá)到 95%,說明構(gòu)建時(shí),Dockerd 默認(rèn)不會(huì)對(duì) CPU 消耗進(jìn)行限制。在生產(chǎn)環(huán)境下,出現(xiàn)過 npm run build 占用 十幾個(gè) GB 內(nèi)存的場景,因此我判斷 Dockerd 默認(rèn)也不會(huì)對(duì)內(nèi)存消耗進(jìn)行限制。
6.2 在 Dockerfile 中測(cè)試 IO
Dockerfile 文件
6.3 在容器中測(cè)試 IO
6.4 在容器的存儲(chǔ)卷中測(cè)試 IO
6.5 在主機(jī)上試 IO
Dockerd 在構(gòu)建 Dockerfile 時(shí),遇到 Run 命令會(huì)啟動(dòng)一個(gè)容器運(yùn)行,然后提交鏡像。從測(cè)試結(jié)果,可以看到 Dockerfile 中的 IO 速度遠(yuǎn)達(dá)不到主機(jī)的,與容器中的 IO 速度一致;主機(jī)存儲(chǔ)卷的 IO 速度與主機(jī)的 IO 速度一致。
7. 直接使用 buildkitd 構(gòu)建效果不佳
雖然可以通過 DOCKER_BUILDKIT=1 開啟 Buildkit 構(gòu)建,但如果直接使用 buildkitd 效果不錯(cuò),用于替換 Dockerd 構(gòu)建也是一個(gè)不錯(cuò)的選擇。
7.1 安裝 buildkit
7.2 部署 buildkitd
查看到 buildkitd 正常運(yùn)行即可。
7.3 測(cè)試 buildctl 提交構(gòu)建
使用 buildctl 提交給 buildkitd 進(jìn)行構(gòu)建,需要的時(shí)間更多,達(dá)到 4min,較之前增加一倍。
8. 當(dāng)前存儲(chǔ)驅(qū)動(dòng)下讀寫鏡像有瓶頸
8.1 查看 Dockerd 處理邏輯
在代碼 https://github.com/moby/moby/blob/8d193d81af9cbbe800475d4bb8c529d67a6d8f14/builder/dockerfile/dispatchers.go 可以找到處理 Dockerfile 的邏輯。
1,Add 和 Copy 都是調(diào)用 performCopy 函數(shù) 2,performCopy 中調(diào)用 NewRWLayer() 新建層,調(diào)用 exportImage 寫入數(shù)據(jù)
因此,懷疑的是 Dockerd 寫鏡像層速度慢。
8.2 測(cè)試鏡像層寫入速度
準(zhǔn)備一個(gè)鏡像,大小 16GB,一共 18 層。
- 導(dǎo)入鏡像
 
- 保存鏡像
 
docker load? 和 docker save 速度差不多,對(duì)鏡像層的處理速度大約為 100 MB/s。這個(gè)速度比磁盤 4K 隨機(jī)寫速度少了近 30%。在我看來,如果是個(gè)人使用勉強(qiáng)接受;如果用于對(duì)外提供構(gòu)建服務(wù)的平臺(tái)產(chǎn)品,這塊磁盤顯然是不合適的。
8.3 存儲(chǔ)驅(qū)動(dòng)怎么選
下面是從 https://docs.docker.com/storage/storagedriver/select-storage-driver/ 整理得出的一個(gè)比較表格:
存儲(chǔ)驅(qū)動(dòng)  | 文件系統(tǒng)要求  | 高頻寫入性能  | 穩(wěn)定性  | 其他  | 
overlay2  | xfs、ext4  | 差  | 好  | 當(dāng)前首選  | 
fuse-overlayfs  | 無限制  | -  | -  | 適用 rootless 場景  | 
btrfs  | btrfs  | 好  | -  | -  | 
zfs  | zfs  | 好  | -  | -  | 
vfs  | 無限制  | -  | -  | 不建議生產(chǎn)  | 
aufs  | xfs、ext4  | -  | 好  | Docker 18.06 及之前版本首選,不維護(hù)  | 
devicemapper  | direct-lvm  | 好  | 好  | 不維護(hù)  | 
overlay  | xfs、ext4  | 差,但好于 overlay2  | -  | 不維護(hù)  | 
排除不維護(hù)和非生產(chǎn)適用的,可選項(xiàng)其實(shí)沒幾個(gè)。正好有一臺(tái)機(jī)器,前段時(shí)間初始化時(shí),將磁盤格式化成 Btrfs 文件格式,可以用于測(cè)試。zfs 存儲(chǔ)驅(qū)動(dòng)推薦用于高密度 PaaS 系統(tǒng)。
8.4 測(cè)試 Btrfs 存儲(chǔ)驅(qū)動(dòng)
- 在主機(jī)上
 
- 容器下的測(cè)試命令
 
運(yùn)行容器
執(zhí)行測(cè)試
- 測(cè)試 overlay2 存儲(chǔ)驅(qū)動(dòng)
 
- 測(cè)試 btrfs 存儲(chǔ)驅(qū)動(dòng)
 
可以明顯看到 btrfs 存儲(chǔ)驅(qū)動(dòng)在速度上優(yōu)于 overlay2。
9. 總結(jié)
本篇主要是記錄在生產(chǎn)環(huán)境下碰到的 Dockerfile 構(gòu)建 IO 慢問題排查過程。
通過設(shè)計(jì)各種測(cè)試案例排查問題,對(duì)各個(gè)要素進(jìn)行一一驗(yàn)證,需要極大耐心,也特別容易走錯(cuò)方向,得出錯(cuò)誤結(jié)論。
本篇主要觀點(diǎn)如下:
- compress、stream 參數(shù)對(duì)構(gòu)建速度不一定有效
 - 減少構(gòu)建上下文大小,有利于緩解構(gòu)建 IO 壓力
 - Buildkit 的緩存可以不用頻繁清理
 - 構(gòu)建 Dockerfile 執(zhí)行命令時(shí),CPU、Mem 不會(huì)受到限制,但 IO 速度慢
 - 使用 buildkitd 構(gòu)建速度不如 Dockerd 開啟 DOCKER_BUILDKIT
 - 使用 Btrfs 存儲(chǔ)有利于獲得更好的 IO 速度
 
但最簡單的還是使用 4K 隨機(jī)讀寫快的磁盤,在拿到新的環(huán)境用于生產(chǎn)之前,務(wù)必先進(jìn)行測(cè)試,僅當(dāng)滿足需求時(shí),再執(zhí)行后續(xù)計(jì)劃。
10. 參考
- https://docs.docker.com/engine/reference/commandline/build/
 - https://docs.docker.com/build/install-buildx/
 - https://flyer103.com/2022/08/20220806-buildkitd-usage/
 - https://pepa.holla.cz/2019/11/18/how-build-own-docker-image-in-golang/
 















 
 
 













 
 
 
 