偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

淺談G行全??捎^測(cè)能力建設(shè)

云計(jì)算 云原生
面對(duì)可觀測(cè)性建設(shè)各方面的挑戰(zhàn),G行選擇采用基于零侵?jǐn)_解決方案建設(shè)全??捎^測(cè)平臺(tái),能夠零侵?jǐn)_采集業(yè)務(wù)語(yǔ)義、系統(tǒng)調(diào)用、網(wǎng)絡(luò)轉(zhuǎn)發(fā)、文件讀寫(xiě)調(diào)用鏈,并通過(guò)收集和關(guān)聯(lián)服務(wù)自身的日志鏈路數(shù)據(jù)實(shí)現(xiàn)調(diào)用鏈的全覆蓋。

一、摘要

應(yīng)用上云、云原生化是企業(yè)全面數(shù)字化轉(zhuǎn)型的必要技術(shù)基礎(chǔ),G行2020年啟動(dòng)全棧云平臺(tái)建設(shè),采用云原生集群架構(gòu)為應(yīng)用架構(gòu)服務(wù)化改造提供平臺(tái)支撐,也同步建設(shè)了云化系統(tǒng)的全??捎^測(cè)性能力:

  • 在技術(shù)可控性方面:通過(guò)全棧調(diào)用鏈追蹤能力,構(gòu)建性能基線圖譜,破解異構(gòu)環(huán)境兼容性驗(yàn)證難題;基于零侵?jǐn)_采集技術(shù),規(guī)避傳統(tǒng)插樁方案的安全合規(guī)風(fēng)險(xiǎn),構(gòu)建覆蓋信創(chuàng)技術(shù)棧的統(tǒng)一監(jiān)控范式。
  • 在業(yè)務(wù)穩(wěn)定性方面:建立業(yè)務(wù)指標(biāo)-技術(shù)指標(biāo)-資源指標(biāo)三級(jí)關(guān)聯(lián)機(jī)制,助力實(shí)現(xiàn)分鐘級(jí)故障發(fā)現(xiàn)、定位與恢復(fù);通過(guò)分布式推理服務(wù)鏈路追蹤、剖析等能力,保障應(yīng)用系統(tǒng)穩(wěn)定運(yùn)維。

二、背景與挑戰(zhàn)

2020年以來(lái),《金融行業(yè)信息化發(fā)展規(guī)劃(2022-2025)》、《關(guān)于銀行業(yè)保險(xiǎn)業(yè)數(shù)字化轉(zhuǎn)型的指導(dǎo)意見(jiàn)》等文件明確要求金融機(jī)構(gòu)“實(shí)現(xiàn)關(guān)鍵核心技術(shù)自主可控”,2027年成為金融信創(chuàng)全面落地的硬性時(shí)間節(jié)點(diǎn)。

銀行應(yīng)用系統(tǒng)同步替換底層數(shù)據(jù)庫(kù)、中間件、操作系統(tǒng)、服務(wù)器等全棧組件,對(duì)技術(shù)驗(yàn)證與業(yè)務(wù)連續(xù)性保障帶來(lái)的壓力巨大,在可觀測(cè)性建設(shè)上主要面臨如下挑戰(zhàn):

1.在容量預(yù)估和故障排查方面

調(diào)用鏈追蹤落地難:傳統(tǒng)調(diào)用鏈追蹤的實(shí)現(xiàn)方式可能面臨安全合規(guī)及穩(wěn)定性訴求矛盾。APM或日志類方案需要對(duì)應(yīng)用代碼改造,落地困難且有合規(guī)隱患;NPM類方案需要對(duì)云內(nèi)流量全量引流,開(kāi)銷巨大且數(shù)據(jù)質(zhì)量差。

系統(tǒng)容量評(píng)估困難:需要高性能、零侵?jǐn)_的性能評(píng)測(cè)手段,便于開(kāi)發(fā)迭代過(guò)程中隨時(shí)可以在不同硬件、操作系統(tǒng)、中間件、數(shù)據(jù)庫(kù)環(huán)境下完成性能測(cè)試,為上線后的容量評(píng)估提供充足的參考數(shù)據(jù)。

生產(chǎn)環(huán)境性能剖析難:線上性能問(wèn)題往往難以在測(cè)試環(huán)境復(fù)現(xiàn),而生產(chǎn)環(huán)境中往往由于性能剖析工具缺乏、工具執(zhí)行權(quán)限審批困難、應(yīng)用進(jìn)程需要重啟、應(yīng)用代碼需要修改而無(wú)法獲取關(guān)鍵現(xiàn)場(chǎng)數(shù)據(jù)。

2.在應(yīng)用性能和業(yè)務(wù)性能指標(biāo)方面

性能指標(biāo)覆蓋不全:僅從管理上要求開(kāi)發(fā)項(xiàng)目組和技術(shù)產(chǎn)品供應(yīng)商提供標(biāo)準(zhǔn)化的性能指標(biāo)數(shù)據(jù)有很大的挑戰(zhàn),若能從技術(shù)上提供零侵?jǐn)_的全棧黃金性能指標(biāo),將極大的降低管理難度。

APM調(diào)用鏈采集性能損耗:基于插碼的APM調(diào)用鏈采集能力對(duì)應(yīng)用的性能和穩(wěn)定性影響不可控,通常不敢在生產(chǎn)環(huán)境開(kāi)啟,即使啟用也通常會(huì)設(shè)置較低的采樣率。

業(yè)務(wù)指標(biāo)和技術(shù)指標(biāo)難關(guān)聯(lián):傳統(tǒng)BPM的引流手段在云環(huán)境下落地困難,導(dǎo)致業(yè)務(wù)指標(biāo)僅能在云入口處采集,難以和云內(nèi)應(yīng)用組件及基礎(chǔ)設(shè)施服務(wù)的技術(shù)指標(biāo)關(guān)聯(lián)。

指標(biāo)、追蹤、日志數(shù)據(jù)孤島:不同采集工具的數(shù)據(jù)顆粒度不一致、數(shù)據(jù)標(biāo)簽不統(tǒng)一,關(guān)聯(lián)分析低效。

3.在云基礎(chǔ)設(shè)施可觀測(cè)方面

基礎(chǔ)服務(wù)相關(guān)故障定界困難:L4、L7云網(wǎng)關(guān)的轉(zhuǎn)發(fā)鏈路無(wú)法追蹤,分布式數(shù)據(jù)庫(kù)在代理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)、數(shù)據(jù)節(jié)點(diǎn)上的調(diào)用鏈路無(wú)法追蹤,涉及到基礎(chǔ)服務(wù)的性能問(wèn)題難以定界。

微服務(wù)訪問(wèn)排障低效:多副本微服務(wù)相互的調(diào)用鏈比較復(fù)雜,對(duì)于概率性發(fā)生的性能問(wèn)題,傳統(tǒng)的抓包、找日志的方式極端低效,可能長(zhǎng)達(dá)數(shù)周仍無(wú)進(jìn)展。

跨區(qū)域、專線帶寬用量難優(yōu)化:云主機(jī)、容器Pod的IP動(dòng)態(tài)性高,跨區(qū)域/跨可用區(qū)/專線流量使用傳統(tǒng)方式采集分析難以和云資源、容器服務(wù)關(guān)聯(lián),帶寬利用效率很難分析。

三、G行全??捎^測(cè)平臺(tái)建設(shè)

面對(duì)可觀測(cè)性建設(shè)各方面的挑戰(zhàn),G行選擇采用基于零侵?jǐn)_解決方案建設(shè)全棧可觀測(cè)平臺(tái),能夠零侵?jǐn)_采集業(yè)務(wù)語(yǔ)義、系統(tǒng)調(diào)用、網(wǎng)絡(luò)轉(zhuǎn)發(fā)、文件讀寫(xiě)調(diào)用鏈,并通過(guò)收集和關(guān)聯(lián)服務(wù)自身的日志鏈路數(shù)據(jù)實(shí)現(xiàn)調(diào)用鏈的全覆蓋。與傳統(tǒng)技術(shù)方案相比,G行建設(shè)方案優(yōu)勢(shì)如下:

圖片圖片

G行全棧觀測(cè)平臺(tái)的能力主要包括“業(yè)務(wù)全景拓?fù)洹⑷珬U{(diào)用鏈追蹤、持續(xù)性能剖析、跨可用區(qū)、Agent資源管理”等五方面,平臺(tái)架構(gòu)如下圖所示:

圖1 G行全棧可觀測(cè)性平臺(tái)圖1 G行全??捎^測(cè)性平臺(tái)

如上圖所示,G行全棧觀測(cè)平臺(tái)各方面功能介紹如下:

1.全景業(yè)務(wù)拓?fù)?/h4>

全景覆蓋:覆蓋容器、云主機(jī)、物理機(jī)。

零侵?jǐn)_業(yè)務(wù)語(yǔ)義采集:零侵?jǐn)_解析Payload中的業(yè)務(wù)語(yǔ)義。

自動(dòng)化業(yè)務(wù)語(yǔ)義標(biāo)注:通過(guò)業(yè)務(wù)語(yǔ)義標(biāo)注技術(shù),自動(dòng)標(biāo)注云資源、容器服務(wù)、CMDB等語(yǔ)義標(biāo)簽,從而自動(dòng)生成全景拓?fù)洹?/p>

2.全棧鏈路追蹤

圖2 全棧調(diào)用鏈追蹤能力圖2 全棧調(diào)用鏈追蹤能力

上圖展示了全棧觀測(cè)平臺(tái)的調(diào)用鏈追蹤頁(yè)面,其核心的功能特點(diǎn)包括:

零侵?jǐn)_調(diào)用鏈追蹤:基于零侵?jǐn)_采集能力,無(wú)需改變?nèi)魏未a、無(wú)需重編譯任何代碼、無(wú)需重啟任何進(jìn)程,實(shí)現(xiàn)了分布式調(diào)用鏈的零侵?jǐn)_追蹤,避免了APM、日志方案中的侵入性問(wèn)題。

應(yīng)用、系統(tǒng)、網(wǎng)絡(luò)全棧鏈路:自動(dòng)關(guān)聯(lián)每一筆交易在應(yīng)用進(jìn)程、系統(tǒng)調(diào)用、網(wǎng)絡(luò)傳輸中的Span。

關(guān)聯(lián)瓶頸文件讀寫(xiě)操作:自動(dòng)關(guān)聯(lián)瓶頸文件讀寫(xiě)操作,快速定界Nginx靜態(tài)資源讀取、數(shù)據(jù)庫(kù)索引文件及數(shù)據(jù)文件讀寫(xiě)相關(guān)的業(yè)務(wù)性能抖動(dòng)。

深入關(guān)聯(lián)網(wǎng)絡(luò)性能數(shù)據(jù):自動(dòng)關(guān)聯(lián)每個(gè)調(diào)用前的DNS解析、TLS握手、TCP握手性能,快速分析網(wǎng)絡(luò)建連時(shí)延、系統(tǒng)協(xié)議棧響應(yīng)時(shí)延、網(wǎng)包重傳、協(xié)議棧零窗等行為對(duì)應(yīng)用調(diào)用性能的影響。

深入關(guān)聯(lián)進(jìn)程內(nèi)的瓶頸函數(shù):自動(dòng)關(guān)聯(lián)系統(tǒng)Span與應(yīng)用進(jìn)程的On-CPU、Off-CPU、Mem-Alloc、Mem-Inuse等函數(shù)粒度性能剖析數(shù)據(jù)。

多種展示形式:提供開(kāi)發(fā)人員習(xí)慣的火焰圖、瀑布列表展示形式,同時(shí)也提供網(wǎng)絡(luò)、系統(tǒng)團(tuán)隊(duì)習(xí)慣的拓?fù)鋱D展示形式。

3.持續(xù)性能剖析

圖3 持續(xù)剖析頁(yè)面圖3 持續(xù)剖析頁(yè)面

上圖展示了全棧觀測(cè)平臺(tái)的持續(xù)剖析頁(yè)面,其核心的功能特點(diǎn)包括:

零侵?jǐn)_、熱加載:基于零侵?jǐn)_剖析技術(shù),無(wú)需改變?nèi)魏未a、無(wú)需重編譯任何代碼、無(wú)需重啟任何進(jìn)程,可隨時(shí)對(duì)生產(chǎn)環(huán)境中的性能問(wèn)題進(jìn)行剖析。

全棧函數(shù):支持展示業(yè)務(wù)函數(shù)、庫(kù)/框架函數(shù)、語(yǔ)言運(yùn)行時(shí)函數(shù)、Linux共享庫(kù)函數(shù)、Linux內(nèi)核函數(shù)、NVIDIA CUDA函數(shù)的資源消耗。

低資源開(kāi)銷:以O(shè)n-CPU為例,整機(jī)開(kāi)啟僅需消耗1%計(jì)算資源,讓性能剖析數(shù)據(jù)能夠被持續(xù)采集,從而不用擔(dān)心遺漏難以復(fù)現(xiàn)的線上問(wèn)題的現(xiàn)場(chǎng)數(shù)據(jù)。

多語(yǔ)言支持:支持JVM虛擬機(jī)語(yǔ)言,Python等解釋型語(yǔ)言,Golang、C/C++、Rust等編譯型語(yǔ)言。

4.多可用區(qū)部署架構(gòu)

G行雙棧云部署在多個(gè)區(qū)域和可用區(qū),銀行系統(tǒng)由于其高可用要求運(yùn)行在多個(gè)可用區(qū)上。為了呈現(xiàn)應(yīng)用系統(tǒng)業(yè)務(wù)的全景拓?fù)洌罂捎^測(cè)性平臺(tái)能夠呈現(xiàn)多個(gè)可用區(qū)的觀測(cè)數(shù)據(jù)。

圖4 多可用區(qū)部署架構(gòu)圖4 多可用區(qū)部署架構(gòu)

在上圖中,每個(gè)可用區(qū)內(nèi)的采集Agent僅會(huì)將觀測(cè)數(shù)據(jù)發(fā)送到本可用區(qū)的數(shù)據(jù)節(jié)點(diǎn)集群中,消除了數(shù)據(jù)的跨可用區(qū)傳輸,從而避免了跨可用區(qū)的專線帶寬開(kāi)銷。另一方面,所有可用區(qū)的數(shù)據(jù)節(jié)點(diǎn)構(gòu)成了一個(gè)松耦合的集群,全景拓?fù)洹⒄{(diào)用鏈追蹤的查詢請(qǐng)求會(huì)同時(shí)發(fā)送到所有可用區(qū),每個(gè)可用區(qū)將本地的聚合計(jì)算結(jié)果回傳,從而有效降低了查詢期的跨可用區(qū)帶寬消耗。

5.Agent的資源限制、自監(jiān)控和熔斷能力

下圖中展示了全棧觀測(cè)平臺(tái)中Agent自身豐富的資源限制、自監(jiān)控和熔斷能力,這些能力保障了Agent的高效運(yùn)轉(zhuǎn),以及在發(fā)生最惡劣情況下Agent能夠進(jìn)入熔斷狀態(tài)以避免影響業(yè)務(wù)運(yùn)行。

圖5 全棧觀測(cè)平臺(tái)Agent的資源限制、自監(jiān)控和熔斷能力圖5 全棧觀測(cè)平臺(tái)Agent的資源限制、自監(jiān)控和熔斷能力

四、總結(jié)和未來(lái)展望

隨著銀行數(shù)字化轉(zhuǎn)型進(jìn)入新的階段,全棧觀測(cè)性在提升系統(tǒng)穩(wěn)定性、保障業(yè)務(wù)連續(xù)性方面將發(fā)揮更加重要的作用。全??捎^測(cè)性不僅為傳統(tǒng)系統(tǒng)引入了高效的監(jiān)控手段,而且成功解決了多團(tuán)隊(duì)協(xié)作中的數(shù)據(jù)孤島問(wèn)題,提升了故障定位、性能優(yōu)化與資源管理的工作效率。

展望未來(lái),隨著大模型智能體技術(shù)的發(fā)展,全??捎^測(cè)性平臺(tái)的應(yīng)用場(chǎng)景將進(jìn)一步擴(kuò)展,大模型的智能分析能力將徹底打破傳統(tǒng)運(yùn)維中因知識(shí)和精力瓶頸帶來(lái)的限制,并在性能調(diào)優(yōu)、容量預(yù)估和智能化故障檢測(cè)方面提供更高效的支持,以及更加精細(xì)化和實(shí)時(shí)的風(fēng)險(xiǎn)防控。

馮帆馮帆

十余年云計(jì)算相關(guān)工作經(jīng)驗(yàn),目前負(fù)責(zé)云平臺(tái)運(yùn)營(yíng)及云資源管理工作,致力于成為超能陸戰(zhàn)隊(duì)里大白一樣溫暖且靠譜的人。

高瑄高瑄

主要負(fù)責(zé)云資源運(yùn)營(yíng)和云觀測(cè)應(yīng)用管理,處在新人經(jīng)驗(yàn)積累學(xué)習(xí)期。道阻且長(zhǎng),行則將至。

王述敏王述敏

從事數(shù)據(jù)庫(kù)運(yùn)維工作,希望能持續(xù)為大家分享精彩好文。

責(zé)任編輯:武曉燕 來(lái)源: 匠心獨(dú)運(yùn)維妙維效
相關(guān)推薦

2023-10-26 08:47:30

云原生數(shù)據(jù)采集

2023-09-20 16:11:32

云原生分布式系統(tǒng)

2023-07-07 07:27:14

全鏈路虎牙APM

2022-12-27 07:42:12

2022-03-04 06:36:35

數(shù)據(jù)能力數(shù)據(jù)分析

2022-05-16 13:31:22

微服務(wù)架構(gòu)云原生微服務(wù)

2021-07-23 11:35:49

架構(gòu)運(yùn)維技術(shù)

2023-07-11 16:47:58

2022-09-08 10:08:31

阿里云可觀測(cè)云原生

2022-08-23 08:21:13

數(shù)據(jù)庫(kù)AIOPS工具

2024-03-07 08:57:25

GaussDBOracle模型

2022-02-08 07:56:38

云廠商云計(jì)算云服務(wù)

2022-11-18 16:02:11

博睿數(shù)據(jù)可觀測(cè)性APM

2022-02-02 21:37:57

云計(jì)算全棧云運(yùn)營(yíng)

2022-12-20 08:01:20

全棧云負(fù)載均衡傳統(tǒng)硬件

2023-10-10 07:05:14

G行變更系統(tǒng)

2022-06-07 13:48:25

可觀測(cè)性架構(gòu)系統(tǒng)開(kāi)發(fā)

2022-01-11 07:44:27

云計(jì)算云應(yīng)用全棧云
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)