G行云計(jì)算系列之全棧云管理篇
本文轉(zhuǎn)載自微信公眾號(hào)「匠心獨(dú)運(yùn)維妙維效」,作者馮帆。轉(zhuǎn)載本文請(qǐng)聯(lián)系匠心獨(dú)運(yùn)維妙維效公眾號(hào)。
一、引言
當(dāng)前云計(jì)算市場(chǎng)競(jìng)爭(zhēng)愈演愈烈,云廠商百家爭(zhēng)鳴,各類云服務(wù)與云產(chǎn)品五花八門(mén)、層出不窮,例如AWS和阿里云就分別提供超過(guò)一百種云產(chǎn)品和云服務(wù),這些云服務(wù)中有許多是專有的,云廠商把這些專有服務(wù)變成自己區(qū)分于其他廠商的手段。這導(dǎo)致云計(jì)算市場(chǎng)缺乏事實(shí)上的標(biāo)準(zhǔn)......盡管不少人呼吁云計(jì)算標(biāo)準(zhǔn)化,但云的差異化卻日益增長(zhǎng)。目前大多企業(yè)數(shù)據(jù)中心基礎(chǔ)設(shè)施不斷云化,為了減少對(duì)單一廠商的依賴、使企業(yè)能夠充分利用每個(gè)廠商的相對(duì)優(yōu)勢(shì)、優(yōu)化云的使用和成本,企業(yè)通常不會(huì)只選用一家云廠商的產(chǎn)品。但是引入的云廠商越多,管理任務(wù)就會(huì)變得越復(fù)雜。這導(dǎo)致云管理技術(shù)迅速發(fā)展,試圖解決各家云廠商服務(wù)之間存在的技術(shù)壁壘問(wèn)題。
全棧云作為G行123+N數(shù)字化銀行發(fā)展體系中基礎(chǔ)技術(shù)平臺(tái)的云計(jì)算平臺(tái),目前已正式投產(chǎn)運(yùn)行,標(biāo)志著建云任務(wù)已初步完成,但云的建成只是起點(diǎn),用好云管好云才是難點(diǎn)和重點(diǎn),“雙棧并舉、一棧多芯”的技術(shù)架構(gòu)給我們帶來(lái)了豐富的技術(shù)應(yīng)用場(chǎng)景,但也帶來(lái)了使用和管理上的復(fù)雜性。建立成熟的云管理方法論、以平臺(tái)工具支撐,將是接下來(lái)發(fā)揮云效能、為企業(yè)創(chuàng)造價(jià)值的關(guān)鍵。本文主要介紹G行為什么要把全棧云納入其云管理體系中。
二、G行云管理平臺(tái)建設(shè)回顧
時(shí)間回到2014年,隨著G行對(duì)云計(jì)算平臺(tái)建設(shè)的快速推進(jìn),G行總行生產(chǎn)云、分行生產(chǎn)云、全行開(kāi)發(fā)測(cè)試云已初具規(guī)模,基礎(chǔ)設(shè)施涉及X86架構(gòu)、超融合架構(gòu)、Power小機(jī),私有云涉及VMwarevSphere、FusionSphere、OpenStack、KVM、Hyper-V、小機(jī)虛擬化等技術(shù)。云基礎(chǔ)設(shè)施環(huán)境相對(duì)復(fù)雜,而云計(jì)算平臺(tái)的資源規(guī)模在G行基礎(chǔ)設(shè)施中的占比越來(lái)越大,如何對(duì)云進(jìn)行有效管理并顯著提高云架構(gòu)帶來(lái)的收益,這一問(wèn)題在當(dāng)時(shí)給G行基礎(chǔ)設(shè)施管理帶來(lái)了巨大的挑戰(zhàn),G行云管理平臺(tái)項(xiàng)目在這個(gè)背景下應(yīng)運(yùn)而生。
G行云管理平臺(tái)的建設(shè)目標(biāo)如下:
提升異構(gòu)基礎(chǔ)架構(gòu)統(tǒng)一納管能力,支持超多家云廠商異構(gòu)資源的納管。
- 精細(xì)化的管理,除各類計(jì)算資源外還可管理NAS、防火墻、F5、各類數(shù)據(jù)庫(kù)、中間件等各類服務(wù)。
 - 個(gè)性化的服務(wù)供給,支持用戶自助服務(wù)編排。
 - 支持跨部門(mén)跨團(tuán)隊(duì)協(xié)作,提供7*24小時(shí)用戶自助服務(wù),服務(wù)工單自動(dòng)跟蹤催單,加快服務(wù)效率。
 - 提供一整套云上資源運(yùn)維工具與規(guī)范。
 - 加強(qiáng)運(yùn)維過(guò)程安全機(jī)制,對(duì)各種異構(gòu)資源、用戶使用資源具體行為等進(jìn)行安全審核與監(jiān)控。
 
三、為什么要把全棧云納入云管理體系?
站在建云的角度,全棧云的建設(shè)是先進(jìn)的,這里不再說(shuō)明,讀者可以回顧全棧云建設(shè)篇。站在用云、上云、管云的角度,全棧云是復(fù)雜的,“雙棧并舉、一棧多芯”的技術(shù)架構(gòu)給我們帶來(lái)了豐富的技術(shù)應(yīng)用場(chǎng)景,但也帶來(lái)了使用和管理上的復(fù)雜性。首先,對(duì)于應(yīng)用系統(tǒng)項(xiàng)目組來(lái)說(shuō),全棧云技術(shù)壁壘較高,“VPC、VBC、安全組、EIP、LB、微隔離...”映入眼簾的首先是一堆新概念,心里首先會(huì)產(chǎn)生畏懼感。所以我們?cè)O(shè)立了全棧云運(yùn)營(yíng)小組,讓?xiě)?yīng)用交付人員來(lái)做全棧云咨詢的工作,幫助項(xiàng)目組理解這些技術(shù)概念、梳理系統(tǒng)上云結(jié)構(gòu)。

圖1
站在云管理的角度,通過(guò)我們積累的云管理標(biāo)準(zhǔn)與體系,整合并封裝全棧云雙技術(shù)棧,對(duì)應(yīng)用系統(tǒng)屏蔽掉他們并不關(guān)心的技術(shù)細(xì)節(jié),把全棧云試運(yùn)營(yíng)過(guò)程中固定下來(lái)的經(jīng)典的應(yīng)用部署模型與云服務(wù)目錄通過(guò)G行云管理平臺(tái)線上提供,同時(shí)也支持項(xiàng)目組根據(jù)自己的需求進(jìn)行可視化、拖拉拽式的調(diào)整,自動(dòng)生成上云工單。我們的應(yīng)用交付人員對(duì)工單進(jìn)行審批和調(diào)整,以業(yè)務(wù)和服務(wù)為視角,將單一或多個(gè)應(yīng)用以不同的業(yè)務(wù)或應(yīng)用場(chǎng)景可視化的編排為應(yīng)用集群,實(shí)現(xiàn)一鍵自動(dòng)化的跨云部署。這對(duì)于整個(gè)全棧云運(yùn)營(yíng)來(lái)說(shuō),是極大釋放生產(chǎn)力的。

圖2:云管理平臺(tái)云資源編排引擎
四、推進(jìn)云管理服務(wù)生態(tài)建設(shè)
G行123+N數(shù)字化銀行發(fā)展體系中的‘2’代表兩大平臺(tái),一是云計(jì)算平臺(tái)、二是大數(shù)據(jù)平臺(tái),在這個(gè)體系中云計(jì)算平臺(tái)最關(guān)鍵的任務(wù)就是推進(jìn)全行應(yīng)用系統(tǒng)上云,所以最能衡量全棧云的指標(biāo)就是上了多少應(yīng)用系統(tǒng)、尤其多少關(guān)鍵、重要的應(yīng)用系統(tǒng),應(yīng)用系統(tǒng)上云的的確確是我們的第一要?jiǎng)?wù)。但是應(yīng)用系統(tǒng)上全棧云絕不是我們硬生生把應(yīng)用系統(tǒng)抬上去,因?yàn)樯显茖?duì)于系統(tǒng)來(lái)說(shuō)只是開(kāi)始,不是結(jié)束。我們要站在應(yīng)用系統(tǒng)角度思考,我們給應(yīng)用系統(tǒng)帶來(lái)了哪些。除了更豐富的云服務(wù),提供基礎(chǔ)的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)云服務(wù)外,我們還要努力推進(jìn)云管理服務(wù)生態(tài)的建設(shè),提供災(zāi)備即服務(wù):為核心業(yè)務(wù)提供數(shù)據(jù)可靠性和業(yè)務(wù)連續(xù)性保障;安全即服務(wù):支持租戶靈活按需申請(qǐng)安全服務(wù)能力;PaaS服務(wù):為滿足容器、微服務(wù)架構(gòu),以及中間件和數(shù)據(jù)庫(kù)的服務(wù)化能力,其他還包括全棧云韌性能力、應(yīng)用流量可視化、DNS服務(wù)、容器安全等,為應(yīng)用系統(tǒng)上云做好周邊服務(wù),解決其后顧之憂。
我們也要對(duì)全棧云本身進(jìn)行治理和加固,努力提高云資源使用率、降低云資源浪費(fèi),通過(guò)我們積累的云管理流程與算法,推進(jìn)云的可持續(xù)發(fā)展,積極響應(yīng)我國(guó)碳中和戰(zhàn)略。同時(shí)對(duì)全棧云基礎(chǔ)架構(gòu),云和數(shù)據(jù)資源、應(yīng)用等多種資源監(jiān)控告警、日志分析、調(diào)用鏈展示等,將被動(dòng)告警變主動(dòng)監(jiān)控。用多種告警壓縮方法(匯聚,閃斷,震蕩,關(guān)聯(lián),屏蔽)來(lái)提供故障快速定位能力,減少監(jiān)控的告警數(shù)量;將支持基于對(duì)象關(guān)系的告警關(guān)聯(lián)方法,高效定位故障。同時(shí)故障自動(dòng)工單派發(fā),故障自愈,實(shí)現(xiàn)端到端自動(dòng)閉環(huán)。增加AI手段,包括KPI異常檢測(cè)(動(dòng)態(tài)基線),自動(dòng)檢測(cè)指標(biāo)數(shù)據(jù)是否異常,如果判斷異常則產(chǎn)生告警;容量預(yù)測(cè),通過(guò)對(duì)云存儲(chǔ)歷史數(shù)據(jù)的分析,模型訓(xùn)練,預(yù)測(cè)未來(lái)時(shí)間段的容量使用趨勢(shì)。

圖3
不管是全棧云,還是以后的云平臺(tái),我們都應(yīng)以“傳統(tǒng)設(shè)施即服務(wù)”的觀念,基于我們?cè)谠乒芾眍I(lǐng)域的積累,圍繞任何IT即服務(wù),實(shí)現(xiàn)‘交付’和‘治理’全覆蓋。真正實(shí)現(xiàn)以業(yè)務(wù)為中心,面向服務(wù),側(cè)重資源和應(yīng)用治理,加快業(yè)務(wù)創(chuàng)新,推動(dòng)G行IT云化從前期的資源建設(shè)向能力建設(shè)轉(zhuǎn)型,實(shí)現(xiàn)了以業(yè)務(wù)價(jià)值為導(dǎo)向驅(qū)動(dòng)IT建設(shè)的目標(biāo)。同時(shí)為數(shù)據(jù)中心賦能,構(gòu)建最符合G行的實(shí)際使用場(chǎng)景,讓云管理成為“科技業(yè)務(wù)”的“入口”。向下提供各類IT資源及能力的通道,向上提供各種框架,包括審批流程自定義、應(yīng)用編排應(yīng)用編排、作業(yè)編排、IT能力編排、計(jì)量計(jì)費(fèi)引擎、自定義報(bào)表等,實(shí)現(xiàn)廣泛的IaaS、PaaS各類應(yīng)用服務(wù),支持廣泛的異構(gòu)資源,同時(shí)將能力對(duì)外圍系統(tǒng)開(kāi)放。

圖4















 
 
 












 
 
 
 