偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

運(yùn)維的本質(zhì)是什么?阿里“無(wú)人化”智能運(yùn)維平臺(tái)的演進(jìn)

運(yùn)維 系統(tǒng)運(yùn)維
差不多在兩年前,阿里內(nèi)部出現(xiàn)了很多運(yùn)維中臺(tái)、研發(fā)中臺(tái)等等,那有沒(méi)有后臺(tái)呢?不好意思,我們只有中臺(tái),沒(méi)有后臺(tái),會(huì)在中臺(tái)上構(gòu)建與業(yè)務(wù)相關(guān)的各個(gè)前臺(tái)。

差不多在兩年前,阿里內(nèi)部出現(xiàn)了很多運(yùn)維中臺(tái)、研發(fā)中臺(tái)等等,那有沒(méi)有后臺(tái)呢?不好意思,我們只有中臺(tái),沒(méi)有后臺(tái),會(huì)在中臺(tái)上構(gòu)建與業(yè)務(wù)相關(guān)的各個(gè)前臺(tái)。

[[232760]]

目前阿里的業(yè)務(wù)幾乎覆蓋了所有行業(yè),有著很多業(yè)務(wù)線,如果業(yè)務(wù)線的前臺(tái)到中臺(tái)全部都是我們自己去建設(shè),會(huì)造成一個(gè)巨大的浪費(fèi)。

我們需要去構(gòu)建整個(gè)集團(tuán)、或是阿里巴巴經(jīng)濟(jì)體所需要的統(tǒng)一的平臺(tái),避免重復(fù)性的建設(shè)。

最近我們?cè)谒伎歼\(yùn)維的本質(zhì)到底是什么,就突然聯(lián)想到一部名叫《太空旅客》的電影。

電影里的飛船裝了 5000 個(gè)乘客和大約 50 多個(gè)機(jī)組人員,從地球飛往其他星球要飛 120 年。

這意味著整艘飛船必須是無(wú)人駕駛的,因?yàn)闆](méi)有人可以活 120 年,靠人去操控這樣一艘飛船根本不可能。

所以飛船里有一套運(yùn)維系統(tǒng),也就是靠這套系統(tǒng)的運(yùn)作,整艘飛船才可以飛 120 年不出故障。

這和我們現(xiàn)在做的運(yùn)維系統(tǒng)是一樣的。我認(rèn)為運(yùn)維的本質(zhì)就是在線,即如何讓這種在線的業(yè)務(wù)能持續(xù)不斷地運(yùn)行,滿足客戶的需求。

如果把業(yè)務(wù)比作一艘飛船,你能否讓飛船持續(xù)運(yùn)行?遇到了任何故障或問(wèn)題時(shí)能否自動(dòng)解決?我覺(jué)得這就是運(yùn)維的作用——穩(wěn)定性。

而隨著業(yè)務(wù)復(fù)雜度越來(lái)越高,已經(jīng)沒(méi)有辦法靠人來(lái)運(yùn)維整個(gè)平臺(tái)和業(yè)務(wù)了??梢栽囅耄绻咳?,那需要投入多少人力?

當(dāng)發(fā)生問(wèn)題時(shí),我們?nèi)藶榈厝ジ兄獑?wèn)題后排查問(wèn)題、定位問(wèn)題,這時(shí)業(yè)務(wù)可能已經(jīng)掛了很長(zhǎng)時(shí)間。

所以這也是我今天想跟大家分享的,我們基于對(duì)運(yùn)維的理解構(gòu)建起的智能化運(yùn)維平臺(tái)。

本文分為如下四個(gè)部分進(jìn)行分享:

  • 阿里運(yùn)維歷程
  • 基礎(chǔ)運(yùn)維平臺(tái)
  • 應(yīng)用運(yùn)維平臺(tái)
  • AIOps

阿里運(yùn)維歷程

阿里的運(yùn)維和很多公司有相似之處,也經(jīng)歷了四個(gè)階段:

  • 使用命令行工具運(yùn)維
  • 系統(tǒng)化工具運(yùn)維
  • 自動(dòng)化平臺(tái)
  • 智能化平臺(tái)與無(wú)人值守實(shí)踐

按照上圖這個(gè)層次,我們把運(yùn)維的工作進(jìn)行劃分。對(duì)于雙十一這樣大型的活動(dòng),承載這么大的流量就必須要有很多資源。

我們每年在準(zhǔn)備資源的過(guò)程中會(huì)花大量的人力和資源,并且持續(xù)時(shí)間長(zhǎng),大概需要提前半年準(zhǔn)備。

而在近幾年,阿里云發(fā)展起來(lái)了,等到更加成熟了就會(huì)把這個(gè)業(yè)務(wù)往云上搬。

我們會(huì)先把機(jī)器買(mǎi)進(jìn)來(lái),把阿里云的整個(gè)基礎(chǔ)設(shè)施裝起來(lái)后,就把阿里的所有電商業(yè)務(wù)部署到它上面。

等雙十一結(jié)束后,有很多業(yè)務(wù)其實(shí)不需要用那么多機(jī)器,我們就把這些資源重新做一個(gè)格式化,再還給阿里云,由阿里云做另外的售賣(mài)。

這也是為什么阿里會(huì)做阿里云的原因。因?yàn)檫@種大促的時(shí)間比較短,但特別耗資源,且需要大量的運(yùn)維人員和工程師,所以我們會(huì)在資源這個(gè)層面做大量工作。

現(xiàn)在我們的平臺(tái)實(shí)際上會(huì)更加自動(dòng)化,用公有云的資源去做一些彈性,包括資源的利用率。

而最近我們有一個(gè)系統(tǒng),是屬于做資源調(diào)度的系統(tǒng),它能夠更好地利用云資源,提升資源的利用率。

事實(shí)上阿里的整個(gè)電商的資源利用率是比較低的,平均下來(lái)只有 10% 左右,所以我們會(huì)在這塊大力投入,包括做一些智能化的東西。

而有了資源后就需要部署,所以我們就提前鋪設(shè)了一層,包括數(shù)據(jù)庫(kù)的一些東西,這屬于一個(gè)變更,即把代碼部署上去,或做網(wǎng)絡(luò)的更新等。

等代碼鋪設(shè)上去后,還要清楚線上運(yùn)行后的狀況,因此監(jiān)控是必不可少的。我們有很多監(jiān)控系統(tǒng),比如說(shuō)監(jiān)控 IDC 層面的濕度、溫度等,如果這個(gè)地方出現(xiàn)問(wèn)題,那整個(gè)機(jī)房就會(huì)過(guò)載。

網(wǎng)絡(luò)則是另一個(gè)專(zhuān)業(yè)領(lǐng)域的東西,我們需要去監(jiān)控整個(gè)網(wǎng)絡(luò)、交換機(jī),讓網(wǎng)絡(luò)處于一個(gè)健康的狀況。

再次,還需要有服務(wù)器層面的監(jiān)控,應(yīng)用、業(yè)務(wù)層面的監(jiān)控等,所有的這些都是不一樣的,屬于不同領(lǐng)域,因此我們的監(jiān)控系統(tǒng)也比較多。

再往上就是運(yùn)維最核心的本質(zhì)——穩(wěn)定性了,我認(rèn)為這是怎么強(qiáng)調(diào)都不為過(guò)的。

我們的很多業(yè)務(wù)部門(mén)都有一個(gè)專(zhuān)門(mén)做穩(wěn)定性的團(tuán)隊(duì),覆蓋從業(yè)務(wù)到技術(shù)的環(huán)境。

而像阿里這種體量的公司,規(guī)模化是必不可少的,我們現(xiàn)在正在收購(gòu)很多公司,那怎么讓這些公司的運(yùn)維體系能一次性快速便捷地搬遷進(jìn)來(lái),利用到我們中臺(tái)的能力?

比如我們做雙十一大促銷(xiāo)活動(dòng)時(shí),如何能快速把業(yè)務(wù)部署到云上?這些都需要做規(guī)?;墓ぷ鳌?/p>

在以上這張圖里,我負(fù)責(zé)的是藍(lán)色部分的工作,主要是應(yīng)用運(yùn)維平臺(tái)和基礎(chǔ)運(yùn)維平臺(tái),包括螞蟻金服、菜鳥(niǎo)等個(gè)性化的東西,可以基于我們的應(yīng)用運(yùn)維平臺(tái)做一些定制化的工作。

基礎(chǔ)運(yùn)維平臺(tái)

基礎(chǔ)運(yùn)維平臺(tái)是中臺(tái)最核心的部分,是全部都打通的。我們的基礎(chǔ)運(yùn)維平臺(tái)和基礎(chǔ)設(shè)施是一樣的。這就是剛才提到的中臺(tái)概念,沒(méi)有必要讓所有人都去建設(shè)這個(gè)基礎(chǔ)設(shè)施。

就像國(guó)家的基礎(chǔ)設(shè)施不會(huì)讓每個(gè)人都去建設(shè),而是由國(guó)家統(tǒng)一去做,能節(jié)約大量的人力和資本,并把基礎(chǔ)設(shè)施做精、做深,這是非常有必要的,可以避免大量重復(fù)性工作。

運(yùn)維通道:StarAgent

StarAgent 就是阿里運(yùn)維的基礎(chǔ)設(shè)施,它是一個(gè)運(yùn)維通道,是基礎(chǔ)設(shè)施中最核心的功能,主要是做命令的下發(fā)與執(zhí)行。

所有阿里的運(yùn)維進(jìn)程都在這上面,包括監(jiān)控系統(tǒng)、調(diào)度所需的所有東西、數(shù)據(jù)采集等。信息的采集都在這個(gè)平臺(tái)上,以插件的形式運(yùn)行。

這個(gè)系統(tǒng)一天差不多有一個(gè)多億的訪問(wèn)量且還在不斷增長(zhǎng),因?yàn)槲覀兊姆?wù)器數(shù)量在不斷增長(zhǎng),業(yè)務(wù)的數(shù)量也在不斷增長(zhǎng),但它的穩(wěn)定性還是達(dá)到了 99.995%

場(chǎng)景

在阿里運(yùn)維的整個(gè)生命周期,包括裝機(jī)、應(yīng)用發(fā)布、配置變更、信息采集、監(jiān)控和日常運(yùn)維等,我們都會(huì)用到這個(gè)場(chǎng)景。

核心功能

核心功能如上圖所示,就是命令的通道執(zhí)行這樣的一些方式,功能比較簡(jiǎn)單,主要核心能力是在穩(wěn)定性和性能上面。

系統(tǒng)架構(gòu)

這個(gè)系統(tǒng)是由三層架構(gòu)搭建而成的,第一層就是我們中央的一層?xùn)|西,用戶如何訪問(wèn)這個(gè)?

我們會(huì)通過(guò)用戶的 API 做調(diào)用,如果權(quán)限足夠大,可以給全網(wǎng)所有的機(jī)器下發(fā)指令。

每一個(gè)機(jī)房都有一個(gè)管控的服務(wù)器,即管控這個(gè)機(jī)房所有的機(jī)器,服務(wù)器都通過(guò)長(zhǎng)鏈接的方式連到這個(gè)地方。

還有末端的,就是一個(gè)插件的結(jié)構(gòu),大概如上圖所示,會(huì)把信息全部都上報(bào)上來(lái)等等,這個(gè)也是能夠支持網(wǎng)絡(luò)結(jié)構(gòu)的。

穩(wěn)定性

穩(wěn)定性其實(shí)是最重要的,我們做了很多這方面的優(yōu)化,但因?yàn)榧?xì)節(jié)太多,此處就不具體展開(kāi)了,最主要的是你如何能保證這個(gè)系統(tǒng)是穩(wěn)定/活的。它比監(jiān)控還重要,因?yàn)槲覀兊谋O(jiān)控也是依賴(lài)這個(gè)。

當(dāng)監(jiān)控系統(tǒng)掛掉之后,監(jiān)控錄像或其他都有可能出現(xiàn)問(wèn)題,會(huì)出現(xiàn)循環(huán)依賴(lài)。

因此不能單獨(dú)依賴(lài)一個(gè)存儲(chǔ)的系統(tǒng),反而要依賴(lài)更多的存儲(chǔ)系統(tǒng),來(lái)保證系統(tǒng)的健壯性。

這是非常重要的,如果一個(gè)掛了就有可能導(dǎo)致我們回到非常原始的手工運(yùn)維狀態(tài)。

安全

上圖是安全方面的策略,我們有比較多重的保護(hù),包括保護(hù)下發(fā)指令的安全不被篡改,以及整個(gè)賬號(hào)體系有非常健壯的設(shè)計(jì),來(lái)保證命令執(zhí)行的安全性。我們所有的命令都會(huì)做一個(gè)映射。

另外,權(quán)限還是非常大的,這里必不可少的就是要保護(hù)整個(gè)系統(tǒng),如果有特別高風(fēng)險(xiǎn)的命令在執(zhí)行,我們必須能夠快速準(zhǔn)確地識(shí)別出來(lái),從而保護(hù)整個(gè)服務(wù)器的安全。

自動(dòng)化運(yùn)維

自動(dòng)化運(yùn)維非常重要,我們不可能投入過(guò)多的人力去運(yùn)維這么龐大的系統(tǒng)來(lái)管理所有的服務(wù)器。

如果有哪怕 1% 的服務(wù)器出現(xiàn)了連接問(wèn)題,我們都得投入大量人力去做,這也是為什么自動(dòng)化運(yùn)維非常重要的原因。

以前可能需要十幾人,每個(gè)人要頻繁地去處理各種連接性的問(wèn)題,所以我認(rèn)為自動(dòng)化運(yùn)維是根本的東西。

插件平臺(tái)

[[232762]]

最后簡(jiǎn)單介紹一下插件平臺(tái)。這是一個(gè)描述文件,即你要跑什么進(jìn)程、利用多少 CPU 內(nèi)存等都可以設(shè)定。

當(dāng)這個(gè)系統(tǒng)發(fā)生各種問(wèn)題時(shí),會(huì)自動(dòng)幫你把這個(gè)進(jìn)程解決掉,再通知你上線去做一些排查。

因?yàn)榘⒗锏姆?wù)器和網(wǎng)絡(luò)都非常復(fù)雜,我們?cè)谝粋€(gè)業(yè)務(wù)線里測(cè)試的結(jié)果沒(méi)問(wèn)題,并不代表能保證所有的業(yè)務(wù)線都沒(méi)有問(wèn)題。命令一直在下發(fā),如果不退出,累計(jì)起來(lái)就會(huì)有很大問(wèn)題。

這個(gè)系統(tǒng)本質(zhì)上是保障服務(wù)器的穩(wěn)定性,所以不管發(fā)生什么情況,我們要把服務(wù)器上的所有命令都管控起來(lái),只要有問(wèn)題就采取一定措施。

智能文件分發(fā)系統(tǒng):蜻蜓

要做容器化,文件的分發(fā)尤其是鏡像的分發(fā)已經(jīng)變成了一個(gè)非常大的問(wèn)題。

我們經(jīng)常在此過(guò)程中碰到這樣的問(wèn)題:原本只需要傳一個(gè)包,現(xiàn)在要傳一個(gè)鏡像,但如果研發(fā)不太好,一出來(lái)就是一個(gè)多 G 的鏡像在分發(fā),會(huì)導(dǎo)致網(wǎng)絡(luò)的堵塞。

在這樣的挑戰(zhàn)下,我們當(dāng)時(shí)就做了一個(gè) P2P 的文件分發(fā)系統(tǒng),非常好地解決了這樣的問(wèn)題。

在上圖中,紅色部分就是傳統(tǒng)的文件分發(fā)方式,藍(lán)色部分是我們用蜻蜓做的一個(gè)文件分發(fā)系統(tǒng)。

其中,X 軸是客戶端的數(shù)量,最大程度是 7000 個(gè)客戶端同時(shí)下一個(gè)文件。不管有多少個(gè)客戶端,蜻蜓都可以非常平穩(wěn),大概幾秒鐘就可以完成分發(fā)。

而傳統(tǒng)的分發(fā),等到 1000 個(gè)客戶端時(shí)就已經(jīng)沒(méi)有數(shù)據(jù)了,因?yàn)樗呀?jīng)被客戶端打爆了。

上圖列舉了一些場(chǎng)景,它在哪些地方能被用到,以及它的一些特性包括斷點(diǎn)續(xù)傳、智能網(wǎng)絡(luò)的 IO 和磁盤(pán)的 IO 等。

如何保證在下載過(guò)程中不影響到業(yè)務(wù)?不能把磁盤(pán)和網(wǎng)絡(luò)全部打掉,那么傳統(tǒng)的模式就是設(shè)定一個(gè)閾值。

我就占用 20m 或 50m,但很多業(yè)務(wù)可能在晚上,并沒(méi)有那么大的流量。你可以用更多帶寬,但用不起來(lái);如果是業(yè)務(wù)特別忙的話,還是 20m 就影響到業(yè)務(wù)了。

我們做了一個(gè)智能化的點(diǎn),如何在不影響業(yè)務(wù)的情況下,充分地利用帶寬和磁盤(pán)的 IO,跟鏡像相關(guān)的我們也做了很多的工作。這是去年 10 月份的一些數(shù)據(jù),每個(gè)月有超過(guò) 20 億次的訪問(wèn)。

它最初是在我們的發(fā)布系統(tǒng)里被用到,是一個(gè)基礎(chǔ)設(shè)施,后來(lái)我們推廣到了整個(gè)集團(tuán),現(xiàn)在訪問(wèn)量非常之大。

這個(gè)系統(tǒng)目前已經(jīng)開(kāi)源了,上圖有我們的協(xié)議地址,也有企業(yè)版的,商業(yè)化的版本里會(huì)有更多智能化功能。這個(gè)社區(qū)現(xiàn)在還比較小,希望大家能夠支持一下。

應(yīng)用運(yùn)維平臺(tái)

前面講的基礎(chǔ)設(shè)施并不是所有公司都會(huì)用到,當(dāng)你的體量特別大時(shí)反而會(huì)成為一種累贅,相比之下,應(yīng)用運(yùn)維平臺(tái)與大家的相關(guān)度可能會(huì)更密切一些。

我們的應(yīng)用運(yùn)維平臺(tái)叫 Normandy,上面有很多業(yè)務(wù)線,我們至少 50% 以上的平臺(tái)都用這個(gè)來(lái)做運(yùn)維。

它的一個(gè)主要功能是資源編排,應(yīng)用要用到的所有資源都可以用描述文件的形式做編排,并一次性生產(chǎn)出來(lái),你的任何變化都會(huì)被系統(tǒng)感知到并去做一些變更。

有了資源以后,要做代碼的發(fā)布,這也是這個(gè)平臺(tái)非常大的一個(gè)功能。之前有人提到的藍(lán)綠部署,發(fā)布的模式我們都是支持的,并且有非常多的發(fā)布模式。

當(dāng)業(yè)務(wù)的代碼發(fā)布上去時(shí),這個(gè)業(yè)務(wù)就在線了,后面的工作就是日常性的運(yùn)維,比如說(shuō)磁盤(pán)的清理等日常工作,也是在這個(gè)平臺(tái)上去做。

關(guān)于發(fā)布,我們也在做一些思考,因?yàn)檫\(yùn)維的本質(zhì)就是為了線上的穩(wěn)定性。我們對(duì)所有故障做了分析,發(fā)現(xiàn) 60% 的故障都是由變更引起的。

而且行業(yè)內(nèi)也有一種說(shuō)法是,80% 的故障可能都是由變更引起的。這也說(shuō)明你不做變更,基本上是不太會(huì)發(fā)生故障的。

畢竟像之前發(fā)生的支付寶電纜被挖斷,以及騰訊的天津機(jī)房發(fā)生爆炸這類(lèi)事情是比較少的,大多數(shù)情況下是因?yàn)樽兏斐傻墓收稀?/p>

然而變更又是發(fā)布的一個(gè)重要環(huán)節(jié),所以我們會(huì)發(fā)現(xiàn),要讓系統(tǒng)穩(wěn)定、持續(xù)不斷地運(yùn)行,只要能卡住變更這個(gè)口子,基本上就能降低非常多的故障。

我們?nèi)ツ觊_(kāi)始做了一個(gè)無(wú)人值守的發(fā)布。因?yàn)椴煌娜丝吹降那闆r不一樣,可能經(jīng)驗(yàn)老道的人會(huì)看出問(wèn)題并做出維護(hù)。

但新同學(xué)怎么辦呢,又或者是老司機(jī)太老練了,以為不會(huì)有事結(jié)果卻出了問(wèn)題。

所以我們希望整個(gè)過(guò)程沒(méi)有人力介入,通過(guò)各種參數(shù)的檢查來(lái)幫助我們發(fā)現(xiàn)變更過(guò)程中出現(xiàn)的問(wèn)題。

關(guān)于這個(gè)發(fā)布,我們也做了很多工作,其中就有對(duì)監(jiān)控指標(biāo)進(jìn)行分類(lèi),包括系統(tǒng)、日志、業(yè)務(wù)等,對(duì)各種指標(biāo)做檢查。

我們會(huì)檢查發(fā)布和沒(méi)發(fā)布的機(jī)器,以及發(fā)布的機(jī)器與前一天在各方面的一些對(duì)比,最后做出一個(gè)診斷。當(dāng)有問(wèn)題時(shí),就能及時(shí)通過(guò)手機(jī)、釘釘把消息推送出來(lái)。

可能現(xiàn)在你的系統(tǒng)發(fā)現(xiàn)了一些問(wèn)題,要做一些人工判斷,因?yàn)檫@也是一種輸入,相當(dāng)于數(shù)據(jù)的標(biāo)注,判斷我這次的系統(tǒng)判斷到底準(zhǔn)不準(zhǔn)。如上圖所示,各種指標(biāo)會(huì)告訴你可能會(huì)有異常的,需要人工進(jìn)行判斷。

這個(gè)策略還是比較簡(jiǎn)單的,比如說(shuō)一些針對(duì) Java 的應(yīng)用,在你的日志里會(huì)發(fā)現(xiàn)很多問(wèn)題。

譬如說(shuō)有沒(méi)有新的異常,我們的異常庫(kù)會(huì)把新的異常記錄下來(lái),如果發(fā)現(xiàn)了就會(huì)提醒用戶,因?yàn)檫@個(gè)新的異常基本就是代碼引入的。

還可能有一些是非常致命的新異常,不太需要算法的介入(需要算法介入的是舊的異常)。

譬如你的指標(biāo)頻率突然飆升,那我們要發(fā)現(xiàn)這個(gè)飆升的指標(biāo),并把它提示出來(lái),這就可以用很多方法了,包括趨勢(shì)、同比、環(huán)比等。

提到會(huì)用到的算法,紅色標(biāo)注的部分在整個(gè)序列上的算法會(huì)比較多,主要是對(duì)這個(gè)應(yīng)用進(jìn)行一些歷史數(shù)據(jù)的采集,再描繪出它的曲線。

通過(guò)這樣的數(shù)據(jù)學(xué)習(xí),我們就能知道它未來(lái)的發(fā)展趨勢(shì)和變化,如果超出了變化,就可以認(rèn)為是異常。

上圖的紅色線就是我們真實(shí)輸入的數(shù)據(jù),藍(lán)色線是我們預(yù)測(cè)的數(shù)據(jù),如果是好的想法,這個(gè)紅色線應(yīng)該正好穿過(guò)藍(lán)色線。

而我們的監(jiān)控報(bào)警或是異常檢測(cè),即根據(jù)紅色線是不是超過(guò)了藍(lán)色線的正負(fù)閾值來(lái)判斷。

我們也做了測(cè)試,把線上發(fā)生的各種異常(包括用戶認(rèn)為是有問(wèn)題或是認(rèn)為報(bào)錯(cuò)了)的數(shù)據(jù)都引入線下,幫助我們?nèi)プ鲞M(jìn)一步的評(píng)判,形成一個(gè)反饋機(jī)制。

這整個(gè)過(guò)程都是自動(dòng)化的,最后告訴我們調(diào)整的參數(shù)是否正常。這是我們自動(dòng)化系統(tǒng)模塊的展示,此處就不詳細(xì)展開(kāi)了。

另外,監(jiān)控系統(tǒng)的數(shù)據(jù)采集是不是有斷圖,數(shù)據(jù)采集得對(duì)不對(duì)、準(zhǔn)不準(zhǔn)等等,也是非常大的挑戰(zhàn)。

還有我們的參數(shù)目前更多地還是人為去做固定的閾值,如果能使其更加動(dòng)態(tài),或是根據(jù)不同的應(yīng)用狀態(tài)去做一些動(dòng)態(tài)的適配,也是有著非常大的挑戰(zhàn)。

AIOps

今年我們主要的工作就是發(fā)布,讓所有變更都能接入智能化體系,從而保證變更不受影響。

它的 AI 是基于算法的這樣一套東西,我們更多是希望它走向無(wú)人化的狀態(tài),所以我們對(duì)它的理解可能不是一個(gè)算法,而是另外一個(gè)英文單詞 AIOps,即無(wú)人化的運(yùn)維。

這需要一個(gè)過(guò)程,首先我們需要累計(jì)足夠多的數(shù)據(jù),其次是找到場(chǎng)景。開(kāi)頭提到的無(wú)人駕駛飛船的想法是非常美好的,但要真的做到不需要任何人介入,需要走非常長(zhǎng)的一段路。

所以我們現(xiàn)在認(rèn)為,一定要找到非常好的場(chǎng)景作為落腳點(diǎn),再準(zhǔn)備好所有數(shù)據(jù),因?yàn)閿?shù)據(jù)的質(zhì)量真正決定了整套系統(tǒng)的天花板,而算法是可以不斷嘗試的。

我們嘗試用比較普通的算法來(lái)做運(yùn)營(yíng),真正難的是特征的提醒和算法參數(shù)的優(yōu)化,甚至是一些革命性的算法現(xiàn)在還比較少。

關(guān)于這方面我們也和清華大學(xué)有一些合作,希望通過(guò)與高校的合作來(lái)看到一些更好的算法。

上圖是對(duì)整個(gè)運(yùn)維領(lǐng)域和智能化階段做了一些分類(lèi)。我們會(huì)有一些服務(wù)咨詢/答疑,這也是可以做智能化運(yùn)維的方向。

我們現(xiàn)在更多的采用跟阿里的一些合作,在自然語(yǔ)言處理方面能幫助我們減少人工答疑的過(guò)程,尤其是重復(fù)性出現(xiàn)的問(wèn)題。

比如我想看一下我的應(yīng)用在某一個(gè)機(jī)房到底運(yùn)行得怎么樣,可以通過(guò)自然語(yǔ)言的方式去做,大大降低人的介入。

第二是通過(guò)智能化算法降低故障,包括效率和優(yōu)化。我們也有很多場(chǎng)景,包括剛才講的資源的利用率,如何能更好地做服務(wù)調(diào)度,這上面其實(shí)我們也有很多應(yīng)用。

另外一個(gè)就是在可用性上面,自愈或者是預(yù)測(cè)。我們?cè)谧龃疟P(pán)損壞的預(yù)測(cè),在損壞前能夠把業(yè)務(wù)都調(diào)走,讓整個(gè)過(guò)程變得更加可預(yù)期一些。

還有一個(gè)方面,我們也在做整個(gè)機(jī)房在能耗方面的工作,能夠通過(guò)智能化的算法來(lái)降低能耗。

谷歌在 2016 年就已經(jīng)做到了,通過(guò)深度學(xué)習(xí)的方法讓整個(gè)能耗降低了差不多 30%。不過(guò)真正要達(dá)到第五級(jí)的自動(dòng)駕駛的話,還是有挺長(zhǎng)的路要走。

上圖是我們?cè)谥悄芑\(yùn)維上主要做的兩個(gè)方面。第一個(gè)就是我們對(duì)運(yùn)維的理解,穩(wěn)定性是最核心要做的事情。

在此基礎(chǔ)上,我們希望整個(gè)系統(tǒng)達(dá)到非常優(yōu)化的狀態(tài),包括前面講的我們的自動(dòng)化的調(diào)整,讓性能更加高效。

上圖是我們整個(gè)智能化運(yùn)維平臺(tái)的產(chǎn)品圖,包括了前面說(shuō)的應(yīng)用運(yùn)維上的能力,以及整個(gè)端上的一些東西,還有我們的一些規(guī)范、運(yùn)維的一些紅線等等。

這個(gè)平臺(tái)我們叫 StarOps,有一個(gè)私有云版本,也會(huì)在今年六七月份推出公有云版本。

最后是我們的一些思考:

  • 度量是非常關(guān)鍵的,不僅僅是運(yùn)維,所有的系統(tǒng)都應(yīng)該有度量,沒(méi)有度量就不會(huì)有提高。
  • 從中臺(tái)的概念來(lái)講,希望不要重復(fù)去造低水平的輪子,一定要有突破。
  • 對(duì)于智能化運(yùn)維這一塊,還是可以從點(diǎn)入手,找到一個(gè)真實(shí)的場(chǎng)景,然后去做一些突破。

[[232766]]

如柏(毛茂德),阿里巴巴高級(jí)技術(shù)專(zhuān)家,Apache 頂級(jí)項(xiàng)目 CXF 初創(chuàng)成員之一,阿里集團(tuán)基礎(chǔ)架構(gòu)事業(yè)群運(yùn)維中臺(tái)負(fù)責(zé)人、親歷者。

 

責(zé)任編輯:武曉燕 來(lái)源: DBAplus社群
相關(guān)推薦

2015-08-31 13:43:27

運(yùn)維

2022-10-20 17:37:46

運(yùn)維智能管理平臺(tái)

2022-05-13 14:07:19

平臺(tái)運(yùn)維團(tuán)隊(duì)軟件開(kāi)發(fā)

2019-03-15 10:13:10

運(yùn)維云計(jì)算運(yùn)營(yíng)

2020-06-30 09:35:25

智能運(yùn)維云架構(gòu)IT運(yùn)營(yíng)

2018-09-18 09:36:52

運(yùn)維數(shù)據(jù)庫(kù)智能

2018-03-27 16:23:53

運(yùn)維AI智能

2019-01-15 18:03:54

數(shù)據(jù)庫(kù)運(yùn)維 技術(shù)

2023-10-10 07:43:15

2013-03-29 09:15:08

IT運(yùn)維運(yùn)維人員運(yùn)維工程師

2013-09-13 16:15:29

柯旻運(yùn)維云計(jì)算運(yùn)維

2011-08-04 13:24:28

IT運(yùn)維

2017-10-13 13:14:35

互聯(lián)網(wǎng)

2018-04-12 09:46:12

DevOps運(yùn)維建設(shè)

2017-12-15 09:20:20

IT運(yùn)維順豐

2010-11-12 13:21:20

2016-12-13 13:15:49

運(yùn)維

2018-06-29 10:36:29

阿里云互聯(lián)網(wǎng)故障

2018-08-27 10:59:07

京東數(shù)據(jù)庫(kù)智能運(yùn)維

2022-02-23 08:00:00

開(kāi)發(fā)DevOps技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)