微軟亞洲研究院智能運(yùn)維:云服務(wù)的智能原動(dòng)力
原創(chuàng)疫情已經(jīng)改變了人們生產(chǎn)、生活的方式。協(xié)同合作、遠(yuǎn)程辦公、在線教育等場(chǎng)景成為了常態(tài),而這些場(chǎng)景也對(duì)基礎(chǔ)設(shè)施提出了更高的要求。
Gartner 研究副總裁 Sid Nag 認(rèn)為,云已經(jīng)成為主流策略:“下一代的產(chǎn)品方案,幾乎都是搭建于云平臺(tái)上的?!钡S著越來(lái)越多的用戶上云,系統(tǒng)的管理正面臨著前所未有的挑戰(zhàn)。海量用戶、大規(guī)模集群、復(fù)雜的系統(tǒng)架構(gòu)使傳統(tǒng)的運(yùn)維方式力不從心。如何實(shí)時(shí)檢測(cè)異常、快速響應(yīng)故障、預(yù)測(cè)故障、合理規(guī)劃容量等問(wèn)題已成為重要課題。此時(shí),智能運(yùn)維AIOps閃亮登場(chǎng)。
AIOps在多方面都直擊傳統(tǒng)運(yùn)維的痛點(diǎn)。AI算法承擔(dān)起分析海量運(yùn)維數(shù)據(jù)的重任,能夠自動(dòng)、準(zhǔn)確地發(fā)現(xiàn)和定位問(wèn)題,從決策層面提高運(yùn)營(yíng)效率,為企業(yè)運(yùn)營(yíng)和運(yùn)維工作在成本、質(zhì)量和效率方面的優(yōu)化提供了重要支持。根據(jù)Gartner的戰(zhàn)略規(guī)劃假設(shè),到2023年,將有40%的DevOps團(tuán)隊(duì)將通過(guò)用于IT運(yùn)營(yíng)(AIOps)平臺(tái)的AI增強(qiáng)應(yīng)用程序和基礎(chǔ)架構(gòu)監(jiān)視工具。
在炙手可熱的人工智能領(lǐng)域,數(shù)據(jù)驅(qū)動(dòng)、AI 賦能的微軟云始終以理性而樂(lè)觀的姿態(tài)立足于全球云服務(wù)市場(chǎng)。數(shù)據(jù)為微軟云的管理提供了新的維度——數(shù)據(jù)智能。微軟亞洲研究院常務(wù)副院長(zhǎng),微軟杰出首席科學(xué)家張冬梅表示,微軟主要從三個(gè)方面來(lái)定義AIOps: AI for System、AI for Customer、AI for DevOps。AIOps在這些應(yīng)用場(chǎng)景中面臨著諸多挑戰(zhàn)。
AIOps的應(yīng)用:精準(zhǔn)預(yù)測(cè)、高效解決、更好服務(wù)
AI for System要求開(kāi)發(fā)者能從運(yùn)行的系統(tǒng)角度看問(wèn)題,比如系統(tǒng)異常檢測(cè)不僅僅是找到問(wèn)題,最好還可以提前預(yù)警。以硬盤故障預(yù)測(cè)為例,開(kāi)發(fā)者可以通過(guò)分析已經(jīng)發(fā)生改變的數(shù)據(jù)或狀態(tài),來(lái)預(yù)測(cè)磁盤是否有故障,系統(tǒng)在學(xué)習(xí)了大量硬盤的歷史數(shù)據(jù)后,對(duì)照目前磁盤的狀態(tài),預(yù)測(cè)將來(lái)是否可以及時(shí)采取措施。此外,除了發(fā)生故障的硬盤,還需要考慮其鄰近磁盤的情況。
微軟亞洲研究院首席研究員林慶維介紹說(shuō),微軟亞洲研究院研發(fā)了鄰域-時(shí)間注意力模型(NTAM)。該模型包含了鄰域感知組件、時(shí)間組件、決策組件,在時(shí)間和空間上都能夠捕捉更多的信息。林慶維表示,通過(guò)與過(guò)去 10 年、20 年最前沿的期刊或者會(huì)議上的論文方法對(duì)比,該模型從精確度和召回率方面都有很好的效果,預(yù)測(cè)能力很強(qiáng)。
AI for DevOps主要針對(duì)的是開(kāi)發(fā)和運(yùn)維人員的生產(chǎn)效率。在出現(xiàn)問(wèn)題時(shí),解決問(wèn)題并不僅僅是快速恢復(fù)正常,而是如何通過(guò)大量的檢測(cè)、診斷,來(lái)更快、更高效地解決問(wèn)題本身。相關(guān)部署通常從非常小的規(guī)模開(kāi)始,逐步擴(kuò)大規(guī)模,在確認(rèn)每一步都安全后才能部署到云平臺(tái)。整個(gè)部署過(guò)程中需要檢測(cè)所有的健康信號(hào),包括資質(zhì)、傳感器信號(hào)、狀態(tài)等。當(dāng)任何一方面出現(xiàn)問(wèn)題時(shí),開(kāi)發(fā)人員首先會(huì)檢查是不是某個(gè)部署問(wèn)題導(dǎo)致,同時(shí)根據(jù)部署做關(guān)聯(lián)性排查。
針對(duì)AI for DevOps方面的安全部署診斷問(wèn)題,微軟亞洲研究院提出了主動(dòng)遷移學(xué)習(xí)異常檢測(cè)(ATAD)方案。該方案通過(guò)遷移學(xué)習(xí)把從別的數(shù)據(jù)上學(xué)到的知識(shí)轉(zhuǎn)化為目標(biāo)領(lǐng)域,同時(shí)通過(guò)主動(dòng)學(xué)習(xí)讓工程師排出優(yōu)先級(jí),得到更好的學(xué)習(xí)效果。目前該方案已經(jīng)用到了微軟云平臺(tái)中?!斑@個(gè)方案通常很難獲得高質(zhì)量的標(biāo)簽數(shù)據(jù),所以需要工程師有非常強(qiáng)的見(jiàn)解才能作出判別?!?林慶維表示。
AI for Customer則要打造更好的用戶體驗(yàn),為客戶提供更好的服務(wù)。
林慶維以智能虛擬機(jī)預(yù)配置為例,介紹了微軟亞洲研究院在AI for Customer方面所做的部分研究工作。云平臺(tái)申請(qǐng)?zhí)摂M機(jī)需要時(shí)間,解決這個(gè)問(wèn)題的方案之一就是預(yù)先裝好軟件和系統(tǒng)的配置,當(dāng)用戶有需求時(shí)可以直接用。但虛擬機(jī)池的容量有限,每種類似的機(jī)型不可能配置很多,所以需要預(yù)測(cè)用戶會(huì)配置什么類型的虛擬機(jī),以實(shí)現(xiàn)最優(yōu)配置。微軟亞洲研究院對(duì)此提出全新方法框架,將不確定性感知框架用于預(yù)測(cè)與優(yōu)化。結(jié)果表明,該方法實(shí)現(xiàn)了相較于其他算法更優(yōu)的表現(xiàn)。
伴隨著微軟亞洲研究院數(shù)據(jù)、知識(shí)、智能組與微軟云產(chǎn)品團(tuán)隊(duì)的深度合作,一系列創(chuàng)新技術(shù)已經(jīng)在云系統(tǒng)的故障預(yù)測(cè)、異常檢測(cè)、智能診斷、容量規(guī)劃、事故管理等諸多實(shí)際應(yīng)用場(chǎng)景中落地,相關(guān)研究成果也在 ICSE、OSDI、USENIX ATC、WWW、AAAI、KDD 等高影響力會(huì)議中發(fā)表, 極大地提升了服務(wù)質(zhì)量、用戶體驗(yàn)和工業(yè)生產(chǎn)力。
AIOps的未來(lái):自主化、主動(dòng)化、通用化
談到未來(lái)AIOps的研究方向,林慶維表示,首先是更加自動(dòng)化、自主化。目前AIOps的方向更多的是給用戶提供一定的建議和推薦,但是微軟亞洲研究院希望在未來(lái),AIOps能夠更加自主化,可以自動(dòng)做決策,幫助用戶做出最優(yōu)的決策,而不需要人工的干預(yù);二是更加主動(dòng)化,不能等到問(wèn)題出現(xiàn)了才想起來(lái)解決問(wèn)題,而是把問(wèn)題遏止在萌芽的狀態(tài);三是會(huì)更加通用化,跨平臺(tái)的AIOps應(yīng)用不僅服務(wù)于云平臺(tái),而是服務(wù)于所有平臺(tái)。