AI 如何重塑 IT 運營:從救火式響應(yīng)到智能進(jìn)化
企業(yè)的數(shù)字化轉(zhuǎn)型始終在不斷推進(jìn),伴隨而來的是IT系統(tǒng)的復(fù)雜性呈指數(shù)級增長。服務(wù)器、微服務(wù)、容器、數(shù)據(jù)平臺等多層技術(shù)堆棧交織在一起,遺留系統(tǒng)與云原生架構(gòu)相互耦合,快速迭代的業(yè)務(wù)需求與全球化部署的彈性要求,使得傳統(tǒng)IT運營模式逐漸力不從心。
面對海量指標(biāo)和告警、突發(fā)的故障、不斷更新的運營知識以及持續(xù)的系統(tǒng)迭代需求,運維團(tuán)隊往往陷入“救火式響應(yīng)”的惡性循環(huán)。然而,人工智能(AI)的引入為這一困局提供了突破之道——AI不僅解鎖了問題處理的效率邊界,更通過持續(xù)學(xué)習(xí)推動IT運營從“被動修補(bǔ)”走向“主動進(jìn)化”。
一、IT運維的惡性循環(huán)與破局點
傳統(tǒng)IT運營遵循“發(fā)現(xiàn)-診斷-排查-解決-學(xué)習(xí)”的線性邏輯,但其核心矛盾在于:問題發(fā)現(xiàn)的滯后性與解決成本的指數(shù)級增長。
當(dāng)系統(tǒng)出現(xiàn)異常時,運維團(tuán)隊需要從成千上萬的日志、指標(biāo)和告警中定位根源。這一過程往往依賴支持工程師的經(jīng)驗與人工排查,耗時且容易誤判。在我們?yōu)榭蛻籼峁┻\維服務(wù)之前,企業(yè)平均需要數(shù)小時定位復(fù)雜系統(tǒng)的故障根因,而在此期間,業(yè)務(wù)損失可能已經(jīng)產(chǎn)生。
更嚴(yán)峻的是,高昂的解決成本會倒逼團(tuán)隊選擇“短視方案”——例如直接重啟服務(wù)、打補(bǔ)丁、甚至屏蔽告警。這些臨時措施雖能快速恢復(fù)業(yè)務(wù),卻為系統(tǒng)埋下更多隱患:無論是從可觀測性還是系統(tǒng)代碼質(zhì)量來看,臨時措施都會導(dǎo)致未來故障的連鎖反應(yīng)與更高的修復(fù)成本,從而使運營團(tuán)隊陷入『負(fù)循環(huán)』。最終的結(jié)果是更高的運維成本、逐步降低的可觀測性、甚至漸漸腐化的系統(tǒng)。
AIOps(智能運維)的核心價值,正是通過AI在問題萌芽階段介入,打破這一惡性循環(huán)。它從海量數(shù)據(jù)中提取模式,在故障影響擴(kuò)散前預(yù)警、分析并推薦解決方案、根據(jù)問題的種類和優(yōu)先級提供自動化解決方案并執(zhí)行,同時將處理經(jīng)驗沉淀為可復(fù)用的知識,最終實現(xiàn)“越早處理,成本越低”的良性閉環(huán)。
二、AIOps的三大核心場景落地
場景一:指標(biāo)與告警管理——從“告警疲勞”到“精準(zhǔn)洞察”
傳統(tǒng)監(jiān)控工具常陷入“告警疲勞(Alert Fatigue)”:單一服務(wù)器CPU使用率飆升可能觸發(fā)數(shù)十條關(guān)聯(lián)告警,而其中僅1條指向真實故障。在客戶與Thoughtworks合作中,我們構(gòu)建了一整套端到端的可觀測性解決方案,包括指標(biāo)收集、告警梳理、異常處理、根因分析、協(xié)作軟件集成、直到運營報告的生成,在這個過程中,我們的解決方案設(shè)計整合了多個平臺、大語言模型、以及開源技術(shù),最終,我們能夠在工單生成前,從指標(biāo)數(shù)據(jù)中精準(zhǔn)識別問題并提前處理,以下是這個解決方案的若干構(gòu)件:
這個實施方案里:我們通過Chronosphere與Odigos進(jìn)行多個信息源的可觀測性指標(biāo)的收集、篩選、合并最終生成優(yōu)先處理的告警;告警通過Rootly告警管理平臺進(jìn)行管理,結(jié)合Slack平臺與運營人員進(jìn)行即時互動;同時利用Google Vertex AI提供的大語言模型進(jìn)行AI輔助——例如事故總結(jié)、根因分析、基礎(chǔ)知識輔助等;相關(guān)運營知識采用Glean的AI知識搜索功能進(jìn)行抽取和總結(jié);最終,在Slack上的處理結(jié)果將按類型分流:可以執(zhí)行的自動化任務(wù)(由GitHub Actions完成)、更新的知識(自動生成Conflunce頁面)、或自動生成的工單(通過Jira或Zendesk)。
通過這個解決方案的實施,我們預(yù)計AI可以通過自動化的方式處理超過20%系統(tǒng)告警、超過60%的告警可以得到在工單生成之前得到有效處理、最終降低整體的工單量。
場景二:工單自動化與響應(yīng)——從“人力密集型”到“智能流水線”
工單處理涉及大量重復(fù)性工作:用戶提交故障描述、運維人員檢索知識庫、分派任務(wù)并手動驗證結(jié)果。AI在此環(huán)節(jié)實現(xiàn)三重突破:
- 自然語言處理(NLP)自動解析工單:將用戶描述的系統(tǒng)問題自動關(guān)聯(lián)至性能指標(biāo)、近期變更記錄等上下文,生成結(jié)構(gòu)化工單。
- 知識圖譜驅(qū)動的自動化響應(yīng):例如,當(dāng)識別到『登錄失敗』工單時,AI自動檢查身份驗證服務(wù)狀態(tài)、防火墻規(guī)則及最近代碼發(fā)布記錄,并執(zhí)行預(yù)置的檢查腳本,60%的簡單問題可自動解決。
- 智能分派與協(xié)同:根據(jù)故障類型、工程師專長和當(dāng)前負(fù)載,動態(tài)分配任務(wù),并推送關(guān)聯(lián)案例和修復(fù)方案,減少跨團(tuán)隊溝通成本。
在與東南亞某國政府的合作中,我們利用該方案實現(xiàn)了工單預(yù)處理團(tuán)隊(Pre-L1)的全面自動化,成功替代8人的人工操作,每年為客戶節(jié)省近百萬美元的人工運營成本。
場景三:系統(tǒng)演進(jìn)輔助——從“推倒重建”到“慢演進(jìn)”
在與客戶的合作我們越來越發(fā)現(xiàn),一個健康、且持續(xù)健康的系統(tǒng)對于運營團(tuán)隊至關(guān)重要,優(yōu)秀的系統(tǒng)架構(gòu)、自動化程度、可觀測性等等都可以大幅降低運營團(tuán)隊的成本、提升運營效率。所以Thoughtworks DAMO提出了『慢演進(jìn)』的概念——相比高風(fēng)險的“推倒重建”,更傾向于通過迭代優(yōu)化,逐步提升系統(tǒng)健康指標(biāo)。通過AIOps的實施,我們幫助客戶節(jié)省了大量運營成本、同時我們將這些被節(jié)省的成本重新投入到系統(tǒng)的『慢演進(jìn)』中去,這里我們同樣使用AI進(jìn)行系統(tǒng)演進(jìn)。
例如以下這個例子:
為了使得每次提交的代碼,不引入架構(gòu)問題、安全風(fēng)險、或代碼質(zhì)量問題,我們采用AI和人協(xié)同進(jìn)行代碼審查的方式,秉承“持續(xù)改進(jìn)”的敏捷思想,保證在每一次代碼提交時不破壞系統(tǒng)健康。
在另一個案例中,我們結(jié)合大語言模型與知識圖譜,從遺留代碼中提取業(yè)務(wù)和系統(tǒng)知識,并將其轉(zhuǎn)化為可復(fù)用的領(lǐng)域知識,助力研發(fā)、架構(gòu)演進(jìn)、及運維管理:
三、AI驅(qū)動的IT運營新范式
AIOps不僅僅是將算法嵌入既有流程,而是推動IT運營向三個維度演進(jìn):
- 從被動響應(yīng)到主動預(yù)防:通過早期預(yù)警和根因分析,AIOps能夠在問題影響業(yè)務(wù)之前就將其攔截,從而實現(xiàn)主動防控。
- 從人工決策到人機(jī)協(xié)同:AI負(fù)責(zé)處理規(guī)則明確且高并發(fā)的簡單任務(wù),而人類專注于復(fù)雜決策和創(chuàng)新,通過這種方式,整理工單量得以減少,用戶問題的響應(yīng)能力也得到提升。
- 與架構(gòu)團(tuán)隊共同負(fù)責(zé)長期的系統(tǒng)演進(jìn):借助AI的力量,能夠有效保護(hù)代碼健康,并為系統(tǒng)架構(gòu)的持續(xù)演進(jìn)引駕護(hù)航。大語言模型的推理能力還能夠用于領(lǐng)域知識的抽取與轉(zhuǎn)化。
這種范式遷移的長期價值在于,隨著AI技術(shù)的應(yīng)用,企業(yè)IT系統(tǒng)將變得越來越智能,系統(tǒng)的迭代將越來越穩(wěn)定,從而支撐業(yè)務(wù)的數(shù)字化創(chuàng)新,同時降低長期維護(hù)成本。
四、結(jié)語
AI正在重新定義IT運營的“效率”與“價值”。它不僅是工具的升級,更是對角色定位的重新演繹:運維團(tuán)隊的角色從“系統(tǒng)修理工”轉(zhuǎn)向“架構(gòu)保護(hù)者”、甚至“業(yè)務(wù)護(hù)航者”,而IT系統(tǒng)本身也從“成本中心”演變?yōu)椤皠?chuàng)新引擎”。展望未來,隨著大模型與AI技術(shù)的進(jìn)一步成熟,AIOps或?qū)崿F(xiàn)“自治運維”。然而,這并不意味著取代人類,而是通過人機(jī)協(xié)作的智慧,成為企業(yè)數(shù)字韌性的真正基石。