關(guān)于運維,阿里云、字節(jié)、華科的專家如是說
只有今天周密的“運”籌帷幄,才有將來持續(xù)的“維”護穩(wěn)定。不久前,阿里云聯(lián)合中國計算機行業(yè)協(xié)會信息存儲與安全專業(yè)委員會,邀請到了來自阿里云、字節(jié)跳動、華中科技大學(xué)的多位專家,共同探討數(shù)字經(jīng)濟時代存儲系統(tǒng)的運維之道。
一、降低延遲,避免系統(tǒng)性能急劇變化
運維的本質(zhì)是對網(wǎng)絡(luò)、服務(wù)器、服務(wù)的生命周期各個階段的運營與維護,在成本、穩(wěn)定性、效率上達成一致可接受的狀態(tài)。在 ICT 行業(yè)里,運維人常常調(diào)侃“運維是對應(yīng)用的承諾,不離不棄一輩子”。他們就像是數(shù)據(jù)中心和公司里IT資源的管家、保安、救火員。
阿里云智能資深技術(shù)專家、對象存儲研發(fā)負責(zé)人羅慶超對此深有體會。他回憶起了阿里云大客戶請求延時抖動保障的過往,指出云存儲服務(wù)請求的延時抖動厲害的時候,應(yīng)用整體性能會產(chǎn)生過山車式的變化。
而云上的請求延時包含網(wǎng)絡(luò)延時和存儲延時,云服務(wù)的網(wǎng)絡(luò)非常復(fù)雜,包含BGP(Border Gateway Protocol)和靜態(tài)的公網(wǎng)以及數(shù)據(jù)中心內(nèi)的網(wǎng)絡(luò)。找出影響延時的擁塞點和合理調(diào)度,對避免造成擁堵至關(guān)重要。
存儲服務(wù)還要處理好介質(zhì)訪問的延遲問題,機械/固態(tài)盤也是個復(fù)雜的系統(tǒng),壓力越大延遲越高。特別是在分布式存儲系統(tǒng)中,還會帶來傳染效應(yīng)。對象存儲OSS為了降低延時的抖動,從快速監(jiān)控、準確告警、根因分析、優(yōu)化調(diào)度入手,將延時抖動控制在合理的方差范圍內(nèi),保證了良好的客戶體驗。
華中科技大學(xué)研究員、博士生導(dǎo)師吳非笑言,由于自己來自高校,并未親身感受到運維人的壓力,但能理解堪比永動機的7*24待命之不易。當(dāng)前云存儲的可靠性要求是11個9,固態(tài)硬盤和傳統(tǒng)機械硬盤是云存儲中最基礎(chǔ)的數(shù)據(jù)存儲單元,維護起來并不簡單。前者的存儲介質(zhì)由閃存構(gòu)成,從原理上講,閃存就像一道門,每開一次就有一次磨損,在使用過程中不可避免會出現(xiàn)老化,逐漸吱呀作響,故障也接踵而至;后者像機械機器一樣不停擺動,但終有停轉(zhuǎn)之時。在由成千上萬的固態(tài)盤或硬盤所構(gòu)成的存儲系統(tǒng)里,要保證如此高的可靠性,運維人的壓力可見一斑。
二、因時而變,智能化運維大勢所趨
“欲善新基建,必先利運維”。在企業(yè)數(shù)字化進程中,運維則是濃墨重彩的一筆。
字節(jié)跳動數(shù)據(jù)庫存儲技術(shù)負責(zé)人張雷表示,從傳統(tǒng)的手動運維,到DevOps的自動化運維,再到AIOps的智能化運維,運維技術(shù)在近十幾年實現(xiàn)了跨越式發(fā)展。字節(jié)云數(shù)據(jù)庫云存儲整個運維體系的發(fā)展歷程,也大致分為三個階段。
第一個階段在2016年以前,整體的數(shù)據(jù)庫和存儲的體量都不是特別大,團隊運維還處于“刀工石斧”的狀態(tài),也就是基本上靠人工就能搞定。
第二個階段是2017到2021年,業(yè)務(wù)的規(guī)模飛速發(fā)展,云存儲的系統(tǒng)也達到了EB量級,數(shù)據(jù)庫的規(guī)模都是幾千甚至上萬套庫,人工運維天花板已顯現(xiàn),因此運維團隊轉(zhuǎn)而構(gòu)建一些自動化的運維平臺,依托這些平臺去搞定運營問題。
第三個階段是自2021年年中,依托AI等技術(shù)的第三代運維體系開始構(gòu)建。將運維人員的知識和運維經(jīng)驗與大數(shù)據(jù)、機器學(xué)習(xí)技術(shù)相結(jié)合,融入到運維系統(tǒng)中代替人力,從而解決更大規(guī)模上的運營效率問題。
在這三個階段中,整個業(yè)務(wù)體系的發(fā)展,呈現(xiàn)出兩方面的能力躍遷:一方面是運維的文化、組織、能力的提升,通俗的理解就是大家摸黑前行,從做個體運維到成體系、成建制地構(gòu)建了專職的運維的SRE的團隊去運維;另一方面,整個運維體系和服務(wù)化的一些技術(shù)體系也都在前進,比如從最早期的管理幾十臺服務(wù)器到現(xiàn)在管理幾十萬臺服務(wù)器,就是技術(shù)體系不斷演進去支持的??偠灾\維的文化和組織、以及運維的技術(shù)體系,這兩條路是齊頭并進的。
三、快速定位,診斷問題根因所在
隨著業(yè)務(wù)走上云端,運維也逐步“云化”。資源監(jiān)控、終端管控、安全支持等運維服務(wù)轉(zhuǎn)化為云端應(yīng)用,企業(yè)可以根據(jù)需求實現(xiàn)訂閱。
張雷表示通常會關(guān)注服務(wù)的黃金指標,尤其是跟穩(wěn)定性相關(guān)的一些黃金指標,因為對于大型在線服務(wù)而言,穩(wěn)定性可能是第一位的。此外,他更關(guān)注長期的所依賴服務(wù)的一些技術(shù)演進路徑,以便未雨綢繆,保證在技術(shù)或者產(chǎn)品形態(tài)上發(fā)生巨變時,運維/運營體系不會掉隊。
羅慶超指出阿里云對象存儲OSS作為服務(wù)的提供商,要做到服務(wù)承諾的SLA(服務(wù)級別協(xié)議)和 SLO(服務(wù)級別目標)這兩個關(guān)鍵指標。細而言之,OSS官網(wǎng)承諾了可用性的SLA為業(yè)界領(lǐng)先的99.995%,那作為服務(wù)商就一定會按指標準來度量請求的成功率,想盡千方百計來保證該指標。SLO則是更詳細的服務(wù)項承諾,例如保障客戶的請求整體的帶寬要能夠達到穩(wěn)定的Tbps級量級,同時一些典型的請求時延能夠保證在100ms這個量級,不能有太大的波動。
近期阿里云還會發(fā)布一個可觀測服務(wù)CloudLens,會為客戶提供主流云產(chǎn)品的運維知識。CloudLens為對象存儲OSS提供了用量分析、性能監(jiān)控、安全分析、數(shù)據(jù)保護、異常檢測、訪問情況分析等功能,從而在成本、性能、安全、數(shù)據(jù)保護、穩(wěn)定性、訪問分析6大維度支撐客戶的管理能力。
吳非認為,為了支撐應(yīng)用的快速發(fā)展,存儲技術(shù)也在不斷演進。從傳統(tǒng)的磁盤陣列到集中式存儲,再到現(xiàn)在系統(tǒng)里可能有幾十或者上萬臺服務(wù)器的分布式存儲。在技術(shù)上首先需要考慮怎樣保證成千上萬臺服務(wù)器能夠可靠運行。從運維的角度看,就是要不出故障或者少出故障,或者快速檢測出故障,達到快速修復(fù)、快速恢復(fù)、快速檢測等指標。
近年來AI發(fā)展得如火如荼,高??蒲腥藛T也在做用AI提前預(yù)測系統(tǒng)故障的相關(guān)研究,希望在系統(tǒng)故障發(fā)生前完成數(shù)據(jù)遷移,從而有效減輕運維的壓力。
四、產(chǎn)學(xué)研用,打造成長共同體
運維為業(yè)務(wù)系統(tǒng)提供的保障,既離不開阿里云這樣的服務(wù)提供商的布局,又離不開字節(jié)這樣的產(chǎn)品使用方的努力。而高校及科研院所作為基礎(chǔ)理論技術(shù)與前沿技術(shù)研究的主體,在較多關(guān)鍵前沿技術(shù)方面擁有深厚的基礎(chǔ)技術(shù)儲備和豐富的理論研究基礎(chǔ)。因此,產(chǎn)學(xué)研合作創(chuàng)新是產(chǎn)業(yè)發(fā)展需要重視的一個板塊。
吳非表示,用“共同成長體”去定義這樣的合作關(guān)系較為妥帖,這個鏈條包含了創(chuàng)新鏈、產(chǎn)業(yè)鏈以及用戶鏈。正是因為有這樣的聯(lián)盟將用戶方、研發(fā)方鏈接在一起,促進彼此的發(fā)展。用通俗的說法就是產(chǎn)、學(xué)、研、用為一體,各方共同成長、促進技術(shù)的發(fā)展與落地。
比如高校研究云存儲的可靠性問題時,提出一種新算法,在推進算法落地應(yīng)用過程中,可能需要跟字節(jié)跳動、阿里云等企業(yè)合作,在實際系統(tǒng)上部署算法,推動產(chǎn)業(yè)發(fā)展。
吳非還提到,在產(chǎn)學(xué)研界跨界創(chuàng)新也成為高校專家學(xué)者自身職業(yè)發(fā)展規(guī)劃中的重要一環(huán)。不少專家學(xué)者在產(chǎn)業(yè)界致力于推動技術(shù)落地之后再次選擇回歸學(xué)術(shù)界,這個叫做“學(xué)術(shù)休假”。她相信,未來學(xué)術(shù)界和產(chǎn)業(yè)界之間會進一步深入融合。
張雷認為,產(chǎn)學(xué)研一體化是技術(shù)從誕生到廣泛應(yīng)用的重要背后推手。最近幾年,云存儲系統(tǒng)的一些技術(shù)已然固化,他首先希望學(xué)術(shù)界、研究界能夠在基礎(chǔ)設(shè)施領(lǐng)域里帶來更多突破:無論是存儲的介質(zhì)、還是整個云存儲體系結(jié)構(gòu)的突破,亦或是一些體系、運維思路、方法上的突破,都可以為行業(yè)帶來新生機。其次,產(chǎn)業(yè)界也要精益求精,大膽嘗試新技術(shù)、新方法、新思想,并將其融入到合適的場景中。因為產(chǎn)業(yè)界的大型企業(yè)如字節(jié)跳動,整個技術(shù)體量、服務(wù)器、數(shù)量存儲量規(guī)模都比較大,其實有一個非常好的技術(shù)杠桿效應(yīng)。即使看起來一個非常小的一個技術(shù)優(yōu)化,但放到體量大的場景下就能產(chǎn)生非常大的價值。所以,產(chǎn)學(xué)研各方的互相支撐是十分必要的。
羅慶超指出,阿里云作為服務(wù)供應(yīng)商,共同成長核心有兩點:一是為共同的運維能力提供底座的服務(wù),二是吸收客戶和業(yè)界、學(xué)界提供的一些輸入以及先進思想,從而幫助底座成長。
針對兩位嘉賓提到的產(chǎn)學(xué)研結(jié)合,羅慶超表示,在共同成長的演進上有兩個階段可能會非常重要。第一個階段中,CCIA這樣組織提供了一個共同成長的土壤和生態(tài),把這個CCIA運作好,可以為運維、技術(shù)的共同成長打下堅實的基礎(chǔ)。第二階段,共同成長體一定要結(jié)出成果,比如通過CCIA這個組織,搭建交流橋梁,孵化出一些在業(yè)界頗具影響力的標準白皮書或者技術(shù)上的創(chuàng)新點子。
結(jié)語:隨著高校功能從人才培育、科學(xué)研究延伸到社會服務(wù),企業(yè)、協(xié)會與高校合作將進一步深化,這無疑有利于形成良性發(fā)展的循環(huán)圈,推動存儲科技成果加速市場化,而在這個過程中,不管是用戶還是廠商都將受益匪淺。