偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

無(wú)線運(yùn)維的起源與項(xiàng)目建設(shè)思考

運(yùn)維 開發(fā)
作為一個(gè)從開發(fā)轉(zhuǎn)入安全生產(chǎn)時(shí)間不太長(zhǎng)的小白,結(jié)合自身在無(wú)線運(yùn)維項(xiàng)目建設(shè)過(guò)程中的思考,來(lái)說(shuō)說(shuō)無(wú)線運(yùn)維的起源,可能更好的重溫初心。

原本是計(jì)劃寫寫無(wú)線運(yùn)維的項(xiàng)目年度總結(jié)的,但是想想一個(gè)項(xiàng)目總結(jié)文章,只是對(duì)自己和項(xiàng)目有個(gè)回顧和交代,對(duì)于無(wú)線運(yùn)維這個(gè)新的概念,還不如放開討論一下。說(shuō)到這里,可能一些好奇的同學(xué)可能會(huì)發(fā)出靈魂三問(wèn):什么是無(wú)線運(yùn)維 ?為什么要做無(wú)線運(yùn)維?無(wú)線運(yùn)維能解決什么問(wèn)題?因此,作為一個(gè)從開發(fā)轉(zhuǎn)入安全生產(chǎn)時(shí)間不太長(zhǎng)的小白,結(jié)合自身在無(wú)線運(yùn)維項(xiàng)目建設(shè)過(guò)程中的思考,來(lái)說(shuō)說(shuō)無(wú)線運(yùn)維的起源,可能更好的重溫初心。

無(wú)線運(yùn)維的來(lái)歷

說(shuō)起運(yùn)維一詞,很多人第一印象都會(huì)想到后端基礎(chǔ)設(shè)施的維護(hù)和保障,哪怕當(dāng)前是無(wú)線互聯(lián)網(wǎng)繁榮的今天,基本也不會(huì)一下子想到運(yùn)維跟無(wú)線端有什么大的聯(lián)系;那么首先我們來(lái)看看百度詞條對(duì)運(yùn)維的釋義:

“運(yùn)維,本質(zhì)上是對(duì)網(wǎng)絡(luò)、服務(wù)器、服務(wù)的生命周期各個(gè)階段的運(yùn)營(yíng)與維護(hù),在成本、穩(wěn)定性、效率上達(dá)成一致可接受的狀態(tài)?!?nbsp;

從上面百度詞條對(duì)運(yùn)維的釋義來(lái)看,運(yùn)維是一個(gè)持續(xù)性的行為,范圍是基礎(chǔ)設(shè)施以及運(yùn)行在基礎(chǔ)設(shè)施上的服務(wù),同時(shí)職責(zé)上還要兼顧穩(wěn)定性和效率;隨著國(guó)內(nèi)外各大云廠商業(yè)態(tài)的出現(xiàn)和發(fā)展,基礎(chǔ)設(shè)施已經(jīng)云化,互聯(lián)網(wǎng)的各個(gè)廠商可以更多的把精力放在業(yè)務(wù)服務(wù)上,因此保障提供的業(yè)務(wù)服務(wù)的穩(wěn)定性成了現(xiàn)在運(yùn)維的重點(diǎn)。

如今移動(dòng)互聯(lián)網(wǎng)消費(fèi)業(yè)務(wù)豐富多樣,拋開服務(wù)的架構(gòu)和部署形態(tài),單純從提供服務(wù)的組成來(lái)看,絕大多數(shù)都少不了提供數(shù)據(jù)計(jì)算和業(yè)務(wù)服務(wù)的后端程序和響應(yīng)用戶交互的前端程序;提供數(shù)據(jù)計(jì)算和業(yè)務(wù)服務(wù)的后端程序的運(yùn)維從之前的傳統(tǒng)運(yùn)維繼承下來(lái)了很多成熟的運(yùn)維工具和運(yùn)維手段;響應(yīng)用戶交互的前端程序這一塊,因?yàn)槭沁\(yùn)行在用戶的無(wú)線設(shè)備上,天生的分布式和設(shè)備差異,讓無(wú)線側(cè)的運(yùn)維的復(fù)雜性增加了許多;如何保持業(yè)務(wù)和服務(wù)在用戶無(wú)線設(shè)備上的穩(wěn)定運(yùn)行,讓用戶擁有良好的使用體感,就是無(wú)線運(yùn)維的來(lái)歷。

要解決的問(wèn)題

在無(wú)線互聯(lián)網(wǎng)繁榮發(fā)展多年后,我們?cè)跓o(wú)線端看到了很多的運(yùn)維產(chǎn)品,比如用戶打點(diǎn)和監(jiān)測(cè)日志,用戶輿情反饋和聚合訂閱,熱修復(fù)等生態(tài)工具和平臺(tái),這些都是一些被動(dòng)的或者等問(wèn)題出現(xiàn)后才感知并去處理的工具和平臺(tái);像手淘這樣的前后端上千人協(xié)同開發(fā),頻繁發(fā)布和更新各種服務(wù),擁有億級(jí)別用戶群的產(chǎn)品,被動(dòng)發(fā)現(xiàn)問(wèn)題就意味著后知后覺(jué)的線上故障;因此無(wú)線運(yùn)維的北極星目標(biāo),就是提高線上問(wèn)題的發(fā)現(xiàn)率。

如果一個(gè)事物各物理參數(shù)不隨時(shí)間變化處于平衡時(shí)的狀態(tài),那么他基本上就處于物理學(xué)意義總的穩(wěn)定;基于我們過(guò)往的線上問(wèn)題處理經(jīng)驗(yàn),也基本驗(yàn)證了:穩(wěn)定性的波動(dòng)大多數(shù)都是變更帶來(lái)的;在業(yè)務(wù)迭代中,有的是上游或者下游的變動(dòng)被動(dòng)的對(duì)你的業(yè)務(wù)產(chǎn)生了穩(wěn)定性影響,有的是自己的業(yè)務(wù)變更對(duì)自己的業(yè)務(wù)穩(wěn)定性造成波動(dòng);因此無(wú)線運(yùn)維在問(wèn)題的發(fā)現(xiàn)率上,從兩個(gè)方面去著手:一個(gè)是日常的線上問(wèn)題發(fā)現(xiàn),一個(gè)基于自身變更灰度放量下的問(wèn)題發(fā)現(xiàn)。

1.日常線上問(wèn)題的發(fā)現(xiàn)效率

日常情況下,很多問(wèn)題可能是由于業(yè)務(wù)上下游的變更導(dǎo)致當(dāng)前的業(yè)務(wù)被動(dòng)出現(xiàn)穩(wěn)定性問(wèn)題,也有一些是自身的變更造成長(zhǎng)尾歷史版本出現(xiàn)穩(wěn)定性問(wèn)題;不論那種情況,這些被發(fā)現(xiàn)的問(wèn)題,短的也逗留了幾天或一周,長(zhǎng)的幾周甚至裸奔幾個(gè)月;對(duì)于這種問(wèn)題,我們沒(méi)有啥未卜先知的好辦法,需要通過(guò)各個(gè)業(yè)務(wù)配置(不定期更新)業(yè)務(wù)核心監(jiān)控和訂閱規(guī)則告警,以及用戶反饋的業(yè)務(wù)輿情信息的日常值班留觀。

配置訂閱的監(jiān)控,告警,輿情等穩(wěn)定性反饋渠道,對(duì)于手淘這種流量巨大的產(chǎn)品,底層數(shù)據(jù)的量級(jí)也是比較大的,通過(guò)2020年的基礎(chǔ)鏈路團(tuán)隊(duì)從7月份到12月份的日常穩(wěn)定性值班實(shí)踐情況來(lái)看,每天去Crash平臺(tái),輿情平臺(tái),告警記錄等都相對(duì)仔細(xì)的瀏覽一遍,人力上也要平均四十分鐘到一個(gè)小時(shí)左右的時(shí)間;如果有疑似問(wèn)題,排查除疑那又是另外的時(shí)間了;因此日常線上問(wèn)題的發(fā)現(xiàn),發(fā)力點(diǎn)是提升問(wèn)題的發(fā)現(xiàn)效率。

發(fā)現(xiàn)效率的提升,也就是要提升日常值班的效率;因此,對(duì)于Crash我們除了訂閱自己負(fù)責(zé)的業(yè)務(wù)模塊最好把自己業(yè)務(wù)重點(diǎn)依賴的模塊也訂閱上,然后通過(guò)排行,環(huán)比上升等方式來(lái)快速突顯快速變化的記錄;輿情方面,通過(guò)一段時(shí)間的正負(fù)樣本打標(biāo)訓(xùn)練來(lái)過(guò)濾技術(shù)性輿情,同時(shí)對(duì)于輿情圖片接入OCR和關(guān)鍵詞來(lái)區(qū)分輿情與業(yè)務(wù)的關(guān)聯(lián)性;告警方面,目前的告警很多都是基于一個(gè)閾值來(lái)觸發(fā),但是線上如果有促銷活動(dòng),基于閾值的告警則誤告頻繁,因此基于時(shí)序算法的趨勢(shì)告警準(zhǔn)確性更高。

2.小流量放量下問(wèn)題的主動(dòng)發(fā)現(xiàn)率

對(duì)于用戶規(guī)模比較大的移動(dòng)互聯(lián)網(wǎng)產(chǎn)品,無(wú)灰度不變更是每個(gè)人都逐漸建立的安全生產(chǎn)意識(shí);在小流量下的變更放量,對(duì)于產(chǎn)品側(cè)來(lái)說(shuō),可以收集用戶側(cè)的點(diǎn)擊、轉(zhuǎn)化等數(shù)據(jù),來(lái)分析小規(guī)模用戶對(duì)新特性的接受程度,作為改進(jìn)產(chǎn)品/運(yùn)營(yíng)策略或是鋪開/全量的一個(gè)輔助依據(jù);對(duì)于開發(fā)和測(cè)試來(lái)說(shuō),通過(guò)小流量,能初步的驗(yàn)證代碼變更在小范圍的不同的用戶設(shè)備上的運(yùn)行的穩(wěn)定性情況,有問(wèn)題則迅速修復(fù)無(wú)問(wèn)題則擴(kuò)大放量比例。

不管是產(chǎn)品/運(yùn)營(yíng)還是開發(fā)/測(cè)試,要觀測(cè)小流量下的這一部分用戶反饋數(shù)據(jù),單靠一個(gè)唯一的灰度版本號(hào),并不能比較真實(shí)的從全局?jǐn)?shù)據(jù)大盤中圈出這一小部分?jǐn)?shù)據(jù);因?yàn)榉帕客扑?0W,并不一定意味著被推送的用戶都看見/走到了你變更的那一部分新特性!因此要想知道新的特性是否真正的在用戶側(cè)觸達(dá),端側(cè)需要對(duì)特性生效做"染色"。與此同時(shí),用戶在新特性的實(shí)際暴露期,我們?cè)贏PP的Crash報(bào)告,輿情反饋上報(bào),監(jiān)控埋點(diǎn)上報(bào)等環(huán)節(jié),都帶上這個(gè)唯一的染色標(biāo)記;這樣我們?cè)诜帕亢蟮某恋黼A段,通過(guò)這個(gè)唯一的染色標(biāo),就可以清洗出此次新特性在用戶設(shè)備上生效時(shí)產(chǎn)生的各種用戶反饋數(shù)據(jù)。

作為一個(gè)多業(yè)務(wù)模塊的用戶產(chǎn)品,多團(tuán)隊(duì)協(xié)同并行變更是常態(tài),一個(gè)版本一個(gè)時(shí)間段內(nèi),可能不止一個(gè)業(yè)務(wù)在進(jìn)行變更放量,比如一條Crash報(bào)告,如何區(qū)分到底是哪一個(gè)業(yè)務(wù)變更造成的呢 ? 這種很難快速判斷劃分,因此我們把當(dāng)前多個(gè)在變更生效的特性的染色標(biāo)都帶上,在變更染色下的Crash數(shù)據(jù)的清洗的時(shí)候,這條Crash就會(huì)出現(xiàn)在多個(gè)變更放量的留觀的Crash列表中,保證線上問(wèn)題不遺漏;其他的穩(wěn)定性染色數(shù)據(jù)的上報(bào)和清洗遵從同樣的規(guī)則。

有了能準(zhǔn)確清洗出變更特性實(shí)際生效下染色多個(gè)穩(wěn)定性指標(biāo)數(shù)據(jù)的手段,我們?cè)谛×髁糠帕坎⒅鸩郊哟蠓帕康倪^(guò)程中,就能只看變更影響下的數(shù)據(jù);如果沒(méi)有這個(gè)手段,小流量放量產(chǎn)生的問(wèn)題,由于比例比較小,在大盤海量數(shù)據(jù)作為分母的情況下,連一個(gè)漣漪都不會(huì)泛起。等到大規(guī)模放量甚至全量的時(shí)候,問(wèn)題被明顯暴露出來(lái),之前的小范圍問(wèn)題可能已經(jīng)是大范圍故障了。

能解決什么問(wèn)題

上面所說(shuō)的日常線上問(wèn)題發(fā)現(xiàn)效率和變更下問(wèn)題的主動(dòng)發(fā)現(xiàn)率,如果業(yè)務(wù)團(tuán)隊(duì)都付出行動(dòng)和努力,進(jìn)行了值班留觀和變更染色接入,對(duì)于業(yè)務(wù)團(tuán)隊(duì)來(lái)說(shuō),能多大程度解決業(yè)務(wù)同學(xué)在線上問(wèn)題的安全焦慮?這個(gè)其實(shí)就看我們通過(guò)做了這兩方面的事情,深層次是解決了什么 ? 

1.轉(zhuǎn)被動(dòng)為主動(dòng)

按照集團(tuán)安全生產(chǎn)的要求,對(duì)于線上問(wèn)題,要求5分鐘響應(yīng),15分鐘定位,60分鐘解決,這個(gè)目標(biāo)來(lái)看,也是希望研測(cè)同學(xué)能盡早的響應(yīng)和解決線上問(wèn)題,越早的解決掉線上問(wèn)題,業(yè)務(wù)同學(xué)也能相對(duì)的越主動(dòng)。

在日常的業(yè)務(wù)值班方面,經(jīng)過(guò)在基礎(chǔ)鏈路客戶端團(tuán)隊(duì)2月份-3月份的實(shí)踐經(jīng)驗(yàn)來(lái)看,每天輪流花個(gè)十五分鐘到半個(gè)小時(shí),進(jìn)行線上穩(wěn)定性的巡檢,能大大縮短問(wèn)題的暴露時(shí)長(zhǎng),提高線上問(wèn)題的響應(yīng)效率,在問(wèn)題影響變大之前,通過(guò)前后端的業(yè)務(wù)開關(guān),降級(jí)預(yù)案,熱修復(fù)等手段,基本能快速解決大部分的巡檢出來(lái)的問(wèn)題。

在變更灰度的放量監(jiān)控方面,我們通過(guò)2021年的基礎(chǔ)鏈路部分重點(diǎn)項(xiàng)目的對(duì)接和業(yè)務(wù)開關(guān)平臺(tái)灰度發(fā)布監(jiān)控的效果來(lái)看,我們通過(guò)染色下的輿情、Crash、服務(wù)端錯(cuò)誤碼,在變更發(fā)布的小流量灰度放量期間,均有效捕獲了業(yè)務(wù)/技術(shù)上的有效問(wèn)題。這些問(wèn)題都是在小流量的驗(yàn)證下發(fā)現(xiàn),并通過(guò)服務(wù)端和放量平臺(tái)的流量回滾規(guī)避了問(wèn)題的暴露和擴(kuò)散,相對(duì)日常巡檢值班來(lái)說(shuō),可以算做是真正意義上的主動(dòng)發(fā)現(xiàn)問(wèn)題。

2.縮小問(wèn)題爆炸半徑

一個(gè)線上問(wèn)題對(duì)用戶的影響可以用三個(gè)維度來(lái)度量,三個(gè)維度疊加決定了問(wèn)題的實(shí)際“爆炸半徑”:

  1. 問(wèn)題持續(xù)時(shí)長(zhǎng):?jiǎn)栴}從發(fā)生到恢復(fù)的總體時(shí)長(zhǎng)
  2. 問(wèn)題影響面:發(fā)生的次數(shù), 影響的設(shè)備數(shù)
  3. 問(wèn)題嚴(yán)重程度: 對(duì)用戶使用造成的影響程度,可以大致分為幾個(gè)等級(jí):阻塞不可用(閃退、核心功能不可用)、部分不可用、輕微不可用、無(wú)影響

日常的業(yè)務(wù)巡檢值班可以縮短線上問(wèn)題的發(fā)現(xiàn)時(shí)間,減小問(wèn)題持續(xù)時(shí)長(zhǎng);變更灰度的放量監(jiān)控可以盡早捕捉問(wèn)題和控制受影響的設(shè)備數(shù)量,減小問(wèn)題的影響面和問(wèn)題嚴(yán)重程度;無(wú)線運(yùn)維緊抓日常和變更兩個(gè)場(chǎng)景,能有效的控制和縮小問(wèn)題的爆炸半徑;

未來(lái)想解決什么問(wèn)題

上述對(duì)無(wú)線運(yùn)維要解決的問(wèn)題,能解決什么問(wèn)題的闡述內(nèi)容,也是目前無(wú)線運(yùn)維這一年探索和建設(shè)并且已經(jīng)上線的部分。在過(guò)去的2021年里,對(duì)接業(yè)務(wù)日常和變更下的線上穩(wěn)定性訴求過(guò)程中,深感目前我們還處于一個(gè)初期的階段,雖然從海量數(shù)據(jù)留觀走到了業(yè)務(wù)關(guān)心的小部分?jǐn)?shù)據(jù)留觀和監(jiān)控,但是目前還是需要業(yè)務(wù)同學(xué)投入較多的人肉工作量;業(yè)務(wù)同學(xué)也在這個(gè)過(guò)程中提出了更高的要求,希望能實(shí)現(xiàn)業(yè)務(wù)變更的分階段發(fā)布的流程化,業(yè)務(wù)Top輿情場(chǎng)景診斷和告警的智能化,從安全生產(chǎn)角度能卡住那些變更質(zhì)量不達(dá)標(biāo)的發(fā)布。

1.分階段發(fā)布

目前的業(yè)務(wù)變更放量,大多是通過(guò)業(yè)務(wù)開關(guān)、圈選人群或者類似一休這樣的放量平臺(tái)進(jìn)行放量,通過(guò)不斷的擴(kuò)量,不斷的留觀,直至業(yè)務(wù)全量;這個(gè)過(guò)程可能持續(xù)幾個(gè)月,對(duì)研測(cè)同學(xué)來(lái)說(shuō),線上穩(wěn)定性是有足夠時(shí)間來(lái)保障,對(duì)產(chǎn)品運(yùn)營(yíng)同學(xué)來(lái)說(shuō),業(yè)務(wù)全量鋪開的效率顯得過(guò)低;因此期望,能有一個(gè)從內(nèi)到外,流量從小到大的分階段發(fā)布流程,每個(gè)階段驗(yàn)證無(wú)誤后,能快速流轉(zhuǎn)到下一個(gè)階段;

  • 內(nèi)網(wǎng)白名單:業(yè)務(wù)的產(chǎn)研測(cè)、上下游團(tuán)隊(duì)以及TL,先進(jìn)行內(nèi)部體驗(yàn);
  • 內(nèi)網(wǎng)灰度:集團(tuán)內(nèi)網(wǎng)有很多熱心的同學(xué)積極反饋問(wèn)題,能反饋很多產(chǎn)品體驗(yàn)和功能bug,兜住家丑
  • 外網(wǎng)人群:產(chǎn)品運(yùn)營(yíng)圈選的第一波人群用戶,觀測(cè)用戶數(shù)據(jù)反饋,研測(cè)關(guān)注外網(wǎng)用戶線上穩(wěn)定性問(wèn)題
  • 外網(wǎng)分批灰度:分批遞增灰度放量,業(yè)務(wù)&體驗(yàn)&穩(wěn)定性綜合驗(yàn)證
  • 外網(wǎng)全量:多次灰度驗(yàn)證完成,停止變更染色,業(yè)務(wù)全量

2.智能診斷

日常線上問(wèn)題巡檢和變更下的線上問(wèn)題的我們有監(jiān)控和留觀等機(jī)制保障,但是有時(shí)確認(rèn)一個(gè)問(wèn)題它是否是一個(gè)需要處理的問(wèn)題,這個(gè)過(guò)程往往也比較耗時(shí);還有些問(wèn)題并非是通過(guò)Crash,埋點(diǎn)監(jiān)控告警能發(fā)現(xiàn),比如頁(yè)面組件缺失導(dǎo)致業(yè)務(wù)阻塞等問(wèn)題很多都是通過(guò)輿情來(lái)反饋的;如果問(wèn)題的確認(rèn)、分析和診斷,都靠拉群排查是偏低效的,通過(guò)規(guī)范化的埋點(diǎn),體系化的排查手段,引入算法是比較好的輔助方式;

  1. 定義&完善業(yè)務(wù)日志規(guī)范,打好日志可視化基礎(chǔ),建立全鏈路排查體系;
  2. 覆蓋業(yè)務(wù)阻塞/阻斷的輿情場(chǎng)景,結(jié)合用戶日志和埋點(diǎn),進(jìn)行智能分析診斷;
  3. Crash/告警,從基于閾值觸發(fā)升級(jí)到基于時(shí)序算法的趨勢(shì)智能告警;

3.發(fā)布卡口

雖然我們已經(jīng)有了變更染色的手段,可以對(duì)變更下的穩(wěn)定性問(wèn)題進(jìn)行多個(gè)指標(biāo)的監(jiān)控,但是當(dāng)前批次的發(fā)布綜合的質(zhì)量是否達(dá)到安全生產(chǎn)的要求,并沒(méi)有給出一個(gè)詳細(xì)的結(jié)論,更多是靠研測(cè)同學(xué)自行判斷決策;因此在發(fā)布過(guò)程中做每個(gè)批次的卡口,幫研測(cè)同學(xué)分析評(píng)估是否可以進(jìn)入下一階段的發(fā)布,能有一個(gè)更高效和安全的體感。

  • 線性遞增式發(fā)布:如業(yè)務(wù)開關(guān)、Patch,放量線性遞增,全量時(shí)間周期相對(duì)短,對(duì)于每次遞增放量,都應(yīng)該綜合染色數(shù)據(jù)各項(xiàng)指標(biāo)和灰度標(biāo)準(zhǔn)做Check,對(duì)于不滿足灰度標(biāo)準(zhǔn)或者染色數(shù)據(jù)指標(biāo)有異常的,應(yīng)該及時(shí)提示卡住;
  • 回旋往復(fù)式發(fā)布:如一休、服務(wù)端自定義規(guī)則放量,多個(gè)分支的流量可以隨時(shí)自由調(diào)配或回滾,放量周期相對(duì)比較長(zhǎng),在不同的流量配置疊加驗(yàn)證時(shí),也要關(guān)注對(duì)線上命中用戶的穩(wěn)定性影響,對(duì)于出現(xiàn)異常的實(shí)驗(yàn)分支,要及時(shí)提示卡住;
責(zé)任編輯:張燕妮 來(lái)源: 淘系技術(shù)
相關(guān)推薦

2025-04-30 05:00:00

批量運(yùn)維系統(tǒng)

2020-02-06 10:32:24

運(yùn)維架構(gòu)技術(shù)

2012-08-31 14:00:40

IT運(yùn)維

2023-05-09 07:16:54

2024-11-19 11:16:33

2009-07-07 14:15:42

BTNM北塔IT運(yùn)維

2009-07-20 17:07:09

公路局IT運(yùn)維北塔

2009-06-30 09:37:00

數(shù)據(jù)運(yùn)維管理建設(shè)

2013-08-08 09:16:38

IT運(yùn)維信息化

2011-11-24 21:59:55

運(yùn)維企業(yè)外包

2013-10-17 10:58:17

IT運(yùn)維管理運(yùn)維管理

2018-09-18 09:36:52

運(yùn)維數(shù)據(jù)庫(kù)智能

2014-09-12 15:14:53

運(yùn)維開發(fā)

2022-03-29 08:38:30

運(yùn)維場(chǎng)景系統(tǒng)

2017-09-26 11:04:04

運(yùn)維管理平臺(tái)

2016-11-11 19:32:56

數(shù)據(jù)庫(kù)運(yùn)維數(shù)據(jù)庫(kù)運(yùn)維管理

2018-04-19 09:32:46

2012-10-23 11:01:19

數(shù)據(jù)中心網(wǎng)絡(luò)系統(tǒng)通信網(wǎng)絡(luò)

2022-02-23 08:00:00

開發(fā)DevOps技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)