偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

運維真的可以被殺死?“脆弱”的云時代,運維該怎么辦?

運維 系統(tǒng)運維
真正的反脆弱是暴露于各項不確定性的事件中,還依然保持成長。我們不懼怕任何風險,這就是反脆弱。

?[[318096]]?

 本文根據(jù)中國銀行數(shù)據(jù)中心劉揚清老師在 GOPS 全球運維大會 2019 · 深圳站分享整理而成。

一、什么是反脆弱

什么是反脆弱?反脆弱的思想源于《黑天鵝》的作者塔勒布提出的新思想,他將黑天鵝的想法進行了提升,主要討論如何應(yīng)對“黑天鵝”。作者想闡述的理論是在面對黑天鵝時如何在黑天鵝中獲利。




??


這本書很多專家給了非常高的評價,比如《思考快與慢》的作者丹尼爾?卡尼曼——“這本書改變了他對世界如何運作的看法”;樊登——“帶來了心靈和生理上的震撼”;邏輯思維羅振宇——“這是一本未來生存手冊”。

這個世界充滿很多不確定性,前段時間發(fā)生的波音 737 事件。為了防止飛機起飛時往上沖,刻意壓低飛機機頭,這本身是一個很好的安全措施,但是由于飛機的監(jiān)控點發(fā)生故障,導致程序輸入的信息錯誤,自動化的程序沒有按照正常處理,本來是不確定的事件,結(jié)果導致嚴重的事故。

再說另一件事,2018年微軟的數(shù)據(jù)中心遭雷劈而導致服務(wù)中斷24小時,造成了很大影響。

英國脫歐,很多都人預計不會脫歐,就投脫歐好了,反正其他人都會投不脫歐,結(jié)果:脫歐了!




??


什么是脆弱?在面對不確定性事件時,如果會造成很大損失,這就是脆弱。中國經(jīng)濟的高速發(fā)展讓很多人實現(xiàn)了中產(chǎn),人民群眾覺得自己的經(jīng)濟水平提高了。

2018 年有一篇帖子《流感下的北京中年》,其實帖子作者的家境不錯,但由于老丈人得了突發(fā)流感進了ICU,20多天花了幾十萬,最后他的老丈人也不幸去世了。

如果他老丈人繼續(xù)住的話可能就會賣房,如果再強一點可能會對他的家庭經(jīng)濟造成很大的損失。

看起來他是一個中產(chǎn),但在面對不確定事件時,他的家庭經(jīng)濟是比較脆弱的,因為他并未做很多可以抵御風險的措施。

2008 年的次貸危機,由于當時美國經(jīng)濟不斷放次貸,風險不斷擴大,雷曼兄弟有一筆賬收不回來,結(jié)果導致雷曼破產(chǎn),引發(fā)整個美國經(jīng)濟危機,進而因美國經(jīng)濟崩潰導致全球經(jīng)濟危機。這是小事件引發(fā)的大損失。




??


脆弱的反義詞是什么?一般我們會想到堅韌,比如汶川地震的“豬堅強”。脆弱的反義詞不是堅韌,堅韌可以保證我們不受傷,可以在糧食災荒時活下來,但這并不是脆弱的反面。

我們強調(diào)的是反脆弱,反脆弱的含義是當我們面對隨機事件沖擊時,獲得的有利結(jié)果要大于不利結(jié)果,當有特殊情況發(fā)生時不但不受傷反而變得更好。

相信大家經(jīng)常聽到一個詞“機遇與挑戰(zhàn)并存”,如果把挑戰(zhàn)處理好可能會是一個機遇,如果沒處理好對人生可能是一個打擊。

如何應(yīng)對不確定性?傳統(tǒng)做法是加強預防措施,研究意外可能造成的損失,推測最壞的情況是什么,以此做出準備。




??


反脆弱的思路不同,它對于意外和不確定性并不排斥,也不過度預防,而是相信意外和不確定性是人生的常態(tài)。意外肯定會發(fā)生,我們要做的是直接應(yīng)對。我們希望的是,在面對不確定性時是得到一些,而非失去更多。

二、云時代的脆弱性

1、云計算時代-風起云涌

云計算時代的特殊性,云計算、大數(shù)據(jù)、人工智能最近十年的發(fā)展對傳統(tǒng)行業(yè)的沖擊非常大。有人說這是非常好的時代,因為技術(shù)飛速發(fā)展,對傳統(tǒng)企業(yè)來說這是最壞的時代。




??


對于傳統(tǒng)的銀行而言,過去由于政策優(yōu)勢可以躺在政策上吃飯,隨著移動互聯(lián)網(wǎng)的發(fā)展,對傳統(tǒng)銀行的沖擊是非常大的,尤其是余額寶出來以后。余額寶類似于通過發(fā)理財?shù)姆绞轿{存款,這對銀行來說有很大的沖擊。

Brettt King 寫了《BANK 4.0》,其中提到 Banking Everywhere,never at a bank。金融以后在任何場景、任何地方都會有,但是以后可能就沒有銀行這個詞了。

前段時間剛發(fā)了虛擬銀行的牌照,大家可以直接通過互聯(lián)網(wǎng)的方式創(chuàng)辦全新的銀行,不需要有網(wǎng)點。發(fā)信用卡、存款、貸款直接在網(wǎng)上做。

現(xiàn)在發(fā)工資時也只是銀行帳號多了一串數(shù)字,使用余額寶、支付寶消費也只是從一個地方挪到另外一個地方,大家身上都不帶錢包,很多朋友可能有幾年沒有去過銀行柜臺。

金融服務(wù)肯定會和大家結(jié)合在一起,但是銀行可能就沒有了,所以傳統(tǒng)銀行也在反思,四大行除了有國家政策保護沒有任何優(yōu)勢,危機感很大。

2、云計算時代的脆弱性




??


2019年3月3日,阿里云發(fā)生宕機,很多服務(wù)受到影響超過 3 小時。大家在網(wǎng)上進行討論,云計算到底靠不靠譜。

圈子里還有一種聲音傳出,宕機的阿里云是在殺死運維行業(yè)嗎?聽說整個運維行業(yè)可能被干掉。很多運維的老前輩說《運維的恥辱感》,有一個專家寫了《運維的尊嚴》,大家聽過一首歌《運維駱駝》。

有一些專家說“不好意思,殺死運維行業(yè)可能沒那么容易”。大家可以看到,云計算服務(wù)有脆弱性在里面,運維行業(yè)在飛速發(fā)展的過程中,脆弱性可能更大。

比如 NoOps 概念,所有基礎(chǔ)環(huán)境全都是買AWS,開發(fā)版本的自動化部署平臺,通過自服務(wù)的方式部署版本,包括監(jiān)控等等。

它發(fā)現(xiàn)我需要再有系統(tǒng)運維人員,開發(fā)正常開發(fā)程序,全部部署在我的云上。一天幾萬次的變更,運行的非常穩(wěn)定。真正需要運維的只是十幾個 SRE,開發(fā)自動化運維平臺,其他的運維不需要了。

對于公司來說已經(jīng)可以基本實現(xiàn) NoOps,運維真的可以被殺死了,這對運維來說是一個警醒。

3、云服務(wù)的技術(shù)發(fā)展

??

現(xiàn)在的系統(tǒng)規(guī)模越來越大,以前銀行可能幾臺大機和幾臺小機就夠了,現(xiàn)在分布式。昨天老領(lǐng)導說亞馬遜有 500 萬臺服務(wù)器,阿里有 200 萬臺服務(wù)器,這個數(shù)量級和以前是完全不能比的。

技術(shù)架構(gòu)越來越復雜,以前可能是一個單機,現(xiàn)在虛擬化加上容器,整個應(yīng)用的復雜度呈指數(shù)級增長。

面對故障時實時性的要求越來越高。以前銀行ATM機取不了錢打個電話投訴我們處理,但是一天同時會有多少人在 ATM 機取錢?現(xiàn)在大家用手機隨時隨地進行交易、轉(zhuǎn)賬,一旦出現(xiàn)問題就會有投訴,如果幾分鐘之內(nèi)解決不了還會有更大的投訴。比如錢要拿去炒股,影響我賺錢,要賠償損失,這都是真實的案例。

影響程度越來越大。阿里云出現(xiàn)一些小故障可能會導致整個地區(qū)的服務(wù)器用不了。程序員說這個應(yīng)該沒什么問題吧,就手工執(zhí)行了一個配置,結(jié)果都掛了,影響很大。

阿里云、AWS、微軟、騰訊、谷歌都出現(xiàn)過故障和問題,我們要做的是怎么去應(yīng)對。規(guī)模化會導致脆弱性指數(shù)性增長,系統(tǒng)越復雜越容易導致失控的連鎖性的反應(yīng),我們對故障越來越難以預測,什么時候故障會出現(xiàn),我們是無法預計的。

4、運維人壓力山大

對于運維人來說壓力特別大,監(jiān)管要求越來越嚴格。在傳統(tǒng)銀行,一個故障超過30分鐘必須向銀監(jiān)會報備,報備是行長帶著科技老大去解釋,這種壓力會傳導到底下做運維的人,我們會有一個生死線,如果30分鐘之內(nèi)解決不了可能今年的績效就沒有了。

運維的資源越來越多,傳統(tǒng)銀行好一點5萬臺,互聯(lián)網(wǎng)公司百萬臺很正常。故障影響越來越大。

排查問題,以前就幾臺服務(wù)器很容易,現(xiàn)在靠人工去查根本不可能。業(yè)務(wù)要求越來越快,甚至今天上午提出的需求晚上能不能幫我實現(xiàn),這是非常實際的案例。

5、反脆弱:運維人的反擊

??

我們對服務(wù)影響的要求越來越低,挑戰(zhàn)越來越大,如果還按照以前的思路做事情的話,到后來很多人到投產(chǎn)期間要去求神拜佛,求一下觀音。但我們學了新思想:要反擊。我們要相信科學,拒絕迷信。

《七龍珠》當中孫悟空每當快被打死一次,一旦復活都會比以前更強大。我們需要從每次失敗、故障中學習、成長、反擊、復盤。

三、如何提高反脆弱性

??

如何提高反脆弱性:減少不利因素、增加可選擇性、主動理性試錯、增強生物特性。

1、減少不利因素

??

我們首先需要降低自己暴露于負面“黑天鵝”的概率之中?!柏撁婧谔禊Z”:可能會大概率出現(xiàn)問題的,或者可能會對你帶來比較大損失。

比如去爬北京的箭扣長城,因為特別險,如果一不小心就會被摔下去。從反脆弱角度來講,大家可以不去爬箭扣,可以去爬八達嶺。

從運維角度來看,負面“黑天鵝”是人工操作,人是最不靠譜的。

大家之前做運維時,靠人去做事情的時候很容易發(fā)生錯誤,如果我們能將手工去做的事情自動化,這樣就可以減少由手工操作帶來的負面黑天鵝事件的概率,可以降低人工操作的風險。

微服務(wù)拆分,如果我們的業(yè)務(wù)不是那么大,而且我們的業(yè)務(wù)訪問量也不是那么多,其實我們完全可以把它當成一個單點服務(wù),我們沒有必要為了微服務(wù)而微服務(wù)。

微服務(wù)以后,把一個大的應(yīng)用拆成十幾個微服務(wù),這對運維來說成本是大大增多的,如果微服務(wù)治理能力和工具沒有跟上,這對運維人來說是災難,根本 hold 不住。

我們要根據(jù)我們的業(yè)務(wù)場景和業(yè)務(wù)應(yīng)用特點去看要不要做微服務(wù)拆分,如果有必要,像阿里就必須要拆。

普通轉(zhuǎn)型避免被動。傳統(tǒng)銀行在面對互聯(lián)網(wǎng)金融攻擊時會反思,包括我們自己的運維能力研究也一直在按照傳統(tǒng)的方式在做,很可能過幾天傳統(tǒng)銀行就沒有了。

虛擬銀行上市以后,大家的錢都轉(zhuǎn)到虛擬銀行當中,因為很方便大家的使用。

很多銀行都有了手機銀行,移動支付很方便,但是傳統(tǒng)銀行不去跟進,大家會說中國銀行手機銀行都沒有嗎?于是把錢都轉(zhuǎn)走了,去了別的銀行。

對于傳統(tǒng)銀行來說要主動轉(zhuǎn)型,避免自己處于負面“黑天鵝”事件中。

一個系統(tǒng)的反脆弱性,往往來源于若干脆弱的單位和個人,競爭帶來反脆弱性,互聯(lián)網(wǎng)金融的發(fā)展對傳統(tǒng)金融行業(yè)其實是好事,其倒逼傳統(tǒng)金融往前創(chuàng)新。

國家一直在推動金融開放,即使加入WTO這么多年,金融一直是封閉的。

通過互聯(lián)網(wǎng)金融的發(fā)展、推動、促進,傳統(tǒng)銀行一直在自我迭代和升級,能力也一直在變強。再過幾年我們的能力在與互聯(lián)網(wǎng)行業(yè)PK時得到了提升,這個時候我們的反脆弱性得到了很大的提高。

2、增加可選擇性

??

杠鈴策略,讓自己避免出現(xiàn)在負面黑天鵝事件,同時又要想辦法把自己擠到正面黑天鵝的收益當中。

我們做理財,比如有100萬元的閑余資金,買余額寶收益低(3%),另一種買基金,收益率高,但是風險很高,這個時候大家會如何投資?

聽眾:投資完全根據(jù)個人對風險的決策,以我的情況為例,我風險承受力比較低,我會把40%、50%投入到高收益的股票,把其他投入到余額寶。如果錢對我只是數(shù)字,我會把更多的錢投入到股票當中。

按照杠鈴策略,我們可以先保住本金,把80%、90%的資金放入風險比較低的理財當中,可以用剩下20%的錢投入到有可能帶來很大收益的股票當中。假設(shè)20%的錢都沒有了,對我們也還OK。

我們需要兩頭下注,我們在做風險管理時將大量資金放在風險比較小的地方,拿出小部分放在收益可能很大的地方。

杠鈴策略最典型的是創(chuàng)新,我們可以投資創(chuàng)新,通過創(chuàng)新以小搏大。我們現(xiàn)在面臨互聯(lián)網(wǎng)發(fā)展,現(xiàn)在也能過的下去,如果這個時候能拿出人、精力、資金投資到區(qū)塊鏈、云平臺建設(shè)、AlOps建設(shè),我們這部分投入即使沒有立刻產(chǎn)生產(chǎn)出,但是對于我們的未來來說就是小投入帶來大收入的地方,我們需要不斷投入到創(chuàng)新當中,這是我們用小的投入來獲取大收益的點。

冗余,高可用架構(gòu)備份。我們要避免發(fā)生單點風險,比如阿里云。阿里云北方區(qū)服務(wù)器掛了,如果我們提前考慮,我們在騰訊上也部署一個云,如果阿里云出現(xiàn)問題一點問題都沒有。

在阿里云當中我們可以部署一個集群,數(shù)據(jù)庫做備份,我們在同一個城市會有一個本地備份,同時我們會在異地也建立一個備份,現(xiàn)在互聯(lián)網(wǎng)都是多地多中心同時提供服務(wù),一旦某技術(shù)中心掛了也不會有影響。

某大廠之前有一個案例,有一個員工把磁盤弄壞了,結(jié)果磁盤上的備份數(shù)據(jù)都找不回來了,有些小公司說我們公司所有的價值都在數(shù)據(jù)上,要求賠償1000萬元。我們對數(shù)據(jù)的備份是很關(guān)鍵的,如果那個公司的數(shù)據(jù)不僅備份在騰訊云上,同時也做了異地備份,即使騰訊云掛了,公司業(yè)務(wù)是不會受到影響。

AB Test 增加用戶的可選擇性,AB Test做的最好的是頭條。它的每一個業(yè)務(wù)場景和功能都會做兩個版本,同時發(fā)布到用戶中,不同用戶看到不同的頁面,根據(jù)用戶的反饋決定哪個功能更好,不斷通過這種方式迭代、優(yōu)化。

頭條通過這種方式增加用戶選擇性,最終實現(xiàn)自己功能的快速迭代和優(yōu)化,這讓它自己得到了很多正向黑天鵝。

3、主動理性試錯

??

我們需要用開放的態(tài)度對待錯誤,錯誤可以帶來進步,同時能夠提高系統(tǒng)健壯性。如果錯誤不夠,我們甚至可以在可控范圍內(nèi)創(chuàng)造一些人為錯誤。主動理性試錯其實是三個詞:“試錯”認為創(chuàng)作困難和發(fā)現(xiàn)錯誤;“主動”即使沒有錯誤主動去做制造;“理性”在可控的范圍內(nèi)。

持續(xù)交付,我們需要快速對用戶體驗進行迭代,以前做需求分析的時候大家把腦子里面的事情想的非常清楚,想的特別明白后再投產(chǎn)部署,但是后來發(fā)現(xiàn)用戶根本不買單。我不知道其他人怎么想怎么用,我先投出去一版,先看大家反饋。

臉書當年上新功能時被全網(wǎng)吐槽,扎克?伯格又更新了一版。對于臉書來說,這個功能如果一直在內(nèi)部研究根本沒有用,只有扔出去給客戶反饋才能知道對還是不對,好還是不好,這其實是一個好的想法,可能是角度不一樣,如果換個角度就能給用戶帶來很好的提高,是騾子是馬拉出來溜溜。

Netflix 混沌工程,系統(tǒng)軟件做到?jīng)]有?做到了。于是假設(shè)現(xiàn)在有一只猴子來到了機房當中,猴子到機房中做什么事情?把網(wǎng)線拔了,把電源線拔了,你還能不能做到?試過才知道,當然這個事情是在可控范圍內(nèi)。

從別人的錯誤中學習。人們經(jīng)常是從自己的錯誤中學習,我摔了一跤我學到了,以后不再摔跤了,但我們更多應(yīng)該是從別人的錯誤中學習。創(chuàng)業(yè)者是非常值得尊重的,因為大部分創(chuàng)業(yè)者什么也沒得到,但是卻為別人貢獻了“什么是不可行”的知識。

最近這幾年,中國互聯(lián)網(wǎng)發(fā)展迅速,這與總理提出萬眾創(chuàng)業(yè)有很大關(guān)系,大家可以做很多新的事情?;钕聛淼目隙ㄊ呛玫?,存在一定有它的價值。失敗的肯定是當時有問題或者不適應(yīng),但是這給了其他人指示,這條路不通。

4、增強生物特質(zhì)

??

任何有生命的物體在一定程度上都具有反脆弱性。人體免疫系統(tǒng)具有非常強的反脆弱性,我們的扁桃體可以防御細菌攻擊我們,白細胞在身體內(nèi)巡檢,它會清理異常細胞和病毒,它還有很強的學習能力,還能優(yōu)化自身免疫能力。

比如我們打疫苗,牛痘是跟天花很像的病毒,但是它對人體的傷害非常小,我們注重牛痘以后會讓免疫系統(tǒng)認識天花是病毒,當有天花病毒侵入人體的時候白細胞會把它干掉,所有疫苗都是這種原理,用對身體比較小的錯誤來對大錯誤進行防范。對于運維來說,我們要做好防火墻,要做好異常自愈能力。

提高免疫力的方法有三個:打疫苗,通過刺激形成抗體;休息好,心情好;定期體檢。我們可以利用混沌工程做檢測,我們可以做自動巡檢來檢查身體是否有問題。

??

我們可以利用人工智能和大數(shù)據(jù)技術(shù)實現(xiàn) AIOps,提升整個系統(tǒng)的生物性,最終我們的目標是無人運維,實現(xiàn)高度反脆弱。神經(jīng)可以感知外界信息,大腦可以對收集到的信息進行決策后行動。

反饋到運維 AlOps,我們通過大數(shù)據(jù)技術(shù)收集海量信息,感知到數(shù)據(jù)后會聚在大數(shù)據(jù)平臺中,我們將這些信息數(shù)據(jù)進行分析后做關(guān)聯(lián)影響分析、故障預警等事情,可以跟專家數(shù)據(jù)庫關(guān)聯(lián),針對這個故障應(yīng)該采取什么方式解決,再利用自動化運維的工具和平臺實現(xiàn)工具優(yōu)化。

四、運維如何轉(zhuǎn)型:意識轉(zhuǎn)型、技術(shù)轉(zhuǎn)型、人員轉(zhuǎn)型

??

1、意識轉(zhuǎn)型

??


利用反脆弱思想正確對待故障,故障是系統(tǒng)的常態(tài),沒有故障只是系統(tǒng)運行的一個特例,任何時候都有可能發(fā)生故障。我們需要做的是采取有效手段應(yīng)對故障,提高系統(tǒng)反脆弱性,讓故障不會造成影響和服務(wù)的損失;積極擁抱新技術(shù),參與到技術(shù)變更中。

鼓勵創(chuàng)新與競爭,個體的脆弱能帶來組織的反脆弱,海爾將自己的組織打散,它將自己的企業(yè)由死做活;改變對錯誤的態(tài)度,錯誤不等于失敗,錯誤是成長的點。

2、技術(shù)轉(zhuǎn)型

??

建設(shè)多地多中心的云中心架構(gòu);采用基于容器和K8s的微服務(wù)架構(gòu),通過K8s可以提高應(yīng)用架構(gòu)的轉(zhuǎn)型;建設(shè) DevOps 持續(xù)交付流水線;建設(shè)基于機器學習和AlOps的平臺。

中行的智能化運維轉(zhuǎn)型,我們有開發(fā)的工具平臺,有自動化運維,以及流程管控平臺、監(jiān)控。

??

如何實施?將所有配置、基礎(chǔ)設(shè)施標準化,在此基礎(chǔ)上做自動化,自動收集CMDB,自動完成技術(shù)環(huán)境變更,與流程打通;平臺化,對外支持服務(wù),人工智能平臺、云管理平臺、安全平臺,最后實現(xiàn)智能化,實現(xiàn)多維監(jiān)控、容量預測、趨勢預警。

3、人員轉(zhuǎn)型

??

云計算時代,如果運維還靠手工做事情是九死一生。我們首先要做運維開發(fā),谷歌提出SRE,我們需要用軟件工程的方式實現(xiàn)人工操作的事情。我們學習開發(fā)能力,至少掌握一門開發(fā)的語言。

轉(zhuǎn)型做產(chǎn)品運營,可以對業(yè)務(wù)進行指導。《終身成長》是非常好的一本書,每個人的潛力是無窮的,我們需要讓自己的思維開放,把遠方看的更遠一點,一直朝著自己的方向前進,將自己的時間、精力、金錢投入到遠方,總有一天會到達。

搞IT都不容易,我們需要不斷提高身體反脆弱性,同時提高技能的反脆弱性。

??

薄世寧提到“真正的健康,是暴露于病毒細菌的危險之下,還依然健康”。我們現(xiàn)在的生活當中遍地是細菌和病毒,有細菌沒有關(guān)系,進入我們體內(nèi)我們把它殺死就可以。真正的反脆弱是暴露于各項不確定性的事件中,還依然保持成長。我們不懼怕任何風險,這就是反脆弱。


責任編輯:武曉燕 來源: 高效運維
相關(guān)推薦

2012-08-13 10:53:28

IT運維

2019-12-26 10:10:41

運維架構(gòu)技術(shù)

2023-05-18 16:09:06

2013-07-09 13:24:42

2020-03-27 08:17:01

運維DBA服務(wù)器

2015-08-03 09:56:34

云計算運維自動化運維

2015-06-24 10:42:19

云計算運維自動化運維ANSIBLE

2013-05-06 15:10:18

IT運維管理大數(shù)據(jù)

2013-05-31 09:34:21

IT運維云時代IT運維審計

2019-08-15 09:45:54

軟件技術(shù)Docker

2020-06-30 09:35:25

智能運維云架構(gòu)IT運營

2019-03-15 10:13:10

運維云計算運營

2016-12-13 13:15:49

運維

2019-08-15 10:41:33

云時代運維容器

2018-09-27 08:59:29

2013-03-29 09:15:08

IT運維運維人員運維工程師

2017-05-16 14:25:35

運維云服務(wù)DevOps

2019-03-19 08:41:38

Linux運維變更

2016-08-10 19:49:59

優(yōu)云運維

2010-01-21 22:19:25

網(wǎng)絡(luò)優(yōu)化運維管理摩卡軟件
點贊
收藏

51CTO技術(shù)棧公眾號