偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<nobr id="gjf6z"></nobr>

<em id="gjf6z"><button id="gjf6z"><em id="gjf6z"></em></button></em>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

億級Web系統(tǒng)的容錯性建設實踐

2016-05-03 16:00:30

開發(fā) 前端

容錯的核心價值，除了增強系統(tǒng)的健壯性外，我覺得是解放技術人員，盡可能讓我們不用凌晨起來處理告警，或享受一個相對平凡閑暇的周末。對于我們來說，要完全做到這點，還有很長的路要走，與君共勉。

三年多前，我在騰訊負責的活動運營系統(tǒng)，因為業(yè)務流量規(guī)模的數(shù)倍增長，系統(tǒng)出現(xiàn)了各種各樣的異常，當時，作為開發(fā)的我，7*24小時地沒日沒夜處理告警，周末和凌晨也經常上線，疲于奔命。后來，當時的老領導對我說：你不能總扮演一個“救火隊長”的角色，要嘗試從系統(tǒng)整體層面思考產生問題的根本原因，然后推進解決。

我幡然醒悟，“火”是永遠救不完的，讓系統(tǒng)能夠自動”滅火”，才是解決問題的正確方向。簡而言之，系統(tǒng)的異常不能總是依賴于“人”去恢復，讓系統(tǒng)本身具備“容錯”能力，才是根本解決之道。三年多過去了，我仍然負責著這個系統(tǒng)，而它也已經從一個日請求百萬級的小Web系統(tǒng)，逐步成長為一個高峰日請求達到8億規(guī)模的平臺級系統(tǒng)，走過一段令人難忘的技術歷程。

容錯其實是系統(tǒng)健壯性的重要指標之一，而本文會主要聚焦于“容錯”能力的實踐，希望對做技術的同學有所啟發(fā)和幫助。

（備注：QQ會員活動運營平臺，后面統(tǒng)一簡稱AMS）

一、重試機制

最容易也最簡單被人想到的容錯方式，當然就是“失敗重試”，總而言之，簡單粗暴！簡單是指它的實現(xiàn)通常很簡單，粗暴則是指使用不當，很可能會帶來系統(tǒng)“雪崩”的風險，因為重試意味著對后端服務的雙倍請求。

1. 簡單重試

我們請求一個服務，如果服務請求失敗，則重試一次。假設，這個服務在常規(guī)狀態(tài)下是99.9%的成功率，因為某一次波動性的異常，成功率下跌到 95%，那么如果有重試機制，那么成功率大概還能保持在99.75%。而簡單重試的缺陷也很明顯，如果服務真的出問題，很可能帶來雙倍流量，沖擊服務系統(tǒng)，有可能直接將服務沖垮。而在實際的真實業(yè)務場景，往往更嚴重，一個功能不可用，往往更容易引起用戶的“反復點擊”，反而制造更大規(guī)模的流量沖擊。比起服務的成功率比較低，系統(tǒng)直接被沖擊到“掛掉”的后果明顯更嚴重。

簡單重試，要使用在恰當?shù)膱鼍??；蛘撸鲃佑嬎惴粘晒β?，成功率過低，就直接不做重試行為，避免帶來過高的流量沖擊。

2. 主備服務自動切換

既然單一服務的重試，可能會給該帶來雙倍的流量沖擊，而最終導致更嚴重的后果，那么我們不如將場景變?yōu)橹鱾浞盏淖詣又卦嚮蛘咔袚Q。例如，我們搭建了兩套獲取openid的服務，如果服務A獲取失敗，則嘗試從服務B中獲取。因為重試的請求壓力是壓到了服務B上，服務A通常不會因為重試而產生雙倍的流量沖擊。

億級Web系統(tǒng)的容錯性建設實踐 - 徐漢彬Hansion

這種重試的機制，看似比較可用，而實際上也存在一些問題：

（1）通常會存在“資源浪費”的問題。因為備份服務系統(tǒng)，很可能長期處于閑置狀態(tài)，只有在主服務異常的時候，它的資源才會被比較充分地使用。不過，如果對于核心的服務業(yè)務（例如核心數(shù)據、營收相關）進行類似的部署，雖然會增加一些機器成本和預算，但這個付出通常也是物有所值的。

（2）觸發(fā)重試機制，對于用戶的請求來說，耗時必然增加。主服務請求失敗，然后再到備份服務請求，這個環(huán)節(jié)的請求耗時就至少翻倍增長，假設主服務出現(xiàn)連接（connect）超時，那么耗時就更是大幅度增加。一個服務在正常狀態(tài)下，獲取數(shù)據也許只要50ms，而服務的超時時間通常會設置到 500-1000ms，甚至更多，一旦出現(xiàn)超時重試的場景，請求耗時必然大幅度增長，很可能會比較嚴重地影響用戶體驗。

（3）主備服務一起陷入異常。如果是因為流量過大問題導致主服務異常，那么備份服務很可能也會承受不住這種級別的流量而掛掉。

重試的容錯機制，在AMS上有使用，但是相對比較少，因為我們認為主備服務，還是不足夠可靠。

二、動態(tài)剔除或者恢復異常機器

在AMS里，我們的后端涉及數(shù)以百計的各類服務，來支撐整個運營系統(tǒng)的正常運作。所有后端服務或者存儲，首先是部署為無狀態(tài)的方式提供服務（一個服務通常很多臺機器），然后，通過公司內的一個公共的智能路由服務L5，納入到AMS中。

（1）所有服務與存儲，無狀態(tài)路由。這樣做的目的，主要是為了避免單點風險，就是避免某個服務節(jié)點掛了，導致整個服務就癱瘓了。實際上，即使像一些具有主備性質（主機器掛了，支持切換到備份機器）的接入服務，也是不夠可靠的，畢竟只有2臺，它們都掛了的情況，還是可能發(fā)生的。我們后端的服務，通常都以一組機器的形式提供服務，彼此之間沒有狀態(tài)關系，支撐隨機分配請求。

（2）支持平行擴容。遇到大流量場景，支持加機器擴容。

（3）自動剔除異常機器。在我們的路由服務，發(fā)現(xiàn)某個服務的機器異常的時候（成功率低于50%），就會自動剔除該機器，后續(xù)，會發(fā)出試探性的請求，確認等它恢復正常之后，再重新加回到服務機器組。

例如，假如一組服務下?lián)碛蟹諜C器四臺（ABCD），假設A機器的服務因為某種未知原因，完全不可用了，這個時候L5服務會主動將A機器自動從服務組里剔除，只保留BCD三臺機器對外提供服務。而在后續(xù)，假如A機器從異常中恢復了，那么L5再主動將機器A加回來，最后，又變成ABCD四臺機器對外提供服務。

在過去的3年里，我們逐步將AMS內的服務，漸漸從寫死IP列表或者主備狀態(tài)的服務，全部升級和優(yōu)化為L5模式的服務，慢慢實現(xiàn)了AMS后端服務的自我容錯能力。至少，我們已經比較少遇到，再因為某一臺機器的軟件或者硬件故障，而不得不人工介入處理的情況。我們也慢慢地從疲于奔命地處理告警的苦難中，被解放出來。

三、超時時間

1. 為服務和存儲設置合理的超時時間

調用任何一個服務或者存儲，一個合理的超時時間（超時時間，就是我們請求一個服務時，等待的最長時間），是非常重要的，而這一點往往比較容易被忽視。通常Web系統(tǒng)和后端服務的通信方式，是同步等待的模式。這種模式，它會帶來的問題比較多。

對于服務端，影響比較大的一個問題，就是它會嚴重影響系統(tǒng)吞吐率。假設，我們一個服務的機器上，啟用了100個處理請求的 worker，worker的超時時間設置為5秒，1個worker處理1個任務的平均處理耗時是100ms。那么1個work在5秒鐘的時間里，能夠處理50個用戶請求，然而，一旦網絡或者服務偶爾異常，響應超時，那么在本次處理的后續(xù)整整5秒里，它僅僅處理了1個等待超時的失敗任務。一旦比較大概率出現(xiàn)這類型的超時異常，系統(tǒng)的吞吐率就會大面積下降，有可能耗盡所有的worker（資源被占據，全部在等待狀態(tài)，直到5s超時才釋放），最終導致新的請求無worker可用，只能陷入異常狀態(tài)。

算上網絡通信和其他環(huán)節(jié)的耗時，用戶就等待了超過5s時間，最后卻獲得一個異常的結果，用戶的心情通常是崩潰的。

解決這個問題的方式，就是設置一個合理的超時時間。例如，回到上面的的例子，平均處理耗時是100ms，那么我們不如將超時時間從5s下調到 500ms。從直觀上看，它就解決了吞吐率下降和用戶等待過長的問題。然而，這樣做本身又比較容易帶來新的問題，就是會引起服務的成功率下降。因為平均耗時是100ms，但是，部分業(yè)務請求本身耗時比較長，耗時超過500ms也比較多。例如，某個請求服務端耗時600ms才處理完畢，然后這個時候，客戶端認為等待超過500ms，已經斷開了連接。處理耗時比較長的這類型業(yè)務請求會受到比較明顯的影響。

2. 超時時間設置過短帶來的成功率下降

超時時間設置過短，會將很多本來處理成功的請求，當做服務超時處理掉，進而引起服務成功率下降。將全部業(yè)務服務，以一刀切的方式設置一個超時時間，是比較不可取的。優(yōu)化的方法，我們分為兩個方向。

（1）快慢分離

根據實際的業(yè)務維度，區(qū)分對待地給各個業(yè)務服務配置不同的超時時間，同時，最好也將它們的部署服務也分離出來。例如，天天酷跑的查詢服務耗時通常為 100ms，那么超時時間我們就設置為1s，某新手游的查詢服務通常耗時為700ms，那么我們就設置為5s。這樣的話，整體系統(tǒng)的成功率，就不會受到比較大的影響。

（2）解決同步阻塞等待

“快慢分離”可以改善系統(tǒng)的同步等待問題，但是，對于某些耗時本來就比較長的服務而言，系統(tǒng)的進程/線程資源仍然在同步等待過程中，無法響應其他新的請求，只能阻塞等待，它的資源仍然是被占據，系統(tǒng)的整體吞吐率仍然被大幅度拉低。

解決的思路，當然是利用I/O多路復用，通過異步回調的方式，解決同步等待過程中的資源浪費。AMS的一些核心服務，采用的就是“協(xié)程”（又叫“微線程”，簡單的說，常規(guī)異步程序代碼里嵌套比較多層的函數(shù)回調，編寫復雜。而協(xié)程則提供了一種類似寫同步代碼的方式，來寫異步回調程序），以解決同步等待的問題。異步處理的簡單描述，就是當進程遇到I/O網絡阻塞時，就保留現(xiàn)場，立刻切換去處理下一個業(yè)務請求，進程不會因為某個網絡等待而停止處理業(yè)務，進而，系統(tǒng)吞吐率即使遇到網絡等待時間過長的場景，通常都能保持在比較高的水平。

值得補充一點的是，異步處理只是解決系統(tǒng)的吞吐率問題，對于用戶的體驗問題，并不會有改善，用戶需要等待的時間并不會減少。

3. 防重入，防止重復發(fā)貨

前面我們提到，我們設置了一個比較“合理的超時時間”，簡而言之，就是一個比較短的超時時間。而在數(shù)據寫入的場景，會引起新的問題，就我們的AMS系統(tǒng)而言，就是發(fā)貨場景。如果是發(fā)貨請求超時，這個時候，我們需要思考的問題就比較多了。

（1）發(fā)貨等待超時，發(fā)貨服務執(zhí)行發(fā)貨失敗。這種場景，問題不大，后續(xù)用戶重新點擊領取按鈕，就可以觸發(fā)下一次重新發(fā)貨。

（2）發(fā)貨等待超時，發(fā)貨服務實際在更晚的時候執(zhí)行發(fā)貨成功，我們稱之為“超時成功”。比較麻煩的場景，則是每次都是發(fā)貨超時，而實際上都發(fā)貨成功，如果系統(tǒng)設計不當，有可能導致用戶可以無限領取禮包，最終造成活動運營事故。

第二種場景，給我們帶來了比較麻煩的問題，如果處理不當，用戶再次點擊，就觸發(fā)第多次“額外”發(fā)貨。

例如，我們假設某個發(fā)貨服務超時時間設置為6s，用戶點擊按鈕，我們的AMS收到請求后，請求發(fā)貨服務發(fā)貨，等待6s后，無響應，我們給用戶提示 “領取失敗”，而實際上發(fā)貨服務卻在第8秒執(zhí)行發(fā)貨成功，禮包到了用戶的賬戶上。而用戶看見“領取失敗”，則又再次點擊按鈕，最終導致“額外”多發(fā)一個禮包給到這個用戶。

例子的時序和流程圖大致如下：

這里就提到了防重入，簡單的說，就是如何確認不管用戶點擊多少次這個領取按鈕，我們都確保結果只有一種預期結果，就是只會給用戶發(fā)一次禮包，而不引起重復發(fā)貨。我們的AMS活動運營平臺一年上線的活動超過4000個，涉及數(shù)以萬計的各種類型、不同業(yè)務系統(tǒng)的禮包發(fā)貨，業(yè)務通信場景比較復雜。針對不同的業(yè)務場景，我們做了不同的解決方案：

（1）業(yè)務層面限制，設置禮包單用戶限量。在發(fā)貨服務器的源頭，設置好一個用戶僅能最多獲得1個禮包，直接避免重復發(fā)放。但是，這種業(yè)務限制，并非每個業(yè)務場景都通用的，只限于內部具備該限制能力的業(yè)務發(fā)貨系統(tǒng)，并且，有一些禮包本身就可以多次領取的，就不適用了。

（2）訂單號機制。用戶的每一次符合資格的發(fā)貨請求，都生成一個訂單號與之對應，通過它來確保1個訂單號，只發(fā)貨1次。這個方案雖然比較完善，但是，它是依賴于發(fā)貨服務方配合做“訂單號發(fā)貨狀態(tài)更新“的，而我們的發(fā)貨業(yè)務方眾多，并非每一個都能支持”訂單號更新“的場景。

（3）自動重試的異步發(fā)貨模式。用戶點擊領取禮包按鈕后，Web端直接返回成功，并且提示禮包在30分鐘內到賬。對于后臺，則將該發(fā)貨錄入到發(fā)貨隊列或者存儲中，等待發(fā)貨服務異步發(fā)貨。因為是異步處理，可以多次執(zhí)行發(fā)貨重試操作，直到發(fā)貨成功為止。同時，異步發(fā)貨是可以設置一個比較長的超時等待時間，通常不會出現(xiàn)“超時成功”的場景，并且對于前端響應來說，不需要等待后臺發(fā)貨狀態(tài)的返回。但是，這種模式，會給用戶帶來比較不好的體驗，就是沒有實時反饋，無法立刻告訴用戶，禮包是否到賬。

4. 非訂單號的特殊防刷機制

某些特殊的合作場景，我們無法使用雙方約定訂單號方式，例如一個完全隔離獨立的外部發(fā)貨接口，不能和我們做訂單號的約定?；谶@種場景，我們AMS 專門做了一種防刷的機制，就是通過限制read超時的次數(shù)。但是，這種方案并非完美解決重復發(fā)貨問題，只是能起到夠盡可能減少避免被刷的作用。一次網絡通信，通常包含：建立連接（connect），寫入數(shù)據發(fā)包（write），等待并且讀取回包（read），斷開連接（close）。

通常一個發(fā)貨服務如果出現(xiàn)異常，大多數(shù)情況，在connect步驟就是失敗或者超時，而如果一個請求走到等待回包（read）時超時，那么發(fā)貨服務另外一邊就有可能發(fā)生了“超時但發(fā)貨成功”的場景。這個時候，我們將read超時的發(fā)生次數(shù)記錄起來，然后提供了一個配置限制次數(shù)的能力。假如設置為2 次，那么當一個用戶第一次領取禮包，遇到read超時，我們就允許它重試，當還遇到第二次read超時，就達到我們之前設置的閥值2，我們就認為它可能發(fā) 貨成功，拒絕用戶的第三次領取請求。

這種做法，假設發(fā)貨服務真的出現(xiàn)很多超時成功，那么用戶也最多只能刷到2次禮包（次數(shù)可配置），而避免發(fā)生禮包無限制被刷的場景。但是，這種方案并不完全可靠，謹慎使用。

在發(fā)貨場景，還會涉及分布式場景下的CAP（一致性、可用性、分區(qū)容錯性）問題，不過，我們的系統(tǒng)并非是一個電商服務，大部分的發(fā)貨并沒有強烈的一致性要求。因此，總體而言，我們是弱化了一致性問題（核心服務，通過異步重試的方式，達到最終一致性），以追求可用性和分區(qū)容錯性的保證。

四、服務降級，自動屏蔽非核心分支異常

對于一次禮包領取請求，在我們的后端CGI會經過10多個環(huán)節(jié)和服務的邏輯判斷，包括禮包配置讀取、禮包限量檢查、登陸態(tài)校驗、安全保護等等。而這些服務中，就有不可以跳過的核心環(huán)節(jié)，例如讀取禮包配置的服務，也有非核心環(huán)節(jié)，例如數(shù)據上報。對于非核心環(huán)節(jié)，我們的做法，就是設置一個比較低的超時時間。

例如我們其中一個統(tǒng)計上報服務，平均耗時是3ms，那么我們就將超時時間設置為20ms，一旦超時則旁路掉，繼續(xù)按照正常邏輯走業(yè)務流程。

五、服務解耦、物理隔離

雖然，大家都知道一個服務的設計，要盡可能小和分離部署，如此，服務之間的耦合會比較小，一旦某個模塊出問題，受到影響的模塊就比較少，容錯能力就會更強。可是，從設計之初，就將每一個服務有序的切割地很小，這個需要設計者具備超前的意識，能夠提前意識到業(yè)務和系統(tǒng)的發(fā)展形態(tài)，而實際上，業(yè)務的發(fā)展往往是比較難以預知的，因為業(yè)務的形態(tài)會隨著產品的策略的改變而變化。在業(yè)務早期流量比較小的時候，通常也沒有足夠的人力和資源，將服務細細的切分。 AMS從日請求百萬級的Web系統(tǒng)，逐漸成長為億級，在這個過程中，流量規(guī)模增長了100倍，我們經歷了不少服務耦合帶來的陣痛。

1. 服務分離，大服務變成多個小服務

我們常常說，雞蛋不能都放在一個籃子里。AMS以前是一個比較小的系統(tǒng)（日請求百萬級，在騰訊公司內完全是一個不起眼的小Web系統(tǒng)），因此，很多服務和存儲在早起都是部署在一起的，查詢和發(fā)貨服務都放在一起，不管哪一個出問題，都相互影響。后來，我們逐漸的將這些核心的服務和存儲，慢慢地分離出來，細細切分和重新部署。在數(shù)據存儲方面，我們將原來3-5個存儲的服務，慢慢地切為20多個獨立部署的存儲。

例如，2015年下半年，我們就將其中一個核心的存儲數(shù)據，從1個分離為3個。

這樣做帶來了很多好處：

（1）原來主存儲的壓力被分流。

（2）穩(wěn)定性更高，不再是其中一個出問題，影響整個大的模塊。

（3）存儲之間是彼此物理隔離的，即使服務器硬件故障，也不會相互影響。

2. 輕重分離，物理隔離

另外一方面，我們對于一些核心的業(yè)務，進行“輕重分離”。例如，我們支持2016年“手Q春節(jié)紅包”活動項目的服務集群。就將負責信息查詢和紅包禮包發(fā)貨的集群分別獨立部署，信息查詢的服務相對沒有那么重要，業(yè)務流程比較輕量級，而紅包禮包發(fā)貨則屬于非常核心的業(yè)務，業(yè)務流程比較重。

輕重分離的這個部署方式，可以給我們帶來一些好處：

（1）查詢集群即使出問題，也不會影響發(fā)貨集群，保證用戶核心功能正常。

（2）兩邊的機器和部署的服務基本一致，在緊急的情況下，兩邊的集群可以相互支援和切換，起到容災的效果。

（3）每個集群里的機器，都是跨機房部署，例如，服務器都是分布在ABC三個機房，假設B機房整個網絡故障了，反向代理服務會將無法接受服務的B機房機器剔除，然后，剩下AC機房的服務器仍然可以正常為外界提供服務。

六、業(yè)務層面的容錯

如果系統(tǒng)架構設計層面的“容錯”我們都搭建完善了，那么再繼續(xù)下一層容錯，就需要根據實際的業(yè)務來進行，因為，不同的業(yè)務擁有不同的業(yè)務邏輯特性，也能夠導致業(yè)務層面的各種問題。而在業(yè)務層面的容錯，簡而言之，避免“人的失誤”。不管一個人做事性格多么謹慎細心，也總有“手抖”的時候，在不經意間產生“失誤”。AMS是一個活動運營平臺，一個月會上線400多個活動，涉及數(shù)以千計的活動配置信息（包括禮包、規(guī)則、活動參與邏輯等等）。在我們的業(yè)務場景下，因為種種原因而導致“人的失誤”并不少。

例如，某個運營同學看錯禮包發(fā)放的日限量，將原本只允許1天放量100個禮包的資源，錯誤地配置為每天放量200個。這種錯誤是測試同學比較難測試出來的，等到活動真正上線，禮包發(fā)放到101個的時候，就報錯了，因為資源池當天已經沒有資源了。雖然，我們的業(yè)務告警系統(tǒng)能夠快速捕獲到這個異常（每 10分鐘為一個周期，從十多個維度，監(jiān)控和計算各個活動的成功率、流量波動等等數(shù)據），但是，對于騰訊的用戶量級來說，即使只影響十多分鐘，也可以影響成千上萬的用戶，對于大規(guī)模流量的推廣活動，甚至可以影響數(shù)十萬用戶了。這樣的話，就很容易就造成嚴重的“現(xiàn)網事故”。

完善的監(jiān)控系統(tǒng)能夠及時發(fā)現(xiàn)問題，防止影響面的進一步擴大和失控，但是，它并不能杜絕現(xiàn)網問題的發(fā)生。而真正的根治之法，當然是從起源的地方杜絕這種場景的出現(xiàn)，回到上面“日限量配置錯誤”的例子場景中，用戶在內部管理端發(fā)布活動配置時，就直接提示運營同學，這個配置規(guī)則是不對的。

在業(yè)界，因為配置參數(shù)錯誤而導致的現(xiàn)網重大事故的例子，可以說是多不勝數(shù)，“配置參數(shù)問題”幾乎可以說是一個業(yè)界難題，對于解決或者緩解這種錯誤的發(fā)生，并沒有放之四海而皆準的方法，更多的是需要根據具體業(yè)務和系統(tǒng)場景，亦步亦趨地逐步建設配套的檢查機制程序或者腳本。

因此，我們建設了一套強大并且智能的配置檢查系統(tǒng)，里面集合了數(shù)十種業(yè)務的搭配檢查規(guī)則，并且檢查規(guī)則的數(shù)目一直都在增加。這里規(guī)則包括檢查禮包日限量之類比較簡單的規(guī)則，也有檢查各種關聯(lián)配置參數(shù)、相對比較復雜的業(yè)務邏輯規(guī)則。

另外一方面，流程的執(zhí)行不能通過“口頭約定”，也應該固化為平臺程序的一部分，例如，活動上線之前，我們要求負責活動的同事需要驗證一下“禮包領取邏輯”，也就是真實的去領取一次禮包。然而，這只是一個“口頭約定”，實際上并不具備強制執(zhí)行力，如果這位同事因為活動的禮包過多，而漏過其中一個禮包的驗證流程，這種事情也的確偶爾會發(fā)生，這個也算是“人的失誤”的另外一種場景。

為了解決問題，這個流程在我們AMS的內部管理端中，是通過程序去保證的，確保這位同事的QQ號碼的確領取過全部的禮包。做法其實挺簡單的，就是讓負責活動的同事設置一個驗證活動的QQ號碼，然后，程序在發(fā)貨活動時，程序會自動檢查每一個子活動項目中，是否有這個QQ號碼的活動參與記錄。如果都有參與記錄，則說明這位同事完整地領取了全部禮包。同時，其他模塊的驗證和測試，我們也都采用程序和平臺來保證，而不是通過“口頭約定”。

通過程序和系統(tǒng)對業(yè)務邏輯和流程的保證，盡可能防止“人的失誤”。

這種業(yè)務配置檢查程序，除了可以減少問題的發(fā)生，實際上也減輕了測試和驗證活動的工作，可以起到節(jié)省人力的效果。不過，業(yè)務配置檢查規(guī)則的建設并不簡單，邏輯往往比較復雜，因為要防止誤殺。

七、小結

無論是人還是機器，都是會產生“失誤”，只是對于單一個體，發(fā)生的概率通常并不大。但是，如果一個系統(tǒng)擁有數(shù)百臺服務器，或者有一項工作有幾百人共同參與，這種“失誤“的概率就被大大提升，失誤很可能就變?yōu)橐环N常態(tài)了。機器的故障，盡可能讓系統(tǒng)本身去兼容和恢復，人的失誤，盡可能通過程序和系統(tǒng)流程來避免，都盡可能做到”不依賴于人“。

容錯的核心價值，除了增強系統(tǒng)的健壯性外，我覺得是解放技術人員，盡可能讓我們不用凌晨起來處理告警，或享受一個相對平凡閑暇的周末。對于我們來說，要完全做到這點，還有很長的路要走，與君共勉。

責任編輯：王雪燕來源：技術行者

Web系統(tǒng)容錯性建設

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<thead id="aaa9u"></thead>

<bdo id="aaa9u"><code id="aaa9u"></code></bdo>