偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

老板要搞微服務(wù)，只能硬著頭皮上了...

作者：二馬讀書 2020-06-22 08:38:50

開發(fā) 架構(gòu) 開發(fā)工具

微服務(wù)越來越火。很多互聯(lián)網(wǎng)公司，甚至一些傳統(tǒng)行業(yè)的系統(tǒng)都采用了微服務(wù)架構(gòu)。

微服務(wù)越來越火。很多互聯(lián)網(wǎng)公司，甚至一些傳統(tǒng)行業(yè)的系統(tǒng)都采用了微服務(wù)架構(gòu)。

圖片來自 Pexels

體會到微服務(wù)帶來好處的同時，很多公司也明顯感受到微服務(wù)化帶來的一系列讓人頭疼的問題。

本文是筆者對自己多年微服務(wù)化經(jīng)歷的總結(jié)。如果你正準(zhǔn)備做微服務(wù)轉(zhuǎn)型，或者在微服務(wù)化過程中遇到了困難。此文很可能會幫到你!

正文開始前，為了讓各位讀友更好的理解本文內(nèi)容，先花兩分鐘了解一下微服務(wù)的優(yōu)缺點。

聊起微服務(wù)，很多朋友都了解微服務(wù)帶來的好處，羅列幾點：

模塊化，降低耦合。將單體應(yīng)用按業(yè)務(wù)模塊拆分成多個服務(wù)，如果某個功能需要改動，大多數(shù)情況，我們只需要弄清楚并改動對應(yīng)的服務(wù)即可。

只改動一小部分就能滿足要求，降低了其他業(yè)務(wù)模塊受影響的可能性。從而降低了業(yè)務(wù)模塊間的耦合性。

屏蔽與自身業(yè)務(wù)無關(guān)技術(shù)細節(jié)。例如，很多業(yè)務(wù)需要查詢用戶信息，在單體應(yīng)用的情況下，所有業(yè)務(wù)場景都通過 DAO 去查詢用戶信息，隨著業(yè)務(wù)發(fā)展，并發(fā)量增加，用戶信息需要加緩存。

這樣所有業(yè)務(wù)場景都需要關(guān)注緩存，微服務(wù)化之后，緩存由各自服務(wù)維護，其他服務(wù)調(diào)用相關(guān)服務(wù)即可，不需要關(guān)注類似的緩存問題。

數(shù)據(jù)隔離，避免不同業(yè)務(wù)模塊間的數(shù)據(jù)耦合。不同的服務(wù)對應(yīng)不同數(shù)據(jù)庫表，服務(wù)之間通過服務(wù)調(diào)用的方式來獲取數(shù)據(jù)。
業(yè)務(wù)邊界清晰，代碼邊界清晰。單體架構(gòu)中不同的業(yè)務(wù)，代碼耦合嚴(yán)重，隨著業(yè)務(wù)量增長，業(yè)務(wù)復(fù)雜后，一個小功能點的修改就可能影響到其他業(yè)務(wù)點，開發(fā)質(zhì)量不可控，測試需要回歸，成本持續(xù)提高。
顯著減少代碼沖突。在單體應(yīng)用中，很多人在同一個工程上開發(fā)，會有大量的代碼沖突問題。微服務(wù)化后，按業(yè)務(wù)模塊拆分成多個服務(wù)，每個服務(wù)由專人負責(zé)，有效減少代碼沖突問題。
可復(fù)用，顯著減少代碼拷貝現(xiàn)象。

微服務(wù)確實帶來不少好處，那么微服務(wù)有沒有什么問題呢?答案是肯定的!

例如：

微服務(wù)系統(tǒng)穩(wěn)定性問題。微服務(wù)化后服務(wù)數(shù)量大幅增加，一個服務(wù)故障就可能引發(fā)大面積系統(tǒng)故障。比如服務(wù)雪崩，連鎖故障。當(dāng)一個服務(wù)故障后，依賴他的服務(wù)受到牽連也發(fā)生故障。
服務(wù)調(diào)用關(guān)系錯綜復(fù)雜，鏈路過長，問題難定位。微服務(wù)化后，服務(wù)數(shù)量劇增，大量的服務(wù)管理起來會變的更加復(fù)雜。由于調(diào)用鏈路變長，定位問題也會更加困難。
數(shù)據(jù)一致性問題。微服務(wù)化后單體系統(tǒng)被拆分成多個服務(wù)，各服務(wù)訪問自己的數(shù)據(jù)庫。而我們的一次請求操作很可能要跨多個服務(wù)，同時要操作多個數(shù)據(jù)庫的數(shù)據(jù)，我們發(fā)現(xiàn)以前用的數(shù)據(jù)庫事務(wù)不好用了。跨服務(wù)的數(shù)據(jù)一致性和數(shù)據(jù)完整性問題也就隨之而來了。
微服務(wù)化過程中，用戶無感知數(shù)據(jù)庫拆分、數(shù)據(jù)遷移的挑戰(zhàn)。

如何保障微服務(wù)系統(tǒng)穩(wěn)定性?

互聯(lián)網(wǎng)系統(tǒng)為大量的 C 端用戶提供服務(wù)，如果隔三差五的出問題宕機，會嚴(yán)重影響用戶體驗，甚至導(dǎo)致用戶流失。所以穩(wěn)定性對互聯(lián)網(wǎng)系統(tǒng)非常重要!

接下來筆者根據(jù)自己的實際經(jīng)驗來聊聊基于微服務(wù)的互聯(lián)網(wǎng)系統(tǒng)的穩(wěn)定性。

①雪崩效應(yīng)產(chǎn)生原因，如何避免?

微服務(wù)化后，服務(wù)變多，調(diào)用鏈路變長，如果一個調(diào)用鏈上某個服務(wù)節(jié)點出問題，很可能引發(fā)整個調(diào)用鏈路崩潰，也就是所謂的雪崩效應(yīng)。

舉個例子，詳細理解一下雪崩。如上圖，現(xiàn)在有 A，B，C 三個服務(wù)，A 調(diào) B，B 調(diào) C。

假如 C 發(fā)生故障，B 方法 1 調(diào)用 C 方法 1 的請求不能及時返回，B 的線程會發(fā)生阻塞等待。

B 會在一定時間后因為線程阻塞耗盡線程池所有線程，這時 B 就會無法響應(yīng) A 的請求。

A 調(diào)用 B 的請求不能及時返回，A 的線程池線程資源也會逐漸被耗盡，最終 A 也無法對外提供服務(wù)。這樣就引發(fā)了連鎖故障，發(fā)生了雪崩。

縱向：C 故障引發(fā) B 故障，B 故障引發(fā) A 故障，最終發(fā)生連鎖故障。橫向：方法 1 出問題，導(dǎo)致線程阻塞，進而線程池線程資源耗盡，最終服務(wù)內(nèi)所有方法都無法訪問，這就是“線程池污染”。

為了避免雪崩效應(yīng)，我們可以從兩個方面考慮：

在服務(wù)間加熔斷：解決服務(wù)間縱向連鎖故障問題。比如在 A 服務(wù)加熔斷，當(dāng) B 故障時，開啟熔斷，A 調(diào)用 B 的請求不再發(fā)送到 B，直接快速返回。這樣就避免了線程等待的問題。

當(dāng)然快速返回什么，F(xiàn)allback 方案是什么，也需要根據(jù)具體場景，比如返回默認值或者調(diào)用其他備用服務(wù)接口。

如果你的場景適合異步通信，可以采用消息隊列，這樣也可以有效避免同步調(diào)用的線程等待問題。

服務(wù)內(nèi)(JVM 內(nèi))線程隔離：解決橫向線程池污染的問題。為了避免因為一個方法出問題導(dǎo)致線程等待最終引發(fā)線程資源耗盡的問題，我們可以對 Tomcat，Dubbo 等的線程池分成多個小線程組，每個線程組服務(wù)于不同的類或方法。

一個方法出問題，只影響自己不影響其他方法和類。常用開源熔斷隔離組件：Hystrix，Resilience4j。

②如何應(yīng)對突發(fā)流量對服務(wù)的巨大壓力?

促銷活動或秒殺時，訪問量往往會猛增數(shù)倍。技術(shù)團隊在活動開始前一般都會根據(jù)預(yù)估訪問量適當(dāng)增加節(jié)點，但是假如流量預(yù)估少了(實際訪問量遠大于預(yù)估的訪問量)，系統(tǒng)就可能會被壓垮。

所以我們可以在網(wǎng)關(guān)層(Zuul，Gateway，Nginx 等)做限流，如果訪問量超出系統(tǒng)承載能力，就按照一定策略拋棄超出閾值的訪問請求(也要注意用戶體驗，可以給用戶返回一個友好的頁面提示)。

可以從全局，IP，userID 等多維度做限流。限流的兩個主要目的：

應(yīng)對突發(fā)流量，避免系統(tǒng)被壓垮(全局限流和 IP 限流)
防刷，防止機器人腳本等頻繁調(diào)用服務(wù)(userID 限流和 IP 限流)

③數(shù)據(jù)冗余

在核心鏈路上，服務(wù)可以冗余它依賴的服務(wù)的數(shù)據(jù)，依賴的服務(wù)故障時，服務(wù)盡量做到自保。

比如訂單服務(wù)依賴庫存服務(wù)。我們可以在訂單服務(wù)冗余庫存數(shù)據(jù)(注意控制合理的安全庫存，防超賣)。

下單減庫存時，如果庫存服務(wù)掛了，我們可以直接從訂單服務(wù)取庫存?？梢越Y(jié)合熔斷一起使用，作為熔斷的 Fallback(后備)方案。

④服務(wù)降級

可能很多人都聽過服務(wù)降級，但是又不知道降級是怎么回事。實際上，上面說的熔斷，限流，數(shù)據(jù)冗余，都屬于服務(wù)降級的范疇。

還有手動降級的例子，比如大促期間我們會關(guān)掉第三方物流接口，頁面上也關(guān)掉物流查詢功能，避免拖垮自己的服務(wù)。

這種降級的例子很多。不管什么降級方式，目的都是讓系統(tǒng)可用性更高，容錯能力更強，更穩(wěn)定。關(guān)于服務(wù)降級詳見本文后面的內(nèi)容。

⑤緩存要注意什么?

主要有如下三點：

緩存穿透：對于數(shù)據(jù)庫中根本不存在的值，請求緩存時要在緩存記錄一個空值，避免每次請求都打到數(shù)據(jù)庫

緩存雪崩：在某一時間緩存數(shù)據(jù)集中失效，導(dǎo)致大量請求穿透到數(shù)據(jù)庫，將數(shù)據(jù)庫壓垮。

可以在初始化數(shù)據(jù)時，差異化各個 key 的緩存失效時間，失效時間=一個較大的固定值+較小的隨機值。

緩存熱點。有些熱點數(shù)據(jù)訪問量會特別大，單個緩存節(jié)點(例如 Redis)無法支撐這么大的訪問量。

如果是讀請求訪問量大，可以考慮讀寫分離，一主多從的方案，用從節(jié)點分?jǐn)傋x流量;如果是寫請求訪問量大，可以采用集群分片方案，用分片分?jǐn)倢懥髁俊?/p>

以秒殺扣減庫存為例，假如秒殺庫存是 100，可以分成 5 片，每片存 20 個庫存。

⑥關(guān)于隔離的考慮

需要考慮如下幾點：

部署隔離：我們經(jīng)常會遇到秒殺業(yè)務(wù)和日常業(yè)務(wù)依賴同一個服務(wù)，以及 C 端服務(wù)和內(nèi)部運營系統(tǒng)依賴同一個服務(wù)的情況，比如說都依賴訂單服務(wù)。

而秒殺系統(tǒng)的瞬間訪問量很高，可能會對服務(wù)帶來巨大的壓力，甚至壓垮服務(wù)。內(nèi)部運營系統(tǒng)也經(jīng)常有批量數(shù)據(jù)導(dǎo)出的操作，同樣會給服務(wù)帶來一定的壓力。

這些都是不穩(wěn)定因素。所以我們可以將這些共同依賴的服務(wù)分組部署，不同的分組服務(wù)于不同的業(yè)務(wù)，避免相互干擾。

數(shù)據(jù)隔離：極端情況下還需要緩存隔離，數(shù)據(jù)庫隔離。以秒殺為例，庫存和訂單的緩存(Redis)和數(shù)據(jù)庫需要單獨部署!

數(shù)據(jù)隔離后，秒殺訂單和日常訂單不在相同的數(shù)據(jù)庫，之后的訂單查詢怎么展示?可以采用相應(yīng)的數(shù)據(jù)同步策略。

比如，在創(chuàng)建秒殺訂單后發(fā)消息到消息隊列，日常訂單服務(wù)收到消息后將訂單寫入日常訂單庫。注意，要考慮數(shù)據(jù)的一致性，可以使用事務(wù)型消息。

業(yè)務(wù)隔離：還是以秒殺為例。從業(yè)務(wù)上把秒殺和日常的售賣區(qū)分開來，把秒殺做為營銷活動，要參與秒殺的商品需要提前報名參加活動，這樣我們就能提前知道哪些商家哪些商品要參與秒殺。

可以根據(jù)提報的商品提前生成商品詳情靜態(tài)頁面并上傳到 CDN 預(yù)熱，提報的商品庫存也需要提前預(yù)熱，可以將商品庫存在活動開始前預(yù)熱到 Redis，避免秒殺開始后大量訪問穿透到數(shù)據(jù)庫。

⑦CI 測試&性能測試

CI 測試，持續(xù)集成測試，在我們每次提交代碼到發(fā)布分支前自動構(gòu)建項目并執(zhí)行所有測試用例，如果有測試用例執(zhí)行失敗，拒絕將代碼合并到發(fā)布分支，本次集成失敗。CI 測試可以保證上線質(zhì)量，適用于用例不會經(jīng)常變化的穩(wěn)定業(yè)務(wù)。

性能測試，為了保證上線性能，所有用戶側(cè)功能需要進行性能測試。上線前要保證性能測試通過。而且要定期做全鏈路壓測，有性能問題可以及時發(fā)現(xiàn)。

⑧監(jiān)控

我們需要一套完善的監(jiān)控系統(tǒng)，系統(tǒng)出問題時能夠快速告警，最好是系統(tǒng)出問題前能提前預(yù)警。

包括系統(tǒng)監(jiān)控(CPU，內(nèi)存，網(wǎng)絡(luò) IO，帶寬等監(jiān)控)，數(shù)據(jù)庫監(jiān)控(QPS，TPS，慢查詢，大結(jié)果集等監(jiān)控)，緩存中間件監(jiān)控(如 Redis)，JVM 監(jiān)控(堆內(nèi)存，GC，線程等監(jiān)控)，全鏈路監(jiān)控(pinpoint，skywaking，cat等)，各種接口監(jiān)控(QPS，TPS 等)

⑨CDN

可以充分利用 CDN。除了提高用戶訪問速度之外，頁面靜態(tài)化之后存放到 CDN，用 CDN 扛流量，可以大幅減少系統(tǒng)(源站)的訪問壓力。同時也減少了網(wǎng)站帶寬壓力。對系統(tǒng)穩(wěn)定性非常有好處。

⑩避免單點問題

除了服務(wù)要多點部署外，網(wǎng)關(guān)，數(shù)據(jù)庫，緩存也要避免單點問題，至少要有一個 Backup，而且要可以自動發(fā)現(xiàn)上線節(jié)點和自動摘除下線和故障節(jié)點。

⑪網(wǎng)絡(luò)帶寬

避免帶寬成為瓶頸，促銷和秒殺開始前提前申請帶寬。不光要考慮外網(wǎng)帶寬，還要考慮內(nèi)網(wǎng)帶寬，有些舊服務(wù)器網(wǎng)口是千兆網(wǎng)口，訪問量高時很可能會打滿。

此外，一套完善的灰度發(fā)布系統(tǒng)，可以讓上線更加平滑，避免上線大面積故障。DevOps 工具，CI，CD 對系統(tǒng)穩(wěn)定性也有很大意義。

關(guān)于服務(wù)降級

提起服務(wù)降級，估計很多人都聽說過，但是又因為親身經(jīng)歷不多，所以可能不是很理解。下面結(jié)合具體實例從多方面詳細闡述服務(wù)降級。

互聯(lián)網(wǎng)分布式系統(tǒng)中，經(jīng)常會有一些異常狀況導(dǎo)致服務(wù)器壓力劇增，比如促銷活動時訪問量會暴增，為了保證系統(tǒng)核心功能的穩(wěn)定性和可用性，我們需要一些應(yīng)對策略。

這些應(yīng)對策略也就是所謂的服務(wù)降級。下面根據(jù)筆者的實際經(jīng)歷，跟大家聊聊服務(wù)降級那些事兒。希望對大家有所啟發(fā)!

①關(guān)閉次要功能

在服務(wù)壓力過大時，關(guān)閉非核心功能，避免核心功能被拖垮。

例如，電商平臺基本都支持物流查詢功能，而物流查詢往往要依賴第三方物流公司的系統(tǒng)接口。

物流公司的系統(tǒng)性能往往不會太好。所以我們經(jīng)常會在雙 11 這種大型促銷活動期間把物流接口屏蔽掉，在頁面上也關(guān)掉物流查詢功能。這樣就避免了我們自己的服務(wù)被拖垮，也保證了重要功能的正常運行。

②降低一致性之讀降級

對于讀一致性要求不高的場景。在服務(wù)和數(shù)據(jù)庫壓力過大時，可以不讀數(shù)據(jù)庫，降級為只讀緩存數(shù)據(jù)。以這種方式來減小數(shù)據(jù)庫壓力，提高服務(wù)的吞吐量。

例如，我們會把商品評論評價信息緩存在 Redis 中。在服務(wù)和數(shù)據(jù)庫壓力過大時，只讀緩存中的評論評價數(shù)據(jù)，不在緩存中的數(shù)據(jù)不展示給用戶。

當(dāng)然評論評價這種不是很重要的數(shù)據(jù)可以考慮用 NOSQL 數(shù)據(jù)庫存儲，不過我們曾經(jīng)確實用 MySQL 數(shù)據(jù)庫存儲過評論評價數(shù)據(jù)。

③降低一致性之寫入降級

在服務(wù)壓力過大時，可以將同步調(diào)用改為異步消息隊列方式，來減小服務(wù)壓力并提高吞吐量。

既然把同步改成了異步也就意味著降低了數(shù)據(jù)一致性，保證數(shù)據(jù)最終一致即可。

例如，秒殺場景瞬間生成訂單量很高。我們可以采取異步批量寫數(shù)據(jù)庫的方式，來減少數(shù)據(jù)庫訪問頻次，進而降低數(shù)據(jù)庫的寫入壓力。

詳細步驟：后端服務(wù)接到下單請求，直接放進消息隊列，消費端服務(wù)取出訂單消息后，先將訂單信息寫入 Redis，每隔 100ms 或者積攢 100 條訂單，批量寫入數(shù)據(jù)庫一次。

前端頁面下單后定時向后端拉取訂單信息，獲取到訂單信息后跳轉(zhuǎn)到支付頁面。用這種異步批量寫入數(shù)據(jù)庫的方式大幅減少了數(shù)據(jù)庫寫入頻次，從而明顯降低了訂單數(shù)據(jù)庫寫入壓力。

不過，因為訂單是異步寫入數(shù)據(jù)庫的，就會存在數(shù)據(jù)庫訂單和相應(yīng)庫存數(shù)據(jù)暫時不一致的情況，以及用戶下單后不能及時查到訂單的情況。

因為是降級方案，可以適當(dāng)降低用戶體驗，所以我們保證數(shù)據(jù)最終一致即可。流程如下圖：

④屏蔽寫入

很多高并發(fā)場景下，查詢請求都會走緩存，這時數(shù)據(jù)庫的壓力主要是寫入壓力。所以對于某些不重要的服務(wù)，在服務(wù)和數(shù)據(jù)庫壓力過大時，可以關(guān)閉寫入功能，只保留查詢功能。這樣可以明顯減小數(shù)據(jù)庫壓力。

例如，商品的評論評價功能。為了減小壓力，大促前可以關(guān)閉評論評價功能，關(guān)閉寫接口，用戶只能查看評論評價。而大部分查詢請求走查詢緩存，從而大幅減小數(shù)據(jù)庫和服務(wù)的訪問壓力。

⑤數(shù)據(jù)冗余

服務(wù)調(diào)用者可以冗余它所依賴服務(wù)的數(shù)據(jù)。當(dāng)依賴的服務(wù)故障時，服務(wù)調(diào)用者可以直接使用冗余數(shù)據(jù)。

例如，我之前在某家自營電商公司。當(dāng)時的商品服務(wù)依賴于價格服務(wù)，獲取商品信息時，商品服務(wù)要調(diào)用價格服務(wù)獲取商品價格。

因為是自營電商，商品和 SKU 數(shù)量都不太多，一兩萬的樣子。所以我們在商品服務(wù)冗余了價格數(shù)據(jù)。當(dāng)價格服務(wù)故障后，商品服務(wù)還可以從自己冗余的數(shù)據(jù)中取到價格。

當(dāng)然這樣做價格有可能不是最新的，但畢竟這是降級方案，犧牲一些數(shù)據(jù)準(zhǔn)確性，換來系統(tǒng)的可用性還是很有意義的!

注：由于一個商品會有多個價格，比如普通價，會員價，促銷直降價，促銷滿減價，所以我們把價格做成了單獨的服務(wù)。

數(shù)據(jù)冗余可以結(jié)合熔斷一起使用，實現(xiàn)自動降級。下面的熔斷部分會詳細說明。

⑥熔斷和 Fallback

熔斷是一種自動降級手段。當(dāng)服務(wù)不可用時，用來避免連鎖故障，雪崩效應(yīng)。發(fā)生在服務(wù)調(diào)用的時候，在調(diào)用方做熔斷處理。

熔斷的意義在于，調(diào)用方快速失敗(Fail Fast)，避免請求大量阻塞。并且保護被調(diào)用方。

詳細解釋一下，假設(shè) A 服務(wù)調(diào)用 B 服務(wù)，B 發(fā)生故障后，A 開啟熔斷：

對于調(diào)用方 A：請求在 A 直接快速返回，快速失敗，不再發(fā)送到 B。避免因為 B 故障，導(dǎo)致 A 的請求線程持續(xù)等待，進而導(dǎo)致線程池線程和 CPU 資源耗盡，最終導(dǎo)致 A 無法響應(yīng)，甚至整條調(diào)用鏈故障。
對于被調(diào)用方 B：熔斷后，請求被 A 攔截，不再發(fā)送到 B，B 壓力得到緩解，避免了仍舊存活的 B 被壓垮，B 得到了保護。

還是以電商的商品和價格服務(wù)為例。獲取商品信息時，商品服務(wù)要調(diào)用價格服務(wù)獲取商品價格。為了提高系統(tǒng)穩(wěn)定性，我們要求各個服務(wù)要盡量自保。

所以我們在商品服務(wù)加了熔斷，當(dāng)價格服務(wù)故障時，商品服務(wù)請求能夠快速失敗返回，保證商品服務(wù)不被拖垮，進而避免連鎖故障。

看到這，可能有讀者會問，快速失敗后價格怎么返回呢?因為是自營電商，商品和 SKU 數(shù)量都不太多，一兩萬的樣子。所以我們做了數(shù)據(jù)冗余，在商品服務(wù)冗余了價格數(shù)據(jù)。

這樣我們在熔斷后獲取價格的 Fallback 方案就變成了從商品服務(wù)冗余的數(shù)據(jù)去取價格。

下圖為商品服務(wù)熔斷關(guān)閉和開啟的對比圖：

開源熔斷組件：Hystrix，Resilience4j 等。

⑦限流

說起服務(wù)降級，就不可避免的要聊到限流。我們先考慮一個場景，例如電商平臺要搞促銷活動，我們按照預(yù)估的峰值訪問量，準(zhǔn)備了 30 臺機器。

但是活動開始后，實際參加的人數(shù)比預(yù)估的人數(shù)翻了 5 倍，這就遠遠超出了我們的服務(wù)處理能力，給后端服務(wù)、緩存、數(shù)據(jù)庫等帶來巨大的壓力。

隨著訪問請求的不斷涌入，最終很可能造成平臺系統(tǒng)崩潰。對于這種突發(fā)流量，我們可以通過限流來保護后端服務(wù)。

因為促銷活動流量來自于用戶，用戶的請求會先經(jīng)過網(wǎng)關(guān)層再到后端服務(wù)，所以網(wǎng)關(guān)層是最合適的限流位置，如下圖：

另外，考慮到用戶體驗問題，我們還需要相應(yīng)的限流頁面。當(dāng)某些用戶的請求被限流攔截后，把限流頁面返回給用戶。頁面如下圖：

另外一個場景，假如有一個核心服務(wù)，有幾十個服務(wù)都調(diào)用他。如果其中一個服務(wù)調(diào)用者出了 Bug，頻繁調(diào)用這個核心服務(wù)，可能給這個核心服務(wù)造成非常大的壓力，甚至導(dǎo)致這個核心服務(wù)無法響應(yīng)。

同時也會影響到調(diào)用他的幾十個服務(wù)。所以每個服務(wù)也要根據(jù)自己的處理能力對調(diào)用者進行限制。

對于服務(wù)層的限流，我們一般可以利用 Spring AOP，以攔截器的方式做限流處理。這種做法雖然可以解決問題，但是問題也比較多。

比如一個服務(wù)中有 100 個接口需要限流，我們就要寫 100 個攔截器。而且限流閾值經(jīng)常需要調(diào)整，又涉及到動態(tài)修改的問題。

為了應(yīng)對這些問題，很多公司會有專門的限流平臺，新增限流接口和閾值變動可以直接在限流平臺上配置。

關(guān)于限流，還有很多細節(jié)需要考慮，比如限流算法、毛刺現(xiàn)象等。篇幅原因，這些問題就不在本文討論了。

開源網(wǎng)關(guān)組件：Nginx，Zuul，Gateway，阿里 Sentinel 等。

⑧服務(wù)降級總結(jié)和思考

上面我們結(jié)合具體案例解釋了多種降級方式。實際上，關(guān)于服務(wù)降級的方式和策略，并沒有什么定式，也沒有標(biāo)準(zhǔn)可言。

上面的降級方式也沒有涵蓋所有的情況。不同公司不同平臺的做法也不完全一樣。

不過，所有的降級方案都要以滿足業(yè)務(wù)需求為前提，都是為了提高系統(tǒng)的可用性，保證核心功能正常運行。

⑨降級分類

一般我們可以把服務(wù)降級分為手動和自動兩類。手動降級應(yīng)用較多，可以通過開關(guān)的方式開啟或關(guān)閉降級。

自動降級，比如熔斷和限流等屬于自動降級的范疇。大多手動降級也可以做成自動的方式，可以根據(jù)各種系統(tǒng)指標(biāo)設(shè)定合理閾值，在相應(yīng)指標(biāo)達到閾值上限自動開啟降級。

在很多場景下，由于業(yè)務(wù)過于復(fù)雜，需要參考的指標(biāo)太多，自動降級實現(xiàn)起來難度會比較大，而且也很容易出錯。

所以在考慮做自動降級之前一定要充分做好評估，相應(yīng)的自動降級方案也要考慮周全。

⑩大規(guī)模分布式系統(tǒng)如何降級?

在大規(guī)模分布式系統(tǒng)中，經(jīng)常會有成百上千的服務(wù)。在大促前往往會根據(jù)業(yè)務(wù)的重要程度和業(yè)務(wù)間的關(guān)系批量降級。

這就需要技術(shù)和產(chǎn)品提前對業(yè)務(wù)和系統(tǒng)進行梳理，根據(jù)梳理結(jié)果確定哪些服務(wù)可以降級，哪些服務(wù)不可以降級，降級策略是什么，降級順序怎么樣。

大型互聯(lián)網(wǎng)公司基本都會有自己的降級平臺，大部分降級都在平臺上操作，比如手動降級開關(guān)，批量降級順序管理，熔斷閾值動態(tài)設(shè)置，限流閾值動態(tài)設(shè)置等等。

本節(jié)的主要目的是通過具體實例，讓大家了解服務(wù)降級，并提供一些降級的思路。具體的降級方式和方案還是要取決于實際的業(yè)務(wù)場景和系統(tǒng)狀況。

微服務(wù)架構(gòu)下數(shù)據(jù)一致性問題

服務(wù)化后單體系統(tǒng)被拆分成多個服務(wù)，各服務(wù)訪問自己的數(shù)據(jù)庫。而我們的一次請求操作很可能要跨多個服務(wù)，同時要操作多個數(shù)據(jù)庫的數(shù)據(jù)，我們發(fā)現(xiàn)以前用的數(shù)據(jù)庫事務(wù)不好用了。那么基于微服務(wù)的架構(gòu)如何保證數(shù)據(jù)一致性呢?

好，咱們這次就盤一盤分布式事務(wù)，最終一致，補償機制，事務(wù)型消息!

提起這些，大家可能會想到兩階段提交，XA，TCC，Saga，還有最近阿里開源的 Seata(Fescar)，這些概念網(wǎng)上一大堆文章，不過都太泛泛，不接地氣，讓人看了云里霧里。

我們以 TCC 分布式事務(wù)和 RocketMQ 事務(wù)型消息為例，做詳細分享!這個弄明白了，也就清楚分布式事務(wù)，最終一致，補償機制這些概念啦!

①TCC 分布式事務(wù)

TCC(Try-Confirm-Cancel)是分布式事務(wù)的一種模式，可以保證不同服務(wù)的數(shù)據(jù)最終一致。

目前有不少 TCC 開源框架，比如 Hmily，ByteTCC，TCC-Transaction (我們之前用過 Hmily 和公司架構(gòu)組自研組件)。下面以電商下單流程為例對 TCC 做詳細闡述。

流程圖如下：

基本步驟如下：

修改訂單狀態(tài)為“已支付”
扣減庫存
扣減優(yōu)惠券
通知 WMS(倉儲管理系統(tǒng))撿貨出庫(異步消息)

我們先看扣減庫存，更新訂單狀態(tài)和扣減優(yōu)惠券這三步同步調(diào)用，通知 WMS 的異步消息會在后面的“基于消息的最終一致”部分詳細闡述!

下面是偽代碼，不同公司的產(chǎn)品邏輯會有差異，相關(guān)代碼邏輯也可能會有不同，大家不用糾結(jié)代碼邏輯正確性。

public void makePayment() { 
   orderService.updateStatus(OrderStatus.Payed); //訂單服務(wù)更新訂單為已支付狀態(tài) 
   inventoryService.decrStock(); //庫存服務(wù)扣減庫存 
   couponService.updateStatus(couponStatus.Used); //卡券服務(wù)更新優(yōu)惠券為已使用狀態(tài)       
}

看完這段代碼，大家可能覺得很簡單!那么有什么問題嗎?答案是肯定的。沒法保證數(shù)據(jù)一致性，也就是說不能保證這幾步操作全部成功或者全部失敗!

因為這幾步操作是在分布式環(huán)境下進行的，每個操作分布在不同的服務(wù)中，不同的服務(wù)又對應(yīng)不同的數(shù)據(jù)庫，本地事務(wù)已經(jīng)用不上了!

假如第一步更新訂單為“已支付”成功了，第二步扣減庫存時，庫存服務(wù)掛了或者網(wǎng)絡(luò)出問題了，導(dǎo)致扣減庫存失敗。你告訴用戶支付成功了，但是庫存沒扣減。這怎么能行!

接下來，我們來看看TCC是如何幫我們解決這個問題并保證數(shù)據(jù)最終一致的。

TCC 分為兩個階段：

Try(預(yù)留凍結(jié)相關(guān)業(yè)務(wù)資源，設(shè)置臨時狀態(tài)，為下個階段做準(zhǔn)備)
Confirm 或者 Cancel(Confirm：對資源進行最終操作，Cancel：取消資源)

第一階段 Try：

更新訂單狀態(tài)：此時因為還沒真正完成整個流程，訂單狀態(tài)不能直接改成已支付狀態(tài)。可以加一個臨時狀態(tài) Paying，表明訂單正在支付中，支付結(jié)果暫時還不清楚!
凍結(jié)庫存：假設(shè)現(xiàn)在可銷售庫存 stock 是 10，這單扣減 1 個庫存，別直接把庫存減掉，而是在表中加一個凍結(jié)字段 locked_stock，locked_stock 加 1，再給 stock 減 1，這樣就相當(dāng)于凍結(jié)了 1 個庫存。兩個操作放在一個本地事務(wù)里。
更新優(yōu)惠券狀態(tài)：優(yōu)惠券加一個臨時狀態(tài) Inuse，表明優(yōu)惠券正在使用中，具體有沒有正常被使用暫時還不清楚!

第二階段 Confirm：假如第一階段幾個 Try 操作都成功了!既然第一階段已經(jīng)預(yù)留了庫存，而且訂單狀態(tài)和優(yōu)惠券狀態(tài)也設(shè)置了臨時狀態(tài)，第二階段的確認提交從業(yè)務(wù)上來說應(yīng)該沒什么問題了。

Confirm 階段我們需要做下面三件事：

先將訂單狀態(tài)從 Paying 改為已支付 Payed，訂單狀態(tài)也完成了。
再將凍結(jié)的庫存恢復(fù) locked_stock 減 1，stock 第一階段已經(jīng)減掉 1 是 9 了，到此扣減庫存就真正完成了。
再將優(yōu)惠券狀態(tài)從 Inuse 改為 Used，表明優(yōu)惠券已經(jīng)被正常使用。

第二階段 Cancel，假如第一階段失敗了：

先將訂單狀態(tài)從 Paying 恢復(fù)為待支付 UnPayed。
再將凍結(jié)的庫存還回到可銷售庫存中，stock 加 1 恢復(fù)成 10，locked_stock 減 1，可以放在一個本地事務(wù)完成。
再將優(yōu)惠券狀態(tài)從 Inuse 恢復(fù)為未使用 Unused。

基于 Hmily 框架的代碼：

//訂單服務(wù) 
public class OrderService{ 
 
  //tcc接口 
  @Hmily(confirmMethod = "confirmOrderStatus", cancelMethod = "cancelOrderStatus") 
  public void makePayment() { 
     更新訂單狀態(tài)為支付中 
     凍結(jié)庫存，rpc調(diào)用 
     優(yōu)惠券狀態(tài)改為使用中，rpc調(diào)用 
  } 
 
  public void confirmOrderStatus() { 
     更新訂單狀態(tài)為已支付 
  } 
 
  public void cancelOrderStatus() { 
     恢復(fù)訂單狀態(tài)為待支付  
  }   
 
}

//庫存服務(wù) 
public class InventoryService { 
 
  //tcc接口 
  @Hmily(confirmMethod = "confirmDecr", cancelMethod = "cancelDecr") 
  public void lockStock() { 
     //防懸掛處理（下面有說明） 
     if (分支事務(wù)記錄表沒有二階段執(zhí)行記錄) 
       凍結(jié)庫存 
     else 
       return; 
  } 
 
  public void confirmDecr() { 
     確認扣減庫存 
  } 
  public void cancelDecr() { 
     釋放凍結(jié)的庫存 
  }   
 
}

//卡券服務(wù) 
public class CouponService { 
 
  //tcc接口 
  @Hmily(confirmMethod = "confirm", cancelMethod = "cancel") 
  public void handleCoupon() { 
     //防懸掛處理（下面有說明） 
     if (分支事務(wù)記錄表沒有二階段執(zhí)行記錄) 
       優(yōu)惠券狀態(tài)更新為臨時狀態(tài)Inuse 
     else 
       return; 
  } 
 
  public void confirm() { 
     優(yōu)惠券狀態(tài)改為Used 
  } 
  public void cancel() { 
     優(yōu)惠券狀態(tài)恢復(fù)為Unused 
  }   
 
}

問題 1：有些朋友可能會問了，這些關(guān)于流程的邏輯也要手動編碼嗎?這也太麻煩了吧!

實際上 TCC 分布式事務(wù)框架幫我們把這些事都干了。比如我們前面提到的 Hmily，ByteTCC，TCC-transaction 這些框架。

因為 Try，Confirm，Cancel 這些操作都在 TCC 分布式事務(wù)框架控制范圍之內(nèi)，所以 Try 的各個步驟成功了或者失敗了。

框架本身都知道，Try 成功了框架就會自動執(zhí)行各個服務(wù)的 Confirm，Try 失敗了框架就會執(zhí)行各個服務(wù)的 Cancel(各個服務(wù)內(nèi)部的 TCC 分布式事務(wù)框架會互相通信)。所以我們不用關(guān)心流程，只需要關(guān)注業(yè)務(wù)代碼就可以啦!

問題 2：仔細想想，好像還有問題!假如 Confirm 階段更新訂單狀態(tài)成功了，但是扣減庫存失敗了怎么辦呢?

比如網(wǎng)絡(luò)出問題了或者庫存服務(wù)(宕機，重啟)出問題了。當(dāng)然，分布式事務(wù)框架也會考慮這些場景，框架會記錄操作日志。

假如 Confirm 階段扣減庫存失敗了，框架會不斷重試調(diào)用庫存服務(wù)直到成功(考慮性能問題，重試次數(shù)應(yīng)該有限制)。Cancel 過程也是一樣的道理。

注意，既然需要重試，我們就要保證接口的冪等性。什么?不太懂冪等性。簡單說：一個操作不管請求多少次，結(jié)果都要保證一樣。這里就不詳細介紹啦!

再考慮一個場景，Try 階段凍結(jié)庫存的時候，因為是 RPC 遠程調(diào)用，在網(wǎng)絡(luò)擁塞等情況下，是有可能超時的。

假如凍結(jié)庫存時發(fā)生超時，TCC 框架會回滾(Cancel)整個分布式事務(wù)，回滾完成后凍結(jié)庫存請求才到達參與者(庫存服務(wù))并執(zhí)行，這時被凍結(jié)的庫存就沒辦法處理(恢復(fù))了。

這種情況稱之為“懸掛”，也就是說預(yù)留的資源后續(xù)無法處理。解決方案：第二階段已經(jīng)執(zhí)行，第一階段就不再執(zhí)行了，可以加一個“分支事務(wù)記錄表”，如果表里有相關(guān)第二階段的執(zhí)行記錄，就不再執(zhí)行 Try(上面代碼有防懸掛處理)。

有人可能注意到還有些小紕漏，對，加鎖，分布式環(huán)境下，我們可以考慮對第二階段執(zhí)行記錄的查詢和插入加上分布式鎖，確保萬無一失。

②基于消息的最終一致

還是以上面的電商下單流程為例：

上圖，下單流程最后一步，通知 WMS 撿貨出庫，是異步消息走消息隊列。

public void makePayment() { 
   orderService.updateStatus(OrderStatus.Payed); //訂單服務(wù)更新訂單為已支付狀態(tài) 
   inventoryService.decrStock(); //庫存服務(wù)扣減庫存 
   couponService.updateStatus(couponStatus.Used); //卡券服務(wù)更新優(yōu)惠券為已使用狀態(tài)       
   發(fā)送MQ消息撿貨出庫； //發(fā)送消息通知WMS撿貨出庫 
}

按上面代碼，大家不難發(fā)現(xiàn)問題!如果發(fā)送撿貨出庫消息失敗，數(shù)據(jù)就會不一致!

有人說我可以在代碼上加上重試邏輯和回退邏輯，發(fā)消息失敗就重發(fā)，多次重試失敗所有操作都回退。

這樣一來邏輯就會特別復(fù)雜，回退失敗要考慮，而且還有可能消息已經(jīng)發(fā)送成功了，但是由于網(wǎng)絡(luò)等問題發(fā)送方?jīng)]得到 MQ 的響應(yīng)，這些問題都要考慮進來!

幸好，有些消息隊列幫我們解決了這些問題。比如阿里開源的 RocketMQ(目前已經(jīng)是 Apache 開源項目)，4.3.0 版本開始支持事務(wù)型消息(實際上早在貢獻給 Apache 之前曾經(jīng)支持過事務(wù)消息，后來被閹割了，4.3.0 版本重新開始支持事務(wù)型消息)。

先看看 RocketMQ 發(fā)送事務(wù)型消息的流程：

發(fā)送半消息(所有事務(wù)型消息都要經(jīng)歷確認過程，從而確定最終提交或回滾(拋棄消息)，未被確認的消息稱為“半消息”或者“預(yù)備消息”，“待確認消息”)。
半消息發(fā)送成功并響應(yīng)給發(fā)送方。
執(zhí)行本地事務(wù)，根據(jù)本地事務(wù)執(zhí)行結(jié)果，發(fā)送提交或回滾的確認消息。
如果確認消息丟失(網(wǎng)絡(luò)問題或者生產(chǎn)者故障等問題)，MQ 向發(fā)送方回查執(zhí)行結(jié)果。
根據(jù)上一步驟回查結(jié)果，確定提交或者回滾(拋棄消息)。

看完事務(wù)型消息發(fā)送流程，有些讀者可能沒有完全理解，不要緊，我們來分析一下!

問題 1：假如發(fā)送方發(fā)送半消息失敗怎么辦?

半消息(待確認消息)是消息發(fā)送方發(fā)送的，如果失敗，發(fā)送方自己是知道的并可以做相應(yīng)處理。

問題 2：假如發(fā)送方執(zhí)行完本地事務(wù)后，發(fā)送確認消息通知 MQ 提交或回滾消息時失敗了(網(wǎng)絡(luò)問題，發(fā)送方重啟等情況)，怎么辦?

沒關(guān)系，當(dāng) MQ 發(fā)現(xiàn)一個消息長時間處于半消息(待確認消息)的狀態(tài)，MQ 會以定時任務(wù)的方式主動回查發(fā)送方并獲取發(fā)送方執(zhí)行結(jié)果。

這樣即便出現(xiàn)網(wǎng)絡(luò)問題或者發(fā)送方本身的問題(重啟，宕機等)，MQ 通過定時任務(wù)主動回查發(fā)送方基本都能確認消息最終要提交還是回滾(拋棄)。

當(dāng)然出于性能和半消息堆積方面的考慮，MQ 本身也會有回查次數(shù)的限制。

問題 3：如何保證消費一定成功呢?

RocketMQ 本身有 Ack 機制，來保證消息能夠被正常消費。如果消費失敗(消息訂閱方出錯，宕機等原因)，RocketMQ 會把消息重發(fā)回 Broker，在某個延遲時間點后(默認 10 秒后)重新投遞消息。

結(jié)合上面幾個同步調(diào)用 Hmily 完整代碼如下：

//TransactionListener是rocketmq接口用于回調(diào)執(zhí)行本地事務(wù)和狀態(tài)回查 
public class TransactionListenerImpl implements TransactionListener { 
     //執(zhí)行本地事務(wù) 
     @Override 
     public LocalTransactionState executeLocalTransaction(Message msg, Object arg) { 
         記錄orderID，消息狀態(tài)鍵值對到共享map中，以備MQ回查消息狀態(tài)使用； 
         return LocalTransactionState.COMMIT_MESSAGE; 
     } 
 
     //回查發(fā)送者狀態(tài) 
     @Override 
     public LocalTransactionState checkLocalTransaction(MessageExt msg) { 
         String status = 從共享map中取出orderID對應(yīng)的消息狀態(tài);  
         if("commit".equals(status)) 
           return LocalTransactionState.COMMIT_MESSAGE; 
         else if("rollback".equals(status)) 
           return LocalTransactionState.ROLLBACK_MESSAGE; 
         else 
           return LocalTransactionState.UNKNOW; 
     } 
}

//訂單服務(wù) 
public class OrderService{ 
 
  //tcc接口 
  @Hmily(confirmMethod = "confirmOrderStatus", cancelMethod = "cancelOrderStatus") 
  public void makePayment() { 
     1，更新訂單狀態(tài)為支付中 
     2，凍結(jié)庫存，rpc調(diào)用 
     3，優(yōu)惠券狀態(tài)改為使用中，rpc調(diào)用 
     4，發(fā)送半消息（待確認消息）通知WMS撿貨出庫 //創(chuàng)建producer時這冊TransactionListenerImpl 
  } 
 
  public void confirmOrderStatus() { 
     更新訂單狀態(tài)為已支付 
  } 
 
  public void cancelOrderStatus() { 
     恢復(fù)訂單狀態(tài)為待支付  
  }   
 
}

//庫存服務(wù) 
public class InventoryService { 
 
  //tcc接口 
  @Hmily(confirmMethod = "confirmDecr", cancelMethod = "cancelDecr") 
  public void lockStock() { 
     //防懸掛處理 
     if (分支事務(wù)記錄表沒有二階段執(zhí)行記錄) 
       凍結(jié)庫存 
     else 
       return; 
  } 
 
  public void confirmDecr() { 
     確認扣減庫存 
  } 
  public void cancelDecr() { 
     釋放凍結(jié)的庫存 
  }   
 
}

//卡券服務(wù) 
public class CouponService { 
 
  //tcc接口 
  @Hmily(confirmMethod = "confirm", cancelMethod = "cancel") 
  public void handleCoupon() { 
     //防懸掛處理 
     if (分支事務(wù)記錄表沒有二階段執(zhí)行記錄) 
       優(yōu)惠券狀態(tài)更新為臨時狀態(tài)Inuse 
     else 
       return; 
  } 
 
  public void confirm() { 
     優(yōu)惠券狀態(tài)改為Used 
  } 
  public void cancel() { 
     優(yōu)惠券狀態(tài)恢復(fù)為Unused 
  }   
 
}

如果執(zhí)行到 TransactionListenerImpl.executeLocalTransaction 方法，說明半消息已經(jīng)發(fā)送成功了。

也說明 OrderService.makePayment 方法的四個步驟都執(zhí)行成功了，此時 TCC 也到了 Confirm 階段。

所以在 TransactionListenerImpl.executeLocalTransaction 方法里可以直接返回 LocalTransactionState.COMMIT_MESSAGE 讓 MQ 提交這條消息。

同時將該訂單信息和對應(yīng)的消息狀態(tài)保存在共享 map 里，以備確認消息發(fā)送失敗時 MQ 回查消息狀態(tài)使用。

微服務(wù)化過程，無感知數(shù)據(jù)遷移

微服務(wù)化，其中一個重要意義在于數(shù)據(jù)隔離，即不同的服務(wù)對應(yīng)各自的數(shù)據(jù)庫表，避免不同業(yè)務(wù)模塊間數(shù)據(jù)的耦合。

這也就意味著微服務(wù)化過程要拆分現(xiàn)有數(shù)據(jù)庫，把單體數(shù)據(jù)庫根據(jù)業(yè)務(wù)模塊拆分成多個，進而涉及到數(shù)據(jù)遷移。

數(shù)據(jù)遷移過程我們要注意哪些關(guān)鍵點呢?

第一，保證遷移后數(shù)據(jù)準(zhǔn)確不丟失，即每條記錄準(zhǔn)確而且不丟失記錄。
第二，不影響用戶體驗(尤其是訪問量高的C端業(yè)務(wù)需要不停機平滑遷移)。
第三，保證遷移后的性能和穩(wěn)定性。

數(shù)據(jù)遷移我們經(jīng)常遇到的兩個場景：

業(yè)務(wù)重要程度一般或者是內(nèi)部系統(tǒng)，數(shù)據(jù)結(jié)構(gòu)不變，這種場景下可以采用掛從庫，數(shù)據(jù)同步完找個訪問低谷時間段，停止服務(wù)，然后將從庫切成主庫，再啟動服務(wù)。簡單省時，不過需要停服避免切主庫過程數(shù)據(jù)丟失。
重要業(yè)務(wù)，并發(fā)高，數(shù)據(jù)結(jié)構(gòu)改變。這種場景一般需要不停機平滑遷移。下面就重點介紹這部分經(jīng)歷。

互聯(lián)網(wǎng)行業(yè)，很多業(yè)務(wù)訪問量很大，即便凌晨低谷時間，仍然有相當(dāng)?shù)脑L問量，為了不影響用戶體驗，很多公司對這些業(yè)務(wù)會采用不停機平滑遷移的方式。

因為對老數(shù)據(jù)遷移的同時，線上還不斷有用戶訪問，不斷有數(shù)據(jù)產(chǎn)生，不斷有數(shù)據(jù)更新，所以我們不但要考慮老數(shù)據(jù)遷移的問題，還要考慮數(shù)據(jù)更新和產(chǎn)生新數(shù)據(jù)的問題。下面介紹一下我們之前的做法。

關(guān)鍵步驟如下：

①開啟雙寫，新老庫同時寫入(涉及到代碼改動)。注意：任何對數(shù)據(jù)庫的增刪改都要雙寫。

對于更新操作，如果新庫沒有相關(guān)記錄，先從老庫查出記錄更新后寫入數(shù)據(jù)庫;為了保證寫入性能，老庫寫完后，可以采用消息隊列異步寫入新庫。

同時寫兩個庫，不在一個本地事務(wù)，有可能出現(xiàn)數(shù)據(jù)不一致的情況，這樣就需要一定的補償機制來保證兩個庫數(shù)據(jù)最終一致。下一篇文章會分享最終一致性解決方案

②將某時間戳之前的老數(shù)據(jù)遷移到新庫(需要腳本程序做老數(shù)據(jù)遷移，因為數(shù)據(jù)結(jié)構(gòu)變化比較大的話，從數(shù)據(jù)庫層面做數(shù)據(jù)遷移就很困難了)。

注意兩點：

時間戳一定要選擇開啟雙寫后的時間點，避免部分老數(shù)據(jù)被漏掉。
遷移過程遇到記錄沖突直接忽略(因為第一步有更新操作，直接把記錄拉到了新庫);遷移過程一定要記錄日志，尤其是錯誤日志。

③第二步完成后，我們還需要通過腳本程序檢驗數(shù)據(jù)，看新庫數(shù)據(jù)是否準(zhǔn)確以及有沒有漏掉的數(shù)據(jù)。

④數(shù)據(jù)校驗沒問題后，開啟雙讀，起初新庫給少部分流量，新老兩庫同時讀取，由于時間延時問題，新老庫數(shù)據(jù)可能有些不一致，所以新庫讀不到需要再讀一遍老庫。

逐步將讀流量切到新庫，相當(dāng)于灰度上線的過程。遇到問題可以及時把流量切回老庫。

⑤讀流量全部切到新庫后，關(guān)閉老庫寫入(可以在代碼里加上可熱配開關(guān))，只寫新庫。

⑥遷移完成，后續(xù)可以去掉雙寫雙讀相關(guān)無用代碼。

第二步的老數(shù)據(jù)遷移腳本程序和第三步的檢驗程序可以工具化，以后再做類似的數(shù)據(jù)遷移可以復(fù)用。

目前各云服務(wù)平臺也提供數(shù)據(jù)遷移解決方案，大家有興趣也可以了解一下!

全鏈路 APM 監(jiān)控

在體會到微服務(wù)帶來好處的同時，很多公司也會明顯感受到微服務(wù)化后那些讓人頭疼的問題。

比如，服務(wù)化之后調(diào)用鏈路變長，排查性能問題可能要跨多個服務(wù)，定位問題更加困難。

服務(wù)變多，服務(wù)間調(diào)用關(guān)系錯綜復(fù)雜，以至于很多工程師不清楚服務(wù)間的依賴和調(diào)用關(guān)系，之后的系統(tǒng)維護過程也會更加艱巨。諸如此類的問題還很多!

這時就迫切需要一個工具幫我們解決這些問題，于是 APM 全鏈路監(jiān)控工具就應(yīng)運而生了。

有開源的 Pinpoint、Skywalking 等，也有收費的 Saas 服務(wù)聽云、OneAPM 等。有些實力雄厚的公司也會自研 APM。

下面我們介紹一下如何利用開源 APM 工具 Pinpoint 應(yīng)對上述問題。

拓撲圖：

微服務(wù)化后，服務(wù)數(shù)量變多，服務(wù)間調(diào)用關(guān)系也變得更復(fù)雜，以至于很多工程師不清楚服務(wù)間的依賴和調(diào)用關(guān)系，給系統(tǒng)維護帶來很多困難。

通過拓撲圖我們可以清晰地看到服務(wù)與服務(wù)，服務(wù)與數(shù)據(jù)庫，服務(wù)與緩存中間件的調(diào)用和依賴關(guān)系。對服務(wù)關(guān)系了如指掌之后，也可以避免服務(wù)間循依賴、循環(huán)調(diào)用的問題。

請求調(diào)用棧(Call Stack)監(jiān)控：

微服務(wù)化后，服務(wù)變多，調(diào)用鏈路變長，跨多個服務(wù)排查問題會更加困難。上圖是一個請求的調(diào)用棧，我們可以清晰看到一次請求調(diào)用了哪些服務(wù)和方法、各個環(huán)節(jié)的耗時以及發(fā)生在哪個服節(jié)點。

上圖的請求耗時過長，根據(jù)監(jiān)控(紅框部分)我們可以看到時間主要消耗在數(shù)據(jù)庫 SQL 語句上。

點擊數(shù)據(jù)庫圖表還可以看詳細 SQL 語句，如下圖：

如果發(fā)生錯誤，會顯示為紅色，錯誤原因也會直接顯示出來。如下圖：

類似性能問題和錯誤的線上排查。我們?nèi)绻ㄟ^查日志的傳統(tǒng)辦法，可能會耗費大量的時間。但是通過 APM 工具分分鐘就可以搞定了!

請求 Server Map：

Server Map 是 Pinpoint 另一個比較重要的功能。如上圖，我們不但能清晰地看到一個請求的訪問鏈路，而且還能看到每個節(jié)點的訪問次數(shù)，為系統(tǒng)優(yōu)化提供了有力的依據(jù)。

如果一次請求訪問了多次數(shù)據(jù)庫，說明代碼邏輯可能有必要優(yōu)化了!

JVM 監(jiān)控：

此外，Pinpoint 還支持堆內(nèi)存，活躍線程，CPU，文件描述符等監(jiān)控。

關(guān)于微服務(wù)化，我們就分享這么多。希望對大家有幫助。

作者：二馬讀書

簡介：曾任職于阿里巴巴，每日優(yōu)鮮等互聯(lián)網(wǎng)公司，任技術(shù)總監(jiān)，15 年電商互聯(lián)網(wǎng)經(jīng)歷。

編輯：陶家龍

出處：轉(zhuǎn)載自微信公眾號架構(gòu)師進階之路(ID：ermadushu)

責(zé)任編輯：武曉燕來源：架構(gòu)師進階之路

微服務(wù)架構(gòu)互聯(lián)網(wǎng)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<pre id="5komq"><option id="5komq"></option></pre>

<bdo id="5komq"><code id="5komq"></code></bdo><kbd id="5komq"><rp id="5komq"></rp></kbd>

<pre id="5komq"></pre>