偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一文詳細介紹分布式系統(tǒng)的那些技術(shù)方案

作者：小灰灰blog 2022-08-16 10:35:00

開發(fā) 新聞

天天說分布式分布式，那么我們是否知道什么是分布式，分布式會遇到什么問題，有哪些理論支撐，有哪些經(jīng)典的應(yīng)對方案，業(yè)界是如何設(shè)計并保證分布式系統(tǒng)的高可用呢？

1.架構(gòu)設(shè)計

這一節(jié)將從一些經(jīng)典的開源系統(tǒng)架構(gòu)設(shè)計出發(fā)，來看一下，如何設(shè)計一個高質(zhì)量的分布式系統(tǒng)；

而一般的設(shè)計出發(fā)點，無外乎

?冗余：簡單理解為找個備胎，現(xiàn)任掛掉之后，備胎頂上?拆分：不能讓一個人承擔所有的重任，拆分下，每個人負擔一部分，壓力均攤

1.1 主備架構(gòu)

給現(xiàn)有的服務(wù)搭建一個備用的服務(wù)，兩者功能完全一致，區(qū)別在于平時只有主應(yīng)用對外提供服務(wù)能力；而備應(yīng)用則只需要保證與主應(yīng)用能力一致，隨時待機即可，并不用對外提供服務(wù)；當主應(yīng)用出現(xiàn)故障之后，將備應(yīng)用切換為主應(yīng)用，原主應(yīng)用下線；迅速的主備切換可以有效的縮短故障時間

基于上面的描述，主備架構(gòu)特點比較清晰

?采用冗余的方案，加一臺備用服務(wù)?缺點就是資源浪費

其次就是這個架構(gòu)模型最需要考慮的則是如何實現(xiàn)主備切換？

?人工?VIP(虛擬ip) + keepalived 機制

1.2 主從架構(gòu)

主從一般又叫做讀寫分離，主提供讀寫能力，而從則只提供讀能力

鑒于當下的互聯(lián)網(wǎng)應(yīng)用，絕大多數(shù)都是讀多寫少的場景；讀更容易成為性能瓶頸，所以采用讀寫分離，可以有效的提高整個集群的響應(yīng)能力

主從架構(gòu)可以區(qū)分為：一主多從 + 一主一從再多從，以mysql的主從架構(gòu)模型為例進行說明

MySql主從

主從模式的主要特點在于

?添加從，源頭依然是數(shù)據(jù)冗余的思想?讀寫分離：主負責讀寫，從只負責讀，可以視為負載均衡策略?從需要向主同步數(shù)據(jù)，所若有的從都同步與主，對主的壓力依然可能很大；所以就有了主從從的模式

關(guān)鍵問題則在于

?主從延遲?主的寫瓶頸?主掛之后如何選主

1.3 多主多從架構(gòu)

一主多從面臨單主節(jié)點的瓶頸問題，那就考慮多主多從的策略，同樣是主負責提供讀寫，從提供讀；

但是這里有一個核心點在于多主之間的數(shù)據(jù)同步，如何保證數(shù)據(jù)的一致性是這個架構(gòu)模型的重點

如MySql的雙主雙從可以說是一個典型的應(yīng)用場景，在實際使用的時候除了上面的一致性之外，還需要考慮主鍵id沖突的問題

1.4 普通集群模式

無主節(jié)點，集群中所有的應(yīng)用職能對等，沒有主次之分（當下絕大多數(shù)的業(yè)務(wù)服務(wù)都屬于這種），一個請求可以被集群中任意一個服務(wù)響應(yīng)；

這種也可以叫做去中心化的設(shè)計模式，如redis的集群模式，eureka注冊中心，以可用性為首要目標

對于普通集群模式而言，重點需要考慮的點在于

?資源競爭：如何確保一個資源在同一時刻只能被一個業(yè)務(wù)操作?如現(xiàn)在同時來了申請退款和貨物出庫的請求，如果不對這個訂單進行加鎖，兩個請求同時響應(yīng)，將會導致發(fā)貨又退款了，導致財貨兩失?數(shù)據(jù)一致性：如何確保所有的實例數(shù)據(jù)都是一致的，或者最終是一致的?如應(yīng)用服務(wù)使用jvm緩存，那么如何確保所有實例的jvm緩存一致？?如Eureka的分區(qū)導致不同的分區(qū)的注冊信息表不一致

1.5 數(shù)據(jù)分片架構(gòu)

這個分片模型的描述可能并不準確，大家看的時候重點理解一下這個思想

前面幾個的架構(gòu)中，采用的是數(shù)據(jù)冗余的方式，即所有的實例都有一個全量的數(shù)據(jù)，而這里的數(shù)據(jù)分片，則從數(shù)據(jù)拆分的思路來處理，將全量的數(shù)據(jù)，通過一定規(guī)則拆分到多個系統(tǒng)中，每個系統(tǒng)包含部分的數(shù)據(jù)，減小單個節(jié)點的壓力，主要用于解決數(shù)據(jù)量大的場景

比如redis的集群方式，通過hash槽的方式進行分區(qū)

如es的索引分片存儲

1.6 一灰灰的小結(jié)

這一節(jié)主要從架構(gòu)設(shè)計層面對當前的分布式系統(tǒng)所采用的方案進行了一個簡單的歸類與小結(jié)，并不一定全面，歡迎各位大佬留言指正

基于冗余的思想：

?主備?主從?多主多從?無中心集群

基于拆分的思想：

?數(shù)據(jù)分片

對于拆分這一塊，我們常說的分庫分表也體現(xiàn)的是這一思想

2.理論基礎(chǔ)

這一小節(jié)將介紹分布式系統(tǒng)中的經(jīng)典理論，如廣為流程的CAP/BASE理論，一致性理論基礎(chǔ)paxios,raft，信息交換的Gossip協(xié)議，兩階段、三階段等

本節(jié)主要內(nèi)容參考自

?一致性算法-Gossip協(xié)議詳解 - 騰訊云開發(fā)者社區(qū)-騰訊云^[1]?P2P 網(wǎng)絡(luò)核心技術(shù)：Gossip 協(xié)議 - 知乎^[2]?從Paxos到Raft，分布式一致性算法解析_mb5fdb0a87e2fa1的技術(shù)博客_51CTO博客^[3]?【理論篇】淺析分布式中的 CAP、BASE、2PC、3PC、Paxos、Raft、ZAB - 知乎^[4]

2.1 CAP定理

CAP 定理指出，分布式系統(tǒng) 不可能 同時提供下面三個要求：

?Consistency：一致性?操作更新完成并返回客戶端之后，所有節(jié)點數(shù)據(jù)完全一致?Availability：可用性?服務(wù)一直可用?Partition tolerance：分區(qū)容錯性?分布式系統(tǒng)在遇到某節(jié)點或網(wǎng)絡(luò)分區(qū)故障的時候，仍然能夠?qū)ν馓峁M足一致性和可用性的服務(wù)

通常來講P很難不保證，當服務(wù)部署到多臺實例上時，節(jié)點異常、網(wǎng)絡(luò)故障屬于常態(tài)，根據(jù)不同業(yè)務(wù)場景進行選擇

對于服務(wù)有限的應(yīng)用而言，首選AP，保證高可用，即使部分機器異常，也不會導致整個服務(wù)不可用；如絕大多數(shù)的前臺應(yīng)用都是這種

對于數(shù)據(jù)一致性要求高的場景，如涉及到錢的支付結(jié)算，CP可能更重要了

對于CAP的三種組合說明如下

選擇	說明
CA	放棄分區(qū)容錯性，加強一致性和可用性，其實就是傳統(tǒng)的單機場景
AP	放棄一致性（這里說的一致性是強一致性），追求分區(qū)容錯性和可用性，這是很多分布式系統(tǒng)設(shè)計時的選擇，例如很多NoSQL系統(tǒng)就是如此
CP	放棄可用性，追求一致性和分區(qū)容錯性，基本不會選擇，網(wǎng)絡(luò)問題會直接讓整個系統(tǒng)不可用

2.2 BASE理論

base理論作為cap的延伸，其核心特點在于放棄強一致性，追求最終一致性

?Basically Available: 基本可用?指分布式系統(tǒng)在出現(xiàn)故障的時候，允許損失部分可用性，即保證核心可用?如大促時降級策略?Soft State：軟狀態(tài)?允許系統(tǒng)存在中間狀態(tài)，而該中間狀態(tài)不會影響系統(tǒng)整體可用性?MySql異步方式的主從同步，可能導致的主從數(shù)據(jù)不一致?Eventual Consistency：最終一致性?最終一致性是指系統(tǒng)中的所有數(shù)據(jù)副本經(jīng)過一定時間后，最終能夠達到一致的狀態(tài)

基于上面的描述，可以看到BASE理論適用于大型高可用可擴展的分布式系統(tǒng)

注意其不同于ACID的強一致性模型，而是通過犧牲強一致性來獲得可用性，并允許數(shù)據(jù)在一段時間內(nèi)是不一致的，但最終達到一致狀態(tài)

2.3 PACELEC 定理

這個真沒聽說過，以下內(nèi)容來自:

?Distributed System Design Patterns | by Nishant | Medium^[5]

?如果有一個分區(qū)（'P'），分布式系統(tǒng)可以在可用性和一致性（即'A'和'C'）之間進行權(quán)衡;?否則（'E'），當系統(tǒng)在沒有分區(qū)的情況下正常運行時，系統(tǒng)可以在延遲（'L'）和一致性（'C'）之間進行權(quán)衡。

定理（PAC）的第一部分與CAP定理相同，ELC是擴展。整個論點假設(shè)我們通過復制來保持高可用性。因此，當失敗時，CAP定理占上風。但如果沒有，我們?nèi)匀槐仨毧紤]復制系統(tǒng)的一致性和延遲之間的權(quán)衡。

2.4 Paxos共識算法

Paxos算法解決的問題是分布式共識性問題，即一個分布式系統(tǒng)中的各個進程如何就某個值（決議）通過共識達成一致

基于上面這個描述，可以看出它非常適用于選舉；其工作流程

?一個或多個提議進程 (Proposer) 可以發(fā)起提案 (Proposal)，?Paxos算法使所有提案中的某一個提案，在所有進程中達成一致。系統(tǒng)中的多數(shù)派同時認可該提案，即達成了一致

角色劃分:

?Proposer: 提出提案Proposal，包含編號 + value?Acceptor: 參與決策，回應(yīng)Proposers的提案；當一個提案，被半數(shù)以上的Acceptor接受，則該提案被批準?每個acceptor只能批準一個提案?Learner: 不參與決策，獲取最新的提案value

2.5 Raft算法

為了解決paxos的復雜性，raft算法提供了一套更易理解的算法基礎(chǔ)，其核心流程在于：

leader接受請求，并轉(zhuǎn)發(fā)給follow，當大部分follow響應(yīng)之后，leader通知所有的follow提交請求、同時自己也提交請求并告訴調(diào)用方ok

角色劃分：

?Leader：領(lǐng)導者，接受客戶端請求，并向Follower同步請求，當數(shù)據(jù)同步到大多數(shù)節(jié)點上后告訴Follower提交日志?Follow: 接受并持久化Leader同步的數(shù)據(jù)，在Leader告之日志可以提交之后，提交?Candidate：Leader選舉過程中的臨時角色，向其他節(jié)點拉選票，得到多數(shù)的晉升為leader，選舉完成之后不存在這個角色

raft共識流程

2.6 ZAB協(xié)議

ZAB(Zookeeper Atomic Broadcast) 協(xié)議是為分布式協(xié)調(diào)服務(wù)ZooKeeper專門設(shè)計的一種支持崩潰恢復的一致性協(xié)議，基于該協(xié)議，ZooKeeper 實現(xiàn)了一種主從模式的系統(tǒng)架構(gòu)來保持集群中各個副本之間的數(shù)據(jù)一致性。

?zookeeper核心之ZAB協(xié)議就這么簡單！^[8]

主要用于zk的數(shù)據(jù)一致性場景，其核心思想是Leader再接受到事務(wù)請求之后，通過給Follower，當半數(shù)以上的Follower返回ACK之后，Leader提交提案，并向Follower發(fā)送commit信息

角色劃分

?Leader: 負責整個Zookeeper 集群工作機制中的核心?事務(wù)請求的唯一調(diào)度和處理者，保證集群事務(wù)處理的順序性?集群內(nèi)部各服務(wù)器的調(diào)度者?Follower：Leader的追隨者?處理客戶端的非實物請求，轉(zhuǎn)發(fā)事務(wù)請求給 Leader 服務(wù)器?參與事務(wù)請求 Proposal 的投票?參與 Leader 選舉投票?Observer：是 zookeeper 自 3.3.0 開始引入的一個角色，?它不參與事務(wù)請求 Proposal 的投票，?也不參與 Leader 選舉投票?只提供非事務(wù)的服務(wù)（查詢），通常在不影響集群事務(wù)處理能力的前提下提升集群的非事務(wù)處理能力。

ZAB消息廣播

2.7 2PC協(xié)議

two-phase commit protocol，兩階段提交協(xié)議，主要是為了解決強一致性，中心化的強一致性協(xié)議

角色劃分

?協(xié)調(diào)節(jié)點(coordinator)：中心化?參與者節(jié)點(partcipant)：多個

執(zhí)行流程

協(xié)調(diào)節(jié)點接收請求，然后向參與者節(jié)點提交 ??precommit???，當所有的參與者都回復ok之后，協(xié)調(diào)節(jié)點再給所有的參與者節(jié)點提交??commit??，所有的都返回ok之后，才表明這個數(shù)據(jù)確認提交

當?shù)谝粋€階段，有一個參與者失敗，則所有的參與者節(jié)點都回滾

2pc流程

特點

優(yōu)點在于實現(xiàn)簡單

缺點也很明顯

?協(xié)調(diào)節(jié)點的單點故障?第一階段全部ack正常，第二階段存在部分參與者節(jié)點異常時，可能出現(xiàn)不一致問題

2.8 3PC協(xié)議

分布式事務(wù)：兩階段提交與三階段提交 - SegmentFault 思否^[9]

在兩階段的基礎(chǔ)上進行擴展，將第一階段劃分兩部，cancommit + precommit，第三階段則為 docommit

第一階段 cancommit

該階段協(xié)調(diào)者會去詢問各個參與者是否能夠正常執(zhí)行事務(wù)，參與者根據(jù)自身情況回復一個預估值，相對于真正的執(zhí)行事務(wù)，這個過程是輕量的

第二階段 precommit

本階段協(xié)調(diào)者會根據(jù)第一階段的詢盤結(jié)果采取相應(yīng)操作，若所有參與者都返回ok，則協(xié)調(diào)者向參與者提交事務(wù)執(zhí)行(單不提交)通知；否則通知參與者abort回滾

第三階段 docommit

如果第二階段事務(wù)未中斷，那么本階段協(xié)調(diào)者將會依據(jù)事務(wù)執(zhí)行返回的結(jié)果來決定提交或回滾事務(wù)，若所有參與者正常執(zhí)行，則提交；否則協(xié)調(diào)者+參與者回滾

在本階段如果因為協(xié)調(diào)者或網(wǎng)絡(luò)問題，導致參與者遲遲不能收到來自協(xié)調(diào)者的 commit 或 rollback 請求，那么參與者將不會如兩階段提交中那樣陷入阻塞，而是等待超時后繼續(xù) commit，相對于兩階段提交雖然降低了同步阻塞，但仍然無法完全避免數(shù)據(jù)的不一致

特點

?降低了阻塞與單點故障：?參與者返回 CanCommit 請求的響應(yīng)后，等待第二階段指令，若等待超時/協(xié)調(diào)者宕機，則自動 abort，降低了阻塞；?參與者返回 PreCommit 請求的響應(yīng)后，等待第三階段指令，若等待超時/協(xié)調(diào)者宕機，則自動 commit 事務(wù)，也降低了阻塞；?數(shù)據(jù)不一致問題依然存在?比如第三階段協(xié)調(diào)者發(fā)出了 abort 請求，然后有些參與者沒有收到 abort，那么就會自動 commit，造成數(shù)據(jù)不一致

2.9 Gossip協(xié)議

Gossip 協(xié)議，顧名思義，就像流言蜚語一樣，利用一種隨機、帶有傳染性的方式，將信息傳播到整個網(wǎng)絡(luò)中，并在一定時間內(nèi)，使得系統(tǒng)內(nèi)的所有節(jié)點數(shù)據(jù)一致。Gossip 協(xié)議通過上面的特性，可以保證系統(tǒng)能在極端情況下（比如集群中只有一個節(jié)點在運行）也能運行

?P2P 網(wǎng)絡(luò)核心技術(shù)：Gossip 協(xié)議 - 知乎^[10]

主要用在分布式數(shù)據(jù)庫系統(tǒng)中各個副本節(jié)點同步數(shù)據(jù)之用，這種場景的一個最大特點就是組成的網(wǎng)絡(luò)的節(jié)點都是對等節(jié)點，是非結(jié)構(gòu)化網(wǎng)絡(luò)

工作流程

?周期性的傳播消息，通常周期時間為1s?被感染的節(jié)點，隨機選擇n個相鄰節(jié)點，傳播消息?每次傳播消息都選擇還沒有發(fā)送過的節(jié)點進行傳播?收單消息的節(jié)點，不會傳播給向它發(fā)送消息的節(jié)點

Gossip傳播示意圖

特點

?擴展性：允許節(jié)點動態(tài)增加、減少，新增的節(jié)點狀態(tài)最終會與其他節(jié)點一致?容錯：網(wǎng)絡(luò)中任意一個節(jié)點宕機重啟都不會影響消息傳播?去中心化：不要求中心節(jié)點，所有節(jié)點對等，任何一個節(jié)點無需知道整個網(wǎng)絡(luò)狀況，只要網(wǎng)絡(luò)連通，則一個節(jié)點的消息最終會散播到整個網(wǎng)絡(luò)?一致性收斂：協(xié)議中的消息會以一傳十、十傳百一樣的指數(shù)級速度在網(wǎng)絡(luò)中快速傳播，因此系統(tǒng)狀態(tài)的不一致可以在很快的時間內(nèi)收斂到一致。消息傳播速度達到了 logN?簡單：Gossip 協(xié)議的過程極其簡單，實現(xiàn)起來幾乎沒有太多復雜性

缺點

?消息延遲：節(jié)點只會隨機向少數(shù)幾個節(jié)點發(fā)送消息，消息最終是通過多個輪次的散播而到達全網(wǎng)的，因此使用 Gossip 協(xié)議會造成不可避免的消息延遲?消息冗余：節(jié)點會定期隨機選擇周圍節(jié)點發(fā)送消息，而收到消息的節(jié)點也會重復該步驟，導致消息的冗余

2.10 一灰灰的小結(jié)

本節(jié)主要介紹的是分布式系統(tǒng)設(shè)計中的一些常見的理論基石，如分布式中如何保障一致性，如何對一個提案達成共識

?BASE，CAP，PACELEC理論：構(gòu)建穩(wěn)定的分布式系統(tǒng)應(yīng)該考慮的方向?paxos,raft共識算法?zab一致性協(xié)議?gossip消息同步協(xié)議

3.算法

這一節(jié)將主要介紹下分布式系統(tǒng)中的經(jīng)典的算法，比如常用于分區(qū)的一致性hash算法，適用于一致性的Quorum NWR算法，PBFT拜占庭容錯算法，區(qū)塊鏈中大量使用的工作量證明PoW算法等

3.1 一致性hash算法

一致性hash算法，主要應(yīng)用于數(shù)據(jù)分片場景下，有效降低服務(wù)的新增、刪除對數(shù)據(jù)復制的影響

通過對數(shù)據(jù)項的鍵進行哈希處理映射其在環(huán)上的位置，然后順時針遍歷環(huán)以查找位置大于該項位置的第一個節(jié)點，將每個由鍵標識的數(shù)據(jù)分配給hash環(huán)中的一個節(jié)點

一致性hash算法

一致散列的主要優(yōu)點是增量穩(wěn)定性; 節(jié)點添加刪除，對整個集群而言，僅影響其直接鄰居，其他節(jié)點不受影響。

注意：

?redis集群實現(xiàn)了一套hash槽機制，其核心思想與一致性hash比較相似

3.2 Quorum NWR算法

用來保證數(shù)據(jù)冗余和最終一致性的投票算法，其主要數(shù)學思想來源于鴿巢原理

?分布式系統(tǒng)之Quorum （NRW）算法-阿里云開發(fā)者社區(qū)^[11]

?N 表示副本數(shù)，又叫做復制因子（Replication Factor）。也就是說，N 表示集群中同一份數(shù)據(jù)有多少個副本?W，又稱寫一致性級別（Write Consistency Level），表示成功完成 W 個副本更新寫入，才會視為本次寫操作成功?R 又稱讀一致性級別（Read Consistency Level），表示讀取一個數(shù)據(jù)對象時需要讀 R 個副本, 才會視為本次讀操作成功

Quorum NWR算法要求每個數(shù)據(jù)拷貝對象都可以投1票，而每一個操作的執(zhí)行則需要獲取最小的讀票數(shù)，寫票數(shù)；通常來講寫票數(shù)W一般需要超過N/2，即我們通常說的得到半數(shù)以上的票才表示數(shù)據(jù)寫入成功

事實上當W=N、R=1時，即所謂的WARO(Write All Read One)。就是CAP理論中CP模型的場景

3.3 PBFT拜占庭算法

拜占庭算法主要針對的是分布式場景下無響應(yīng)，或者響應(yīng)不可信的情況下的容錯問題，其核心分三段流程，如下

拜占庭算法

假設(shè)集群節(jié)點數(shù)為 N，f個故障節(jié)點(無響應(yīng))和f個問題節(jié)點(無響應(yīng)或錯誤響應(yīng)),f+1個正常節(jié)點，即 3f+1=n

?客戶端向主節(jié)點發(fā)起請求，主節(jié)點接受請求之后，向其他節(jié)點廣播 pre-prepare 消息?節(jié)點接受pre-prepare消息之后，若同意請求，則向其他節(jié)點廣播 prepare 消息；?當一個節(jié)點接受到2f+1個prepare新消息，則進入commit階段，并廣播commit消息?當收到 2f+1 個 commit 消息后（包括自己），代表大多數(shù)節(jié)點已經(jīng)進入 commit 階段，這一階段已經(jīng)達成共識，于是節(jié)點就會執(zhí)行請求，寫入數(shù)據(jù)

相比 Raft 算法完全不適應(yīng)有人作惡的場景，PBFT 算法能容忍 (n 1)/3 個惡意節(jié)點 (也可以是故障節(jié)點)。另外，相比 PoW 算法，PBFT 的優(yōu)點是不消耗算力。PBFT 算法是O(n ^ 2) 的消息復雜度的算法，所以以及隨著消息數(shù) 的增加，網(wǎng)絡(luò)時延對系統(tǒng)運行的影響也會越大，這些都限制了運行 PBFT 算法的分布式系統(tǒng) 的規(guī)模，也決定了 PBFT 算法適用于中小型分布式系統(tǒng)

3.4 PoW算法

工作量證明 (Proof Of Work，簡稱 PoW)，同樣應(yīng)用于分布式下的一致性場景，區(qū)別于前面的raft, pbft, paxos采用投票機制達成共識方案，pow采用工作量證明

客戶端需要做一定難度的工作才能得出一個結(jié)果，驗證方卻很容易通過結(jié)果來檢查出客戶端是不是做了相應(yīng)的工作，通過消耗一定工作浪，增加消息偽造的成本，PoW以區(qū)塊鏈中廣泛應(yīng)用而廣為人知，下面以區(qū)塊鏈來簡單說一下PoW的算法應(yīng)用場景

以BTC的轉(zhuǎn)賬為例，A轉(zhuǎn)n個btc給B，如何保證不會同時將這n個幣轉(zhuǎn)給C？

?A轉(zhuǎn)賬給B，交易信息記錄在一個區(qū)塊1中?A轉(zhuǎn)賬給C，交易信息被記錄在另一個區(qū)塊2中?當區(qū)塊1被礦工成功提交到鏈上，并被大多數(shù)認可（通過校驗區(qū)塊鏈上的hash值驗證是否準確，而這個hash值體現(xiàn)的是礦工的工作量），此時尚未提交的區(qū)塊2則會被拋棄?若區(qū)塊1被提交，區(qū)塊2也被提交，各自有部分人認可，就會導致分叉，區(qū)塊鏈中采用的是優(yōu)選最長的鏈作為主鏈，丟棄分叉的部分（這就屬于區(qū)塊鏈的知識點了，有興趣的小伙伴可以擴展下相關(guān)知識點，這里就不展開了）

PoW的算法，主要應(yīng)用在上面的區(qū)塊提交驗證，通過hash值計算來消耗算力，以此證明礦工確實有付出，得到多數(shù)認可的可以達成共識

3.5 一灰灰的小結(jié)

本節(jié)主要介紹了下當前分布式下常見的算法，

?分區(qū)的一致性hash算法: 基于hash環(huán)，減少節(jié)點動態(tài)增加減少對整個集群的影響；適用于數(shù)據(jù)分片的場景?適用于一致性的Quorum NWR算法: 投票算法，定義如何就一個提案達成共識?PBFT拜占庭容錯算法: 適用于集群中節(jié)點故障、或者不可信的場景?區(qū)塊鏈中大量使用的工作量證明PoW算法: 通過工作量證明，認可節(jié)點的提交

4.技術(shù)思想

這一節(jié)的內(nèi)容相對前面幾個而言，并不太容易進行清晰的分類；主要包含一些高質(zhì)量的分布式系統(tǒng)的實踐中，值得推薦的設(shè)計思想、技術(shù)細節(jié)

4.1 CQRS

?DDD 中的那些模式 — CQRS - 知乎^[12]?詳解CQRS架構(gòu)模式_架構(gòu)_Kislay Verma_InfoQ精選文章^[13]

Command Query Responsibility Segregation 即我們通俗理解的讀寫分離，其核心思想在于將兩類不同操作進行分離，在獨立的服務(wù)中實現(xiàn)

cqrs

用途在于將領(lǐng)域模型與查詢功能進行分離，讓一些復雜的查詢擺脫領(lǐng)域模型的限制，以更為簡單的 DTO 形式展現(xiàn)查詢結(jié)果。同時分離了不同的數(shù)據(jù)存儲結(jié)構(gòu)，讓開發(fā)者按照查詢的功能與要求更加自由的選擇數(shù)據(jù)存儲引擎

4.2 復制負載平衡服務(wù)

?分布式系統(tǒng)設(shè)計:服務(wù)模式之復制負載平衡服務(wù) - 知乎^[14]?負載均衡調(diào)度算法大全 | 菜鳥教程^[15]

復制負載平衡服務(wù)(Replication Load Balancing Service, RLBS)，可以簡單理解為我們常說的負載均衡，多個相同的服務(wù)實例構(gòu)建一個集群，每個服務(wù)都可以響應(yīng)請求，負載均衡器負責請求的分發(fā)到不同的實例上，常見的負載算法

算法	說明	特點
輪詢	請求按照順序依次分發(fā)給對應(yīng)的服務(wù)器	優(yōu)點簡單，缺點在于未考慮不同服務(wù)器的實際性能情況
加權(quán)輪詢	權(quán)重高的被分發(fā)更多的請求	優(yōu)點：充分利用機器的性能
最少連接數(shù)	找連接數(shù)最少的服務(wù)器進行請求分發(fā),若所有服務(wù)器相同的連接數(shù)，則找第一個選擇的	目的是讓優(yōu)先讓空閑的機器響應(yīng)請求
少連接數(shù)慢啟動時間	剛啟動的服務(wù)器，在一個時間段內(nèi)，連接數(shù)是有限制且緩慢增加	避免剛上線導致大量的請求分發(fā)過來而超載
加權(quán)最少連接	平衡服務(wù)性能 + 最少連接數(shù)
基于代理的自適應(yīng)負載均衡	載主機包含一個自適用邏輯用來定時監(jiān)測服務(wù)器狀態(tài)和該服務(wù)器的權(quán)重
源地址哈希法	獲取客戶端的IP地址，通過哈希函映射到對應(yīng)的服務(wù)器	相同的來源請求都轉(zhuǎn)發(fā)到相同的服務(wù)器上
隨機	隨機算法選擇一臺服務(wù)器
固定權(quán)重	最高權(quán)重只有在其他服務(wù)器的權(quán)重值都很低時才使用。然而，如果最高權(quán)重的服務(wù)器下降，則下一個最高優(yōu)先級的服務(wù)器將為客戶端服務(wù)	每個真實服務(wù)器的權(quán)重需要基于服務(wù)器優(yōu)先級來配置
加權(quán)響應(yīng)	服務(wù)器響應(yīng)越小其權(quán)重越高，通常是基于心跳來判斷機器的快慢	心跳的響應(yīng)并不一定非常準確反應(yīng)服務(wù)情況

4.3 心跳機制

在分布式環(huán)境里中，如何判斷一個服務(wù)是否存活，當下最常見的方案就是心跳

比如raft算法中的leader向所有的follow發(fā)送心跳，表示自己還健在，避免發(fā)生新的選舉；

比如redis的哨兵機制，也是通過ping/pong的心跳來判斷節(jié)點是否下線，是否需要選新的主節(jié)點；

再比如我們?nèi)粘５臉I(yè)務(wù)應(yīng)用得健康監(jiān)測，判斷服務(wù)是否正常

4.4 租約機制

租約就像一個鎖，但即使客戶端離開，它也能工作?？蛻舳苏埱笥邢奁谙薜淖饧s，之后租約到期。如果客戶端想要延長租約，它可以在租約到期之前續(xù)訂租約。

租約主要是了避免一個資源長久被某個對象持有，一旦對方掛了且不會主動釋放的問題；在實際的場景中，有兩個典型的應(yīng)用

case1 分布式鎖

業(yè)務(wù)獲取的分布式鎖一般都有一個有效期，若有效期內(nèi)沒有主動釋放，這個鎖依然會被釋放掉，其他業(yè)務(wù)也可以搶占到這把鎖；因此對于持有鎖的業(yè)務(wù)方而言，若發(fā)現(xiàn)在到期前，業(yè)務(wù)邏輯還沒有處理完，則可以續(xù)約，讓自己繼續(xù)持有這把鎖

典型的實現(xiàn)方式是redisson的看門狗機制

case2 raft算法的任期

在raft算法中，每個leader都有一個任期，任期過后會重新選舉，而Leader為了避免重新選舉，一般會定時發(fā)送心跳到Follower進行續(xù)約

4.5 Leader & Follow

這個比較好理解，上面很多系統(tǒng)都采用了這種方案，特別是在共識算法中，由領(lǐng)導者負責代表整個集群做出決策，并將決策傳播到所有其他服務(wù)器

領(lǐng)導者選舉在服務(wù)器啟動時進行。每個服務(wù)器在啟動時都會啟動領(lǐng)導者選舉，并嘗試選舉領(lǐng)導者。除非選出領(lǐng)導者，否則系統(tǒng)不接受任何客戶端請求

4.6 Fencing

在領(lǐng)導者-追隨者模式中，當領(lǐng)導者失敗時，不可能確定領(lǐng)導者已停止工作，如慢速網(wǎng)絡(luò)或網(wǎng)絡(luò)分區(qū)可能會觸發(fā)新的領(lǐng)導者選舉，即使前一個領(lǐng)導者仍在運行并認為它仍然是活動的領(lǐng)導者

Fencint是指在以前處于活動狀態(tài)的領(lǐng)導者周圍設(shè)置圍欄，使其無法訪問集群資源，從而停止為任何讀/寫請求提供服務(wù)

?資源屏蔽：系統(tǒng)會阻止以前處于活動狀態(tài)的領(lǐng)導者訪問執(zhí)行基本任務(wù)所需的資源。?節(jié)點屏蔽：系統(tǒng)會阻止以前處于活動狀態(tài)的領(lǐng)導者訪問所有資源。執(zhí)行此操作的常見方法是關(guān)閉節(jié)點電源或重置節(jié)點。

4.7 Quorum法定人數(shù)

法定人數(shù)，常見于選舉、共識算法中，當超過Quorum的節(jié)點數(shù)確認之后，才表示這個提案通過(數(shù)據(jù)更新成功)，通常這個法定人數(shù)為 = 半數(shù)節(jié)點 + 1

4.8 High-Water mark高水位線

高水位線，跟蹤Leader（領(lǐng)導者）上的最后一個日志條目，且該條目已成功復制到>quorum（法定人數(shù)）的Follow（跟誰者），即表示這個日志被整個集群接受

日志中此條目的索引稱為高水位線索引。領(lǐng)導者僅公開到高水位線索引的數(shù)據(jù)。

如Kafka：為了處理非可重復讀取并確保數(shù)據(jù)一致性，Kafka broker會跟蹤高水位線，這是特定分區(qū)的最大偏移量。使用者只能看到高水位線之前的消息。

4.9 Phi 累計故障檢測

Phi Accrual Failure Detection,使用歷史檢測信號信息使閾值自適應(yīng)

通用的應(yīng)計故障檢測器不會判斷服務(wù)器是否處于活動狀態(tài)，而是輸出有關(guān)服務(wù)器的可疑級別。

如Cassandra（Facebook開源的分布式NoSql數(shù)據(jù)庫）使用 Phi 應(yīng)計故障檢測器算法來確定群集中節(jié)點的狀態(tài)

4.10 Write-ahead Log預寫日志

預寫日志記錄是解決操作系統(tǒng)中文件系統(tǒng)不一致的問題的高級解決方案，當我們提交寫到操作系統(tǒng)的文件緩存，此時業(yè)務(wù)會認為已經(jīng)提交成功；但是在文件緩存與實際寫盤之間會有一個時間差，若此時機器宕機，會導致緩存中的數(shù)據(jù)丟失，從而導致完整性缺失

為了解決這個問題，如mysql，es等都采用了預寫日志的機制來避免這個問題

MySql：

?事務(wù)提交的流程中，先寫redolog precommit，然后寫binlog，最后再redolog commit；當redolog記錄成功之后，才表示事務(wù)執(zhí)行成功；?因此當出現(xiàn)上面的宕機恢復時，則會加載redologo，然后重放對應(yīng)的命令，來恢復未持久化的數(shù)據(jù)

ElasticSearch:

?在內(nèi)存中數(shù)據(jù)生成段寫到操作系統(tǒng)文件緩存前，會先寫事務(wù)日志，出現(xiàn)異常時，也是從事務(wù)日志進行恢復

4.11 分段日志

將日志拆分為多個較小的文件，而不是單個大文件，以便于操作。

單個日志文件在啟動時讀取時可能會增長并成為性能瓶頸。較舊的日志會定期清理，并且很難對單個大文件執(zhí)行清理操作。

單個日志拆分為多個段。日志文件在指定的大小限制后滾動。使用日志分段，需要有一種將邏輯日志偏移量（或日志序列號）映射到日志段文件的簡單方法。

這個其實也非常常見，比如我們實際業(yè)務(wù)應(yīng)用配置的log，一般都是按天、固定大小進行拆分，并不會把所有的日志都放在一個日志文件中

再比如es的分段存儲，一個段就是一個小的存儲文件

4.12 checksum校驗

在分布式系統(tǒng)中，在組件之間移動數(shù)據(jù)時，從節(jié)點獲取的數(shù)據(jù)可能會損壞。

計算校驗和并將其與數(shù)據(jù)一起存儲。

要計算校驗和，請使用 MD5、SHA-1、SHA-256 或 SHA-512 等加密哈希函數(shù)。哈希函數(shù)獲取輸入數(shù)據(jù)并生成固定長度的字符串（包含字母和數(shù)字）;此字符串稱為校驗和。

當系統(tǒng)存儲某些數(shù)據(jù)時，它會計算數(shù)據(jù)的校驗和，并將校驗和與數(shù)據(jù)一起存儲。當客戶端檢索數(shù)據(jù)時，它會驗證從服務(wù)器接收的數(shù)據(jù)是否與存儲的校驗和匹配。如果沒有，則客戶端可以選擇從另一個副本檢索該數(shù)據(jù)。

HDFS和Chubby將每個文件的校驗和與數(shù)據(jù)一起存儲。

4.13 一灰灰的小結(jié)

這一節(jié)很多內(nèi)容來自下面這篇博文，推薦有興趣的小伙伴查看原文

?Distributed System Design Patterns | by Nishant | Medium^[16]

這一節(jié)主要簡單的介紹了下分布式系統(tǒng)中應(yīng)用到的一些技術(shù)方案，如有對其中某個技術(shù)有興趣的小伙伴可以留言，后續(xù)會逐一進行補全

5.分布式系統(tǒng)解決方案

最后再介紹一些常見的分布式業(yè)務(wù)場景及對應(yīng)的解決方案，比如全局唯一的遞增ID-雪花算法，分布式系統(tǒng)的資源搶占-分布式鎖，分布式事務(wù)-2pc/3pc/tcc ，分布式緩存等

5.1 緩存

緩存實際上并不是分布式獨有的，這里把它加進來，主要是因為實在是應(yīng)用得太廣了，無論是應(yīng)用服務(wù)、基礎(chǔ)軟件工具還是操作系統(tǒng)，大量都可以見到緩存的身影

緩存的核心思想在于：借助更高效的IO方式，來替代代價昂貴的IO方式

如：

?redis的性能高于mysql?如內(nèi)存的讀寫，遠高于磁盤IO，文件IO?磁盤順序讀寫 > 隨機讀寫

用好緩存可以有效提高應(yīng)用性能，下面以一個普通的java前臺應(yīng)用為例說明

?JVM緩存 -> 分布式緩存(redis/memcache) -> mysql緩存 -> 操作系統(tǒng)文件緩存 -> 磁盤文件

緩存面臨的核心問題，則在于

?一致性問題：緩存與db的一致性如何保障（相信大家都聽說過或者實際處理過這種問題）?數(shù)據(jù)完整性：比如常見的先寫緩存，異步刷新到磁盤，那么緩存到磁盤刷新這段時間內(nèi)，若宕機導致數(shù)據(jù)丟失怎么辦？?TIP: 上面這個問題可以參考mysql的redolog

5.2 全局唯一ID

在傳統(tǒng)的單體架構(gòu)中，業(yè)務(wù)id基本上是依賴于數(shù)據(jù)庫的自增id來處理；當我們進入分布式場景時，如我們常說的分庫分表時，就需要我們來考慮如何實現(xiàn)全局唯一的業(yè)務(wù)id了，避免出現(xiàn)在分表中出現(xiàn)沖突

全局唯一ID解決方案：

?uuid?數(shù)據(jù)庫自增id表?redis原子自增命令?雪花算法 (原生的，擴展的百度UidGenerator, 美團Leaf等)?Mist 薄霧算法

5.3 分布式鎖

常用于分布式系統(tǒng)中資源控制，只有持有鎖的才能繼續(xù)操作，確保同一時刻只會有一個實例訪問這個資源

常見的分布式鎖有

?基于數(shù)據(jù)庫實現(xiàn)分布式鎖?Redis實現(xiàn)分布式鎖（應(yīng)用篇） | 一灰灰Learning^[17]?從0到1實現(xiàn)一個分布式鎖 | 一灰灰Learning^[18]?etcd實現(xiàn)分布式鎖?基于consul實現(xiàn)分布式鎖

5.4 分布式事務(wù)

事務(wù)表示一組操作，要么全部成功，要么全部不成功；單機事務(wù)通常說的是數(shù)據(jù)庫的事務(wù)；而分布式事務(wù)，則可以簡單理解為多個數(shù)據(jù)庫的操作，要么同時成功，要么全部不成功

更確切一點的說法，分布式事務(wù)主要是要求事務(wù)的參與方，可能涉及到多個系統(tǒng)、多個數(shù)據(jù)資源，要求它們的操作要么都成功，要么都回滾；

一個簡單的例子描述下分布式事務(wù)場景：

下單扣庫存

?用戶下單，付錢?此時訂單服務(wù)，會生成訂單信息?支付網(wǎng)關(guān)，會記錄付款信息，成功or失敗?庫存服務(wù)，扣減對應(yīng)的庫存

一個下單支付操作，涉及到三個系統(tǒng)，而分布式事務(wù)則是要求，若支付成功，則上面三個系統(tǒng)都應(yīng)該更新成功；若有一個操作失敗，如支付失敗，則已經(jīng)扣了庫存的要回滾（還庫存），生成的訂單信息回滾（刪掉--注：現(xiàn)實中并不會去刪除訂單信息，這里只是用于說明分布式事務(wù)，請勿帶入實際的實現(xiàn)方案）

分布式事務(wù)實現(xiàn)方案：

?2PC: 前面說的兩階段提交，就是實現(xiàn)分布式事務(wù)的一個經(jīng)典解決方案?3PC: 三階段提交?TCC：補償事務(wù)，簡單理解為應(yīng)用層面的2PC?SAGA事務(wù)?本地消息表?MQ事務(wù)方案

5.5 分布式任務(wù)

分布式任務(wù)相比于我們常說單機的定時任務(wù)而言，可以簡單的理解為多臺實例上的定時任務(wù)，從應(yīng)用場景來說，可以區(qū)分兩種

?互斥性的分布式任務(wù)?即同一時刻，集群內(nèi)只能有一個實例執(zhí)行這個任務(wù)?并存式的分布式任務(wù)?同一時刻，所有的實例都可以執(zhí)行這個任務(wù)?續(xù)考慮如何避免多個任務(wù)操作相同的資源

分布式任務(wù)實現(xiàn)方案：

?Quartz Cluster?XXL-Job?Elastic-Job?自研：?資源分片策略?分布式鎖控制的唯一任務(wù)執(zhí)行策略

5.6 分布式Session

Session一般叫做會話，Session技術(shù)是http狀態(tài)保持在服務(wù)端的解決方案，它是通過服務(wù)器來保持狀態(tài)的。我們可以把客戶端瀏覽器與服務(wù)器之間一系列交互的動作稱為一個 Session。是服務(wù)器端為客戶端所開辟的存儲空間，在其中保存的信息就是用于保持狀態(tài)。因此，session是解決http協(xié)議無狀態(tài)問題的服務(wù)端解決方案，它能讓客戶端和服務(wù)端一系列交互動作變成一個完整的事務(wù)。

單機基于session/cookie來實現(xiàn)用戶認證，那么在分布式系統(tǒng)的多實例之間，如何驗證用戶身份呢？這個就是我們說的分布式session

分布式session實現(xiàn)方案：

?session stick：客戶端每次請求都轉(zhuǎn)發(fā)到同一臺服務(wù)器(如基于ip的hash路由轉(zhuǎn)發(fā)策略）?session復制: session生成之后，主動同步給其他服務(wù)器?session集中保存：用戶信息統(tǒng)一存儲，每次需要時統(tǒng)一從這里取(也就是常說的redis實現(xiàn)分布式session方案)?cookie: 使用客戶端cookie存儲session數(shù)據(jù)，每次請求時攜帶這個

5.7 分布式鏈路追蹤

分布式鏈路追蹤也可以叫做全鏈路追中，而它可以說是每個開發(fā)者的福音，通常指的是一次前端的請求，將這個請求過程中，所有涉及到的系統(tǒng)、鏈路都串聯(lián)起來，可以清晰的知道這一次請求中，調(diào)用了哪些服務(wù)，有哪些IO交互，瓶頸點在哪里，什么地方拋出了異常

當前主流的全鏈路方案大多是基于google的??Dapper?? 論文實現(xiàn)的

全鏈路實現(xiàn)方案

?zipkin?pinpoint?SkyWalking?CAT?jaeger

5.8 布隆過濾器

Bloom過濾器是一種節(jié)省空間的概率數(shù)據(jù)結(jié)構(gòu)，用于測試元素是否為某集合的成員。

布隆過濾器由一個長度為 m 比特的位數(shù)組（bit array）與 k 個哈希函數(shù)（hash function）組成的數(shù)據(jù)結(jié)構(gòu)。

原理是當一個元素被加入集合時，通過 K 個散列函數(shù)將這個元素映射成一個位數(shù)組中的 K 個點，把它們置為 1。

檢索時，我們只要看看這些點是不是都是 1 就大約知道集合中有沒有它了，也就是說，如果這些點有任何一個 0 ，則被檢元素一定不在；如果都是 1 ，則被檢元素很可能在。

關(guān)于布隆過濾器，請牢記一點

?判定命中的，不一定真的命中?判定沒有命中的，則一定不在里面

布隆過濾器

常見的應(yīng)用場景，如

?防止緩存穿透?爬蟲時重復檢測

5.9 一灰灰的小結(jié)

分布式系統(tǒng)的解決方案當然不局限于上面幾種，比如分布式存儲、分布式計算等也屬于常見的場景，當然在我們實際的業(yè)務(wù)支持過程中，不太可能需要讓我們自己來支撐這種大活；而上面提到的幾個點，基本上或多或少會與我們?nèi)粘９ぷ飨嚓P(guān)，這里列出來當然是好為了后續(xù)的詳情做鋪墊

6.一灰灰的總結(jié)

6.1 綜述

這是一篇概括性的綜述類文章，可能并沒有很多的干貨，當然也限于“一灰灰”我個人的能力，上面的總結(jié)可能并不準確，如有發(fā)現(xiàn)，請不吝賜教

全文總結(jié)如下

常見的分布式架構(gòu)設(shè)計方案：

?主備，主從，多主多從，普通無中心集群，數(shù)據(jù)分片架構(gòu)

分布式系統(tǒng)中的理論基石：

?CAP， BASE, PACELEC?共識算法：paxos, raft, zab?一致性協(xié)議：2pc, 3pc?數(shù)據(jù)同步：gossip

分布式系統(tǒng)中的算法：

?分區(qū)的一致性hash算法: 基于hash環(huán)，減少節(jié)點動態(tài)增加減少對整個集群的影響；適用于數(shù)據(jù)分片的場景?適用于一致性的Quorum NWR算法: 投票算法，定義如何就一個提案達成共識?PBFT拜占庭容錯算法: 適用于集群中節(jié)點故障、或者不可信的場景?區(qū)塊鏈中大量使用的工作量證明PoW算法: 通過工作量證明，認可節(jié)點的提交

分布式系統(tǒng)解決方案：

?分布式緩存?全局唯一ID?分布式鎖?分布式事務(wù)?分布式任務(wù)?分布式會話?分布式鏈路追蹤?布隆過濾器

6.2 題外話

最后總結(jié)一下這篇耗時兩周寫完的“心血巨作”（有點自吹了哈），準備這篇文章確實花了很大的精力，首先我個人對于分布式這塊的理解并不能算深刻，其次分布式這塊的理論+實踐知識特別多，而且并不是特別容易上手理解，在輸出這篇文章的同時，遇到一些疑問點我也會去查閱相關(guān)資料去確認，整個過程并不算特別順利；那么為什么還要去做這個事情呢？

1.咸魚太久了，想做一些有意思的東西，活躍一下大腦2.準備依托于《分布式專欄》來將自己的知識體系進行歸納匯總，讓零散分布在大腦中的知識點能有一個脈絡(luò)串聯(lián)起來3.不想做架構(gòu)的碼農(nóng)不是好碼農(nóng)，而想成為一個好的架構(gòu)，當然得做一些基礎(chǔ)準備，向業(yè)務(wù)精品學習取經(jīng)

責任編輯：張燕妮來源：一灰灰blog

分布式高可用方案

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<thead id="ef8nh"></thead>