偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一文詳細介紹分布式系統(tǒng)的那些技術(shù)方案

開發(fā) 新聞
天天說分布式分布式,那么我們是否知道什么是分布式,分布式會遇到什么問題,有哪些理論支撐,有哪些經(jīng)典的應(yīng)對方案,業(yè)界是如何設(shè)計并保證分布式系統(tǒng)的高可用呢?

1.架構(gòu)設(shè)計

這一節(jié)將從一些經(jīng)典的開源系統(tǒng)架構(gòu)設(shè)計出發(fā),來看一下,如何設(shè)計一個高質(zhì)量的分布式系統(tǒng);

而一般的設(shè)計出發(fā)點,無外乎

?冗余:簡單理解為找個備胎,現(xiàn)任掛掉之后,備胎頂上?拆分:不能讓一個人承擔所有的重任,拆分下,每個人負擔一部分,壓力均攤

1.1 主備架構(gòu)

給現(xiàn)有的服務(wù)搭建一個備用的服務(wù),兩者功能完全一致,區(qū)別在于平時只有主應(yīng)用對外提供服務(wù)能力;而備應(yīng)用則只需要保證與主應(yīng)用能力一致,隨時待機即可,并不用對外提供服務(wù);當主應(yīng)用出現(xiàn)故障之后,將備應(yīng)用切換為主應(yīng)用,原主應(yīng)用下線;迅速的主備切換可以有效的縮短故障時間

基于上面的描述,主備架構(gòu)特點比較清晰

?采用冗余的方案,加一臺備用服務(wù)?缺點就是資源浪費

其次就是這個架構(gòu)模型最需要考慮的則是如何實現(xiàn)主備切換?

?人工?VIP(虛擬ip) + keepalived 機制

1.2 主從架構(gòu)

主從一般又叫做讀寫分離,主提供讀寫能力,而從則只提供讀能力

鑒于當下的互聯(lián)網(wǎng)應(yīng)用,絕大多數(shù)都是讀多寫少的場景;讀更容易成為性能瓶頸,所以采用讀寫分離,可以有效的提高整個集群的響應(yīng)能力

主從架構(gòu)可以區(qū)分為:一主多從 + 一主一從再多從,以mysql的主從架構(gòu)模型為例進行說明

圖片MySql主從

主從模式的主要特點在于

?添加從,源頭依然是數(shù)據(jù)冗余的思想?讀寫分離:主負責讀寫,從只負責讀,可以視為負載均衡策略?從需要向主同步數(shù)據(jù),所若有的從都同步與主,對主的壓力依然可能很大;所以就有了主從從的模式

關(guān)鍵問題則在于

?主從延遲?主的寫瓶頸?主掛之后如何選主

1.3 多主多從架構(gòu)

一主多從面臨單主節(jié)點的瓶頸問題,那就考慮多主多從的策略,同樣是主負責提供讀寫,從提供讀;

但是這里有一個核心點在于多主之間的數(shù)據(jù)同步,如何保證數(shù)據(jù)的一致性是這個架構(gòu)模型的重點

如MySql的雙主雙從可以說是一個典型的應(yīng)用場景,在實際使用的時候除了上面的一致性之外,還需要考慮主鍵id沖突的問題

1.4 普通集群模式

無主節(jié)點,集群中所有的應(yīng)用職能對等,沒有主次之分(當下絕大多數(shù)的業(yè)務(wù)服務(wù)都屬于這種),一個請求可以被集群中任意一個服務(wù)響應(yīng);

這種也可以叫做去中心化的設(shè)計模式,如redis的集群模式,eureka注冊中心,以可用性為首要目標

對于普通集群模式而言,重點需要考慮的點在于

?資源競爭:如何確保一個資源在同一時刻只能被一個業(yè)務(wù)操作?如現(xiàn)在同時來了申請退款和貨物出庫的請求,如果不對這個訂單進行加鎖,兩個請求同時響應(yīng),將會導致發(fā)貨又退款了,導致財貨兩失?數(shù)據(jù)一致性:如何確保所有的實例數(shù)據(jù)都是一致的,或者最終是一致的?如應(yīng)用服務(wù)使用jvm緩存,那么如何確保所有實例的jvm緩存一致??如Eureka的分區(qū)導致不同的分區(qū)的注冊信息表不一致

1.5 數(shù)據(jù)分片架構(gòu)

這個分片模型的描述可能并不準確,大家看的時候重點理解一下這個思想

前面幾個的架構(gòu)中,采用的是數(shù)據(jù)冗余的方式,即所有的實例都有一個全量的數(shù)據(jù),而這里的數(shù)據(jù)分片,則從數(shù)據(jù)拆分的思路來處理,將全量的數(shù)據(jù),通過一定規(guī)則拆分到多個系統(tǒng)中,每個系統(tǒng)包含部分的數(shù)據(jù),減小單個節(jié)點的壓力,主要用于解決數(shù)據(jù)量大的場景

比如redis的集群方式,通過hash槽的方式進行分區(qū)

如es的索引分片存儲

1.6 一灰灰的小結(jié)

這一節(jié)主要從架構(gòu)設(shè)計層面對當前的分布式系統(tǒng)所采用的方案進行了一個簡單的歸類與小結(jié),并不一定全面,歡迎各位大佬留言指正

基于冗余的思想:

?主備?主從?多主多從?無中心集群

基于拆分的思想:

?數(shù)據(jù)分片

對于拆分這一塊,我們常說的分庫分表也體現(xiàn)的是這一思想

2.理論基礎(chǔ)

這一小節(jié)將介紹分布式系統(tǒng)中的經(jīng)典理論,如廣為流程的CAP/BASE理論,一致性理論基礎(chǔ)paxios,raft,信息交換的Gossip協(xié)議,兩階段、三階段等

本節(jié)主要內(nèi)容參考自

?一致性算法-Gossip協(xié)議詳解 - 騰訊云開發(fā)者社區(qū)-騰訊云[1]?P2P 網(wǎng)絡(luò)核心技術(shù):Gossip 協(xié)議 - 知乎[2]?從Paxos到Raft,分布式一致性算法解析_mb5fdb0a87e2fa1的技術(shù)博客_51CTO博客[3]?【理論篇】淺析分布式中的 CAP、BASE、2PC、3PC、Paxos、Raft、ZAB - 知乎[4]

2.1 CAP定理

CAP 定理指出,分布式系統(tǒng) 不可能 同時提供下面三個要求:

?Consistency:一致性?操作更新完成并返回客戶端之后,所有節(jié)點數(shù)據(jù)完全一致?Availability:可用性?服務(wù)一直可用?Partition tolerance:分區(qū)容錯性?分布式系統(tǒng)在遇到某節(jié)點或網(wǎng)絡(luò)分區(qū)故障的時候,仍然能夠?qū)ν馓峁M足一致性可用性的服務(wù)

通常來講P很難不保證,當服務(wù)部署到多臺實例上時,節(jié)點異常、網(wǎng)絡(luò)故障屬于常態(tài),根據(jù)不同業(yè)務(wù)場景進行選擇

對于服務(wù)有限的應(yīng)用而言,首選AP,保證高可用,即使部分機器異常,也不會導致整個服務(wù)不可用;如絕大多數(shù)的前臺應(yīng)用都是這種

對于數(shù)據(jù)一致性要求高的場景,如涉及到錢的支付結(jié)算,CP可能更重要了

對于CAP的三種組合說明如下

選擇

說明

CA

放棄分區(qū)容錯性,加強一致性和可用性,其實就是傳統(tǒng)的單機場景

AP

放棄一致性(這里說的一致性是強一致性),追求分區(qū)容錯性和可用性,這是很多分布式系統(tǒng)設(shè)計時的選擇,例如很多NoSQL系統(tǒng)就是如此

CP

放棄可用性,追求一致性和分區(qū)容錯性,基本不會選擇,網(wǎng)絡(luò)問題會直接讓整個系統(tǒng)不可用

2.2 BASE理論

base理論作為cap的延伸,其核心特點在于放棄強一致性,追求最終一致性

?Basically Available: 基本可用?指分布式系統(tǒng)在出現(xiàn)故障的時候,允許損失部分可用性,即保證核心可用?如大促時降級策略?Soft State:軟狀態(tài)?允許系統(tǒng)存在中間狀態(tài),而該中間狀態(tài)不會影響系統(tǒng)整體可用性?MySql異步方式的主從同步,可能導致的主從數(shù)據(jù)不一致?Eventual Consistency:最終一致性?最終一致性是指系統(tǒng)中的所有數(shù)據(jù)副本經(jīng)過一定時間后,最終能夠達到一致的狀態(tài)

基于上面的描述,可以看到BASE理論適用于大型高可用可擴展的分布式系統(tǒng)

注意其不同于ACID的強一致性模型,而是通過犧牲強一致性 來獲得可用性,并允許數(shù)據(jù)在一段時間內(nèi)是不一致的,但最終達到一致狀態(tài)

2.3 PACELEC 定理

這個真沒聽說過,以下內(nèi)容來自:

?Distributed System Design Patterns | by Nishant | Medium[5]

?如果有一個分區(qū)('P'),分布式系統(tǒng)可以在可用性和一致性(即'A'和'C')之間進行權(quán)衡;?否則('E'),當系統(tǒng)在沒有分區(qū)的情況下正常運行時,系統(tǒng)可以在延遲('L')和一致性('C')之間進行權(quán)衡。

圖片

定理(PAC)的第一部分與CAP定理相同,ELC是擴展。整個論點假設(shè)我們通過復制來保持高可用性。因此,當失敗時,CAP定理占上風。但如果沒有,我們?nèi)匀槐仨毧紤]復制系統(tǒng)的一致性和延遲之間的權(quán)衡。

2.4 Paxos共識算法

Paxos算法解決的問題是分布式共識性問題,即一個分布式系統(tǒng)中的各個進程如何就某個值(決議)通過共識達成一致

基于上面這個描述,可以看出它非常適用于選舉;其工作流程

?一個或多個提議進程 (Proposer) 可以發(fā)起提案 (Proposal),?Paxos算法使所有提案中的某一個提案,在所有進程中達成一致。系統(tǒng)中的多數(shù)派同時認可該提案,即達成了一致

角色劃分:

?Proposer: 提出提案Proposal,包含編號 + value?Acceptor: 參與決策,回應(yīng)Proposers的提案;當一個提案,被半數(shù)以上的Acceptor接受,則該提案被批準?每個acceptor只能批準一個提案?Learner: 不參與決策,獲取最新的提案value

2.5 Raft算法

為了解決paxos的復雜性,raft算法提供了一套更易理解的算法基礎(chǔ),其核心流程在于:

leader接受請求,并轉(zhuǎn)發(fā)給follow,當大部分follow響應(yīng)之后,leader通知所有的follow提交請求、同時自己也提交請求并告訴調(diào)用方ok

角色劃分:

?Leader:領(lǐng)導者,接受客戶端請求,并向Follower同步請求,當數(shù)據(jù)同步到大多數(shù)節(jié)點上后告訴Follower提交日志?Follow: 接受并持久化Leader同步的數(shù)據(jù),在Leader告之日志可以提交之后,提交?Candidate:Leader選舉過程中的臨時角色,向其他節(jié)點拉選票,得到多數(shù)的晉升為leader,選舉完成之后不存在這個角色

圖片

raft共識流程

2.6 ZAB協(xié)議

ZAB(Zookeeper Atomic Broadcast) 協(xié)議是為分布式協(xié)調(diào)服務(wù)ZooKeeper專門設(shè)計的一種支持崩潰恢復的一致性協(xié)議,基于該協(xié)議,ZooKeeper 實現(xiàn)了一種 主從模式的系統(tǒng)架構(gòu)來保持集群中各個副本之間的數(shù)據(jù)一致性。

?zookeeper核心之ZAB協(xié)議就這么簡單![8]

主要用于zk的數(shù)據(jù)一致性場景,其核心思想是Leader再接受到事務(wù)請求之后,通過給Follower,當半數(shù)以上的Follower返回ACK之后,Leader提交提案,并向Follower發(fā)送commit信息

角色劃分

?Leader: 負責整個Zookeeper 集群工作機制中的核心?事務(wù)請求的唯一調(diào)度和處理者,保證集群事務(wù)處理的順序性?集群內(nèi)部各服務(wù)器的調(diào)度者?Follower:Leader的追隨者?處理客戶端的非實物請求,轉(zhuǎn)發(fā)事務(wù)請求給 Leader 服務(wù)器?參與事務(wù)請求 Proposal 的投票?參與 Leader 選舉投票?Observer:是 zookeeper 自 3.3.0 開始引入的一個角色,?它不參與事務(wù)請求 Proposal 的投票,?也不參與 Leader 選舉投票?只提供非事務(wù)的服務(wù)(查詢),通常在不影響集群事務(wù)處理能力的前提下提升集群的非事務(wù)處理能力。

圖片ZAB消息廣播

2.7 2PC協(xié)議

two-phase commit protocol,兩階段提交協(xié)議,主要是為了解決強一致性,中心化的強一致性協(xié)議

角色劃分

?協(xié)調(diào)節(jié)點(coordinator):中心化?參與者節(jié)點(partcipant):多個

執(zhí)行流程

協(xié)調(diào)節(jié)點接收請求,然后向參與者節(jié)點提交 ??precommit???,當所有的參與者都回復ok之后,協(xié)調(diào)節(jié)點再給所有的參與者節(jié)點提交??commit??,所有的都返回ok之后,才表明這個數(shù)據(jù)確認提交

當?shù)谝粋€階段,有一個參與者失敗,則所有的參與者節(jié)點都回滾

圖片2pc流程

特點

優(yōu)點在于實現(xiàn)簡單

缺點也很明顯

?協(xié)調(diào)節(jié)點的單點故障?第一階段全部ack正常,第二階段存在部分參與者節(jié)點異常時,可能出現(xiàn)不一致問題

2.8 3PC協(xié)議

分布式事務(wù):兩階段提交與三階段提交 - SegmentFault 思否[9]

在兩階段的基礎(chǔ)上進行擴展,將第一階段劃分兩部,cancommit + precommit,第三階段則為 docommit

第一階段 cancommit

該階段協(xié)調(diào)者會去詢問各個參與者是否能夠正常執(zhí)行事務(wù),參與者根據(jù)自身情況回復一個預估值,相對于真正的執(zhí)行事務(wù),這個過程是輕量的

第二階段 precommit

本階段協(xié)調(diào)者會根據(jù)第一階段的詢盤結(jié)果采取相應(yīng)操作,若所有參與者都返回ok,則協(xié)調(diào)者向參與者提交事務(wù)執(zhí)行(單不提交)通知;否則通知參與者abort回滾

第三階段 docommit

如果第二階段事務(wù)未中斷,那么本階段協(xié)調(diào)者將會依據(jù)事務(wù)執(zhí)行返回的結(jié)果來決定提交或回滾事務(wù),若所有參與者正常執(zhí)行,則提交;否則協(xié)調(diào)者+參與者回滾

在本階段如果因為協(xié)調(diào)者或網(wǎng)絡(luò)問題,導致參與者遲遲不能收到來自協(xié)調(diào)者的 commit 或 rollback 請求,那么參與者將不會如兩階段提交中那樣陷入阻塞,而是等待超時后繼續(xù) commit,相對于兩階段提交雖然降低了同步阻塞,但仍然無法完全避免數(shù)據(jù)的不一致

特點

?降低了阻塞與單點故障:?參與者返回 CanCommit 請求的響應(yīng)后,等待第二階段指令,若等待超時/協(xié)調(diào)者宕機,則自動 abort,降低了阻塞;?參與者返回 PreCommit 請求的響應(yīng)后,等待第三階段指令,若等待超時/協(xié)調(diào)者宕機,則自動 commit 事務(wù),也降低了阻塞;?數(shù)據(jù)不一致問題依然存在?比如第三階段協(xié)調(diào)者發(fā)出了 abort 請求,然后有些參與者沒有收到 abort,那么就會自動 commit,造成數(shù)據(jù)不一致

2.9 Gossip協(xié)議

Gossip 協(xié)議,顧名思義,就像流言蜚語一樣,利用一種隨機、帶有傳染性的方式,將信息傳播到整個網(wǎng)絡(luò)中,并在一定時間內(nèi),使得系統(tǒng)內(nèi)的所有節(jié)點數(shù)據(jù)一致。Gossip 協(xié)議通過上面的特性,可以保證系統(tǒng)能在極端情況下(比如集群中只有一個節(jié)點在運行)也能運行

?P2P 網(wǎng)絡(luò)核心技術(shù):Gossip 協(xié)議 - 知乎[10]

主要用在分布式數(shù)據(jù)庫系統(tǒng)中各個副本節(jié)點同步數(shù)據(jù)之用,這種場景的一個最大特點就是組成的網(wǎng)絡(luò)的節(jié)點都是對等節(jié)點,是非結(jié)構(gòu)化網(wǎng)絡(luò)

工作流程

?周期性的傳播消息,通常周期時間為1s?被感染的節(jié)點,隨機選擇n個相鄰節(jié)點,傳播消息?每次傳播消息都選擇還沒有發(fā)送過的節(jié)點進行傳播?收單消息的節(jié)點,不會傳播給向它發(fā)送消息的節(jié)點

圖片

Gossip傳播示意圖

特點

?擴展性:允許節(jié)點動態(tài)增加、減少,新增的節(jié)點狀態(tài)最終會與其他節(jié)點一致?容錯:網(wǎng)絡(luò)中任意一個節(jié)點宕機重啟都不會影響消息傳播?去中心化:不要求中心節(jié)點,所有節(jié)點對等,任何一個節(jié)點無需知道整個網(wǎng)絡(luò)狀況,只要網(wǎng)絡(luò)連通,則一個節(jié)點的消息最終會散播到整個網(wǎng)絡(luò)?一致性收斂:協(xié)議中的消息會以一傳十、十傳百一樣的指數(shù)級速度在網(wǎng)絡(luò)中快速傳播,因此系統(tǒng)狀態(tài)的不一致可以在很快的時間內(nèi)收斂到一致。消息傳播速度達到了 logN?簡單:Gossip 協(xié)議的過程極其簡單,實現(xiàn)起來幾乎沒有太多復雜性

缺點

?消息延遲:節(jié)點只會隨機向少數(shù)幾個節(jié)點發(fā)送消息,消息最終是通過多個輪次的散播而到達全網(wǎng)的,因此使用 Gossip 協(xié)議會造成不可避免的消息延遲?消息冗余:節(jié)點會定期隨機選擇周圍節(jié)點發(fā)送消息,而收到消息的節(jié)點也會重復該步驟,導致消息的冗余

2.10 一灰灰的小結(jié)

本節(jié)主要介紹的是分布式系統(tǒng)設(shè)計中的一些常見的理論基石,如分布式中如何保障一致性,如何對一個提案達成共識

?BASE,CAP,PACELEC理論:構(gòu)建穩(wěn)定的分布式系統(tǒng)應(yīng)該考慮的方向?paxos,raft共識算法?zab一致性協(xié)議?gossip消息同步協(xié)議

3.算法

這一節(jié)將主要介紹下分布式系統(tǒng)中的經(jīng)典的算法,比如常用于分區(qū)的一致性hash算法,適用于一致性的Quorum NWR算法,PBFT拜占庭容錯算法,區(qū)塊鏈中大量使用的工作量證明PoW算法等

3.1 一致性hash算法

一致性hash算法,主要應(yīng)用于數(shù)據(jù)分片場景下,有效降低服務(wù)的新增、刪除對數(shù)據(jù)復制的影響

通過對數(shù)據(jù)項的鍵進行哈希處理映射其在環(huán)上的位置,然后順時針遍歷環(huán)以查找位置大于該項位置的第一個節(jié)點,將每個由鍵標識的數(shù)據(jù)分配給hash環(huán)中的一個節(jié)點

圖片

一致性hash算法

一致散列的主要優(yōu)點是增量穩(wěn)定性; 節(jié)點添加刪除,對整個集群而言,僅影響其直接鄰居,其他節(jié)點不受影響。

注意:

?redis集群實現(xiàn)了一套hash槽機制,其核心思想與一致性hash比較相似

3.2 Quorum NWR算法

用來保證數(shù)據(jù)冗余和最終一致性的投票算法,其主要數(shù)學思想來源于鴿巢原理

?分布式系統(tǒng)之Quorum (NRW)算法-阿里云開發(fā)者社區(qū)[11]

?N 表示副本數(shù),又叫做復制因子(Replication Factor)。也就是說,N 表示集群中同一份數(shù)據(jù)有多少個副本?W,又稱寫一致性級別(Write Consistency Level),表示成功完成 W 個副本更新寫入,才會視為本次寫操作成功?R 又稱讀一致性級別(Read Consistency Level),表示讀取一個數(shù)據(jù)對象時需要讀 R 個副本, 才會視為本次讀操作成功

Quorum NWR算法要求每個數(shù)據(jù)拷貝對象 都可以投1票,而每一個操作的執(zhí)行則需要獲取最小的讀票數(shù),寫票數(shù);通常來講寫票數(shù)W一般需要超過N/2,即我們通常說的得到半數(shù)以上的票才表示數(shù)據(jù)寫入成功

事實上當W=N、R=1時,即所謂的WARO(Write All Read One)。就是CAP理論中CP模型的場景

3.3 PBFT拜占庭算法

拜占庭算法主要針對的是分布式場景下無響應(yīng),或者響應(yīng)不可信的情況下的容錯問題,其核心分三段流程,如下

圖片

拜占庭算法

假設(shè)集群節(jié)點數(shù)為 N,f個故障節(jié)點(無響應(yīng))和f個問題節(jié)點(無響應(yīng)或錯誤響應(yīng)),f+1個正常節(jié)點,即 3f+1=n

?客戶端向主節(jié)點發(fā)起請求,主節(jié)點接受請求之后,向其他節(jié)點廣播 pre-prepare 消息?節(jié)點接受pre-prepare消息之后,若同意請求,則向其他節(jié)點廣播 prepare 消息;?當一個節(jié)點接受到2f+1個prepare新消息,則進入commit階段,并廣播commit消息?當收到 2f+1 個 commit 消息后(包括自己),代表大多數(shù)節(jié)點已經(jīng)進入 commit 階段,這一階段已經(jīng)達成共識,于是節(jié)點就會執(zhí)行請求,寫入數(shù)據(jù)

相比 Raft 算法完全不適應(yīng)有人作惡的場景,PBFT 算法能容忍 (n 1)/3 個惡意節(jié)點 (也可以是故障節(jié)點)。另外,相比 PoW 算法,PBFT 的優(yōu)點是不消耗算 力。PBFT 算法是O(n ^ 2) 的消息復雜度的算法,所以以及隨著消息數(shù) 的增加,網(wǎng)絡(luò)時延對系統(tǒng)運行的影響也會越大,這些都限制了運行 PBFT 算法的分布式系統(tǒng) 的規(guī)模,也決定了 PBFT 算法適用于中小型分布式系統(tǒng)

3.4 PoW算法

工作量證明 (Proof Of Work,簡稱 PoW),同樣應(yīng)用于分布式下的一致性場景,區(qū)別于前面的raft, pbft, paxos采用投票機制達成共識方案,pow采用工作量證明

客戶端需要做一定難度的工作才能得出一個結(jié)果,驗證方卻很容易通過結(jié)果來檢查出客戶端是不是做了相應(yīng)的工作,通過消耗一定工作浪,增加消息偽造的成本,PoW以區(qū)塊鏈中廣泛應(yīng)用而廣為人知,下面以區(qū)塊鏈來簡單說一下PoW的算法應(yīng)用場景

以BTC的轉(zhuǎn)賬為例,A轉(zhuǎn)n個btc給B,如何保證不會同時將這n個幣轉(zhuǎn)給C?

?A轉(zhuǎn)賬給B,交易信息記錄在一個區(qū)塊1中?A轉(zhuǎn)賬給C,交易信息被記錄在另一個區(qū)塊2中?當區(qū)塊1被礦工成功提交到鏈上,并被大多數(shù)認可(通過校驗區(qū)塊鏈上的hash值驗證是否準確,而這個hash值體現(xiàn)的是礦工的工作量),此時尚未提交的區(qū)塊2則會被拋棄?若區(qū)塊1被提交,區(qū)塊2也被提交,各自有部分人認可,就會導致分叉,區(qū)塊鏈中采用的是優(yōu)選最長的鏈作為主鏈,丟棄分叉的部分(這就屬于區(qū)塊鏈的知識點了,有興趣的小伙伴可以擴展下相關(guān)知識點,這里就不展開了)

PoW的算法,主要應(yīng)用在上面的區(qū)塊提交驗證,通過hash值計算來消耗算力,以此證明礦工確實有付出,得到多數(shù)認可的可以達成共識

3.5 一灰灰的小結(jié)

本節(jié)主要介紹了下當前分布式下常見的算法,

?分區(qū)的一致性hash算法: 基于hash環(huán),減少節(jié)點動態(tài)增加減少對整個集群的影響;適用于數(shù)據(jù)分片的場景?適用于一致性的Quorum NWR算法: 投票算法,定義如何就一個提案達成共識?PBFT拜占庭容錯算法: 適用于集群中節(jié)點故障、或者不可信的場景?區(qū)塊鏈中大量使用的工作量證明PoW算法: 通過工作量證明,認可節(jié)點的提交

4.技術(shù)思想

這一節(jié)的內(nèi)容相對前面幾個而言,并不太容易進行清晰的分類;主要包含一些高質(zhì)量的分布式系統(tǒng)的實踐中,值得推薦的設(shè)計思想、技術(shù)細節(jié)

4.1 CQRS

?DDD 中的那些模式 — CQRS - 知乎[12]?詳解CQRS架構(gòu)模式_架構(gòu)_Kislay Verma_InfoQ精選文章[13]

Command Query Responsibility Segregation 即我們通俗理解的讀寫分離,其核心思想在于將兩類不同操作進行分離,在獨立的服務(wù)中實現(xiàn)

圖片cqrs


用途在于將領(lǐng)域模型與查詢功能進行分離,讓一些復雜的查詢擺脫領(lǐng)域模型的限制,以更為簡單的 DTO 形式展現(xiàn)查詢結(jié)果。同時分離了不同的數(shù)據(jù)存儲結(jié)構(gòu),讓開發(fā)者按照查詢的功能與要求更加自由的選擇數(shù)據(jù)存儲引擎

4.2 復制負載平衡服務(wù)

?分布式系統(tǒng)設(shè)計:服務(wù)模式之復制負載平衡服務(wù) - 知乎[14]?負載均衡調(diào)度算法大全 | 菜鳥教程[15]

復制負載平衡服務(wù)(Replication Load Balancing Service, RLBS),可以簡單理解為我們常說的負載均衡,多個相同的服務(wù)實例構(gòu)建一個集群,每個服務(wù)都可以響應(yīng)請求,負載均衡器負責請求的分發(fā)到不同的實例上,常見的負載算法

算法

說明

特點

輪詢

請求按照順序依次分發(fā)給對應(yīng)的服務(wù)器

優(yōu)點簡單,缺點在于未考慮不同服務(wù)器的實際性能情況

加權(quán)輪詢

權(quán)重高的被分發(fā)更多的請求

優(yōu)點:充分利用機器的性能

最少連接數(shù)

找連接數(shù)最少的服務(wù)器進行請求分發(fā),若所有服務(wù)器相同的連接數(shù),則找第一個選擇的

目的是讓優(yōu)先讓空閑的機器響應(yīng)請求

少連接數(shù)慢啟動時間

剛啟動的服務(wù)器,在一個時間段內(nèi),連接數(shù)是有限制且緩慢增加

避免剛上線導致大量的請求分發(fā)過來而超載

加權(quán)最少連接

平衡服務(wù)性能 + 最少連接數(shù)


基于代理的自適應(yīng)負載均衡

載主機包含一個自適用邏輯用來定時監(jiān)測服務(wù)器狀態(tài)和該服務(wù)器的權(quán)重


源地址哈希法

獲取客戶端的IP地址,通過哈希函映射到對應(yīng)的服務(wù)器

相同的來源請求都轉(zhuǎn)發(fā)到相同的服務(wù)器上

隨機

隨機算法選擇一臺服務(wù)器


固定權(quán)重

最高權(quán)重只有在其他服務(wù)器的權(quán)重值都很低時才使用。然而,如果最高權(quán)重的服務(wù)器下降,則下一個最高優(yōu)先級的服務(wù)器將為客戶端服務(wù)

每個真實服務(wù)器的權(quán)重需要基于服務(wù)器優(yōu)先級來配置

加權(quán)響應(yīng)

服務(wù)器響應(yīng)越小其權(quán)重越高,通常是基于心跳來判斷機器的快慢

心跳的響應(yīng)并不一定非常準確反應(yīng)服務(wù)情況

4.3 心跳機制

在分布式環(huán)境里中,如何判斷一個服務(wù)是否存活,當下最常見的方案就是心跳

比如raft算法中的leader向所有的follow發(fā)送心跳,表示自己還健在,避免發(fā)生新的選舉;

比如redis的哨兵機制,也是通過ping/pong的心跳來判斷節(jié)點是否下線,是否需要選新的主節(jié)點;

再比如我們?nèi)粘5臉I(yè)務(wù)應(yīng)用得健康監(jiān)測,判斷服務(wù)是否正常

4.4 租約機制

租約就像一個鎖,但即使客戶端離開,它也能工作??蛻舳苏埱笥邢奁谙薜淖饧s,之后租約到期。如果客戶端想要延長租約,它可以在租約到期之前續(xù)訂租約。

租約主要是了避免一個資源長久被某個對象持有,一旦對方掛了且不會主動釋放的問題;在實際的場景中,有兩個典型的應(yīng)用

case1 分布式鎖

業(yè)務(wù)獲取的分布式鎖一般都有一個有效期,若有效期內(nèi)沒有主動釋放,這個鎖依然會被釋放掉,其他業(yè)務(wù)也可以搶占到這把鎖;因此對于持有鎖的業(yè)務(wù)方而言,若發(fā)現(xiàn)在到期前,業(yè)務(wù)邏輯還沒有處理完,則可以續(xù)約,讓自己繼續(xù)持有這把鎖

典型的實現(xiàn)方式是redisson的看門狗機制

case2 raft算法的任期

在raft算法中,每個leader都有一個任期,任期過后會重新選舉,而Leader為了避免重新選舉,一般會定時發(fā)送心跳到Follower進行續(xù)約

4.5 Leader & Follow

這個比較好理解,上面很多系統(tǒng)都采用了這種方案,特別是在共識算法中,由領(lǐng)導者負責代表整個集群做出決策,并將決策傳播到所有其他服務(wù)器

領(lǐng)導者選舉在服務(wù)器啟動時進行。每個服務(wù)器在啟動時都會啟動領(lǐng)導者選舉,并嘗試選舉領(lǐng)導者。除非選出領(lǐng)導者,否則系統(tǒng)不接受任何客戶端請求

4.6 Fencing

在領(lǐng)導者-追隨者模式中,當領(lǐng)導者失敗時,不可能確定領(lǐng)導者已停止工作,如慢速網(wǎng)絡(luò)或網(wǎng)絡(luò)分區(qū)可能會觸發(fā)新的領(lǐng)導者選舉,即使前一個領(lǐng)導者仍在運行并認為它仍然是活動的領(lǐng)導者

Fencint是指在以前處于活動狀態(tài)的領(lǐng)導者周圍設(shè)置圍欄,使其無法訪問集群資源,從而停止為任何讀/寫請求提供服務(wù)

?資源屏蔽:系統(tǒng)會阻止以前處于活動狀態(tài)的領(lǐng)導者訪問執(zhí)行基本任務(wù)所需的資源。?節(jié)點屏蔽:系統(tǒng)會阻止以前處于活動狀態(tài)的領(lǐng)導者訪問所有資源。執(zhí)行此操作的常見方法是關(guān)閉節(jié)點電源或重置節(jié)點。

4.7 Quorum法定人數(shù)

法定人數(shù),常見于選舉、共識算法中,當超過Quorum的節(jié)點數(shù)確認之后,才表示這個提案通過(數(shù)據(jù)更新成功),通常這個法定人數(shù)為 = 半數(shù)節(jié)點 + 1

4.8 High-Water mark高水位線

高水位線,跟蹤Leader(領(lǐng)導者)上的最后一個日志條目,且該條目已成功復制到>quorum(法定人數(shù))的Follow(跟誰者),即表示這個日志被整個集群接受

日志中此條目的索引稱為高水位線索引。領(lǐng)導者僅公開到高水位線索引的數(shù)據(jù)。

如Kafka:為了處理非可重復讀取并確保數(shù)據(jù)一致性,Kafka broker會跟蹤高水位線,這是特定分區(qū)的最大偏移量。使用者只能看到高水位線之前的消息。

4.9 Phi 累計故障檢測

Phi Accrual Failure Detection,使用歷史檢測信號信息使閾值自適應(yīng)

通用的應(yīng)計故障檢測器不會判斷服務(wù)器是否處于活動狀態(tài),而是輸出有關(guān)服務(wù)器的可疑級別。

如Cassandra(Facebook開源的分布式NoSql數(shù)據(jù)庫)使用 Phi 應(yīng)計故障檢測器算法來確定群集中節(jié)點的狀態(tài)

4.10 Write-ahead Log預寫日志

預寫日志記錄是解決操作系統(tǒng)中文件系統(tǒng)不一致的問題的高級解決方案,當我們提交寫到操作系統(tǒng)的文件緩存,此時業(yè)務(wù)會認為已經(jīng)提交成功;但是在文件緩存與實際寫盤之間會有一個時間差,若此時機器宕機,會導致緩存中的數(shù)據(jù)丟失,從而導致完整性缺失

為了解決這個問題,如mysql,es等都采用了預寫日志的機制來避免這個問題

MySql:

?事務(wù)提交的流程中,先寫redolog precommit, 然后寫binlog,最后再redolog commit;當redolog記錄成功之后,才表示事務(wù)執(zhí)行成功;?因此當出現(xiàn)上面的宕機恢復時,則會加載redologo,然后重放對應(yīng)的命令,來恢復未持久化的數(shù)據(jù)

ElasticSearch:

?在內(nèi)存中數(shù)據(jù)生成段寫到操作系統(tǒng)文件緩存前,會先寫事務(wù)日志,出現(xiàn)異常時,也是從事務(wù)日志進行恢復

4.11 分段日志

將日志拆分為多個較小的文件,而不是單個大文件,以便于操作。

單個日志文件在啟動時讀取時可能會增長并成為性能瓶頸。較舊的日志會定期清理,并且很難對單個大文件執(zhí)行清理操作。

單個日志拆分為多個段。日志文件在指定的大小限制后滾動。使用日志分段,需要有一種將邏輯日志偏移量(或日志序列號)映射到日志段文件的簡單方法。

這個其實也非常常見,比如我們實際業(yè)務(wù)應(yīng)用配置的log,一般都是按天、固定大小進行拆分,并不會把所有的日志都放在一個日志文件中

再比如es的分段存儲,一個段就是一個小的存儲文件

4.12 checksum校驗

在分布式系統(tǒng)中,在組件之間移動數(shù)據(jù)時,從節(jié)點獲取的數(shù)據(jù)可能會損壞。

計算校驗和并將其與數(shù)據(jù)一起存儲。

要計算校驗和,請使用 MD5、SHA-1、SHA-256 或 SHA-512 等加密哈希函數(shù)。哈希函數(shù)獲取輸入數(shù)據(jù)并生成固定長度的字符串(包含字母和數(shù)字);此字符串稱為校驗和。

當系統(tǒng)存儲某些數(shù)據(jù)時,它會計算數(shù)據(jù)的校驗和,并將校驗和與數(shù)據(jù)一起存儲。當客戶端檢索數(shù)據(jù)時,它會驗證從服務(wù)器接收的數(shù)據(jù)是否與存儲的校驗和匹配。如果沒有,則客戶端可以選擇從另一個副本檢索該數(shù)據(jù)。

HDFS和Chubby將每個文件的校驗和與數(shù)據(jù)一起存儲。

4.13 一灰灰的小結(jié)

這一節(jié)很多內(nèi)容來自下面這篇博文,推薦有興趣的小伙伴查看原文

?Distributed System Design Patterns | by Nishant | Medium[16]

這一節(jié)主要簡單的介紹了下分布式系統(tǒng)中應(yīng)用到的一些技術(shù)方案,如有對其中某個技術(shù)有興趣的小伙伴可以留言,后續(xù)會逐一進行補全

5.分布式系統(tǒng)解決方案

最后再介紹一些常見的分布式業(yè)務(wù)場景及對應(yīng)的解決方案,比如全局唯一的遞增ID-雪花算法,分布式系統(tǒng)的資源搶占-分布式鎖,分布式事務(wù)-2pc/3pc/tcc ,分布式緩存等

5.1 緩存

緩存實際上并不是分布式獨有的,這里把它加進來,主要是因為實在是應(yīng)用得太廣了,無論是應(yīng)用服務(wù)、基礎(chǔ)軟件工具還是操作系統(tǒng),大量都可以見到緩存的身影

緩存的核心思想在于:借助更高效的IO方式,來替代代價昂貴的IO方式

如:

?redis的性能高于mysql?如內(nèi)存的讀寫,遠高于磁盤IO,文件IO?磁盤順序讀寫 > 隨機讀寫

用好緩存可以有效提高應(yīng)用性能,下面以一個普通的java前臺應(yīng)用為例說明

?JVM緩存 -> 分布式緩存(redis/memcache) -> mysql緩存 -> 操作系統(tǒng)文件緩存 -> 磁盤文件

緩存面臨的核心問題,則在于

?一致性問題:緩存與db的一致性如何保障(相信大家都聽說過或者實際處理過這種問題)?數(shù)據(jù)完整性:比如常見的先寫緩存,異步刷新到磁盤,那么緩存到磁盤刷新這段時間內(nèi),若宕機導致數(shù)據(jù)丟失怎么辦??TIP: 上面這個問題可以參考mysql的redolog

5.2 全局唯一ID

在傳統(tǒng)的單體架構(gòu)中,業(yè)務(wù)id基本上是依賴于數(shù)據(jù)庫的自增id來處理;當我們進入分布式場景時,如我們常說的分庫分表時,就需要我們來考慮如何實現(xiàn)全局唯一的業(yè)務(wù)id了,避免出現(xiàn)在分表中出現(xiàn)沖突

全局唯一ID解決方案:

?uuid?數(shù)據(jù)庫自增id表?redis原子自增命令?雪花算法 (原生的,擴展的百度UidGenerator, 美團Leaf等)?Mist 薄霧算法

5.3 分布式鎖

常用于分布式系統(tǒng)中資源控制,只有持有鎖的才能繼續(xù)操作,確保同一時刻只會有一個實例訪問這個資源

常見的分布式鎖有

?基于數(shù)據(jù)庫實現(xiàn)分布式鎖?Redis實現(xiàn)分布式鎖(應(yīng)用篇) | 一灰灰Learning[17]?從0到1實現(xiàn)一個分布式鎖 | 一灰灰Learning[18]?etcd實現(xiàn)分布式鎖?基于consul實現(xiàn)分布式鎖

5.4 分布式事務(wù)

事務(wù)表示一組操作,要么全部成功,要么全部不成功;單機事務(wù)通常說的是數(shù)據(jù)庫的事務(wù);而分布式事務(wù),則可以簡單理解為多個數(shù)據(jù)庫的操作,要么同時成功,要么全部不成功

更確切一點的說法,分布式事務(wù)主要是要求事務(wù)的參與方,可能涉及到多個系統(tǒng)、多個數(shù)據(jù)資源,要求它們的操作要么都成功,要么都回滾;

一個簡單的例子描述下分布式事務(wù)場景:

下單扣庫存

?用戶下單,付錢?此時訂單服務(wù),會生成訂單信息?支付網(wǎng)關(guān),會記錄付款信息,成功or失敗?庫存服務(wù),扣減對應(yīng)的庫存

一個下單支付操作,涉及到三個系統(tǒng),而分布式事務(wù)則是要求,若支付成功,則上面三個系統(tǒng)都應(yīng)該更新成功;若有一個操作失敗,如支付失敗,則已經(jīng)扣了庫存的要回滾(還庫存),生成的訂單信息回滾(刪掉--注:現(xiàn)實中并不會去刪除訂單信息,這里只是用于說明分布式事務(wù),請勿帶入實際的實現(xiàn)方案)

分布式事務(wù)實現(xiàn)方案:

?2PC: 前面說的兩階段提交,就是實現(xiàn)分布式事務(wù)的一個經(jīng)典解決方案?3PC: 三階段提交?TCC:補償事務(wù),簡單理解為應(yīng)用層面的2PC?SAGA事務(wù)?本地消息表?MQ事務(wù)方案

5.5 分布式任務(wù)

分布式任務(wù)相比于我們常說單機的定時任務(wù)而言,可以簡單的理解為多臺實例上的定時任務(wù),從應(yīng)用場景來說,可以區(qū)分兩種

?互斥性的分布式任務(wù)?即同一時刻,集群內(nèi)只能有一個實例執(zhí)行這個任務(wù)?并存式的分布式任務(wù)?同一時刻,所有的實例都可以執(zhí)行這個任務(wù)?續(xù)考慮如何避免多個任務(wù)操作相同的資源

分布式任務(wù)實現(xiàn)方案:

?Quartz Cluster?XXL-Job?Elastic-Job?自研:?資源分片策略?分布式鎖控制的唯一任務(wù)執(zhí)行策略

5.6 分布式Session

Session一般叫做會話,Session技術(shù)是http狀態(tài)保持在服務(wù)端的解決方案,它是通過服務(wù)器來保持狀態(tài)的。我們可以把客戶端瀏覽器與服務(wù)器之間一系列交互的動作稱為一個 Session。是服務(wù)器端為客戶端所開辟的存儲空間,在其中保存的信息就是用于保持狀態(tài)。因此,session是解決http協(xié)議無狀態(tài)問題的服務(wù)端解決方案,它能讓客戶端和服務(wù)端一系列交互動作變成一個完整的事務(wù)。

單機基于session/cookie來實現(xiàn)用戶認證,那么在分布式系統(tǒng)的多實例之間,如何驗證用戶身份呢?這個就是我們說的分布式session

分布式session實現(xiàn)方案:

?session stick:客戶端每次請求都轉(zhuǎn)發(fā)到同一臺服務(wù)器(如基于ip的hash路由轉(zhuǎn)發(fā)策略)?session復制: session生成之后,主動同步給其他服務(wù)器?session集中保存:用戶信息統(tǒng)一存儲,每次需要時統(tǒng)一從這里取(也就是常說的redis實現(xiàn)分布式session方案)?cookie: 使用客戶端cookie存儲session數(shù)據(jù),每次請求時攜帶這個

5.7 分布式鏈路追蹤

分布式鏈路追蹤也可以叫做全鏈路追中,而它可以說是每個開發(fā)者的福音,通常指的是一次前端的請求,將這個請求過程中,所有涉及到的系統(tǒng)、鏈路都串聯(lián)起來,可以清晰的知道這一次請求中,調(diào)用了哪些服務(wù),有哪些IO交互,瓶頸點在哪里,什么地方拋出了異常

當前主流的全鏈路方案大多是基于google的??Dapper?? 論文實現(xiàn)的

全鏈路實現(xiàn)方案

?zipkin?pinpoint?SkyWalking?CAT?jaeger

5.8 布隆過濾器

Bloom過濾器是一種節(jié)省空間的概率數(shù)據(jù)結(jié)構(gòu),用于測試元素是否為某集合的成員。

布隆過濾器由一個長度為 m 比特的位數(shù)組(bit array)與 k 個哈希函數(shù)(hash function)組成的數(shù)據(jù)結(jié)構(gòu)。

原理是當一個元素被加入集合時,通過 K 個散列函數(shù)將這個元素映射成一個位數(shù)組中的 K 個點,把它們置為 1。

檢索時,我們只要看看這些點是不是都是 1 就大約知道集合中有沒有它了,也就是說,如果這些點有任何一個 0 ,則被檢元素一定不在;如果都是 1 ,則被檢元素很可能在。

關(guān)于布隆過濾器,請牢記一點

?判定命中的,不一定真的命中?判定沒有命中的,則一定不在里面

圖片布隆過濾器

常見的應(yīng)用場景,如

?防止緩存穿透?爬蟲時重復檢測

5.9 一灰灰的小結(jié)

分布式系統(tǒng)的解決方案當然不局限于上面幾種,比如分布式存儲、分布式計算等也屬于常見的場景,當然在我們實際的業(yè)務(wù)支持過程中,不太可能需要讓我們自己來支撐這種大活;而上面提到的幾個點,基本上或多或少會與我們?nèi)粘9ぷ飨嚓P(guān),這里列出來當然是好為了后續(xù)的詳情做鋪墊

6.一灰灰的總結(jié)

6.1 綜述

這是一篇概括性的綜述類文章,可能并沒有很多的干貨,當然也限于“一灰灰”我個人的能力,上面的總結(jié)可能并不準確,如有發(fā)現(xiàn),請不吝賜教

全文總結(jié)如下

常見的分布式架構(gòu)設(shè)計方案:

?主備,主從,多主多從,普通無中心集群,數(shù)據(jù)分片架構(gòu)

分布式系統(tǒng)中的理論基石:

?CAP, BASE, PACELEC?共識算法:paxos, raft, zab?一致性協(xié)議:2pc, 3pc?數(shù)據(jù)同步:gossip

分布式系統(tǒng)中的算法:

?分區(qū)的一致性hash算法: 基于hash環(huán),減少節(jié)點動態(tài)增加減少對整個集群的影響;適用于數(shù)據(jù)分片的場景?適用于一致性的Quorum NWR算法: 投票算法,定義如何就一個提案達成共識?PBFT拜占庭容錯算法: 適用于集群中節(jié)點故障、或者不可信的場景?區(qū)塊鏈中大量使用的工作量證明PoW算法: 通過工作量證明,認可節(jié)點的提交

分布式系統(tǒng)解決方案:

?分布式緩存?全局唯一ID?分布式鎖?分布式事務(wù)?分布式任務(wù)?分布式會話?分布式鏈路追蹤?布隆過濾器

6.2 題外話

最后總結(jié)一下這篇耗時兩周寫完的“心血巨作”(有點自吹了哈),準備這篇文章確實花了很大的精力,首先我個人對于分布式這塊的理解并不能算深刻,其次分布式這塊的理論+實踐知識特別多,而且并不是特別容易上手理解,在輸出這篇文章的同時,遇到一些疑問點我也會去查閱相關(guān)資料去確認,整個過程并不算特別順利;那么為什么還要去做這個事情呢?

1.咸魚太久了,想做一些有意思的東西,活躍一下大腦2.準備依托于《分布式專欄》來將自己的知識體系進行歸納匯總,讓零散分布在大腦中的知識點能有一個脈絡(luò)串聯(lián)起來3.不想做架構(gòu)的碼農(nóng)不是好碼農(nóng),而想成為一個好的架構(gòu),當然得做一些基礎(chǔ)準備,向業(yè)務(wù)精品學習取經(jīng)

責任編輯:張燕妮 來源: 一灰灰blog
相關(guān)推薦

2016-10-25 14:35:05

分布式系統(tǒng) 存儲

2021-06-28 10:03:44

分布式數(shù)據(jù)庫架構(gòu)

2017-10-20 13:39:29

分布式系統(tǒng)數(shù)據(jù)存儲數(shù)據(jù)量

2020-06-29 08:25:23

分布式

2019-08-27 11:00:38

技術(shù)數(shù)據(jù)庫設(shè)計

2022-08-03 07:47:45

存儲分布式體系

2024-06-13 09:25:14

2022-04-25 15:23:18

分布式系統(tǒng)故障

2016-09-01 13:48:18

2023-09-20 22:56:45

分布式追蹤應(yīng)用程序

2022-12-21 08:40:05

限流器分布式限流

2022-05-30 10:37:35

分布式事務(wù)反向補償

2020-07-24 13:54:54

分布式一致性技術(shù)

2020-04-14 11:14:02

PostgreSQL分布式數(shù)據(jù)庫

2018-05-10 10:53:47

分布式架構(gòu)負載均衡Web

2022-07-13 09:53:58

分布式開發(fā)

2023-11-29 07:40:12

分布式

2025-08-04 01:00:45

2024-01-10 08:02:03

分布式技術(shù)令牌,

2023-09-21 16:10:44

點贊
收藏

51CTO技術(shù)棧公眾號