淺談微服務(wù)基建的邏輯
起點
首先,我們得有一個“服務(wù)”。根據(jù)定義,我們可以把每個服務(wù)實例都視作一個黑盒。這個盒子有著明確的輸入點和輸出點,并且(理想情況下)僅通過這些輸入和輸出點和外界產(chǎn)生關(guān)聯(lián)。每個服務(wù)實例會擁有專屬的網(wǎng)絡(luò)地址、獨立的計算資源,并且獨立部署。客戶端通過訪問服務(wù)實例的地址來調(diào)用服務(wù) API。不同服務(wù)也可以相互調(diào)用。
配置管理器:統(tǒng)一管理配置
在微服務(wù)體系中,每個服務(wù)都獨立部署和運行,團(tuán)隊可以根據(jù)需要自行選擇增加和減少計算資源。一個服務(wù)可能會跑多個實例,每個服務(wù)實例都會需要做配置。為了方便統(tǒng)一調(diào)整配置,我們可以把配置中心化,每個服務(wù)實例都去找配置管理器(Configuration Manager)拿配置。當(dāng)配置更新的時候,我們也可以讓服務(wù)實例再去拿新的配置。
服務(wù)名冊:解耦主機(jī)地址
這也引出了一個問題:網(wǎng)絡(luò)地址(比如 IP)很容易因為擴(kuò)容、維護(hù)而變動,調(diào)用者難以實時獲知可用的地址。
鑒于此,我們可以把網(wǎng)絡(luò)地址抽象成不容易變動的概念,比如給每個服務(wù)一個固定的名字?;ヂ?lián)網(wǎng)使用 DNS 來解決這個問題,對應(yīng)到微服務(wù)基建里面就是服務(wù)名冊(Service Registry)。
每個服務(wù)實例在運行期間,都會以心跳的形式向服務(wù)名冊發(fā)送注冊信息,包括服務(wù)的 ID 、訪問地址以及健康狀況。這樣,需要訪問服務(wù)的時候,客戶端就可以先問服務(wù)名冊拿可用的實例地址,然后再訪問實例來調(diào)用服務(wù)。除了更好地定位實例地址,服務(wù)名冊還可以在某些實例下線、維護(hù)或升級的時候把其臨時從名冊中去掉,讓服務(wù)不斷線。
服務(wù)之間的調(diào)用也是如此,先找名冊拿網(wǎng)絡(luò)地址,再進(jìn)行調(diào)用。
API 網(wǎng)關(guān):入口和路由
找名冊要地址,然后調(diào)用服務(wù) API,這些是每個客戶端都會去做的瑣事,我們完全可以把這些事情抽象、集中,把服務(wù)的 API 整合到一個大的中心點,然后把要地址和調(diào)用服務(wù) API 這樣的細(xì)節(jié)封裝起來,所有客戶端都只跟這個中心點對話,不再直接訪問單個服務(wù)。
從結(jié)構(gòu)上看,這個中心點把整個架構(gòu)劃分成了內(nèi)外兩部分,內(nèi)部是所有的服務(wù),客戶端則在外部,中心點站在中間。它作為內(nèi)外的唯一通道,被順理成章地命名作“API 網(wǎng)關(guān)”(API Gateway),有時候也被稱做“邊緣服務(wù)”(Edge Service)。
API 網(wǎng)關(guān)作為唯一出入口,又占據(jù)了最前沿的有利位置,所以有時還會承載別的公共功能,比如我們馬上會提到的鑒權(quán)。
鑒權(quán)服務(wù):身份和權(quán)限問題
順著這個架構(gòu)繼續(xù)開發(fā),我們會遇到新的問題:不方便的鑒權(quán)。
鑒權(quán)(Auth)包括了兩個部分:身份認(rèn)證(Authentication)和權(quán)限驗證(Authorization)。身份認(rèn)證關(guān)心的是“你是誰”,權(quán)限驗證關(guān)心的是“你能不能做某件事”。
身份和權(quán)限都是高度中心化的概念。
對于一個系統(tǒng)來說,用戶的身份必須是統(tǒng)一的。不能說這個用戶在做這個事情的時候是張三,做那個事情的時候是李四。此外,用戶的認(rèn)證狀態(tài)也應(yīng)該是統(tǒng)一的。不能說用戶訪問這個服務(wù)的時候是已登錄認(rèn)證,訪問另一個服務(wù)時又是未登錄狀態(tài)。所以,只能有一個身份認(rèn)證方。
權(quán)限稍微復(fù)雜一點。和身份不同,權(quán)限通常分成兩種類別:功能權(quán)限和數(shù)據(jù)權(quán)限。這樣的劃分對應(yīng)了現(xiàn)實世界中常見的權(quán)限模式:你的角色決定了你的職能,而職能范圍通常由附加條件來限制。比如,你是一個法官,對案件有裁決權(quán),但是你是 A 區(qū)的法官,只能判 A 區(qū)的案子。再比如,某個快餐門店的經(jīng)理有權(quán)看員工的詳細(xì)資料,但是只能看自己門店的員工資料。
兩種權(quán)限都由全局的規(guī)則來確定,而不掌握在執(zhí)行部門。比如,誰來判案,取決于法律,而不取決于法院。誰能查看誰的資料,也不由資料保管部門決定,而由規(guī)章制度決定。
在現(xiàn)實的情況中,組織可能會有專門的審核部門來驗證權(quán)限,但對那些不是特別敏感的權(quán)限,企業(yè)會讓各個部門自行驗證。不過不管誰來執(zhí)行驗證,都必須拿著同一份規(guī)章制度,不能各說各話。這份制度必須由中心機(jī)構(gòu)來統(tǒng)一制定、維護(hù)。也就是說,權(quán)限的管理也應(yīng)該中心化。
明確鑒權(quán)中心化之后,我們就可以開發(fā)一個公用的鑒權(quán)服務(wù),執(zhí)行身份認(rèn)證和權(quán)限驗證。下一個問題是:誰來發(fā)起鑒權(quán)?
所有服務(wù)的調(diào)用都要求調(diào)用者明確自己的身份,所以自然身份認(rèn)證越靠前越好。作為出入口的 API 網(wǎng)關(guān)自然是發(fā)起身份認(rèn)證的不二之選。權(quán)限驗證則稍微復(fù)雜,完全值得另起一文詳述。此處我們暫時假定權(quán)限驗證也由 API 網(wǎng)關(guān)來發(fā)起。
消息中介:異步和通知
開發(fā)繼續(xù)進(jìn)行,一切風(fēng)平浪靜,技術(shù)上暫時沒有什么問題。不過,業(yè)務(wù)上有一個問題需要解決。
比如,我們做一個在線商城,要求在訂單成功創(chuàng)建的一刻,倉庫就要啟動備貨和發(fā)貨的流程。問題是,訂單和倉儲是兩個服務(wù),不同團(tuán)隊在負(fù)責(zé),而且從關(guān)注點來說,訂單服務(wù)并不關(guān)心倉儲相關(guān)的問題,所以訂單服務(wù)不可能在創(chuàng)建訂單的時候去主動通知倉儲服務(wù)。倉儲服務(wù)只能定時輪詢訂單服務(wù),看看有沒有新的訂單。這不僅麻煩,而且實時性不夠。
仔細(xì)想想,我們會發(fā)現(xiàn)這種需求很常見,信息的產(chǎn)生者并不知道(也不關(guān)心)誰會對信息產(chǎn)生興趣。比如我們可能會有一個監(jiān)控服務(wù)需要實時展示產(chǎn)品銷量,有一個 BI 服務(wù)需要獲取客戶購買產(chǎn)品的信息來做分析,等等。既然這是一個常見需求,我們不妨把它模式化,形成一個機(jī)制:信息產(chǎn)生者把通知發(fā)出來,收到通知的人再確定是否需要采取行動。
這就意味著我們需要再引入一個中心化的公共服務(wù):消息中介(Message Broker)。當(dāng)某個事件發(fā)生的時候(比如用戶激活成功、訂單創(chuàng)建成功),服務(wù)可以朝消息隊列發(fā)一條消息。而其他服務(wù)可以訂閱這些消息,并針對這些消息做出反應(yīng)。
比如,倉儲服務(wù)可以訂閱訂單創(chuàng)建成功的消息。這樣,訂單成功創(chuàng)建后,訂單服務(wù)將這個消息發(fā)到消息中介,消息中介通知倉儲服務(wù),倉儲服務(wù)一看,就問訂單服務(wù)要新的訂單信息,***,啟動出庫流程。
消息中介除了能廣播事件之外,還能做異步調(diào)用。把同步的調(diào)用轉(zhuǎn)化成異步的回調(diào)。針對調(diào)用時間長和不要求實時結(jié)果的調(diào)用,可以增加性能,提升體驗。
前置后端:優(yōu)化前端開發(fā)
走到這里,其實體系已經(jīng)比較完備。現(xiàn)在的問題是,如何讓微服務(wù)基建結(jié)構(gòu)和研發(fā)團(tuán)隊常見的結(jié)構(gòu)更好地對應(yīng)起來。這要求我們從康威定律的角度來看待整個基建的設(shè)計。
在圍繞用戶和價值的軟件研發(fā)流程中,我們常用用戶歷程和用戶故事來捕捉和跟蹤價值的實現(xiàn)。一個用戶故事通常會包含一個有明確邊界、明確驗收標(biāo)準(zhǔn)和明確價值的業(yè)務(wù)步驟。
問題在于,支撐一個故事有前后兩端的研發(fā)工作,二者是不同步的。前端由業(yè)務(wù)流程和設(shè)計來驅(qū)動,希望按順序產(chǎn)出;后端則由業(yè)務(wù)資源和建模來驅(qū)動,希望按模塊來產(chǎn)出。
比如說,前端常常會因為設(shè)計的原因調(diào)整自己需要的字段,而后端從建模的角度并沒有這個需要,也沒有動力頻繁地去跟隨前端的調(diào)整,使得前端不得不在不穩(wěn)定的網(wǎng)絡(luò)條件下傳輸多余的信息,占用了寶貴的網(wǎng)絡(luò)帶寬。
此外,前端呈現(xiàn)某個業(yè)務(wù)步驟的時候,有兩種信息不屬于當(dāng)前必備信息,但常常需要和必要信息一起展示。一種是狀態(tài)信息,比如當(dāng)前的登錄狀態(tài)和用戶名,短消息的數(shù)量等等。一種是垂直相關(guān)的信息,比如在展示文章的時候順便展示一下相關(guān)的文章。
這就要求前端在調(diào)用主服務(wù)的同時還要再調(diào)用多個不同的服務(wù)。且不說這些服務(wù)有可能會有調(diào)用超時、出錯的可能,僅僅是多出來一堆異步請求,就已經(jīng)足夠讓前端效率降低一大截了。
在微服務(wù)體系下,這些問題更加嚴(yán)重,因為現(xiàn)在不僅僅是前后端的差別,不同服務(wù)還由不同團(tuán)隊負(fù)責(zé)。這些團(tuán)隊的訴求和日程不一,很難做到前端所需要的快速響應(yīng)。
這些問題和麻煩可能會催生一個“緩沖帶”,比如后端出專人來負(fù)責(zé)對接前端的需要,或者前端派駐一個人到后端來談需求。按康威定律,這種溝通體系,久而久之,很容易以軟件的形式沉淀下來,形成一個專屬的中間層。
要調(diào)和前后端的不同步是不可能的,而這種中間層是自然催生的解決方案,可以保留。新的問題是,它的職責(zé)是什么?應(yīng)該把它放在哪?應(yīng)該由誰來維護(hù)?
分析下來,其責(zé)任有二。***是解耦前后端的工作,降低相互的影響。前端需要的東西可以寫在中間層里,讓它頻繁變化也沒有關(guān)系。后端如果還沒有準(zhǔn)備好,前端也可以在這一層模擬假的數(shù)據(jù),不至于被阻塞。第二則是提升前端的運行效率。前端可以把所需要的多個服務(wù)的東西統(tǒng)一匯總,一次拿完,免得發(fā)多個請求。
放置的位置則在 API 網(wǎng)關(guān)之內(nèi),讓它可以享有 API 網(wǎng)關(guān)所帶來的好處和保護(hù)。
***是維護(hù)問題。按照“誰主張,誰舉證”的原則,既然有了這個中間層,好處讓前端得了,那么,理論上應(yīng)該由前端來維護(hù)。
這樣,一個主要為前端服務(wù)的中間層就定義好了。不同類型的前端(桌面、移動)可能會有不同的需要,為了避免中間層的碎片化,我們可以讓各個中間層都特定的前端類型緊密耦合,比如桌面專用、移動專用。如此,每個中間層都像是某類型前端的專享后端,所以“前置后端”(Backend-for-Frontend,簡稱 BFF)也因此得名。
回路熔斷器:提高容錯度
現(xiàn)在,調(diào)試也方便了,我們又繼續(xù)開發(fā)。一開始沒有什么問題,但部署到預(yù)生產(chǎn)環(huán)境的時候,又一個問題出現(xiàn)了:整個體系的容錯度很低。一個小錯誤容易被層層傳遞和放大,導(dǎo)致整個體系的崩潰。
我們都知道,編程最麻煩的就是遠(yuǎn)程調(diào)用。本地調(diào)用大部分時候結(jié)果是“成功”或“失敗”,但遠(yuǎn)程調(diào)用則很可能是“無響應(yīng)”。“無響應(yīng)”有可能是正常的,對方可能稍后會給你結(jié)果,也可能是因為對方已經(jīng)死了,沒法給你響應(yīng)。最壞的結(jié)果,就是門口擠滿了人,大家都在等你給結(jié)果,而你也在等別人給結(jié)果,資源全部占用來等,什么也做不了。
不過,遠(yuǎn)程調(diào)用是無法避免的。在微服務(wù)體系中,這個問題被進(jìn)一步放大。這是因為微服務(wù)的模塊化以服務(wù)為單位,而每個服務(wù)獨立部署和運維,使得服務(wù)之間的調(diào)用成了家常便飯。
在這種嚴(yán)峻的情況下,我們必須從架構(gòu)上盡量提高整個服務(wù)體系的容錯度,讓個別服務(wù)的問題不至于影響到全局。
具體的做法,則是給遠(yuǎn)程調(diào)用加一個熔斷閾值檢查,當(dāng)調(diào)用超時次數(shù)超過閾值時,就不再調(diào)用,直接返回錯誤。過一段時間之后,再把閾值恢復(fù),嘗試?yán)^續(xù)調(diào)用,重復(fù)前面的過程。這個機(jī)制就是回路熔斷,而這個工具則是回路熔斷器(Circuit Breaker)。
除了隔離已經(jīng)出錯的服務(wù)實例,熔斷器還有一個重要的功能是提供備用方案。雖然我們把所有業(yè)務(wù)都拆成了服務(wù),但服務(wù)有高低貴賤之分。有一些服務(wù)屬于關(guān)鍵服務(wù),一旦出問題,則整個流程無法繼續(xù),有一些則屬于分支服務(wù),即便錯了,也不會影響大局。
比如說,購買商品的時候,常常會根據(jù)用戶的習(xí)慣和當(dāng)前正在購買的東西做一些推薦。負(fù)責(zé)推薦的服務(wù)出問題的話,大不了就不推薦了,不應(yīng)該影響用戶正常的購買流程。同理,如果是在線點餐的地址定位服務(wù)出問題了,我們也應(yīng)該允許用戶手動選擇餐廳進(jìn)行點餐——體驗雖然不佳,但至少正常的流程仍然可以走完?;谶@個考慮,熔斷器應(yīng)該為非必要的服務(wù)調(diào)用提供備用方案,盡量保證核心流程的順暢。
有了回路熔斷器,遠(yuǎn)程調(diào)用出錯的問題就從一定程度上緩解了。結(jié)合回路熔斷器和對熔斷閾值變化的監(jiān)控,開發(fā)者可以更容易地發(fā)現(xiàn)問題,并及時采取行動。
負(fù)載均衡器:提升服務(wù)彈性
要正式上線,我們還必須做好負(fù)載均衡(Load Balancing,下簡稱 LB),提升整個服務(wù)的彈性。要做負(fù)載均衡,從理論上有兩種方式:
- 客戶端負(fù)載均衡(Client-Side LB):由客戶端來決定如何分散請求。
- 中間方負(fù)載均衡(Mid-Tier LB):由 DNS、網(wǎng)關(guān)等中間方來決定如何分散請求。
現(xiàn)在,服務(wù)名冊中已經(jīng)有了服務(wù)及其對應(yīng)的實例地址列表,所以客戶端的負(fù)載均衡最簡便的方式就是把地址拉下來,然后依次或者隨機(jī)選擇可用的地址。中間方的負(fù)載均衡則選擇面較多,從最外層的 DNS 到網(wǎng)關(guān)都可以不同程度地去按需要去做。
擴(kuò)展基建
現(xiàn)在,微服務(wù)基建基本完成了。如果有需要,我們可以對這個基建進(jìn)行擴(kuò)展。在做擴(kuò)展時,架構(gòu)師應(yīng)該注意區(qū)分哪些東西應(yīng)該中心化,哪些東西應(yīng)該由服務(wù)自行決定。 比如說,在本文提到的基建之中,(幾乎是)強(qiáng)制完全中心化的模塊有:
- 配置管理
- 服務(wù)名冊
- 消息隊列
其中,配置管理和服務(wù)名冊是所有服務(wù)都需要的基礎(chǔ)設(shè)施,必然需要統(tǒng)一。消息隊列和日志收集都是為了跨服務(wù)的操作和追蹤,也必須中心化。
半中心化的模塊則有:
- 路由
- 鑒權(quán)
路由和鑒權(quán)都必須統(tǒng)一,我們前面討論過。不過,微服務(wù)可能會向外界暴露“自用”和“客用”等多套公共 API(比如快遞公司內(nèi)部使用的物流 API 和開放給第三方使用的物流 API),所以可能會有兩個 API 網(wǎng)關(guān),對應(yīng)會有兩套 API 目錄和兩套鑒權(quán)體系,所以,它們是“半中心化”。
這些都是中心化、半中心化的選擇范例。每一次中心化的選擇都可能會讓整個架構(gòu)變得死板,失去靈活性,所以,我們在設(shè)計和擴(kuò)展基建的時候應(yīng)該特別注意這個問題。
除了中心化的選擇之外,架構(gòu)發(fā)展的另一個關(guān)注點,是讓業(yè)務(wù)保持“黑盒”。
我們把每個服務(wù)之間的關(guān)聯(lián)抽取了出來,也把權(quán)限的定義和驗證抽取了出來,每個服務(wù)變得簡單而純粹,成了“純業(yè)務(wù)式服務(wù)”,等同于一個僅包含了業(yè)務(wù)規(guī)則的黑盒。這樣,不管服務(wù)和模塊再多,也沒有影響。業(yè)務(wù)的重用性也很高。
總而言之,搭建好了微服務(wù)的必要設(shè)施之后,剩下的就要根據(jù)實際情況和項目經(jīng)驗來繼續(xù)調(diào)整了。比如,我們可能會選擇把很多功能合并到一層,以避免過度分層所帶來的不必要的性能損失,或者對整個基建進(jìn)行一些細(xì)節(jié)微調(diào)。只要把控好“中心-自理”和“業(yè)務(wù)-非業(yè)務(wù)”之間的關(guān)系,這個基礎(chǔ)設(shè)施就能健康地發(fā)展。
微服務(wù)基建總結(jié)
總結(jié)此文,微服務(wù)的基建應(yīng)該包括如下一些組件(按請求流中的出場順序):
- 配置管理:配置集中管理。
- API 網(wǎng)關(guān):對外的 API 總目錄;API 依賴關(guān)系;發(fā)起鑒權(quán)。
- 服務(wù)名冊:服務(wù)的注冊和發(fā)現(xiàn)。
- 鑒權(quán)服務(wù):提供鑒權(quán)服務(wù):認(rèn)證身份,驗證功能權(quán)限。
- 前置后端:按前端的需求拆解請求、調(diào)用服務(wù),并匯總、轉(zhuǎn)換結(jié)果。
- 消息中介:全局通知機(jī)制;異步調(diào)用機(jī)制。
- 回路熔斷:隔離出問題的服務(wù)并等待其恢復(fù);提供備用方案。
- 負(fù)載均衡:避免服務(wù)過載。
需要說明的是,這些組件的組合形式,具體拆分形式,是否需要,都需要結(jié)合實際項目和團(tuán)隊的情況來調(diào)整。本文權(quán)作拋磚引玉,請讀者知悉。
【本文是51CTO專欄作者“ThoughtWorks”的原創(chuàng)稿件,微信公眾號:思特沃克,轉(zhuǎn)載請聯(lián)系原作者】