數(shù)據(jù)一致性檢測的應(yīng)用場景與實(shí)踐
隨著業(yè)務(wù)規(guī)模的擴(kuò)張,企業(yè)系統(tǒng)變得越來越復(fù)雜,在這種復(fù)雜的分布式系統(tǒng)架構(gòu)下,難免會出現(xiàn)遠(yuǎn)程調(diào)用失敗,消息發(fā)送失敗,并發(fā) bug 等等問題,這些問題最終會導(dǎo)致系統(tǒng)間的數(shù)據(jù)不一致,導(dǎo)致用戶體驗(yàn)受損,用戶利益受損,對平臺來說就是產(chǎn)生資損。因此如何持續(xù)保障系統(tǒng)的業(yè)務(wù)穩(wěn)定性對于企業(yè)來說是一個很重要的課題,本文旨在介紹一些常見業(yè)務(wù)應(yīng)用場景下的業(yè)務(wù)數(shù)據(jù)一致性保障最佳實(shí)踐。
離線or在線,事前or事后
應(yīng)對業(yè)務(wù)數(shù)據(jù)不一致問題的常規(guī)操作是,配置定時任務(wù),在每個固定時間點(diǎn)去拉取歷史一段時間的數(shù)據(jù)出來進(jìn)行比對,判斷是否有數(shù)據(jù)故障出現(xiàn),比如利用hadoop做一些批處理MapReduce作業(yè),這種離線計(jì)算的方式時效性比較差,對于電商系統(tǒng)或者對于實(shí)時性要求較高的系統(tǒng)來說,問題發(fā)現(xiàn)的越晚損失也就越大,所以我們需要一種在線的校驗(yàn)?zāi)J絹韺?shí)時發(fā)現(xiàn)數(shù)據(jù)不一致問題。
在線的校驗(yàn)?zāi)J街傅氖敲砍霈F(xiàn)一筆數(shù)據(jù)就進(jìn)行一次比對,這種比對方式還可以分為事前和事后比對。
- 事前比對是一種業(yè)務(wù)強(qiáng)耦合的校驗(yàn)方式,我們在業(yè)務(wù)系統(tǒng)代碼中進(jìn)行類似 AOP 的操作,橫插一段校驗(yàn)代碼,如果校驗(yàn)發(fā)現(xiàn)問題,則阻斷這次業(yè)務(wù)操作,這種模式雖然時效性很高,能夠保證每一筆數(shù)據(jù)的正確性,但是因?yàn)楹蜆I(yè)務(wù)耦合的太重,很容易出現(xiàn)一些災(zāi)難性的問題,比如校驗(yàn)代碼的性能差或者異常處理不正確,會直接導(dǎo)致業(yè)務(wù)操作受阻,影響正常業(yè)務(wù)活動。
- 事后校驗(yàn)嚴(yán)格上來說不能算是實(shí)時校驗(yàn),因?yàn)樾r?yàn)的時間點(diǎn)滯后于真實(shí)的業(yè)務(wù)動作發(fā)生時間點(diǎn),這算是一種準(zhǔn)實(shí)時校驗(yàn),這種校驗(yàn)的好處在于,可以和業(yè)務(wù)解耦,不阻斷業(yè)務(wù)的正常進(jìn)行,還能較為"實(shí)時"的發(fā)現(xiàn)數(shù)據(jù)不一致問題,并且在一些特殊場景下(比如異步業(yè)務(wù),下面會介紹)只能使用事后校驗(yàn),缺點(diǎn)也很明顯,就是時效性相比于事前校驗(yàn)來說會比較差。
這里在啰嗦一句,可能讀到這里,有些人會問,既然是業(yè)務(wù)動作發(fā)生之后再進(jìn)行校驗(yàn),它的意義還有多大呢?的確相比于事前校驗(yàn)來說,他并不能保證每一筆數(shù)據(jù)都正確,但是在實(shí)際操作中,像電商這種場景下,我們進(jìn)行業(yè)務(wù)功能迭代,會經(jīng)過日常環(huán)境 -> 預(yù)發(fā)環(huán)境 -> Beta測試 -> 線上環(huán)境的流程,尤其是在預(yù)發(fā)環(huán)境和 Beta 測試的情況下,一般會進(jìn)行一些線上引流或者模擬數(shù)據(jù)測試,特點(diǎn)是量小,即使發(fā)生問題也只是局部不會引起災(zāi)難,那在這種場景下,事后校驗(yàn)的意義就顯得很大,可以提前驗(yàn)證功能和數(shù)據(jù)的正確性,又不會對線上造成強(qiáng)耦合的影響;在功能完全上線后,事后校驗(yàn)的作用在于及時發(fā)現(xiàn)數(shù)據(jù)不一致問題,避免問題的進(jìn)一步擴(kuò)散。
綜上所述,對于業(yè)務(wù)數(shù)據(jù)校驗(yàn)時效性不是那么高的場景下,離線校驗(yàn)是一種比較合適的方式,開發(fā)接入成本都較低,對于業(yè)務(wù)數(shù)據(jù)校驗(yàn)時效性有一些要求的場景下,事后校驗(yàn)是一種比較適合的方式,對于業(yè)務(wù)校驗(yàn)時效性要求非常嚴(yán)格,并且能夠投入較多資源的情況下,事前校驗(yàn)比較適合。
數(shù)據(jù)一致性檢測實(shí)踐案例
案例一、會員系統(tǒng)
某店鋪會員入會業(yè)務(wù),需要結(jié)合店鋪系統(tǒng)、打標(biāo)系統(tǒng)、會員系統(tǒng)進(jìn)行入會退會操作,如下圖所示:
在這個業(yè)務(wù)場景中,買家在店鋪會員頁發(fā)起入會申請,入會成功對外發(fā)送會員入會metaq消息,下游業(yè)務(wù)系統(tǒng)根據(jù)這個metaq消息,為該用戶打上一個標(biāo)簽,用戶在下單的時候就根據(jù)這個標(biāo)簽判斷是否有優(yōu)先購買的權(quán)利。既然有入會就有退會,退會同樣發(fā)起metaq消息給用戶進(jìn)行去標(biāo)操作。所以不管入會還是退會,業(yè)務(wù)上要求店鋪系統(tǒng)的會員狀態(tài)(入會還是退會)必須和用戶系統(tǒng)的標(biāo)簽狀態(tài)一致(有或者沒有),一旦發(fā)現(xiàn)數(shù)據(jù)不一致,一個已經(jīng)退會的用戶如果還有用戶會員標(biāo)簽,該用戶就可以購買這個限購商品,這樣就會造成商家資損。因此必須有對賬業(yè)務(wù)對數(shù)據(jù)一致性進(jìn)行強(qiáng)保證,一旦發(fā)現(xiàn)數(shù)據(jù)不一致,必須要通知相關(guān)人員進(jìn)行數(shù)據(jù)核對,如有問題則進(jìn)行數(shù)據(jù)訂正。
這個案例在對賬系統(tǒng)的選擇上有如下幾個要求:
- 實(shí)時:必須當(dāng)天盡快處理。
- 可以報(bào)警
- 必須支持不同領(lǐng)域模型。
- 接口調(diào)用需要有一定的延遲,以便下游系統(tǒng)處理完所有流程之后再校驗(yàn)。
- 由于入會、退會metaq可能會有丟失或者亂序的情況,因此不可以根據(jù)該消息進(jìn)行對賬。
在這個業(yè)務(wù)場景下,我們可以看到,業(yè)務(wù)是異步的,會員系統(tǒng)發(fā)起入會操作后,并不是立刻就能在用戶系統(tǒng)打標(biāo)的,所以實(shí)時的事前校驗(yàn)并不適合這個場景,因?yàn)樵跁T系統(tǒng)發(fā)起入會操作的時候在用戶系統(tǒng)中還查不到這個打標(biāo)狀態(tài),需要延遲一段時間去查,所以只能用事后校驗(yàn)來做。
我們在這個場景的做法是:拉取店鋪會員數(shù)據(jù)庫的實(shí)時binlog日志數(shù)據(jù),給到校驗(yàn)系統(tǒng),校驗(yàn)系統(tǒng)解析日志數(shù)據(jù)拿到要打標(biāo)的會員id,并且延時一段時間后去會員系統(tǒng)查詢這個會員的入會狀態(tài),和日志中的狀態(tài)進(jìn)行一致性比對,發(fā)現(xiàn)不一致則進(jìn)行告警。
案例二、新老庫遷移
當(dāng)新老系統(tǒng)需要進(jìn)行更替的時候,經(jīng)常會涉及到數(shù)據(jù)遷移,由于數(shù)據(jù)量非常大,而且不允許停機(jī),所以遷移一定是一個循序漸進(jìn)的過程,整個過程會分成兩個部分,第一個部分是雙寫,保證新增數(shù)據(jù)兩邊同步。第二步是開始做存量數(shù)據(jù)遷移,通過后臺任務(wù)慢慢跑。在這個過程中可能會出現(xiàn)部分字段沒有同步,更新數(shù)據(jù)順序錯亂導(dǎo)致數(shù)據(jù)內(nèi)容不一致的問題,所以需要對遷移進(jìn)行數(shù)據(jù)的一致性檢查,及時發(fā)現(xiàn)數(shù)據(jù)問題進(jìn)行訂正或者bug修復(fù)。
由于我們的目的是將數(shù)據(jù)遷移到新系統(tǒng),所以數(shù)據(jù)校驗(yàn)觸發(fā)條件就是新系統(tǒng)有數(shù)據(jù)寫入,這里可能有人會問如果老系統(tǒng)同步失敗呢,那么新系統(tǒng)就不會有數(shù)據(jù)寫入,就觸發(fā)不了校驗(yàn)。這里就存在校驗(yàn)邊界的問題,即我們假設(shè)同步系統(tǒng)是一定會同步成功的,如果同步失敗的話不允許跳過會一直嘗試重試同步,所以這里如果發(fā)生同步失敗,同步會暫停并且打印出同步錯誤日志,這個就不是校驗(yàn)系統(tǒng)的問題了,我們會通過同步的進(jìn)度或者同步日志來觀察到這個現(xiàn)象。
所以我們在這個場景的做法是:接收新庫的數(shù)據(jù)庫變更binlog日志數(shù)據(jù),解析日志內(nèi)容,通過這條數(shù)據(jù)id去查詢舊庫的對應(yīng)數(shù)據(jù),進(jìn)行數(shù)據(jù)內(nèi)容的比對。由于雙寫的存在,一條數(shù)據(jù)可能會變更多次,這里就要求我們的校驗(yàn)必須是較為實(shí)時的進(jìn)行,否則就會出現(xiàn)拿到的日志數(shù)據(jù)內(nèi)容是舊的(這條數(shù)據(jù)又發(fā)生了更新),導(dǎo)致查詢老庫的數(shù)據(jù)出現(xiàn)不一致的問題,其實(shí)算是一種誤報(bào)。