恒昌:數(shù)億實(shí)體和數(shù)十億關(guān)系的圖數(shù)據(jù)庫在風(fēng)控上應(yīng)用
近日,知名快遞公司順豐和電商巨頭阿里巴巴爭(zhēng)端甚囂塵上,這次爭(zhēng)端意味著“數(shù)據(jù)”已然成為商業(yè)必爭(zhēng)的“資產(chǎn)”。因此,伴隨大數(shù)據(jù)時(shí)代來臨,數(shù)據(jù)獲取、存儲(chǔ)、分析等一系列技術(shù)的研發(fā)和應(yīng)用已經(jīng)得到了眾多企業(yè)的關(guān)注。
作為大數(shù)據(jù)開發(fā)利用的重要組成部分,就數(shù)據(jù)存儲(chǔ)而言,圖數(shù)據(jù)庫是利用圖的特性來對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)管理,并對(duì)傳統(tǒng)圖的概念進(jìn)行了擴(kuò)展。越來越成熟的數(shù)據(jù)模型,使得利用事物(即“節(jié)點(diǎn)”或“實(shí)體”)及事物之間的聯(lián)系(即“邊”或“關(guān)系”)來對(duì)各類業(yè)務(wù)場(chǎng)景進(jìn)行抽象變得更加容易。也正因?yàn)閳D數(shù)據(jù)庫基于圖論的理論和算法實(shí)現(xiàn),相對(duì)于關(guān)系型數(shù)據(jù)庫,它也更擅于處理網(wǎng)狀的復(fù)雜關(guān)系。此外,圖數(shù)據(jù)庫通常都支持對(duì)圖數(shù)據(jù)模型的增、刪、改、查(CRUD)方法,并較多地用于事務(wù)(OLTP)系統(tǒng)中,被應(yīng)用系統(tǒng)實(shí)時(shí)訪問。
圖數(shù)據(jù)庫作為恒昌知識(shí)圖譜的底層存儲(chǔ)方案,是多方數(shù)據(jù)的知識(shí)融合及提煉后進(jìn)行匯聚的場(chǎng)所,為恒昌豐富的服務(wù)線與數(shù)據(jù)技術(shù)間的承轉(zhuǎn)起著重要作用。由于Neo4j 是目前最成熟的圖數(shù)據(jù)庫之一,恒昌廣泛使用 Neo4j 作為知識(shí)圖譜底層圖數(shù)據(jù)持久方案,基于其優(yōu)異的事務(wù)能力而提供實(shí)時(shí)的數(shù)據(jù)查詢功能。此外,恒昌還在 Titan、Gaffer 等分布式圖數(shù)據(jù)庫或計(jì)算引擎上有著深入的研究。
目前,恒昌的圖數(shù)據(jù)庫已經(jīng)融合了多方數(shù)據(jù),包括業(yè)務(wù)系統(tǒng)主要服務(wù)線各階段的數(shù)據(jù)、用戶授權(quán)數(shù)據(jù)等。這些數(shù)據(jù)形成的實(shí)體規(guī)模已過億、形成的關(guān)系已多達(dá)數(shù)十億。隨著用戶數(shù)量的提升,這個(gè)數(shù)據(jù)還在持續(xù)增長(zhǎng)。因此,基于圖數(shù)據(jù)庫開發(fā)的知識(shí)圖譜正在發(fā)揮著越來越大的作用,目前已經(jīng)上線或待上線的技術(shù)平臺(tái)覆蓋了客戶失聯(lián)修復(fù)、反欺詐規(guī)則引擎、欺詐團(tuán)伙調(diào)查等,近期還會(huì)覆蓋風(fēng)險(xiǎn)預(yù)警等方向。
1.欺詐團(tuán)伙調(diào)查
圖數(shù)據(jù)庫能通過“實(shí)體”和“關(guān)系”這種簡(jiǎn)單直觀的描述方法來表述現(xiàn)實(shí)世界中錯(cuò)綜復(fù)雜的關(guān)聯(lián)關(guān)系。它可以提供逐層挖掘的方式,引導(dǎo)逐步深入分析各種關(guān)系;還可以快速呈現(xiàn)實(shí)體之間最新的關(guān)系變化,積累更新的知識(shí)和經(jīng)驗(yàn);也可以清晰地呈現(xiàn)復(fù)雜關(guān)系間的聯(lián)絡(luò)線索,為判斷事件來龍去脈提供有效引導(dǎo)。此處,以恒昌的客戶為例,參考圖1中的客戶徐某(因數(shù)據(jù)安全的原因,部分信息作了涂抹,并對(duì)原有圖結(jié)構(gòu)進(jìn)行了簡(jiǎn)化),如果僅考慮該客戶自己填寫的信息,雖然能看到一度關(guān)聯(lián)信息,但完全看不出該結(jié)構(gòu)會(huì)有什么問題,也無法進(jìn)行深入調(diào)查。
圖1客戶徐某借款時(shí)的聯(lián)系人信息簡(jiǎn)化圖
當(dāng)關(guān)聯(lián)信息得到補(bǔ)充(相對(duì)于原進(jìn)件聯(lián)系人,補(bǔ)充了同事、鄰居、親屬、朋友等關(guān)系,還基于用戶授權(quán)數(shù)據(jù)進(jìn)行了深度擴(kuò)展)后,暫不考慮物品(如手機(jī)號(hào)、銀行賬號(hào)、地址等),僅考慮自然人,獲取徐某二度關(guān)系內(nèi)同時(shí)在恒昌網(wǎng)貸平臺(tái)有借款行為的用戶,得到圖2(基于同樣原因數(shù)據(jù)有涂抹及簡(jiǎn)化)的結(jié)果。該圖每一個(gè)圓都代表一位恒昌客戶,圖頂部的狀態(tài)說明了客戶當(dāng)前所處狀態(tài)。觀察左下角以徐某為中心的四個(gè)客戶(已用紅框標(biāo)出),他們剛好是所呈現(xiàn)圖的最大完全子圖,符合圖論中團(tuán)的定義。再看除徐某外的三個(gè)客戶:兩個(gè)逾期、一個(gè)被拒。如果徐某是新入圖數(shù)據(jù)庫的借款人,從數(shù)學(xué)模型的角度看,幾乎可以直接判定拒絕。因?yàn)榉线@種狀態(tài)的團(tuán),是欺詐團(tuán)伙或是組團(tuán)代辦的幾率非常大。
圖2客戶徐某補(bǔ)充關(guān)系類型后的一度及二度關(guān)聯(lián)信息
到這時(shí)工作并未完結(jié),如果有需要,可以基于圖中的關(guān)系嘗試與幾位客戶聯(lián)系以進(jìn)行深入背景調(diào)查證實(shí),調(diào)查的結(jié)論可以融合到圖數(shù)據(jù)庫中形成數(shù)據(jù)閉環(huán),直接改善后續(xù)自動(dòng)化預(yù)警的結(jié)果。
2.風(fēng)險(xiǎn)事件預(yù)警
盡管對(duì)欺詐團(tuán)伙調(diào)查能取得不錯(cuò)效果,但因其可能需要調(diào)查員隨時(shí)聯(lián)系客戶或聯(lián)系周邊人群以驗(yàn)證調(diào)查員的推論,因此整體成本還是相當(dāng)高的。為了解決這個(gè)問題,基于模型的風(fēng)險(xiǎn)事件預(yù)警就應(yīng)運(yùn)而生。如果說欺詐團(tuán)伙調(diào)查是主動(dòng)出擊,風(fēng)險(xiǎn)事件預(yù)警更像是被動(dòng)防御。
風(fēng)險(xiǎn)事件預(yù)警是通過模型生成一組類似上述欺詐團(tuán)伙調(diào)查中出現(xiàn)的場(chǎng)景,給每一個(gè)場(chǎng)景一個(gè)相對(duì)低一些的初始置信度,后期通過不斷的反饋迭代來優(yōu)化置信度。當(dāng)一個(gè)新客戶到來之后,首先會(huì)將其信息整合到知識(shí)圖譜中。緊接著,該客戶會(huì)被規(guī)則引擎捕捉到,規(guī)則引擎會(huì)基于客戶信息從知識(shí)圖譜中提取一組特征,由該特征決定了引擎首先會(huì)觸發(fā)哪些場(chǎng)景,而這些場(chǎng)景的結(jié)論可能導(dǎo)致規(guī)則引擎又觸發(fā)另外一組場(chǎng)景。在滿足特定條件下,最終結(jié)果輸出,如果有相應(yīng)的風(fēng)險(xiǎn)事件被觸發(fā),則信息會(huì)送達(dá)相關(guān)團(tuán)隊(duì)。
風(fēng)險(xiǎn)事件預(yù)警最有意思的地方在于,一個(gè)新客戶的到來,可能會(huì)導(dǎo)致一個(gè)早先客戶的風(fēng)險(xiǎn)事件被觸發(fā)。這主要是因?yàn)樾驴蛻羧谌氲街R(shí)圖譜中時(shí)帶進(jìn)的新數(shù)據(jù),可能會(huì)讓圖譜中的某些子網(wǎng)的結(jié)構(gòu)發(fā)生徹底的改變。目前恒昌采用一組啟發(fā)式的算法來擴(kuò)展新進(jìn)客戶的影響,效果顯著。這也意味著,風(fēng)險(xiǎn)事件預(yù)警并非只針對(duì)貸前風(fēng)險(xiǎn)事件,還會(huì)將貸后風(fēng)險(xiǎn)事件作為預(yù)警。比如觸發(fā)了某個(gè)老客戶的潛在逾期風(fēng)險(xiǎn)時(shí),就可以引導(dǎo)相關(guān)團(tuán)隊(duì)提前關(guān)注,在情況惡化前及時(shí)止損。
3.失聯(lián)修復(fù)
如果客戶奔著欺詐而來,那幾乎也注定了后續(xù)無法聯(lián)系上,稱此類失聯(lián)為“第一類失聯(lián)”。“失聯(lián)”是無法完全避免的,主要是因?yàn)槭?lián)的成本很低。即使客戶自身“消失”的意愿不高,但換手機(jī)號(hào)、搬家、換公司都可能導(dǎo)致客戶及其聯(lián)系人完全聯(lián)系不上,稱此類為“第二類失聯(lián)”。
將圖數(shù)據(jù)庫應(yīng)用于失聯(lián)修復(fù)是非常直觀的,因?yàn)閳D數(shù)據(jù)庫在數(shù)據(jù)豐富的條件下能非常方便地進(jìn)行各類關(guān)系的提取。恒昌的失聯(lián)修復(fù)項(xiàng)目結(jié)合了知識(shí)圖譜(基于圖數(shù)據(jù)庫)及傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù),前者作為修復(fù)策略的具體聯(lián)系方式來源,后者作為策略有效性的評(píng)估依據(jù)。目前,恒昌能做到失聯(lián)客戶實(shí)時(shí)修復(fù),修復(fù)專員完成具體操作后會(huì)有相應(yīng)的備注及日志信息,這些數(shù)據(jù)會(huì)被實(shí)時(shí)收集用于改進(jìn)修復(fù)策略。
本文僅拿眾多策略中較為容易理解的一條來略作說明,這條策略主要是從圖數(shù)據(jù)庫中提取和失聯(lián)客戶處于同一公司,且當(dāng)前住址與失聯(lián)客戶接近的用戶作為修復(fù)中間人。雖然是一條簡(jiǎn)單的策略,但深入思考會(huì)發(fā)現(xiàn),國(guó)內(nèi)有很多規(guī)模不小的工廠會(huì)吸引周邊村子的人去工作,而這些村子可能本身規(guī)模也不小,這樣修復(fù)中間人不見得認(rèn)識(shí)失聯(lián)人。因此這條簡(jiǎn)單的策略背后也需要有一個(gè)啟發(fā)式算法,通過公司/工廠的規(guī)模來調(diào)整當(dāng)前住址需要匹配的粒度(比如,是到村、到組、還是得具體到門牌相鄰)。更進(jìn)一步,如果在此基礎(chǔ)之上,修復(fù)中間人和失聯(lián)人有過通話記錄往來或是有通訊錄關(guān)聯(lián)(事實(shí)的條件遠(yuǎn)比這個(gè)復(fù)雜),就大幅增加了該修復(fù)中間人的置信度,甚至可以基于此條件在圖數(shù)據(jù)庫查詢過程中提前中止,直接返回相關(guān)結(jié)論。以上操作基于圖數(shù)據(jù)庫可以將數(shù)據(jù)一次取出再進(jìn)行處理,基本是毫秒級(jí)響應(yīng),如果觸發(fā)了提前中止,耗時(shí)可能更短。但如果基于關(guān)系型數(shù)據(jù)庫,首先會(huì)涉及多張業(yè)務(wù)表的檢索、關(guān)聯(lián),其次還可能按照初次處理結(jié)果多次連接數(shù)據(jù)庫,造成數(shù)據(jù)庫資源的浪費(fèi)。
實(shí)際中,恒昌通常會(huì)混合使用多種數(shù)據(jù)庫,以利用它們各自的特點(diǎn)來創(chuàng)建一個(gè)數(shù)據(jù)生態(tài)系統(tǒng)。除了圖數(shù)據(jù)庫外,大規(guī)模的用戶授權(quán)數(shù)據(jù)會(huì)讓恒昌在底層配上分布式的列式存儲(chǔ)或鍵值存儲(chǔ)庫。但回歸根本,恒昌期望為客戶提供高效、安全的財(cái)富管理及借款信息咨詢與服務(wù),就需要優(yōu)秀的風(fēng)險(xiǎn)控制作為保障。而這,恰恰也是圖數(shù)據(jù)庫能最大程度發(fā)揮價(jià)值的領(lǐng)域之一。