螞蟻信貸圖風(fēng)控實(shí)踐
一、信貸圖風(fēng)控業(yè)務(wù)背景及案例
首先簡(jiǎn)單介紹我們的業(yè)務(wù)場(chǎng)景。
1、業(yè)務(wù)背景
我們做的信貸圖風(fēng)控主要用于反騙貸和反套現(xiàn)的防控:
- 騙貸是指黑產(chǎn)惡意騙取貸款,無(wú)還款意愿。這種情況導(dǎo)致了較高的資金風(fēng)險(xiǎn),業(yè)界來(lái)看占整體逾期貸款的30%-40%左右。
- 套現(xiàn)是指用戶(hù)通過(guò)虛假的交易場(chǎng)景,將信貸額度套取成現(xiàn)金。這種行為違反了信用卡、花唄等消費(fèi)貸的使用規(guī)范,無(wú)法管控資金使用范圍,另外也容易造成多頭借貸,引起金融風(fēng)險(xiǎn)。
常見(jiàn)的套現(xiàn)騙貸手法包括:
- 掃碼模式:線下店鋪開(kāi)通收款碼,保存本地或到店進(jìn)行掃碼的方式,讓套現(xiàn)人使用花唄支付,進(jìn)行套現(xiàn)。
- 淘寶模式:中介在網(wǎng)上開(kāi)店,上架商品,套現(xiàn)人使用花唄支付完成虛擬網(wǎng)購(gòu),從而信用額度。
- 預(yù)下單模式:使用三方APP,下單后不支付,然后告訴套現(xiàn)人三方賬號(hào)密碼,由套現(xiàn)人登錄后使用花唄支付,完成套現(xiàn)。
基于信貸的業(yè)務(wù)特色,我們?cè)O(shè)計(jì)了事前、事中到事后的全面防控,各環(huán)節(jié)的主要內(nèi)容為:
- 事前:提前感知、認(rèn)知風(fēng)險(xiǎn)。包括對(duì)商戶(hù)進(jìn)行風(fēng)險(xiǎn)分析、對(duì)用戶(hù)進(jìn)行風(fēng)險(xiǎn)等級(jí)評(píng)級(jí),這部分工作會(huì)用到近線的圖分析功能。
- 事中:當(dāng)用戶(hù)申請(qǐng)貸款、或要用貸款去付錢(qián)時(shí),基于交易請(qǐng)求實(shí)時(shí)分析和計(jì)算,進(jìn)行風(fēng)險(xiǎn)策略和模型應(yīng)用及圖譜的交叉驗(yàn)證。
- 事后:對(duì)信貸業(yè)務(wù)進(jìn)行全面的風(fēng)險(xiǎn)分析,如分析資金使用、套現(xiàn)可能性、挖掘團(tuán)伙。
2、業(yè)務(wù)應(yīng)用全局視角
我們基于事前、事中、事后的業(yè)務(wù)體系,設(shè)計(jì)了對(duì)應(yīng)的技術(shù)框架。
- 事前:T+1調(diào)度進(jìn)行圖跑批計(jì)算、由事件驅(qū)動(dòng)的近線計(jì)算。
- 事中:基于請(qǐng)求在線實(shí)時(shí)計(jì)算,使用了圖數(shù)據(jù)庫(kù)的能力,保證查詢(xún)性能。
- 事后:近線的消息監(jiān)控、T+1的全量分析,以及交互式圖分析。
上述模塊會(huì)用到的圖技術(shù)包括:圖的多度關(guān)系聚合特征(Traversal&Aggregate)、模式匹配(Pattern Matching)、圖社區(qū)檢測(cè)算法(Community Detection)、圖學(xué)習(xí)、圖推理等。
3、花唄反套現(xiàn)案例
下面我們通過(guò)花唄反套現(xiàn)的案例來(lái)說(shuō)明事后和事中的防控。
事后
由于風(fēng)控場(chǎng)景的Y標(biāo)稀缺,如果依賴(lài)人工專(zhuān)家打標(biāo),對(duì)于專(zhuān)家未識(shí)別到的套現(xiàn)模式會(huì)出現(xiàn)無(wú)法覆蓋的情況。所以我們通過(guò)T+1的離線數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)開(kāi)發(fā)了風(fēng)險(xiǎn)大圖,基于“近朱者赤近墨者黑”的思想,將Pattern Matching中識(shí)別到的黑、灰種子,進(jìn)一步在圖上擴(kuò)散傳播,從識(shí)別更多風(fēng)險(xiǎn)用戶(hù),并將風(fēng)險(xiǎn)由單點(diǎn)轉(zhuǎn)換為社團(tuán)。
事中
傳統(tǒng)事中實(shí)時(shí)風(fēng)控計(jì)算,多使用Flink產(chǎn)出統(tǒng)計(jì)型特征,它無(wú)法刻畫(huà)多度關(guān)系。另外,如果圖Pattern全部依賴(lài)專(zhuān)家定義存在效率和覆蓋度的問(wèn)題。所以我們使用了在線子圖,包括買(mǎi)家子圖、賣(mài)家子圖、買(mǎi)賣(mài)家連通子圖,作為神經(jīng)網(wǎng)絡(luò)的輸入并在線打分,從而進(jìn)行實(shí)時(shí)的防控。
二、圖風(fēng)控規(guī)?;涞?/span>
1、微貸圖平臺(tái)
圖風(fēng)控技術(shù)規(guī)?;臉I(yè)務(wù)落地,一開(kāi)始我們只是簡(jiǎn)單的嘗試,效率比較低,因?yàn)樾刨J場(chǎng)景較為嚴(yán)謹(jǐn),上線需要進(jìn)行離線測(cè)算、旁路驗(yàn)證。這就需要保證離線在線的數(shù)據(jù)源頭一致、計(jì)算語(yǔ)義一致,實(shí)現(xiàn)圖仿真功能。否則只能通過(guò)離線表JOIN的方式進(jìn)行構(gòu)圖,很難支持3-6個(gè)月的圖回測(cè)。
我們通過(guò)技術(shù)驗(yàn)證后,沉淀了一套能力,包括:
- 圖建模:離線、近線、在線的圖資產(chǎn)統(tǒng)一。
- 圖交互式分析:專(zhuān)家使用圖交互式分析進(jìn)行研判。
- 圖仿真回測(cè):基于分析的case進(jìn)行3-6個(gè)月的圖仿真回測(cè)。
- 圖計(jì)算服務(wù)上線:圖特征和圖算子的一鍵發(fā)布上線。
統(tǒng)一圖資產(chǎn)在分析,仿真和上線的語(yǔ)義一致、三線一體,保證了圖風(fēng)控規(guī)?;男?。
2、規(guī)?;势款i
做完規(guī)模化后,我們發(fā)現(xiàn)業(yè)務(wù)流程前面的模塊都是離線T+1跑批、或基于事件觸發(fā),都是自動(dòng)的。只有最后這一步需要人的分析,這個(gè)環(huán)節(jié)對(duì)人工的依賴(lài),阻礙的圖的大規(guī)模應(yīng)用,所以我們下一步的工作是自動(dòng)挖掘風(fēng)險(xiǎn)。
三、子圖挖掘
我們之前的業(yè)務(wù)分析測(cè)算,都基于專(zhuān)家給出了明確的風(fēng)險(xiǎn)模式后進(jìn)行處置,但其實(shí)這樣的流程周期很長(zhǎng),效率較低。所以我們目前正在自動(dòng)挖掘風(fēng)險(xiǎn)模式,然后推薦給專(zhuān)家分析。
1、總體技術(shù)方案
整體技術(shù)方案分為以下幾步:
- 基于離線T+1及實(shí)時(shí)數(shù)據(jù)構(gòu)建底圖。
- 計(jì)算圖中每個(gè)節(jié)點(diǎn)的表征向量,然后計(jì)算p-value值及各種業(yè)務(wù)指標(biāo)
- 篩選節(jié)點(diǎn),并基于種子節(jié)點(diǎn)進(jìn)行擴(kuò)散,獲得重要風(fēng)險(xiǎn)子圖
- 在子圖中進(jìn)行風(fēng)險(xiǎn)模式的挖掘,獲得風(fēng)險(xiǎn)模式(Pattern)的候選集,并進(jìn)行回測(cè)
- 回測(cè)結(jié)果符合預(yù)期指標(biāo)的風(fēng)險(xiǎn)模式,交由業(yè)務(wù)方進(jìn)行交互分析,并決定是否采用上線
- 通過(guò)這一套流程,我們把挖掘風(fēng)險(xiǎn)模式,結(jié)合算法和算力做到了自動(dòng)化。
在這套流程中,有兩個(gè)比較大的挑戰(zhàn):
- 信息混雜問(wèn)題:底圖數(shù)據(jù)龐大,噪聲較多。
- 算力復(fù)雜問(wèn)題:子圖同構(gòu)算法復(fù)雜度為指數(shù)級(jí)。
2、信息混雜問(wèn)題
對(duì)于信息混雜問(wèn)題,當(dāng)我們基于原始大圖進(jìn)行挖掘時(shí),首先圖的規(guī)模比較大,難以進(jìn)行挖掘。另外,圖中有許多噪音,比如我們每天購(gòu)買(mǎi)咖啡、早餐,當(dāng)我們基于頻繁度進(jìn)行挖掘時(shí),這種模式很容易被挖掘出來(lái),但沒(méi)有提供風(fēng)險(xiǎn)信息,應(yīng)該被剔除。
我們的做法是基于完整的底圖,計(jì)算節(jié)點(diǎn)表征向量。然后根據(jù)節(jié)點(diǎn)p-value和業(yè)務(wù)指標(biāo),計(jì)算節(jié)點(diǎn)的重要度,最后裁剪低于一點(diǎn)重要度的節(jié)點(diǎn),我們目前通常挖掘的圖在10億規(guī)模左右。這樣做可以剔除噪聲,并且提升挖掘的效率。
3、算力復(fù)雜問(wèn)題
算力復(fù)雜度主要來(lái)源于組合爆炸,比如某種邊的類(lèi)型只有10萬(wàn)條,但它對(duì)應(yīng)的pattern可能有11 億個(gè),而我們的挖掘,每增加一度都需要反復(fù)驗(yàn)證對(duì)應(yīng)的業(yè)務(wù)指標(biāo),所以計(jì)算量非常大。
對(duì)于這個(gè)問(wèn)題,我們有兩個(gè)解決辦法。第一是基于業(yè)務(wù)語(yǔ)義,對(duì)不合理的pattern進(jìn)行剪枝。這種從業(yè)務(wù)應(yīng)用的角度對(duì)圖進(jìn)行剪枝,得到了比較好的效果。第二,從技術(shù)的角度,引入圖的外部存儲(chǔ),緩解了大規(guī)模圖挖掘的內(nèi)存壓力。
4、子圖自同構(gòu)問(wèn)題
子圖自同構(gòu),原本需要遍歷所有子圖進(jìn)行對(duì)比,是一個(gè)np問(wèn)題,比較難找到最優(yōu)解。我們與高校合作,使用了數(shù)學(xué)的思路,將子圖映射成一個(gè)數(shù)學(xué)函數(shù),然后通過(guò)數(shù)學(xué)函數(shù)可以比較快速的對(duì)比。這個(gè)方法不能解決所有問(wèn)題,但是能解決大部分問(wèn)題。我們基于這個(gè)思路進(jìn)行了分布式的實(shí)現(xiàn),從而更好地做圖挖掘,以及圖模式的匹配。
四、回顧總結(jié)
我們的信貸圖風(fēng)控建設(shè)從2018年開(kāi)始,基于專(zhuān)家總結(jié)的風(fēng)險(xiǎn)模式,轉(zhuǎn)換成圖模式匹配進(jìn)行風(fēng)險(xiǎn)挖掘,它的特點(diǎn)是準(zhǔn)確率高,但風(fēng)險(xiǎn)覆蓋度比較低。所以在2019年我們做了團(tuán)伙算法,用于解決聚集性風(fēng)險(xiǎn)。2020年,我們從圖的靜態(tài)切面,分析圖的當(dāng)前信息,推進(jìn)到分析圖的時(shí)序演進(jìn)狀態(tài),進(jìn)一步捕捉團(tuán)伙的發(fā)展以及變化的信息。21年,我們做了圖平臺(tái)規(guī)模化的落地,實(shí)現(xiàn)三線一體。22、23年,我們的主要工作是做圖的自動(dòng)挖掘和分析。
五、問(wèn)答環(huán)節(jié)
Q1. 剛剛提到事中階段會(huì)在線進(jìn)行攔截,時(shí)延是120毫秒,線上用了什么樣算法,還是用專(zhuān)家系統(tǒng)進(jìn)行模式匹配?怎么做到120毫秒?
A:模式匹配和團(tuán)伙發(fā)現(xiàn)是事后做的,社團(tuán)的計(jì)算需要幾十秒。事中主要是在圖數(shù)據(jù)庫(kù)中查了買(mǎi)家子圖、賣(mài)家子圖、買(mǎi)家賣(mài)家連通子圖,主要做Traversal&Aggregate,進(jìn)行表征向量抽取,然后進(jìn)行深度學(xué)習(xí)模型的打分,這個(gè)過(guò)程大概消耗20毫秒左右。當(dāng)然我們也在風(fēng)控鏈路上做了許多優(yōu)化,整套流程大概在70-80毫秒。
Q2. 20毫秒的查詢(xún)會(huì)涉及到幾度鄰居查詢(xún)?
A:買(mǎi)家和賣(mài)家子圖往外擴(kuò)兩度,買(mǎi)家賣(mài)家連通子圖則是各擴(kuò)兩度,并且各擴(kuò)充兩度后可以連通。
Q3. 事中查詢(xún)時(shí),圖的切片如何選?。?/h4>
A:圖是有多個(gè)線程持續(xù)更新寫(xiě)入數(shù)據(jù)的,當(dāng)有訪問(wèn)請(qǐng)求時(shí),實(shí)時(shí)對(duì)被訪問(wèn)節(jié)點(diǎn)進(jìn)行Traversal&Aggregate。
Q4. 圖中節(jié)點(diǎn)表征的更新頻率是什么?
A:圖節(jié)點(diǎn)的表征是實(shí)時(shí)抽取計(jì)算的。
Q5. 子圖挖掘整體方案中,藍(lán)色模塊的評(píng)估任務(wù),是自動(dòng)化評(píng)估還是有業(yè)務(wù)專(zhuān)家介入評(píng)估?
A:這部分的評(píng)估是自動(dòng)化評(píng)估,我們會(huì)基于風(fēng)險(xiǎn)的候選集,在3-6個(gè)月的圖上進(jìn)行回測(cè),然后根據(jù)歷史數(shù)據(jù)上匹配到的pattern,計(jì)算用戶(hù)、商戶(hù)的各種風(fēng)險(xiǎn)及業(yè)務(wù)指標(biāo),然后根據(jù)業(yè)務(wù)給出的口徑進(jìn)行自動(dòng)化的評(píng)估。