圖算法在阿里風(fēng)控系統(tǒng)中的實踐

一、電商風(fēng)控場景中的圖算法介紹
首先簡單概述下阿里電商風(fēng)險特點、圖算法的應(yīng)用歷史與現(xiàn)狀。
1、阿里電商風(fēng)險特點
阿里電商風(fēng)險的主要特點:對抗性 & 排列組合式的復(fù)雜性。
風(fēng)險一定存在對抗性,同時阿里電商的風(fēng)險還具有排列組合的復(fù)雜性。做風(fēng)險識別主要是用 X(數(shù)據(jù))去預(yù)測 Y(風(fēng)險):P(Y|X)。而在阿里電商 X 非常復(fù)雜,因為阿里電商是一個非常高維的經(jīng)濟生態(tài):
① 多樣的市場 -- 淘寶、閑魚、天貓、1688、Lazada 等,不同市場的風(fēng)險特點不一樣;
② 多樣的業(yè)務(wù)場景-- 賬號,商品,促銷等,且隨著業(yè)務(wù)的迭代與創(chuàng)新會產(chǎn)生新的風(fēng)險;
③ 多樣的應(yīng)用端 -- PC、H5、APP 等,每個端都需要做防控;
④ 多樣的數(shù)據(jù)源,需要有能力處理和整合不同模態(tài)的數(shù)據(jù)。

同時 Y 也很復(fù)雜,主要體現(xiàn)在三方面,第一是風(fēng)險種類很多,常見的內(nèi)容風(fēng)險、行為風(fēng)險等只是眾多風(fēng)險中的滄海一粟;第二是這些風(fēng)險是有關(guān)聯(lián)的,比如賣家欺詐跟注冊、被盜、商品內(nèi)容都有關(guān)系;第三是風(fēng)險會轉(zhuǎn)移,當(dāng)一類風(fēng)險防得比較好了,作案成本高了,又轉(zhuǎn)移到其他風(fēng)險或者產(chǎn)生新的風(fēng)險。
所以整個的風(fēng)險防控非常復(fù)雜,具有排列組合式的復(fù)雜性。
2、圖算法的重要性
圖算法可以提升風(fēng)險識別模型的對抗能力。平臺上大部分的“壞事”只是少數(shù)人干的,“壞人”有很多馬甲,我們可以通過“關(guān)系”找出蛛絲馬跡,提前識別和處置。比如下圖中黃色的點,假設(shè)它是一個有異常行為的用戶,僅憑他自身的行為很難判斷他是一個欺詐用戶,但是可以通過分析和他關(guān)聯(lián)的其他三個欺詐用戶(黑點)來確定他是一個欺詐用戶。同時我們把這四個賬戶關(guān)聯(lián)緊密的賬戶都找出來,發(fā)現(xiàn)是一個團伙,提前的批量處置這些賬號,可以提升作惡的成本。

此外,異質(zhì)圖可以自然的全局融合各模態(tài)、各風(fēng)險對象數(shù)據(jù),計算出各個不同對象的表征,進而進行不同風(fēng)險的識別,來應(yīng)對排列組合式的復(fù)雜性
3、圖算法的歷史與現(xiàn)狀
基于圖算法的重要性,阿里電商風(fēng)控從 2013 年就使用圖算法。
起初圖算法被用來構(gòu)建整個賬號庫的關(guān)系網(wǎng)絡(luò)。這個關(guān)系數(shù)據(jù)是欺詐、賬戶安全、反作弊、假貨等所有風(fēng)險防控場景所需的基礎(chǔ)數(shù)據(jù),主要使用的數(shù)據(jù)有設(shè)備信息、手機號等媒介數(shù)據(jù)。它主要是刻畫賬戶與賬戶之間的相關(guān)性、關(guān)系類型和群體識別等。目前已對該關(guān)系網(wǎng)絡(luò)建立了從生產(chǎn)到應(yīng)用的閉環(huán)反饋通道。
底層的關(guān)系數(shù)據(jù)非常多,整體的進行一次關(guān)系數(shù)據(jù)的匯總、清洗、圖計算和存儲,成本是很高的,而且后面還要保持不斷的更新,所以構(gòu)建關(guān)系網(wǎng)絡(luò)的成本很高,但因為我們有很多風(fēng)險的模型、策略依賴這個關(guān)系網(wǎng)絡(luò),所以還是很值得的。

而對于圖神經(jīng)網(wǎng)絡(luò),我們在 2016 年就開始探索應(yīng)用,那時我們還叫 GGL(Geometric Graph Learning,幾何圖學(xué)習(xí)),當(dāng)時還沒有直接可用的圖神經(jīng)網(wǎng)絡(luò)算法框架,所以我們用 C++ 實現(xiàn)了一個 GGL 算法框架。在 2018 年的時候轉(zhuǎn)移到了阿里計算平臺提供的 Graph learn 上,這個框架目前也是開源的,我們也在這個框架中貢獻了一些圖算法代碼。

電商風(fēng)控場景豐富,在圖算法驗證階段選擇合適的場景也尤為重要。風(fēng)險場景中占比較大的行為風(fēng)險“判斷標(biāo)準(zhǔn)”不直觀,在工業(yè)場景里行為風(fēng)險白樣本混雜著很多還未被發(fā)現(xiàn)的黑樣本,當(dāng)圖算法將白樣本判斷為黑樣本時很難判斷是誤召回還是增益召回,這會影響模型的調(diào)優(yōu)和上線效果的判斷。相反,內(nèi)容安全場景,比如垃圾消息、辱罵,是一個有“直觀判斷標(biāo)準(zhǔn)”的場景,更適合驗證圖算法有效性。所以我們先在內(nèi)容安全場景探索算法,驗證有效和沉淀最佳實踐后,鋪開應(yīng)用到行為風(fēng)險場景。
目前為止,阿里電商各類風(fēng)險業(yè)務(wù)都會用到圖算法。整個圖算法應(yīng)用框架如下圖,首先在底層維護一個關(guān)系數(shù)據(jù)層,匯集和清洗各類關(guān)系數(shù)據(jù),便于上層的應(yīng)用;在數(shù)據(jù)層之上,沉淀常用的圖算法;再上一層利用關(guān)系數(shù)據(jù)層和算法層構(gòu)建了賬號關(guān)系網(wǎng)絡(luò),它橫向支撐業(yè)務(wù)層的各類風(fēng)險場景的防控;在最上層的業(yè)務(wù)層,結(jié)合具體風(fēng)險的特點,我們利用這些圖算法和關(guān)系數(shù)據(jù)構(gòu)建圖模型,識別各類業(yè)務(wù)風(fēng)險。

接下來的分享將主要介紹“交互內(nèi)容風(fēng)險”、“商品禁限售”、“假貨治理”這三類風(fēng)險應(yīng)用的一些圖算法。
二、交互內(nèi)容風(fēng)控的圖算法
阿里電商平臺有豐富的交互內(nèi)容場景,比如商品評價、評論、問大家,以及手淘逛逛、閑魚社區(qū)等,下面以閑魚留言垃圾廣告的識別為例來介紹內(nèi)容風(fēng)控圖算法。

在閑魚 APP 里的商品留言里很容易出現(xiàn)“垃圾廣告”這類的內(nèi)容風(fēng)險,比如兼職、刷單、賣減肥藥等,且對抗性很強,比如上面截圖里的“兄弟看看我”,其真正的廣告不在文字本身,而在該用戶的首頁。
閑魚留言的垃圾廣告識別是我們圖神經(jīng)網(wǎng)絡(luò)算法第一個落地應(yīng)用的場景,這個識別模型我們簡稱為 GAS。整個模型由一個異質(zhì)圖和一個同質(zhì)圖構(gòu)成。異質(zhì)圖學(xué)習(xí)每個節(jié)點的局部表征,包含商品、留言和用戶,同質(zhì)圖則是一個 comment graph 學(xué)習(xí)不同留言的全局表征,最后將這四個表征融合在一起進行二分類模型訓(xùn)練。

訓(xùn)練整體數(shù)據(jù)集包括留言有 3kw+,商品 2kw+, 用戶 900w+,上線后相比原來的 MLP 模型識別多召回了 30% 的風(fēng)險。此外,通過消融實驗也證實,加入全局信息提升也很顯著,這是由于垃圾廣告本身的特點——需要大量轉(zhuǎn)發(fā)才有較好的收益。這個工作最終整理并發(fā)表于 paper[1],獲得了 CIKM2019 的 Best Applied Research Paper。

三、商品內(nèi)容風(fēng)控的圖算法
這里主要介紹兩類商品內(nèi)容風(fēng)控的圖算法:一類是商品圖結(jié)構(gòu)學(xué)習(xí),一類是商品圖結(jié)構(gòu)與專業(yè)知識圖譜的融合。

商品風(fēng)險管控主要是管控“禁限售”風(fēng)險,很多種類的商品是國家法律法規(guī)規(guī)定不能售賣的,比如國家保護動植物、作弊造假、管制醫(yī)療器械等。
商品的管控很復(fù)雜,商品數(shù)據(jù)是多數(shù)據(jù)流、多通道、多模態(tài)的:
① 多數(shù)據(jù)流:標(biāo)題、描述、主圖、副圖、詳情圖、SKU;
② 多通道:文字的音、形、意,圖片的 RGB;
③ 多模態(tài):文字、圖片、元信息(價格、銷量) 。
同時商品內(nèi)容風(fēng)險也是復(fù)雜多樣且對抗激烈的,比如上圖中看上去是賣串珠,但實際上是賣象牙。
商品內(nèi)容風(fēng)控圖算法主要有兩類 :一種是多模態(tài)融合的模型,用深度模型構(gòu)建一個商品的神經(jīng)網(wǎng)絡(luò),通過多模態(tài)的融合進行多任務(wù)的學(xué)習(xí),這是商品局部信息的學(xué)習(xí);另一種是為了提升對風(fēng)險的召回,用異質(zhì)圖建立商品和商品、商品和賣家、賣家和賣家之間的關(guān)系,進行全局信息的融合學(xué)習(xí)。
1、商品圖的圖結(jié)構(gòu)學(xué)習(xí)
GCN 的本質(zhì)是融合鄰居特征的特征平滑,因此圖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)對圖結(jié)構(gòu)的質(zhì)量有一定要求,好的網(wǎng)絡(luò)圖是稠密且同質(zhì)率高的。然而,風(fēng)險商品圖稀疏且同質(zhì)率比較低(0.15,對公開數(shù)據(jù)集統(tǒng)計發(fā)現(xiàn) 0.6 以上才比較好),所以我們必須對圖結(jié)構(gòu)進行學(xué)習(xí)。

商品圖里面有三種邊分別構(gòu)成三種圖,如下圖右邊框架圖所示:一類是兩個商品是同一賣家賣的同賣家圖,第二類是兩個商品被同消費者瀏覽過的同瀏覽圖,第三類是兩個商品的賣家有很強關(guān)聯(lián)的關(guān)聯(lián)賣家圖。
商品圖結(jié)構(gòu)學(xué)習(xí)本質(zhì)是加邊和刪邊的過程:首先根據(jù)商品 embedding 用 KNN Graph 構(gòu)建一個 KNN 圖,之后將以上四類邊和商品 embedding 一起放入 HGT 學(xué)習(xí)商品新 embedding 并對 attention 值較低的邊作為噪聲進行刪除,新的商品 embedding 可以用來更新 KNN Graph,如此往返迭代直到 loss 收斂。在真實數(shù)據(jù)中的實踐表明該圖結(jié)構(gòu)學(xué)習(xí)框架相比同質(zhì)圖/異質(zhì)圖,達到了 SOTA 的效果。

2、圖計算與風(fēng)險知識圖譜的融合
商品圖算法的提升算法是圖計算與風(fēng)險知識圖譜的融合。有些商品風(fēng)險很難通過常識判斷,需要結(jié)合一定的專業(yè)領(lǐng)域知識。所以針對這些具體的風(fēng)險領(lǐng)域知識點構(gòu)建了特定的知識圖譜,以此來輔助模型識別和人工審核。
比如下圖左側(cè)顯示的兩個商品,直觀看是賣簡單的飾品,實際上是賣藏羚羊角,而藏羚羊是國家一級保護動物,它的相關(guān)產(chǎn)品是禁售的,我們通過該商品和藏羚羊相關(guān)知識進行匹配可識別出該商品風(fēng)險。融合算法框架如下圖右側(cè)所示:模型目標(biāo)是判斷候選商品和風(fēng)險知識點是否匹配。Item p 是商品圖文表征,Risk-Point R 是知識點表征,通過實體識別、實體鏈接和關(guān)系抽取等得到商品和該知識點的子圖,再用 GNN 計算子圖的表征 ,最后用該表征進行風(fēng)險的分類識別。其中,CPR 是商品表征和知識點表征的融合,它主要用來指導(dǎo)圖表征學(xué)習(xí)一些全局信息。實踐表明,相比商品多模態(tài)識別,加入風(fēng)險知識圖譜對長尾風(fēng)險的召回提升 10 個點以上。

在此基礎(chǔ)上,我們還嘗試引入了全局商品圖。當(dāng)商品內(nèi)容直接關(guān)聯(lián)知識圖譜也不能識別風(fēng)險時,可以進一步引入商品和商品之間的關(guān)聯(lián)輔助判斷,比如下圖中某個標(biāo)有“幼崽也有”的商品和“紅腹松鼠”知識沒有強匹配關(guān)系,但這個商品同賣家的另一個商品“紅腹”和“紅腹松鼠”知識匹配,因此可推理該商品實際上賣的是紅腹松鼠(二級保護動物,禁售)。實踐表明,做知識推理時引入整個大的商品圖能再提高長尾風(fēng)險召回 3% 以上。

四、動態(tài)異質(zhì)圖的風(fēng)控實踐
前面介紹的圖算法主要還是靜態(tài)圖的挖掘應(yīng)用,但是很多的風(fēng)險場景存在動態(tài)圖的風(fēng)險模式。
比如售假商家先注冊,再批量發(fā)布大量商品,炒作吸引流量,然后快速進行售假,在這一系列動作中時間維度的圖結(jié)構(gòu)變化對我們的風(fēng)險識別很重要,因此動態(tài)圖也是圖算法探索與應(yīng)用的重點方向。
動態(tài)圖最大的挑戰(zhàn)是如何設(shè)計和搜索到好的圖結(jié)構(gòu)。一方面,動態(tài)圖在原有的異質(zhì)圖基礎(chǔ)上引入了時間維度,比如有 30 個時刻,那么動態(tài)圖的參數(shù)(信息量)是異質(zhì)圖的 30 倍,這給學(xué)習(xí)帶來很大壓力;另一方面,由于風(fēng)險的對抗性,動態(tài)圖需要有較強的魯棒性。

1、動態(tài)圖自動學(xué)習(xí)
據(jù)此,我們提出了基于 Attention 的動態(tài) GNN + AutoML,在限定一定參數(shù)空間下,選擇最好的模型結(jié)構(gòu)(DHGAS)。該模型的核心是通過自動學(xué)習(xí)對模型結(jié)構(gòu)尋優(yōu),如下圖所示:首選將動態(tài)圖分解成不同時刻的異質(zhì)圖,并對不同時刻和不同節(jié)點設(shè)置不同的函數(shù)空間來表示商品表征的變化空間 (N*T 種,N:節(jié)點種類;T:時間空間),對不同時刻和不同邊類型也設(shè)置不同的函數(shù)空間來表示信息傳播的路徑空間(R*T 種,R:邊種類;T:時間空間),最后節(jié)點和鄰居聚合的時候有 R*T*T 種聚合的方式(兩個 T 分別是邊兩端節(jié)點的時間戳。
顯然整個搜索空間龐大,我們嘗試限定參數(shù)空間,借助自動機器學(xué)習(xí)技術(shù)構(gòu)建 supernet,讓模型自動搜索到最優(yōu)網(wǎng)絡(luò)架構(gòu)。具體做法:限制 N*T 的函數(shù)空間數(shù)目為 K_N,R*T 函數(shù)空間數(shù)據(jù)為 K_R,R*T*T 的模長為 K_Lo,比如 N=6,T=30,理論有 N*T=180 個函數(shù)空間,實際限制到 K_N=10。
該算法當(dāng)前已落地到“假貨賣家識別”,“商品禁限售的惡意商家識別”等場景,且和業(yè)界主流算法對比都得到了 SOTA 的結(jié)果,具體可以查閱論文[2]。

2、動態(tài)圖魯棒學(xué)習(xí)
由于風(fēng)險的對抗性,動態(tài)圖需要有較強的魯棒性,其本質(zhì)是希望動態(tài)圖能學(xué)到一些本質(zhì)的 pattern,比如下圖中示例子圖的本質(zhì) pattern 是冰激凌銷量上升是由于天氣變熱了,而不是溺水人數(shù)增加。
我們希望魯棒性學(xué)習(xí)解決電商風(fēng)控動態(tài)圖的一些分布偏移問題:
(1)特征偏移:比如如果過度依賴歷史違規(guī)信息這類特征,對新注冊的問題會員召回會不佳;
(2)結(jié)構(gòu)偏移:比如過度依賴垃圾廣告會員的度密集子結(jié)構(gòu),會把很活躍的正常會員誤召回;
(3)時間偏移:惡意用戶隨著防控會發(fā)生明顯的行為變異。

對此,我們提出了一個算法 DIDA,核心思想如下圖所示:在學(xué)習(xí)動態(tài)圖時學(xué)習(xí)兩個 pattern——橙色代表的本質(zhì) pattern 和綠色代表的非本質(zhì) pattern,僅用本質(zhì) pattern 的 loss(L)+ 非本質(zhì) patterns 組合的 loss 方差(Ldo)作為模型最終學(xué)習(xí)的 loss。非本質(zhì) patterns 組合的 loss 方差(Ldo)的設(shè)計思想是:假設(shè)圖中綠色的 a3 是非本質(zhì)的 pattern,那么把這個綠色的 a3 換成其他非本質(zhì) patterns 如 b3、c3 等應(yīng)該對模型的 loss(判別能力)影響不大。因此我們可以將非本質(zhì) patterns 的 loss 方差加入模型學(xué)習(xí),最終預(yù)測階段則只用本質(zhì) pattern 來進行分類。目前該算法已經(jīng)落地到商品內(nèi)容風(fēng)控場景中,也整理出 paper[3]。

五、ICDM2022 比賽:大規(guī)模電商圖上的風(fēng)險商品檢測
“ICDM2022 比賽:大規(guī)模電商圖上的風(fēng)險商品檢測”是我們今年主辦的算法比賽,提供的數(shù)據(jù)是真實場景的脫敏數(shù)據(jù)。最終從提交的技術(shù)代碼和報告中也收獲了一些啟發(fā):
(1)自監(jiān)督預(yù)訓(xùn)練對于效果提升有比較大幫助,但是需要選擇合適的自監(jiān)督任務(wù);
(2)GNN 結(jié)合標(biāo)簽傳播可以帶來顯著提升 ,在之前的圖算法應(yīng)用中由于擔(dān)心標(biāo)簽泄露而丟棄了該部分數(shù)據(jù),但在真實數(shù)據(jù)中實踐后發(fā)現(xiàn)并不明顯。猜測原因是現(xiàn)在的圖形網(wǎng)絡(luò)只是做到了信息融合,還沒做到推理或者推理能力較弱;
(3)解耦深度和層數(shù)有普遍提升, 可以傳播一次的同時聚合好幾次。

六、圖算法落地方式總結(jié)和展望
結(jié)合我們的經(jīng)驗,總結(jié)了以下圖算法落地方式:
(1)圖算法框架/平臺:應(yīng)該有個圖算法框架沉淀技術(shù)和最佳實踐,提升技術(shù)的復(fù)用性。
(2) 半自動化建模:為了提高建模的效率,在數(shù)據(jù)層面我們最好對底層的關(guān)系媒介數(shù)據(jù)做個清洗和匯總,在建模層面可以提供一些組件(MetaPath/MetaGraph 選擇組件,圖采樣組件,向量檢索組件等)提高建模效率。
(3)自動化調(diào)用:可以自動化調(diào)用只依賴輸入樣本的圖算法或圖模型,不需要了解圖模型,方便其他不熟悉圖算法的風(fēng)險控制同學(xué)進行模型優(yōu)化使用,比如團伙識別,商品回撈,風(fēng)險用戶回撈等。
(4) 生產(chǎn)(自監(jiān)督)圖表征:作為單獨的模態(tài)輸入到模型中使用,不影響原來的建模方式,大幅提升圖的應(yīng)用場景。

后續(xù)工作展望:
(1)大規(guī)模的圖自監(jiān)督表征學(xué)習(xí)。我們有上千個風(fēng)險模型,其中還有很多沒應(yīng)用上圖算法,因此我們下一步是做大規(guī)模的圖自監(jiān)督表征,以擴大圖特征的應(yīng)用范圍,幫助提升業(yè)務(wù)效果。該工作存在工程和算法上的雙重挑戰(zhàn):首先是工程上,我們至少有數(shù)十億節(jié)點和數(shù)百億的邊供大規(guī)模學(xué)習(xí),其次是算法上,圖表征不僅要能覆蓋常用的關(guān)系表征,還要學(xué)到更高階的圖的結(jié)構(gòu)的特征,具有很強的通用性,能應(yīng)用到各個場景。
(2)在具體的風(fēng)控場景中探索實現(xiàn)圖的推理能力,目前圖算法更多的還是知識的融合,推理能力比較薄弱,無法應(yīng)對風(fēng)險的高對抗性。從客觀上我們需要我們的模型具備很強的智能 所以圖的推理能力很重要。目前擬依靠閑魚社區(qū)的豐富交互場景和內(nèi)容來進行算法的探索。
(3)在動態(tài)異質(zhì)圖的頻域研究、可解釋性方面有更多探索落地。頻域研究的目的是在動態(tài)圖中學(xué)到更多的圖結(jié)構(gòu)變化的細節(jié)??山忉寗t幫助我們了解算法是否真正學(xué)到了本質(zhì)的特征,一方面幫助我們完善算法,另一方面也可以更好的提供給業(yè)務(wù)同學(xué)進行應(yīng)用落地。

以上探索方向我們也在尋求學(xué)術(shù)合作,特別是圖推理方向。同時,我們現(xiàn)在也在招聘圖算法的同學(xué),有興趣的同學(xué)可以聯(lián)系我。
七、Reference
1. Spam Review Detection with Graph Convolutional Networks. CIKM2019 Best Applied Research Paper.
2. Dynamic Heterogeneous Graph Attention Neural Architecture Search. AAAI2023.
3. Dynamic Graph Neural Networks Under Spatio-Temporal Distribution Shift. NeurIPS2022.
八、問答環(huán)節(jié)
Q1:風(fēng)控場景的圖表征有什么特殊的挑戰(zhàn),相比其他領(lǐng)域的圖表征?
A1:三個最主要的挑戰(zhàn):首先圖結(jié)構(gòu)比較差,同質(zhì)率較低;其次是圖的魯棒性問題,在我們的場景里面特別是動態(tài)圖,它的分布漂移還是很嚴重的,還有另外一個問題黑樣本的風(fēng)險濃度很低,并不是說 1:10 或者 1:20 之類的,在我們的圖算法里面有些風(fēng)險的濃度是 1:1w+ 以上的,所以我們的樣本是極度極度不均衡的,這也是我們需要去解決的。
Q2:圖聯(lián)邦學(xué)習(xí)目前算法模型如何,行業(yè)是否有比較成熟的解決方案?你們對圖聯(lián)邦學(xué)習(xí)有沒有一些應(yīng)用和一些考慮?
A2:我們現(xiàn)在主要還是用在我們電商場景里面 ,當(dāng)然我們還有一些非電商業(yè)務(wù),不過這些數(shù)據(jù)都是我們自己的數(shù)據(jù)我們還是可以直接使用進行風(fēng)控的,所以現(xiàn)在還沒有用到聯(lián)邦學(xué)習(xí) ,但是圖聯(lián)邦學(xué)習(xí)后面還是有必要用的,因為現(xiàn)在為了信息安全都在做數(shù)據(jù)切割和隔離,不同域的數(shù)據(jù)是不能打通來使用的,所以后面圖聯(lián)邦學(xué)習(xí)后面應(yīng)該會成為我們一個探索應(yīng)用方向。



































