金融風(fēng)控領(lǐng)域的大模型落地實(shí)踐
Akulaku 作為一個(gè)海外互聯(lián)網(wǎng)金融平臺(tái),運(yùn)用大模型優(yōu)化金融風(fēng)控、客服及電商推薦等場(chǎng)景,通過(guò)集成圖像(如 KYC 人臉識(shí)別)、文本(如智能客服)與設(shè)備數(shù)據(jù),增強(qiáng)風(fēng)控系統(tǒng)效能與用戶(hù)體驗(yàn)。大模型的引入旨在提升效率,通過(guò)優(yōu)化小模型構(gòu)建與工作流程自動(dòng)化,減輕業(yè)務(wù)人員負(fù)擔(dān)。智能體在金融領(lǐng)域的應(yīng)用包括欺詐調(diào)查與數(shù)據(jù)分析助手,預(yù)示著通過(guò)大模型輔助構(gòu)建類(lèi) AGI 系統(tǒng)的可能性,能夠進(jìn)一步提升金融風(fēng)控的效率與效果,在金融領(lǐng)域擁有廣泛的應(yīng)用前景。本文將分享 Akulaku 在金融風(fēng)控領(lǐng)域的大模型落地實(shí)踐。
一、公司業(yè)務(wù)背景介紹
首先介紹一下公司的業(yè)務(wù)背景。
Akulaku 是一家主打海外市場(chǎng)的互聯(lián)網(wǎng)金融服務(wù)提供者,服務(wù)內(nèi)容包括網(wǎng)上購(gòu)物和分期付款、現(xiàn)金貸、保險(xiǎn)等等,主要應(yīng)用于金融風(fēng)控、電商智能客服以及電商推薦等場(chǎng)景中。無(wú)論是在用戶(hù)審核、信用評(píng)估,還是在反欺詐識(shí)別等環(huán)節(jié),單純手工操作和業(yè)務(wù)規(guī)則判斷無(wú)法高效準(zhǔn)確地處理大量的用戶(hù)請(qǐng)求,攔截各種黑產(chǎn)攻擊。所以我們的總體目標(biāo)是構(gòu)建基于各種技術(shù)手段的敏捷高效的智能風(fēng)控系統(tǒng),以應(yīng)對(duì)各種威脅,不斷提升用戶(hù)體驗(yàn)。
具體應(yīng)用場(chǎng)景包括授信申請(qǐng)、登錄校驗(yàn)、下單校驗(yàn)、催收、客服回訪等多個(gè)業(yè)務(wù)環(huán)節(jié),其中會(huì)涉及到不同模態(tài)的數(shù)據(jù):
- 圖像:最典型的應(yīng)用場(chǎng)景是 KYC 人臉核身。一般金融機(jī)構(gòu)都會(huì)有 KYC 的審核來(lái)確定,第一你是真人,第二你是你自己。
- 文本:典型應(yīng)用場(chǎng)景是智能客服,包括文本客服、語(yǔ)音客服。
- 語(yǔ)音:典型場(chǎng)景包括智能客服,以及質(zhì)檢和電話(huà)催收。
- 設(shè)備:設(shè)備數(shù)據(jù)是風(fēng)控的一個(gè)重要參考維度,包括設(shè)備環(huán)境的校驗(yàn),唯一 ID 的構(gòu)建等等。
二、大模型落地整體思路

在大模型興起以前,我們就在持續(xù)為業(yè)務(wù)部門(mén)提供各種 AI 模型,涵蓋之前介紹的各種模態(tài)數(shù)據(jù)。在大模型興起之后,我們希望進(jìn)一步提高智能風(fēng)控系統(tǒng)在各個(gè)業(yè)務(wù)環(huán)節(jié)以及各種數(shù)據(jù)形態(tài)上的效能??偟脑妇熬褪且獦?gòu)建一個(gè)智能體系統(tǒng)。大模型使我們離 AGI 通用人工智能又更進(jìn)了一步,而我們也試圖去構(gòu)建一個(gè)金融領(lǐng)域的 AGI。一個(gè)智能體系統(tǒng)主要包含以下三個(gè)重要模塊[1]:
(1)規(guī)劃模塊(Planning)
包括各種業(yè)務(wù)決策的知識(shí),通常固定在智能體的鏈的定義中,也就是LangChain里面的一個(gè)chain,系統(tǒng)整體上是各種智能體的結(jié)合。
(2)存儲(chǔ)模塊(Memory)
業(yè)務(wù)系統(tǒng)中的各種數(shù)據(jù)和元數(shù)據(jù),可能存儲(chǔ)在一種或者多種外部數(shù)據(jù)庫(kù)中。
(3)工具模塊(Tools)
各種專(zhuān)有領(lǐng)域的業(yè)務(wù)模型和業(yè)務(wù)邏輯,包括各種圖像模型、NLP 模型、風(fēng)控的判別模型,以及風(fēng)控系統(tǒng)的一些具體的業(yè)務(wù)邏輯等等。

智能體系統(tǒng)與我們的現(xiàn)有系統(tǒng),包括風(fēng)控系統(tǒng)、模型系統(tǒng)并不是割裂開(kāi)的一個(gè)新生成的體系,而是從原有體系演進(jìn)而來(lái)的。具體落地分為兩大類(lèi):
(1)針對(duì) Tools 的強(qiáng)化
第一類(lèi)是針對(duì) tools 的強(qiáng)化。比如針對(duì) KYC 模塊里面的某個(gè)具體的圖像模型,優(yōu)化其效能。可以利用大模型理解指令的能力,和它承載的對(duì)應(yīng)語(yǔ)言的通識(shí)和泛化能力,來(lái)做數(shù)據(jù)增強(qiáng)和引導(dǎo),來(lái)增強(qiáng)特定環(huán)節(jié)的專(zhuān)有模型。這就是針對(duì) tools 的強(qiáng)化。
(2)針對(duì) Planning 和 Memory 的強(qiáng)化
第二個(gè)角度是針對(duì) planning 和 memory 的強(qiáng)化。第二個(gè)方向的對(duì)象是人,我們希望從業(yè)務(wù)同學(xué)現(xiàn)有的繁瑣的重復(fù)性工作中涉及的業(yè)務(wù)知識(shí)和決策抽取出來(lái),固定在一個(gè)智能體的鏈中,構(gòu)建相應(yīng)的智能體角色。在智能體以及大模型的概念提出之后,我們?cè)谧鲂枨蟮臅r(shí)候,雖然具體落地仍是逐一實(shí)現(xiàn),但是在落地之前,我們會(huì)思考這些需求之間的相互關(guān)系,并不是以單個(gè)場(chǎng)景或者是單個(gè)模型的角度去思考,而是以一個(gè)角色的角度去思考。比如現(xiàn)在要做的是數(shù)據(jù)分析師角色的優(yōu)化,或者是欺詐調(diào)查員角色的優(yōu)化。
三、大模型優(yōu)化案例
下面將通過(guò)一些具體案例來(lái)說(shuō)明我們是如何實(shí)現(xiàn)大模型落地的。
1. 針對(duì) Tools 的強(qiáng)化
(1)NLP 模型優(yōu)化

首先,針對(duì) tools 的強(qiáng)化,第一個(gè)案例是來(lái)自一個(gè)數(shù)字金融系統(tǒng)中的場(chǎng)景,根據(jù)客服對(duì)話(huà)歷史判別用戶(hù)是否需要特殊干預(yù)。按照以前的做法,面對(duì)這個(gè)問(wèn)題,模型團(tuán)隊(duì)首先需要積累數(shù)據(jù)或者標(biāo)注數(shù)據(jù),所以整個(gè)交付流程和迭代流程會(huì)非常冗長(zhǎng)和低效。
引入大模型之后,不再需要十萬(wàn)級(jí)的樣本,只需要少量人工標(biāo)注的數(shù)據(jù),大概幾百到 1000 左右就可以了。首先通過(guò)一個(gè)大模型 Agent 基于標(biāo)注的數(shù)據(jù)生成候選提示詞,就是我希望這個(gè)樣本數(shù)據(jù)應(yīng)該是怎么樣的。然后第二個(gè) Agent 會(huì)對(duì)前面提到的這個(gè) Agent 進(jìn)行排序打分,選出一個(gè)比較好的 prompt 交給大模型去生成數(shù)據(jù)。大模型的特點(diǎn)就是它能泛化,但是比較慢,而慢在這里不是太大的問(wèn)題,因?yàn)樗枰挠?xùn)練數(shù)據(jù)量只有十萬(wàn)條級(jí)別,也不是特別多,基于這樣的樣例數(shù)據(jù)就可以做一個(gè)線上的推理模型。
可能有的同學(xué)問(wèn)為什么不直接把這個(gè)大模型上線?主要的原因是現(xiàn)在這個(gè)系統(tǒng)每天的吞吐量要求很高,如果要讓大模型實(shí)現(xiàn)非??焖俚捻憫?yīng),就難以避免延時(shí)。因此比較好的一個(gè)辦法就是直接讓它去生成數(shù)據(jù),蒸餾數(shù)據(jù),然后生成小模型來(lái)迭代業(yè)務(wù)系統(tǒng)相應(yīng)的模塊。
最終這個(gè)需求的人工標(biāo)注量大幅減少,減少了 90%,模型交付時(shí)間顯著縮短,而模型效果比原來(lái)提高 20%。最令業(yè)務(wù)方最滿(mǎn)意的是標(biāo)注量和交付時(shí)間的減少,這意味著整個(gè)系統(tǒng)更加敏捷,應(yīng)對(duì)變化的效率更高。
(2)圖像反欺詐模型優(yōu)化

第二個(gè)案例更為典型,即圖像反欺詐模型優(yōu)化,針對(duì)的場(chǎng)景是 KYC 人臉核身。大家都用過(guò)刷臉,背后其實(shí)不是一個(gè)單一的模型,而是由很多個(gè)模型聯(lián)合實(shí)現(xiàn)的。其中會(huì)判別是否存在欺詐行為,比如拍屏或者用高清面具偽裝成某一個(gè)特定的人。
這看起來(lái)是一個(gè)簡(jiǎn)單的圖像分類(lèi),而其中有兩個(gè)問(wèn)題。第一個(gè)問(wèn)題是領(lǐng)域適配。用戶(hù)的人臉屬于敏感數(shù)據(jù),我們實(shí)際不能接觸到用戶(hù)的人臉數(shù)據(jù),只能通過(guò)公開(kāi)數(shù)據(jù)去訓(xùn)練適配,比如上圖中右上角展示的圖片是來(lái)自公開(kāi)數(shù)據(jù)的一張圖。但是用大量的公開(kāi)數(shù)據(jù)去訓(xùn)練的模型,可能跟實(shí)際的業(yè)務(wù)場(chǎng)景相去甚遠(yuǎn),比如光照條件、人臉的膚色,可能跟實(shí)際的用戶(hù)差比較遠(yuǎn)。因此模型的泛化會(huì)是很大的問(wèn)題
第二個(gè)問(wèn)題是欺詐者會(huì)不斷變換攻擊手段,所以模型必須要敏捷且泛化。而以往的訓(xùn)練流程缺乏標(biāo)注人手,難以提高模型性能。
有了大模型之后,我們通過(guò)人工少量的標(biāo)注的圖片和提示詞。比如讓大模型描述圖片中的臉,模型就會(huì)返回這張臉在一個(gè)手機(jī)中而手機(jī)是由人拿著,這與業(yè)務(wù)人員的理解是非常接近的。即使我們使用公開(kāi)的數(shù)據(jù)進(jìn)行訓(xùn)練,多模態(tài)的大模型通過(guò)圖像模態(tài)和文本模態(tài)的對(duì)齊,也能抽取出實(shí)際泛化的語(yǔ)義特征,確保模型在真實(shí)場(chǎng)景的泛化性能。
具體實(shí)現(xiàn)方法是通過(guò) CLIP 去抽取大模型生成的描述的文本特征,然后用視覺(jué)的 Transformer 可以抽取圖像本身的特征,然后可以專(zhuān)門(mén)去做對(duì)齊。這里是三個(gè)代價(jià)函數(shù)的加總,中間是 CLIP 的對(duì)比學(xué)習(xí)的代價(jià)函數(shù),實(shí)際上就是文本特征跟圖像特征做對(duì)比學(xué)習(xí);頭尾就是視覺(jué) Transformer 的損失函數(shù),一個(gè)是 Reconstruction Loss,另一個(gè)是分類(lèi)的 Loss,三者加權(quán)。當(dāng)你直接去看 attention 的 mask 的時(shí)候,就會(huì)發(fā)現(xiàn)經(jīng)過(guò)這樣的對(duì)齊,它相應(yīng)的圖的注意力的 mask 會(huì)聚焦到人對(duì)這個(gè)圖的理解上。即使膚色改變或光照條件改變,模型也還是會(huì)有一定的泛化能力。
后面是一個(gè)判別模型,這個(gè)判別模型還是要以 mini GPT 4 的描述作為其中一個(gè)輸入,所以會(huì)有點(diǎn)慢,但是已經(jīng)能夠滿(mǎn)足需求,我們就用它來(lái)理解和標(biāo)記訓(xùn)練數(shù)據(jù),然后就可以得到線上的一個(gè)更快的推理模型。
這一方案除了效果和泛化能力出色之外,更特別的一點(diǎn)就是它與人本身的思維通過(guò)自然語(yǔ)言這一載體自然對(duì)接起來(lái)了,即使我們的訓(xùn)練數(shù)據(jù)和真實(shí)場(chǎng)景看起來(lái)比較遠(yuǎn),也能高效抽取出真正泛化的特征,這使得整個(gè)模型的交付效率大幅提升[2][3]。
(3)總結(jié)

原始流程中,業(yè)務(wù)提一個(gè)需求,要做 AI 模型,就需要大量的標(biāo)注工作量,而且往往我們對(duì)于這個(gè)領(lǐng)域的理解沒(méi)有辦法注入到數(shù)據(jù)中。但現(xiàn)在基于大模型,圖像的特征與語(yǔ)言描述得以對(duì)齊,然后通過(guò)語(yǔ)言這個(gè)載體,就可以與業(yè)務(wù)方的期望進(jìn)行對(duì)齊。
這里利用了大模型承載的通識(shí),用來(lái)生成訓(xùn)練數(shù)據(jù);還利用了大模型的指令理解能力,領(lǐng)域?qū)<抑苯訉⑺麑?duì)這個(gè) case 的理解,通過(guò)自然語(yǔ)言來(lái)引導(dǎo)大模型來(lái)注入領(lǐng)域理解。
2. 針對(duì) Planning 和 Memory 的強(qiáng)化
(1)欺詐調(diào)查助手

第二類(lèi)是針對(duì) Planning 和 Memory 的強(qiáng)化,實(shí)際上就是給我們的業(yè)務(wù)人員減負(fù)、提效。第一個(gè)場(chǎng)景是反欺詐調(diào)查的 copilot,通過(guò)與欺詐調(diào)查員的對(duì)話(huà)來(lái)解決相關(guān)問(wèn)題。利用 GraphRAG 技術(shù),首先進(jìn)行意圖識(shí)別,這里的意圖基本上都是固定好的,可枚舉的,第一個(gè)就是基于業(yè)務(wù)知識(shí)的一般問(wèn)答,第二個(gè)是基于調(diào)查庫(kù)表的簡(jiǎn)單查詢(xún),第三個(gè)是基于關(guān)聯(lián)團(tuán)伙的查詢(xún)。意圖識(shí)別完成之后,針對(duì)意圖來(lái)做參數(shù)解析,然后進(jìn)行查詢(xún)。
這里的業(yè)務(wù)知識(shí)一般都是以自由文檔的方式存儲(chǔ)在 RAG 的向量庫(kù)里面,業(yè)務(wù)庫(kù)表在數(shù)倉(cāng)中。目前公司沒(méi)有一個(gè)特別完備的數(shù)據(jù)血緣,所以很多數(shù)據(jù)血緣的信息實(shí)際上是放在領(lǐng)域文檔里面的。所以第一步可能會(huì)做一個(gè)簡(jiǎn)單的圖關(guān)系的抽取,一般都是一個(gè)預(yù)置好的 prompt,比如一些表的信息和關(guān)聯(lián)的信息,如果有的話(huà)就把它抽出來(lái)做一個(gè)簡(jiǎn)單的支撐。
以上就是欺詐調(diào)查助手場(chǎng)景的實(shí)現(xiàn)。
(2)數(shù)據(jù)分析助手

第二個(gè)場(chǎng)景也是一個(gè)非常通用的場(chǎng)景,即 ChatBI,是基于 Text2SQL 實(shí)現(xiàn)的。當(dāng)有數(shù)據(jù)分析需求時(shí),可以直接提問(wèn)。首先根據(jù)用戶(hù)提問(wèn)去做拆解,確定需要調(diào)用哪些工具。我們目前有兩個(gè)工具,一個(gè)是 Text2SQL,另一個(gè)就是基于 Pandas 的一個(gè)簡(jiǎn)單的可視化分析工具。選定工具之后,就依賴(lài)工具執(zhí)行對(duì)應(yīng)的動(dòng)作,會(huì)去調(diào)用向量數(shù)據(jù)庫(kù)召回文檔和領(lǐng)域相關(guān)的一些描述文本片。根據(jù)每一個(gè) Agent 的返回結(jié)果來(lái)決定這個(gè)問(wèn)題是否已經(jīng)解決。

在這個(gè) Text2SQL 的 Agent 里面,還會(huì)有一個(gè)與上面類(lèi)似的小循環(huán)。我們的數(shù)據(jù)分析是基于 Presto。用戶(hù)會(huì)把他自有的文檔放到向量數(shù)據(jù)庫(kù)里面,Redis 里面存對(duì)話(huà)歷史。首先基于用戶(hù)提的問(wèn)題,獲取表的元數(shù)據(jù)信息和它自有的文檔里面獲取相應(yīng)的文本片和思維鏈的一些線索,拼成一個(gè)總的 prompt,輸入到大模型的 Agent 里面,然后生成 SQL、檢驗(yàn) SQL、執(zhí)行 SQL、修改 SQL,這樣循環(huán)幾次之后把最終的結(jié)果返回。
在落地過(guò)程中我們發(fā)現(xiàn)一個(gè)難點(diǎn),這一做法對(duì)新寫(xiě) SQL 效果還行,但是對(duì)于已有的一些比較復(fù)雜的 SQL,我們需要把文檔整理好,然后做相應(yīng)的召回,這個(gè) Agent 才能有比較好的效果。
(3)總結(jié)

針對(duì) Planning 和 Memory 的強(qiáng)化與前面針對(duì) Tools 的強(qiáng)化不同,它不是對(duì)一個(gè)具體模型的優(yōu)化,而是去做一個(gè)角色,比如代碼開(kāi)發(fā)、數(shù)據(jù)分析、個(gè)案排查或是客服。針對(duì) Planning 和 Memory 的強(qiáng)化以 Copilot 的形式來(lái)提供,先構(gòu)造一個(gè)助手,利用大模型文本生成和理解的能力,工具調(diào)用的能力,以及已有的文檔,盡可能好地構(gòu)造一些結(jié)構(gòu)化的知識(shí),使大模型的結(jié)果盡可能靠近用戶(hù)預(yù)期。這樣以 Copilot 的形式來(lái)協(xié)助相應(yīng)角色完成開(kāi)發(fā)、分析或調(diào)查等工作。最終基于這些 SQL 或是調(diào)查中抽象出固定的流程。
四、總結(jié)與展望

我們的智能體落地步驟可以總結(jié)為:
- 第一步,針對(duì)具體模型的進(jìn)行提效,通過(guò)大模型的通識(shí)和泛化能力,對(duì)小模型的構(gòu)建實(shí)現(xiàn)提效。
- 第二步,逐步將業(yè)務(wù)知識(shí)提煉、固化。原來(lái)可能是主管對(duì)員工,然后員工去找 Copilot,后面在員工和 Copilot 協(xié)作的過(guò)程中,不斷抽象業(yè)務(wù)和模式,并固定在鏈路定義中。最終實(shí)現(xiàn)主管和主要員工通過(guò)操作一個(gè)具有決策能力的類(lèi) AGI 系統(tǒng),來(lái)完成日常的模型構(gòu)造、案件調(diào)查、個(gè)案分析、團(tuán)伙排查等各種任務(wù)。

落地過(guò)程中的一個(gè)重要問(wèn)題是,人應(yīng)該扮演怎樣的角色,智能體系統(tǒng)是否會(huì)完全取代人工?從我們的經(jīng)驗(yàn)以及對(duì)未來(lái)的判斷來(lái)說(shuō),大模型 Agent 并不可以完全替代人,而只是擴(kuò)大人的能力范圍,由大模型來(lái)一定程度上替代繁瑣的重復(fù)工作,而使人更加聚焦于業(yè)務(wù)情況的核心問(wèn)題。
我們有一個(gè)核心的風(fēng)控和智能系統(tǒng),包括各種風(fēng)控、營(yíng)銷(xiāo)、電商和金融系統(tǒng),都是固定的模型和固定的業(yè)務(wù)邏輯。中間是各部門(mén)對(duì)應(yīng)的欺詐調(diào)查、模型構(gòu)造、策略分析等業(yè)務(wù),我們期望通過(guò)逐步引入智能體,將這些工作中標(biāo)準(zhǔn)化的部分固化下來(lái),最終由 Agent 去實(shí)現(xiàn)。人就可以聚集于整個(gè)業(yè)務(wù)的全局,以及一些重要的個(gè)案。
業(yè)務(wù)人員在發(fā)現(xiàn)了一些業(yè)務(wù)中新的現(xiàn)象之后,會(huì)去嘗試總結(jié)成提示詞,然后去引導(dǎo)中間的 Agent 去挖掘數(shù)據(jù)、生成數(shù)據(jù),以及做一些對(duì)應(yīng)的分析匯總。通過(guò)這個(gè)分析匯總生成新的訓(xùn)練數(shù)據(jù)和蒸餾更加有效的模型,然后部署到我們線上的實(shí)時(shí)系統(tǒng)中去。過(guò)程中會(huì)對(duì)運(yùn)行結(jié)果進(jìn)行實(shí)時(shí)的統(tǒng)計(jì)和監(jiān)控,然后把結(jié)果和一些異常的個(gè)案匯總到人工層。這就是我們希望實(shí)現(xiàn)的智能體系統(tǒng)的結(jié)構(gòu)。
以上就是本次分享的內(nèi)容,謝謝大家。
五、引用
[1] Lilian Weng (2023, June 23). LLM Powered Autonomous Agents https://lilianweng.github.io/posts/2023-06-23-agent/。
[2]Zhang Y, Yin Z F, Li Y, et al. Celeba-spoof: Large-scale face anti-spoofing dataset with rich annotations[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XII 16. Springer International Publishing, 2020: 70-85.
[3]Fang, H., Liu, A., Jiang, N., Lu, Q., Zhao, G., & Wan, J. (2024, April). VL-FAS: Domain Generalization via Vision-Language Model For Face Anti-Spoofing. In ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 4770-4774). IEEE.
































