一、背景
傳統(tǒng)信貸評(píng)審流程中,審貸人員通常依據(jù)貸前盡調(diào)報(bào)告及自身經(jīng)驗(yàn)撰寫評(píng)審報(bào)告,報(bào)告涵蓋擬授信企業(yè)的行業(yè)分析、財(cái)務(wù)情況評(píng)估及市場(chǎng)前景預(yù)估等內(nèi)容,對(duì)審貸人員的行業(yè)知識(shí)儲(chǔ)備、風(fēng)險(xiǎn)評(píng)估能力和趨勢(shì)判斷能力有較高的要求,且近年來新能源汽車、芯片等新興行業(yè)的市場(chǎng)情況瞬息萬變,無疑使信貸評(píng)審工作增添了更多的挑戰(zhàn)。因此,審貸人員亟需獲取行內(nèi)資深審貸專家報(bào)告來汲取相關(guān)評(píng)審經(jīng)驗(yàn),輔助審批決策;但由于法律法規(guī)、監(jiān)管規(guī)定對(duì)跨分行文檔閱讀權(quán)限等安全性方面的制約,基層審貸人員往往難以獲取到該類評(píng)審報(bào)告。
在此背景下,工行軟開中心對(duì)歷史大量評(píng)審報(bào)告影像資料和業(yè)界數(shù)據(jù)安全技術(shù)進(jìn)行了調(diào)研研究,創(chuàng)新性地提出了文檔智能脫敏方案。在符合法律法規(guī)和監(jiān)管規(guī)定的前提下,通過敏感信息塊檢測(cè)、敏感要素檢測(cè)、敏感圖像檢測(cè)等技術(shù)手段進(jìn)行敏感信息識(shí)別和涂抹,對(duì)信貸評(píng)審報(bào)告實(shí)現(xiàn)了敏感信息99%的自動(dòng)脫敏,在保證文檔安全性的同時(shí),實(shí)現(xiàn)文檔的快速共享。
二、文檔智能脫敏方案
文檔智能脫敏方案主要是借助人工智能技術(shù)對(duì)文檔進(jìn)行深度結(jié)構(gòu)化分析,再通過自然語言處理識(shí)別文檔中的敏感信息塊和各類敏感要素,通過圖像處理識(shí)別敏感圖像,使得文檔中的文字信息和圖像內(nèi)容安全地脫敏。該方案主要涉及三個(gè)核心能力:
1.敏感信息塊檢測(cè)
文檔中有些敏感信息通常以孤立的形式存在,缺乏必要的上下文信息,例如,審貸人員的姓名及其所屬機(jī)構(gòu)等數(shù)據(jù),多以嵌入隱藏表格的方式保存,傳統(tǒng)的要素抽取技術(shù)和實(shí)體識(shí)別模型無法滿足識(shí)別該類孤立敏感數(shù)據(jù)識(shí)別的需求。為了有效識(shí)別孤立敏感數(shù)據(jù),工行軟開中心設(shè)計(jì)并建設(shè)了敏感信息塊檢測(cè)能力,通過文檔分割并將內(nèi)容向量化,與自建的敏感短語向量數(shù)據(jù)庫(kù)進(jìn)行比對(duì),高效識(shí)別敏感信息塊。
圖1 敏感信息塊效果(紅框所示)
敏感信息塊檢測(cè)的主要流程如下:首先,從歷史影像資料中收集可能的敏感短語,并利用基于StructBert訓(xùn)練的分類模型進(jìn)行處理;其次,將敏感短語向量化,作為分類模型的隱層特征(768維);再次,將向量化的敏感短語信息存儲(chǔ)到向量數(shù)據(jù)庫(kù)中。當(dāng)需要脫敏的文檔上傳后,將文檔內(nèi)容分割成多個(gè)小部分(chunk)并批量向量化,再計(jì)算chunk中的向量與向量數(shù)據(jù)庫(kù)中已存儲(chǔ)的敏感短語向量之間的余弦距離,若余弦距離超過預(yù)設(shè)閾值,則該部分內(nèi)容被判定為敏感信息。
圖2 敏感塊檢測(cè)
2.敏感要素檢測(cè)
文檔中的敏感信息種類繁多,包括但不限于企業(yè)名稱、企業(yè)法人姓名、股東名稱、股權(quán)代碼、社會(huì)統(tǒng)一代碼等十余種關(guān)鍵要素,這些敏感要素?zé)o固定格式,識(shí)別該類要素具有一定的挑戰(zhàn)。因此,工行軟開中心建設(shè)了敏感要素檢測(cè)能力,采用多種模型集成的方法,來精確識(shí)別文檔中各類敏感元素。
對(duì)于企業(yè)法人名稱、企業(yè)名稱、股東法人名稱、股東名稱等敏感要素,工行軟開中心采取在BERT模型基礎(chǔ)上進(jìn)行微調(diào)的方法來提升檢出率。具體來說,首先,對(duì)文檔語料進(jìn)行打標(biāo),實(shí)體的開頭字符用“B-”表示,實(shí)體的非開頭部分用“I-”標(biāo)記,非實(shí)體部分則用“0”表示;其次,在原有的BERT模型基礎(chǔ)上,添加條件隨機(jī)場(chǎng)(CRF)層,形成微調(diào)后的新模型,對(duì)打標(biāo)語料識(shí)別'B-I'部分,抽取出不同類型的實(shí)體元素,從而提升敏感要素的識(shí)別精度。
圖3 敏感元素檢測(cè)
對(duì)于身份證號(hào)碼、股票代碼等敏感要素,工行軟開中心設(shè)計(jì)了一系列精確的正則表達(dá)式來提高檢出率。首先利用Libreoffice框架將doc、wps、docm等各種格式的文檔,統(tǒng)一轉(zhuǎn)換為docx格式進(jìn)行處理;其次,基于docx的XML結(jié)構(gòu),將文檔進(jìn)行深度結(jié)構(gòu)化拆分,對(duì)于拆分出來的每個(gè)小部分(chunk),使用正則匹配技術(shù)查找符合特定規(guī)則的模式;最后,輸出已識(shí)別的身份證號(hào)碼、股票代碼等具有規(guī)則化結(jié)構(gòu)的實(shí)體信息。
圖4 規(guī)則數(shù)據(jù)解析
對(duì)于企業(yè)注冊(cè)地址等敏感要素,工行軟開中心對(duì)標(biāo)業(yè)界先進(jìn)經(jīng)驗(yàn)選擇LBERT+CRF模型結(jié)合知識(shí)圖譜的方法來精準(zhǔn)識(shí)別企業(yè)的省、市、區(qū)、街道等詳細(xì)地址信息。在傳統(tǒng)的BERT模型基礎(chǔ)上引入Lexicon Adapter模塊(即LBERT模型),該模塊能夠關(guān)聯(lián)字符和詞匯特征,這樣,LBERT模型在預(yù)測(cè)實(shí)體時(shí),不僅能考慮字符級(jí)別的特征,也能考慮詞匯級(jí)別的特征,從而提高了地址信息的識(shí)別準(zhǔn)確度。此外,由于地址信息可能存在因手工輸入錯(cuò)誤、歷史地名變遷等導(dǎo)致的錯(cuò)誤或缺失,利用地址知識(shí)圖譜對(duì)LBERT模型輸出的地址信息進(jìn)行校正和補(bǔ)充,地址知識(shí)圖譜按照省、市、區(qū)、街道的層級(jí)構(gòu)建,并納入了舊名、別名等信息。
圖5 LBERT模型結(jié)構(gòu)
圖6 地址知識(shí)圖譜結(jié)構(gòu)
3.敏感圖像檢測(cè)
敏感圖像檢測(cè)由兩個(gè)關(guān)鍵能力組成,語義理解和圖像理解。首先,利用結(jié)構(gòu)化分析技術(shù)解析文檔內(nèi)容,將圖像信息與周圍的文本內(nèi)容結(jié)合,通過語義理解模型分析這些關(guān)聯(lián)信息,以判斷圖像是否包含敏感內(nèi)容;其次,構(gòu)建圖像理解模型,直接解析圖像本身內(nèi)容,進(jìn)一步評(píng)估圖像是否涉及敏感信息;最后,將這兩個(gè)模型的識(shí)別結(jié)果進(jìn)行合并,確保不遺漏任何敏感圖像。
圖7 圖像理解能力構(gòu)建
圖8 語義理解模型構(gòu)建
圖9 敏感圖像檢測(cè)調(diào)用流程
三、總結(jié)和展望
本文詳細(xì)闡述了工行軟開中心如何運(yùn)用人工智能技術(shù)對(duì)行內(nèi)信貸評(píng)審報(bào)告進(jìn)行智能脫敏處理,通過敏感信息塊檢測(cè)、敏感要素檢測(cè)、敏感圖像檢測(cè)等技術(shù)手段進(jìn)行敏感信息識(shí)別,實(shí)現(xiàn)評(píng)審報(bào)告合規(guī)共享,從而支撐審貸人員更便捷地獲取各行業(yè)的優(yōu)質(zhì)評(píng)審經(jīng)驗(yàn),提升評(píng)審質(zhì)效。
在數(shù)字化轉(zhuǎn)型的潮流中,金融行業(yè)正迎來前所未有的變革。工行軟開中心積極擁抱科技,引入人工智能、大數(shù)據(jù)等創(chuàng)新技術(shù),充分激活并發(fā)揮行內(nèi)數(shù)據(jù)資產(chǎn)價(jià)值,不斷優(yōu)化和提升金融服務(wù)水平。接下來,工行軟開中心將繼續(xù)以積極的態(tài)度和創(chuàng)新的實(shí)踐,為金融行業(yè)的高質(zhì)量發(fā)展貢獻(xiàn)自己的力量。