一文讀懂征信“大數(shù)據(jù)”

大數(shù)據(jù)征信技術的形成
隨著我國社會信用體系建設的步伐不斷加快以及計算機和網(wǎng)絡技術的不斷提高,征信業(yè)的發(fā)展也需要適應大數(shù)據(jù)時代發(fā)展所帶來的技術變革。征信機構在積累征信數(shù)據(jù)的同時,也需要提升自身的數(shù)據(jù)存儲能力,豐富所積累數(shù)據(jù)的維度,提升數(shù)據(jù)分析挖掘、處理速度等各方面能力,從而促進征信業(yè)向一個嶄新的數(shù)字化時代邁進——大數(shù)據(jù)征信時代。
因此,數(shù)據(jù)積累是征信機構一項重要的商業(yè)資本,大數(shù)據(jù)征信是征信機構的技術發(fā)展方向。征信機構需要不斷地開拓數(shù)據(jù)渠道、發(fā)展數(shù)據(jù)挖掘技術、創(chuàng)新產(chǎn)品和服務,并不斷將大數(shù)據(jù)征信應用到經(jīng)濟、金融、電子商務等各個領域。
征信大數(shù)據(jù)鏈數(shù)據(jù)流動過程分析
(一)征信大數(shù)據(jù)鏈框架圖
征信大數(shù)據(jù)鏈的相關方包括上游的數(shù)據(jù)生產(chǎn)者、中游的征信機構及下游的征信信息使用者。征信大數(shù)據(jù)框架如圖1所示。

(二)征信大數(shù)據(jù)的上游生產(chǎn)者
大數(shù)據(jù)征信并沒有顛覆傳統(tǒng)征信的基本職能,從數(shù)據(jù)的來源渠道看,大數(shù)據(jù)征信比傳統(tǒng)征信數(shù)據(jù)來源更加廣泛,除了來自金融機構和政府部門,還有基于互聯(lián)網(wǎng)的交易和社交信息等。目前與征信相關的大數(shù)據(jù)來源可以分為四大類。
1.信用交易數(shù)據(jù)生產(chǎn)者
信用交易數(shù)據(jù)是從事金融活動時所產(chǎn)生的數(shù)據(jù),此類數(shù)據(jù)主要來源于金融服務機構。我國金融服務機構大體可以分為三類:金融機構、類金融機構和互聯(lián)網(wǎng)金融機構,這三類機構構成了我國的金融服務體系。我國金融體系架構圖如圖2所示。

金融機構:是指從事與金融服務業(yè)有關的金融中介機構,為金融體系架構中的一部分體系框架。本文將納入“一行三會”日常監(jiān)管下的傳統(tǒng)金融機構歸類為金融機構,涵蓋了商業(yè)銀行、證券公司、保險公司、基金公司、信托公司、資產(chǎn)(管理)公司、金融租賃公司、信用合作社、政策性銀行等金融機構(企業(yè))。這些金融機構在應用征信大數(shù)據(jù)方面具有天然優(yōu)勢:數(shù)據(jù)量充足。金融服務機構在業(yè)務開展的過程中積累了包括客戶身份、資產(chǎn)負債情況、資金收付交易等大量高價值的數(shù)據(jù)。在運用專業(yè)技術挖掘和分析之后,這些數(shù)據(jù)蘊藏著巨大的商業(yè)價值。
類金融機構:目前對類金融企業(yè)沒有嚴格定義,根據(jù)21世紀經(jīng)濟報道采訪到專業(yè)人士認為:類金融機構廣義理解是除了銀行、保險、券商等傳統(tǒng)金融企業(yè)以外的投融資機構或平臺,包括派生的、延伸的、創(chuàng)新的投融資平臺。本文將“一行三會”監(jiān)管范圍以外的投融資機構稱為類金融機構,主要包括了小額貸款公司、融資性擔保機構、融資租賃公司、商業(yè)保理公司、典當公司等。這些投融資機構擁有客戶交易的歷史信息,這些數(shù)據(jù)對企業(yè)和個人客戶的信用分析、風險識別等方面具有寶貴的價值,可以達到甄別客戶和防范風險的作用。
互聯(lián)網(wǎng)金融機構:是指將傳統(tǒng)金融服務與互聯(lián)網(wǎng)技術結合,利用互聯(lián)網(wǎng)和信息通信技術實現(xiàn)資金融通、支付、投資和信息中介服務的新型金融業(yè)務模式?;ヂ?lián)網(wǎng)金融并不是互聯(lián)網(wǎng)和金融業(yè)的簡單結合,而是基于安全、移動等網(wǎng)絡技術,并被用戶熟悉并接受的新模式及新業(yè)務?;ヂ?lián)網(wǎng)金融的主要發(fā)展模式如下:
(1)眾籌:個人或團隊將需要資金的項目策劃交給眾籌平臺,經(jīng)過相關審核后,便可以在平臺的網(wǎng)站上建立屬于自己的頁面,用來向公眾介紹項目情況,從而獲得資金。
(2)P2P平臺:即點對點信貸。P2P網(wǎng)貸是指通過第三方互聯(lián)網(wǎng)平臺進行資金借、貸雙方的匹配,需要借貸的人群可以通過網(wǎng)站平臺尋找到有出借能力并且愿意基于一定條件出借的人群,幫助貸款人通過和其他貸款人一起分擔一筆借款額度來分散風險,也幫助借款人在充分比較的信息中選擇有吸引力的利率條件。
(3)第三方支付:具備一定實力和信譽保障的非銀行機構,借助通信、計算機和信息安全技術,采用與各大銀行簽約的方式,在用戶與銀行支付結算系統(tǒng)間建立連接的電子支付模式。
(4)數(shù)字貨幣:數(shù)字貨幣是對貨幣進行數(shù)字化,是電子貨幣形式的替代貨幣。以比特幣等數(shù)字貨幣為代表的互聯(lián)網(wǎng)貨幣爆發(fā),從某種意義上來說,比其他任何互聯(lián)網(wǎng)金融形式都更具顛覆性。
(5)大數(shù)據(jù)金融:是指集合海量非結構化數(shù)據(jù),通過對其進行實時分析,可以為金融機構提供客戶全方位信息,通過分析和挖掘客戶的交易和消費信息掌握客戶的消費習慣,并準確預測客戶行為,使金融機構和金融服務平臺在營銷和風險控制方面有的放矢。
(6)信息化金融機構:是指通過采用信息技術,對傳統(tǒng)運營流程進行改造或重構,實現(xiàn)經(jīng)營、管理全面電子化的銀行、證券和保險等金融機構。金融信息化是金融業(yè)發(fā)展趨勢之一,而信息化金融機構則是金融創(chuàng)新的產(chǎn)物。
(7)金融門戶:是指利用互聯(lián)網(wǎng)進行金融產(chǎn)品的銷售以及為金融產(chǎn)品銷售提供第三方服務的平臺。它的核心就是“搜索比價”的模式,采用金融產(chǎn)品垂直比價的方式,將各家金融機構的產(chǎn)品放在平臺上,用戶通過對比挑選合適的金融產(chǎn)品。
2.商品和服務交易數(shù)據(jù)以及行為數(shù)據(jù)生產(chǎn)者
一些電商、金融、娛樂、旅游等企業(yè),以及水、電、氣、話、教育、醫(yī)療等公用服務機構,利用自有的工作機制和網(wǎng)絡平臺,收集本機構留存的客戶買賣商品和享受服務中的身份信息、業(yè)務信息和社交行為信息,并對這些數(shù)據(jù)進行有序加工整理,形成數(shù)據(jù)庫。由于不同企業(yè)和服務機構處于競爭狀態(tài),彼此力爭形成自己所謂的“閉環(huán)”,提供他人分享的內(nèi)在動力不足,所以這類信息也主要是企業(yè)和服務機構自身的客戶信息。
3.政府公開信息和公共服務信息的數(shù)據(jù)生產(chǎn)者
政府公開信息里特別常用的就是企業(yè)工商注冊的信息,主要是行政司法機關掌握的企業(yè)和個人在接受行政管理、履行法定義務過程中形成的信息。公共服務信息最常見的有工會服務信息、社區(qū)服務信息,以及信用中國及地方的信用信息平臺的公開信息等。
4.通過技術手段爬取或非常渠道獲得的其他各種領域的數(shù)據(jù)
對于很多企業(yè)來說自身數(shù)據(jù)積累相對有限,因此通過技術手段從互聯(lián)網(wǎng)渠道爬取或者是以非常規(guī)渠道從黑市交易獲得機密數(shù)據(jù),也成為了一種數(shù)據(jù)獲取之道。此類數(shù)據(jù)的種類多樣,可能有涉及各種行業(yè)的行業(yè)數(shù)據(jù)或者涉及企業(yè)和個人的信息。
通過以上對征信數(shù)據(jù)上游生產(chǎn)者的介紹,可以發(fā)現(xiàn)不僅征信數(shù)據(jù)的形成渠道多樣,并且數(shù)據(jù)種類和數(shù)據(jù)結構也非常復雜。從征信數(shù)據(jù)的渠道來源來說,有來自政府的公開信息,也有從市場采集的信息;從征信數(shù)據(jù)的數(shù)據(jù)種類來說,有金融交易數(shù)據(jù)、市場交易數(shù)據(jù),也有不少社交行為數(shù)據(jù);從征信數(shù)據(jù)的數(shù)據(jù)結構來說,有結構化的數(shù)據(jù),如數(shù)據(jù)庫里的行數(shù)據(jù),也有非結構化的數(shù)據(jù),如視頻、圖像、文本等。
(三)中游征信機構的數(shù)據(jù)加工
1.征信大數(shù)據(jù)的數(shù)據(jù)加工過程
總體來說,征信行業(yè)大數(shù)據(jù)應用實施的演變過程可以分為四個階段:第一個階段是征信數(shù)據(jù)的積累,即對通過各種采集渠道獲得的各類型的征信數(shù)據(jù),進行收集和存儲;第二個階段是信息檢索過濾,是將積累的數(shù)據(jù)進行分類檢索和過濾篩選之后,變成有價值的信息的過程;第三個階段是信息深度挖掘,從信息中發(fā)現(xiàn)知識;最后一個階段是大數(shù)據(jù)的至高境界——智慧決策,即對未來的事件進行風險預測,從而采取相應的決策來防范風險。由此可見,征信大數(shù)據(jù)應用實施的演變過程就是把沒有關聯(lián)關系的大量數(shù)據(jù)通過一些分析和處理的技術手段轉變成有用的信息最終形成決策,從而有效防范風險。
2.征信大數(shù)據(jù)的挖掘分析技術
由以上對大量數(shù)據(jù)的來源分析可知,由于與征信相關信息的數(shù)據(jù)采集渠道復雜、數(shù)據(jù)來源不可追溯、數(shù)據(jù)結構多樣,于是針對不同的數(shù)據(jù)群體的不同特點,也要選取不同的處理和解決辦法。征信大數(shù)據(jù)分析技術包括離線數(shù)據(jù)處理、實時數(shù)據(jù)處理和數(shù)據(jù)分析技術等。
(1)離線數(shù)據(jù)處理引擎——hadoop
Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構。Hadoop的并行計算框架MapReduce,可以對離線數(shù)據(jù)提供簡單的并行計算處理。Hadoop適合處理幾百T這個級別的數(shù)據(jù)量,并且適用于一次寫入,多次讀取的場景,也就是數(shù)據(jù)復制進去之后,長時間在這些數(shù)據(jù)上進行分析,從而實現(xiàn)了對離線數(shù)據(jù)進行長時間處理的功能。目前Hadoop主要可以用于用戶行為分析、廣告效果分析、產(chǎn)品設計分析、商業(yè)智能分析、報表統(tǒng)計等。
(2)實時數(shù)據(jù)處理引擎——Spark
Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎,雖然它有與 Hadoop 相似的開源集群計算環(huán)境,但是它在某些工作負載方面表現(xiàn)得更加優(yōu)越,不僅優(yōu)化了迭代工作負載,而且內(nèi)存計算速度 比 Hadoop 快100倍。構建在Spark上處理實時數(shù)據(jù)的Stream的框架,基本的原理是將實時數(shù)據(jù)分成小的時間片斷(幾秒),以批量處理的方式來處理這小部分數(shù)據(jù),從而實現(xiàn)了實時計算與處理數(shù)據(jù)流的功能。
(3)數(shù)據(jù)分析技術——SPSS
SPSS(Statistical Product and Service Solutions),“統(tǒng)計產(chǎn)品與服務解決方案”軟件,是IBM公司推出的一系列用于統(tǒng)計學分析運算、數(shù)據(jù)挖掘、預測分析和決策支持任務的軟件產(chǎn)品及相關服務的總稱。傳統(tǒng)的征信理念試圖通過已知的因果邏輯關系分析歷史數(shù)據(jù),征信大數(shù)據(jù)應用SPSS軟件強大的數(shù)據(jù)分析技術,除了可以揭示信息主體的歷史數(shù)據(jù)和行為之間的因果邏輯關系外,還努力發(fā)現(xiàn)事物之間的相關性、關聯(lián)性,并對其加以廣泛利用。
當然,用于數(shù)據(jù)挖掘與分析的軟件還有很多,這里不在一一介紹,對于不同軟件的選取與使用原則:一是要遵照數(shù)據(jù)挖掘與分析項目需求與實現(xiàn)功能,二是要結合數(shù)據(jù)分析師的分析理念和日常習慣。
(四)下游信息使用者對數(shù)據(jù)征信產(chǎn)品的使用
在金融領域常用的數(shù)據(jù)征信產(chǎn)品有:銀行評級及其他評級報告、專項評價報告、信用咨詢類服務、企業(yè)征信、金融機構服務等。該領域的產(chǎn)品主要為從事金融活動的相關方提供,例如擔保機構、小貸公司、保理公司、融資租賃公司等。旨在幫助金融活動的相關方收集被調查對象的真實、有效數(shù)據(jù)信息,經(jīng)過征信機構判斷、評價、分析后,甄別與防范在從事金融活動的過程中各種可能發(fā)生的風險。
在政府領域常用的數(shù)據(jù)征信產(chǎn)品有:評級或評價報告、籌建咨詢報告、征信調查服務、信用體系建設咨詢等。該領域的產(chǎn)品主要服務于政府部門、行業(yè)協(xié)會等,不同產(chǎn)品對應于政府相關部門的不同需求。例如社會信用體系建設咨詢產(chǎn)品,是征信機構結合信息化的技術手段為地方或行業(yè)社會信用體系主管部門提供規(guī)劃編制、平臺建設、體系設計等服務。
在商業(yè)或商務領域常用的數(shù)據(jù)征信產(chǎn)品有:評級或評價報告、投融資咨詢報告、征信評價報告、供應鏈管理服務、系統(tǒng)開發(fā)等。該類產(chǎn)品是針對商業(yè)發(fā)展或商務合作開展的大數(shù)據(jù)征信服務。
在公共領域常用的數(shù)據(jù)征信產(chǎn)品有:PPP咨詢、社會信用產(chǎn)品應用咨詢、社會責任報告、大數(shù)據(jù)排名等。該類產(chǎn)品應用于針對社會公眾所提供的大數(shù)據(jù)征信服務。
在個人領域常用的數(shù)據(jù)征信產(chǎn)品有:個人征信、個人貸款風險預測等。該類產(chǎn)品應用于針對個人所提供的大數(shù)據(jù)征信服務。
大數(shù)據(jù)征信未來的發(fā)展與應用方向
(一)互聯(lián)網(wǎng)行業(yè)發(fā)展催生征信需求發(fā)展旺盛
以互聯(lián)網(wǎng)金融為代表的新型互聯(lián)網(wǎng)服務行業(yè)的快速發(fā)展將帶來大量新的征信需求,包括P2P網(wǎng)絡借貸、電商金融等互聯(lián)網(wǎng)金融行業(yè),以及以淘寶為代表的電子商務行業(yè)和以滴滴打車為代表的O2O服務行業(yè)等新型行業(yè)。對于P2P網(wǎng)絡借貸等互聯(lián)網(wǎng)金融行業(yè)來說,需要借助信用信息共享來防范信用風險、降低交易成本,這就需要大數(shù)據(jù)征信的實時分析技術,來隨時甄別和防范可能發(fā)生的風險。對于電子商務行業(yè)來說,電商消費者的精細化營銷、個性化服務和批量化處理將成為主要的運營模式,這對于大數(shù)據(jù)征信技術來說,要求更加準確地把握消費者的消費習慣、風險偏好和信用狀況。
(二)深層次的信息加工推動征信產(chǎn)品創(chuàng)新升級
隨著云計算、數(shù)據(jù)挖掘等信息技術的發(fā)展和應用,為征信產(chǎn)品的創(chuàng)新和升級奠定了技術基礎。一方面,征信機構能夠憑借互聯(lián)網(wǎng)的各種渠道拓展信息來源,降低信息采集的難度和成本,并且利用電子郵件等網(wǎng)絡通訊技術的新型交流方式,快速、便捷地提供實時、全面的征信服務。另一方面,數(shù)據(jù)處理能力的提升,使得征信機構可以對其掌握的數(shù)據(jù)資源進行更充分挖掘和分析,開發(fā)出具有更高技術含量的產(chǎn)品和服務,滿足社會多層次、全方位、專業(yè)化的征信需求。
(三)信息安全和信息主體權益保護技術全面加強
隨著征信機構采集和存儲數(shù)據(jù)的不斷增多,信息安全問題也亟待加強,征信機構通過數(shù)據(jù)庫存儲數(shù)據(jù)和互聯(lián)網(wǎng)傳輸信息等技術手段提供征信服務,容易受到黑客有意入侵和病毒攻擊的威脅,一旦數(shù)據(jù)遭到竊取、泄露、篡改,將對個人隱私和客戶權益造成侵害。另外,互聯(lián)網(wǎng)環(huán)境下,個人信用信息的采集、共享和使用與信息主體權益保護間也存在一定的沖突,如何落實《征信業(yè)管理條例》的相關規(guī)定,還需要進一步斟酌和研究。