淺談大數(shù)據(jù)風控平臺的功能需求
本文轉(zhuǎn)載自微信公眾號「數(shù)倉寶貝庫」,作者鄭江。轉(zhuǎn)載本文請聯(lián)系數(shù)倉寶貝庫公眾號。
大數(shù)據(jù)風控業(yè)務(wù)的開展依賴智能風控平臺,智能風控平臺的技術(shù)基礎(chǔ)是大數(shù)據(jù)技術(shù),智能風控系統(tǒng)技術(shù)架構(gòu)也是以大數(shù)據(jù)系統(tǒng)技術(shù)架構(gòu)為基礎(chǔ)演進而來的。
智能風控系統(tǒng)技術(shù)架構(gòu)主要分為訪問層、展現(xiàn)層、系統(tǒng)層、大數(shù)據(jù)平臺四部分,其中大數(shù)據(jù)平臺又分為接入層、清洗層、計算層、數(shù)據(jù)層四部分。本文主要介紹大數(shù)據(jù)風控平臺。
智能風控系統(tǒng)技術(shù)架構(gòu)圖
大數(shù)據(jù)平臺是智能風控系統(tǒng)技術(shù)架構(gòu)的持久層,但又超越了傳統(tǒng)的持久層功能,是以持久層為基礎(chǔ)進行了技術(shù)應(yīng)用的豐富。持久層又叫數(shù)據(jù)訪問層,是指把數(shù)據(jù)永久地保存在存儲設(shè)備中,它直接與數(shù)據(jù)庫交互。
大數(shù)據(jù)平臺的創(chuàng)建不僅服務(wù)于智能風控體系,還服務(wù)于業(yè)務(wù)的其他場景,例如業(yè)務(wù)的營銷場景、運營場景等。考慮到智能風控系統(tǒng)技術(shù)架構(gòu)的數(shù)據(jù)還會服務(wù)其他業(yè)務(wù)場景,因此在初期搭建規(guī)劃的時候應(yīng)該考慮數(shù)據(jù)層的通用性、易用性、非耦合性等;并且伴隨互聯(lián)網(wǎng)業(yè)務(wù)的快速增長以及大數(shù)據(jù)技術(shù)的廣泛運用,傳統(tǒng)持久層的設(shè)計也不再局限于數(shù)據(jù)庫以及數(shù)據(jù)的交互,而是以持久層為基礎(chǔ)升級革新為大數(shù)據(jù)平臺,統(tǒng)籌管理、規(guī)劃數(shù)據(jù)的應(yīng)用。
智能風控系統(tǒng)技術(shù)架構(gòu)的大數(shù)據(jù)平臺劃分為接入層、清洗層、計算層、數(shù)據(jù)層四部分,這里只著重介紹接入層、清洗層、數(shù)據(jù)層的技術(shù)應(yīng)用。
01接入層
接入層負責智能風控平臺的內(nèi)部接入,包括大數(shù)據(jù)平臺以及系統(tǒng)層的系統(tǒng)產(chǎn)品的數(shù)據(jù)接入,通常接入的數(shù)據(jù)有結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩類,常用的技術(shù)應(yīng)用有MQ、HTTP、HTTPS、FTP等,具體的技術(shù)介紹如下。
- MQ(Message Queue,消息隊列)是基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)中“先進先出”的數(shù)據(jù)結(jié)構(gòu),一般用來解決應(yīng)用解耦、異步消息、流量削峰等問題,是一種能夠?qū)崿F(xiàn)高性能、高可用、可伸縮和最終一致性的架構(gòu)。
- HTTP(Hyper Text Marked Language,超文本標記語言)是一種標識性語言,包括一系列標簽,通過這些標簽可以將網(wǎng)絡(luò)上的文檔格式統(tǒng)一,使分散的網(wǎng)絡(luò)資源連接為一個邏輯整體。
- HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer)是以安全為目標的HTTP通道,在HTTP的基礎(chǔ)上加入SSL層通過傳輸加密和身份認證保證了傳輸過程的安全性,被廣泛用于萬維網(wǎng)上安全敏感的通信,例如交易支付等方面。
- FTP(File Transfer Protocol,文件傳輸協(xié)議)是在網(wǎng)絡(luò)上進行文件傳輸?shù)囊惶讟藴蕝f(xié)議,用于將文件傳輸?shù)街鳈C或與主機交換文件。FTP可以使用用戶名和密碼進行身份驗證,匿名FTP允許用戶從互聯(lián)網(wǎng)訪問文件、程序和其他數(shù)據(jù),而無須用戶ID或密碼。
02清洗層
清洗層是數(shù)據(jù)清洗處理層,負責智能風控平臺接入數(shù)據(jù)的清洗處理。清洗處理后的數(shù)據(jù)再被推送到計算層、系統(tǒng)層和數(shù)據(jù)層。通常大數(shù)據(jù)平臺清洗層使用的技術(shù)應(yīng)用有Kafka、ETL,具體的技術(shù)介紹如下。
- Kafka是由Apache軟件基金會開發(fā)的一個開源流處理平臺,由Scala和Java編寫。Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),可以處理消費者在網(wǎng)站中的所有動作流數(shù)據(jù)。但大部分研發(fā)人員都會把kafka當作一個分布式消息隊列,利用它的高性能、持久化、多副本備份、橫向擴展等能力。生產(chǎn)者向隊列里寫消息,消費者從隊列里取消息進行業(yè)務(wù)邏輯運算。
- ETL(Extract-Transform-Load)是用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中。雖然ETL一詞常用在數(shù)據(jù)倉庫,但其對象并不限于數(shù)據(jù)倉庫。
03數(shù)據(jù)層
數(shù)據(jù)層是數(shù)據(jù)的載體層,大數(shù)據(jù)技術(shù)的基礎(chǔ)是數(shù)據(jù),因此大數(shù)據(jù)平臺的基礎(chǔ)是數(shù)據(jù)層。大數(shù)據(jù)平臺的數(shù)據(jù)層為智能風控平臺提供系統(tǒng)產(chǎn)品使用的數(shù)據(jù),而智能風控平臺系統(tǒng)產(chǎn)品產(chǎn)生的數(shù)據(jù)會回傳到大數(shù)據(jù)平臺的數(shù)據(jù)層,兩個平臺的數(shù)據(jù)相互循環(huán)迭代,數(shù)據(jù)量不斷增加。數(shù)據(jù)層實際就是數(shù)據(jù)庫,數(shù)據(jù)庫根據(jù)數(shù)據(jù)存儲方式分為關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫,同時隨著知識圖譜技術(shù)的發(fā)展和應(yīng)用,圖數(shù)據(jù)庫也被用到智能風控平臺中。
大數(shù)據(jù)平臺常用的數(shù)據(jù)庫有MySQL、MongoDB、HBase、Giraph、SSD等,具體的技術(shù)介紹如下。
- MySQL是一個關(guān)系型數(shù)據(jù)庫管理系統(tǒng),由瑞典MySQL AB公司開發(fā),屬于Oracle旗下產(chǎn)品。MySQL是最流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)之一,在Web應(yīng)用方面,MySQL是最好的關(guān)系數(shù)據(jù)庫管理系統(tǒng)應(yīng)用軟件之一。
- MongoDB是一個基于分布式文件存儲的數(shù)據(jù)庫,由C++語言編寫,旨在為Web應(yīng)用提供可擴展的高性能數(shù)據(jù)存儲解決方案。
- HBase(Hadoop Database)是一個分布式的、面向列的開源數(shù)據(jù)庫,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術(shù)可在廉價PC設(shè)備上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。
- Giraph是一個迭代的圖計算系統(tǒng),是基于Hadoop建立的上層應(yīng)用。
- SSD(Solid State Disk或Solid State Drive,固態(tài)驅(qū)動器),俗稱固態(tài)硬盤,用于數(shù)據(jù)庫等文件的存儲。
智能風控系統(tǒng)技術(shù)架構(gòu)中用戶通過訪問層觸發(fā)訪問請求命令,由展現(xiàn)層承載訪問請求命令并且傳輸請求命令到系統(tǒng)層,再由系統(tǒng)層根據(jù)請求命令獲取大數(shù)據(jù)平臺的數(shù)據(jù),然后將數(shù)據(jù)傳輸?shù)接嬎銓舆M行分析計算,計算結(jié)果返回到系統(tǒng)層進行功能邏輯處理,最后輸出系統(tǒng)層的服務(wù)結(jié)果到展現(xiàn)層或者以接口的形式提供給外部系統(tǒng)。整個智能風控平臺通過智能風控系統(tǒng)技術(shù)高效、穩(wěn)定運轉(zhuǎn),數(shù)據(jù)在智能風控平臺中循環(huán)流轉(zhuǎn)、迭代。
智能風控的核心技術(shù)是大數(shù)據(jù)風控技術(shù),智能風控系統(tǒng)技術(shù)架構(gòu)的設(shè)計應(yīng)該以大數(shù)據(jù)平臺為基礎(chǔ),充分融入大數(shù)據(jù)系統(tǒng)技術(shù)架構(gòu)。
本書摘編自《智能風控平臺:架構(gòu)、設(shè)計與實現(xiàn)》,經(jīng)出版方授權(quán)發(fā)布。