終于有人將數(shù)據(jù)中臺(tái)講清楚了,原來(lái)根本不算啥
一、數(shù)據(jù)中臺(tái)功能架構(gòu)
數(shù)據(jù)中臺(tái)建設(shè)是一個(gè)宏大的工程,涉及整體規(guī)劃、組織搭建、中臺(tái)落地與運(yùn)營(yíng)等方方面面的工作,本節(jié)重點(diǎn)從物理形態(tài)上講述企業(yè)的數(shù)據(jù)中臺(tái)應(yīng)該如何搭建。一般來(lái)講,企業(yè)的數(shù)據(jù)中臺(tái)在物理形態(tài)上分為三個(gè)大層:工具平臺(tái)層、數(shù)據(jù)資產(chǎn)層和數(shù)據(jù)應(yīng)用層。
1. 工具平臺(tái)層
工具平臺(tái)層是數(shù)據(jù)中臺(tái)的載體,包含大數(shù)據(jù)處理的基礎(chǔ)能力技術(shù),如集數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算、數(shù)據(jù)安全等于一體的大數(shù)據(jù)平臺(tái);還包含建設(shè)數(shù)據(jù)中臺(tái)的一系列工具,如離線或?qū)崟r(shí)數(shù)據(jù)研發(fā)工具、數(shù)據(jù)聯(lián)通工具、標(biāo)簽計(jì)算工具、算法平臺(tái)工具、數(shù)據(jù)服務(wù)工具及自助分析工具。
以上工具集基本覆蓋了數(shù)據(jù)中臺(tái)的數(shù)據(jù)加工過(guò)程。
(1) 數(shù)據(jù)開(kāi)發(fā)平臺(tái)
大數(shù)據(jù)的4V特征決定了數(shù)據(jù)處理是一個(gè)復(fù)雜的工程。建設(shè)數(shù)據(jù)中臺(tái)需要搭建建設(shè)數(shù)據(jù)中臺(tái)的基建工具,要滿足各種結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的采集、存儲(chǔ)與處理,要根據(jù)場(chǎng)景處理離線和實(shí)時(shí)數(shù)據(jù)的計(jì)算與存儲(chǔ),要將一個(gè)個(gè)數(shù)據(jù)處理任務(wù)串聯(lián)起來(lái)以保障數(shù)據(jù)的運(yùn)轉(zhuǎn)能賦能到業(yè)務(wù)端。
(2) 數(shù)據(jù)資產(chǎn)管理
數(shù)據(jù)中臺(tái)建設(shè)的成功與否,與數(shù)據(jù)資產(chǎn)是否管理有序有直接關(guān)系。前文提到,數(shù)據(jù)中臺(tái)是需要持續(xù)運(yùn)營(yíng)的。隨著時(shí)間的推移,數(shù)據(jù)不斷涌入數(shù)據(jù)中臺(tái),如果沒(méi)有一套井然有序的數(shù)據(jù)資產(chǎn)平臺(tái)來(lái)進(jìn)行管理,后果將不堪設(shè)想。
(3) 標(biāo)簽工廠
標(biāo)簽工廠又稱標(biāo)簽平臺(tái),是數(shù)據(jù)中臺(tái)體系內(nèi)的明星工具類產(chǎn)品。標(biāo)簽建設(shè)是數(shù)據(jù)中臺(tái)走向數(shù)據(jù)業(yè)務(wù)化的關(guān)鍵步驟。因此,一個(gè)強(qiáng)大的標(biāo)簽工廠是數(shù)據(jù)中臺(tái)價(jià)值體現(xiàn)的有力保障。
標(biāo)簽工廠按功能一般分為兩部分:底層的標(biāo)簽計(jì)算引擎與上層的標(biāo)簽配置與管理門(mén)戶。標(biāo)簽計(jì)算引擎一般會(huì)采用MapReduce、Spark、Flink等大數(shù)據(jù)計(jì)算框架,而計(jì)算后的標(biāo)簽存儲(chǔ)可采用Elasticsearch或者HBase,這樣存儲(chǔ)的好處是便于快速檢索。
(4) ID-Mapping
ID-Mapping又稱ID打通工具,是數(shù)據(jù)中臺(tái)建設(shè)的可選項(xiàng)??蛇x不代表不重要,在一些多渠道、多觸點(diǎn)的新零售企業(yè),離開(kāi)了這個(gè)工具,數(shù)據(jù)質(zhì)量將大打折扣。
(5) 機(jī)器學(xué)習(xí)平臺(tái)
在整個(gè)機(jī)器學(xué)習(xí)的工作流中,模型訓(xùn)練的代碼開(kāi)發(fā)只是其中一部分。除此之外,數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、特征提取、超參數(shù)的選擇與優(yōu)化、訓(xùn)練任務(wù)的監(jiān)控、模型的發(fā)布與集成、日志的回收等,都是流程中不可或缺的部分。
2. 數(shù)據(jù)資產(chǎn)層
數(shù)據(jù)資產(chǎn)層是數(shù)據(jù)中臺(tái)的核心層,它依托于工具平臺(tái)層,那么這一層又有什么內(nèi)容呢?答案是因企業(yè)的業(yè)務(wù)與行業(yè)而異,但總體來(lái)講,可以劃分為主題域模型區(qū)、標(biāo)簽?zāi)P蛥^(qū)和算法模型區(qū)。
(1) 主題域模型
主題域模型是指面向業(yè)務(wù)分析,將業(yè)務(wù)過(guò)程或維度進(jìn)行抽象的集合。業(yè)務(wù)過(guò)程可以概括為一個(gè)個(gè)不可拆分的行為事件,如訂單、合同、營(yíng)銷等。
為了保障整個(gè)體系的生命力,主題域即數(shù)據(jù)域需要抽象提煉,并且長(zhǎng)期維護(hù)和更新,但是不輕易變動(dòng)。在劃分?jǐn)?shù)據(jù)域時(shí),既要涵蓋當(dāng)前所有業(yè)務(wù)的需求,又要保證新業(yè)務(wù)能夠無(wú)影響地被包含進(jìn)已有的數(shù)據(jù)域中或者很容易擴(kuò)展新的數(shù)據(jù)域。
(2) 標(biāo)簽?zāi)P?/p>
標(biāo)簽?zāi)P偷脑O(shè)計(jì)與主題域模型方法大同小異,同樣需要結(jié)合業(yè)務(wù)過(guò)程進(jìn)行設(shè)計(jì),需要充分理解業(yè)務(wù)過(guò)程。標(biāo)簽一般會(huì)涉及企業(yè)經(jīng)營(yíng)過(guò)程中的實(shí)體對(duì)象,如會(huì)員、商品、門(mén)店、經(jīng)銷商等。這些主體一般來(lái)說(shuō)都穿插在各個(gè)業(yè)務(wù)流程中,比如會(huì)員一般都穿插在關(guān)注、注冊(cè)、瀏覽、下單、評(píng)價(jià)、服務(wù)等環(huán)節(jié)。
(3) 算法模型
算法模型更加貼近業(yè)務(wù)場(chǎng)景。在設(shè)計(jì)算法模型的時(shí)候要反復(fù)推演算法模型使用的場(chǎng)景,包括模型的冷啟動(dòng)等問(wèn)題。整個(gè)模型搭建過(guò)程包含定場(chǎng)景、數(shù)據(jù)源準(zhǔn)備、特征工程、模型設(shè)計(jì)、模型訓(xùn)練、正式上線、參數(shù)調(diào)整7個(gè)環(huán)節(jié)。
3. 數(shù)據(jù)應(yīng)用層
數(shù)據(jù)應(yīng)用層嚴(yán)格來(lái)說(shuō)不屬于數(shù)據(jù)中臺(tái)的范疇,但數(shù)據(jù)中臺(tái)的使命就是為業(yè)務(wù)賦能,幾乎所有企業(yè)在建設(shè)數(shù)據(jù)中臺(tái)的同時(shí)都已規(guī)劃好數(shù)據(jù)應(yīng)用。數(shù)據(jù)應(yīng)用可按數(shù)據(jù)使用場(chǎng)景來(lái)劃分為以下多個(gè)使用領(lǐng)域。
(1) 分析與決策應(yīng)用
分析與決策應(yīng)用主要面向企業(yè)的領(lǐng)導(dǎo)、運(yùn)營(yíng)人員等角色,基于企業(yè)的業(yè)務(wù)背景和數(shù)據(jù)分析訴求,針對(duì)客戶拉新、老客運(yùn)營(yíng)、銷售能力評(píng)估等分析場(chǎng)景,通過(guò)主題域模型、標(biāo)簽?zāi)P秃退惴P停瑸槠髽I(yè)提供可視化分析專題。
用戶在分析與決策應(yīng)用中快速獲取企業(yè)現(xiàn)狀和問(wèn)題,同時(shí)可對(duì)數(shù)據(jù)進(jìn)行鉆取、聯(lián)動(dòng)分析等,深度分析企業(yè)問(wèn)題及其原因,從而輔助企業(yè)進(jìn)行管理和決策,實(shí)現(xiàn)精準(zhǔn)管理和智能決策。
(2) 標(biāo)簽應(yīng)用
標(biāo)簽旨在挖掘?qū)嶓w對(duì)象(如客戶、商品等)的特征,將數(shù)據(jù)轉(zhuǎn)化成真正對(duì)業(yè)務(wù)有價(jià)值的產(chǎn)物并對(duì)外提供標(biāo)簽數(shù)據(jù)服務(wù),多應(yīng)用于客戶圈選、精準(zhǔn)營(yíng)銷和個(gè)性化推薦等場(chǎng)景,從而實(shí)現(xiàn)資產(chǎn)變現(xiàn),不斷擴(kuò)大資產(chǎn)價(jià)值。
標(biāo)簽體系的設(shè)計(jì)立足于標(biāo)簽使用場(chǎng)景,不同使用場(chǎng)景對(duì)標(biāo)簽需求是不同的,譬如在客戶個(gè)性化推薦場(chǎng)景下,需要客戶性別、近期關(guān)注商品類型、消費(fèi)能力和消費(fèi)習(xí)慣等標(biāo)簽。
(3) 智能應(yīng)用
智能應(yīng)用是數(shù)智化的一個(gè)典型外在表現(xiàn)。比如在營(yíng)銷領(lǐng)域,不僅可實(shí)現(xiàn)千人千面的用戶個(gè)性化推薦,如猜你喜歡、加購(gòu)?fù)扑]等,還可借助智能營(yíng)銷工具進(jìn)行高精準(zhǔn)度的用戶觸達(dá),推動(dòng)首購(gòu)轉(zhuǎn)化、二購(gòu)促進(jìn)、流失挽留等。
二、數(shù)據(jù)中臺(tái)技術(shù)架構(gòu)
隨著大數(shù)據(jù)與人工智能技術(shù)的不斷迭代以及商業(yè)大數(shù)據(jù)工具產(chǎn)品的推出,數(shù)據(jù)中臺(tái)的架構(gòu)設(shè)計(jì)大可不必從零開(kāi)始,可以采購(gòu)一站式的研發(fā)平臺(tái)產(chǎn)品,或者基于一些開(kāi)源產(chǎn)品進(jìn)行組裝。企業(yè)可根據(jù)自身情況進(jìn)行權(quán)衡考慮,但無(wú)論采用哪種方案,數(shù)據(jù)中臺(tái)的架構(gòu)設(shè)計(jì)以滿足當(dāng)前數(shù)據(jù)處理的全場(chǎng)景為基準(zhǔn)。
以開(kāi)源技術(shù)為例,數(shù)據(jù)中臺(tái)的技術(shù)架構(gòu)如圖所示,總體來(lái)看一般包含以下幾種功能:數(shù)據(jù)采集、數(shù)據(jù)計(jì)算、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)服務(wù);在研發(fā)、運(yùn)維和公共服務(wù)方面包括離線開(kāi)發(fā)、實(shí)時(shí)開(kāi)發(fā)、數(shù)據(jù)資產(chǎn)、任務(wù)調(diào)度、數(shù)據(jù)安全、集群管理。
1. 數(shù)據(jù)采集層
按數(shù)據(jù)的實(shí)時(shí)性,數(shù)據(jù)采集分為離線采集和實(shí)時(shí)采集。離線采集使用DataX和Sqoop,實(shí)時(shí)采集使用Kafka Connect、Flume、Kafka。
在離線數(shù)據(jù)采集中,建議使用DataX和Sqoop相結(jié)合。DataX適合用在數(shù)據(jù)量較小且采用非關(guān)系型數(shù)據(jù)庫(kù)的場(chǎng)景,部署方式很簡(jiǎn)單。Sqoop適合用在數(shù)據(jù)量較大且采用關(guān)系型數(shù)據(jù)庫(kù)的場(chǎng)景。
2. 數(shù)據(jù)計(jì)算層
數(shù)據(jù)計(jì)算采用YARN作為各種計(jì)算框架部署的執(zhí)行調(diào)度平臺(tái),計(jì)算框架有MapReduce、Spark及Spark SQL、Flink、Spark MLlib等。
3. 數(shù)據(jù)存儲(chǔ)層
數(shù)據(jù)存儲(chǔ)層所有的存儲(chǔ)引擎都基于Hadoop的HDFS分布式存儲(chǔ),從而達(dá)到數(shù)據(jù)多份冗余和充分利用物理層多磁盤(pán)的I/O性能。在HDFS上分別搭建Hive、HBase作為存儲(chǔ)數(shù)據(jù)庫(kù),在這兩個(gè)數(shù)據(jù)庫(kù)的基礎(chǔ)上再搭建Impala、Phoenix、Presto引擎。
4. 數(shù)據(jù)服務(wù)層
數(shù)據(jù)服務(wù)層采用的技術(shù)與業(yè)務(wù)應(yīng)用類似,主要基于開(kāi)源Spring Cloud、Spring Boot等構(gòu)建,使用統(tǒng)一的服務(wù)網(wǎng)關(guān)。































