數(shù)據(jù)中臺(tái)應(yīng)該包含什么?你知道嗎?
數(shù)據(jù)中臺(tái)最早是阿里提出的,但真正火起來(lái)是 2018 年,我們能感受到行業(yè)文章談?wù)摂?shù)據(jù)中臺(tái)的越來(lái)越多。大量的互聯(lián)網(wǎng)、非互聯(lián)網(wǎng)公司都開(kāi)始建設(shè)數(shù)據(jù)中臺(tái)。
為什么很多公司開(kāi)始建設(shè)數(shù)據(jù)中臺(tái)?盡管數(shù)據(jù)中臺(tái)的文章很多,但是一千人眼里有一千個(gè)數(shù)據(jù)中臺(tái),到底什么是數(shù)據(jù)中臺(tái)?數(shù)據(jù)中臺(tái)包含什么?
2017 年開(kāi)始,當(dāng)網(wǎng)易嚴(yán)選有了一定量的數(shù)據(jù),我們就開(kāi)始規(guī)劃建設(shè)我們的數(shù)據(jù)中臺(tái),目前我們已經(jīng)完成了數(shù)據(jù)中臺(tái)體系的搭建,我將根據(jù)我們建設(shè)數(shù)據(jù)中臺(tái)的經(jīng)驗(yàn)和方法論試圖解答上面這些問(wèn)題。
為什么大家開(kāi)始建設(shè)數(shù)據(jù)中臺(tái)?
2018 年開(kāi)始,朋友圈里講數(shù)據(jù)中臺(tái)的文章開(kāi)始逐漸變多,當(dāng)然拿著手機(jī)看世界并不一定看到真實(shí)的世界。我也跟各個(gè)行業(yè)的一些大公司的 CIO 交流,發(fā)現(xiàn)很多行業(yè)的大公司都開(kāi)始組建大數(shù)據(jù)團(tuán)隊(duì),建設(shè)數(shù)據(jù)中臺(tái)。
結(jié)合文章和交流獲取的信息,我切身感受到宏觀經(jīng)濟(jì)對(duì)技術(shù)的影響。2018 年開(kāi)始經(jīng)濟(jì)下行,生意不好做了,粗放的經(jīng)營(yíng)已經(jīng)不行了,越來(lái)越多的企業(yè)想通過(guò)數(shù)據(jù)驅(qū)動(dòng)來(lái)進(jìn)行精細(xì)化的運(yùn)營(yíng)和數(shù)據(jù)化轉(zhuǎn)型。
如上圖所示,企業(yè)需要數(shù)字化轉(zhuǎn)型,需要更多的觸點(diǎn)去跟自己的用戶(hù) / 客戶(hù)建立聯(lián)系,很多企業(yè)就需要做自己的公眾號(hào)、小程序 (各家的小程序) 甚至 app。
我們希望用戶(hù)更容易找到我們的商品 / 服務(wù),我們就需要搜索。我們希望用戶(hù)更多的瀏覽 / 使用我們的商品 / 服務(wù)就需要推薦。我們維護(hù)用戶(hù) / 客戶(hù)的生命周期,根據(jù)生命周期采取不同的營(yíng)銷(xiāo)動(dòng)作,就需要 CRM。我們需要拉來(lái)更多的新用戶(hù),就需要投放廣告,為了更好的投放效果,我們需要建設(shè)我們的 DMP。當(dāng)我們生意做大,我們需要對(duì)抗黑產(chǎn) (羊毛黨),讓我們的優(yōu)惠能讓真正的用戶(hù)享受,我們需要風(fēng)控。這一切都需要底層大數(shù)據(jù)的支持。
企業(yè)需要精細(xì)化運(yùn)營(yíng),就需要不斷地提升運(yùn)營(yíng)的頻次 (如下圖所示) 和粒度。我們需要把運(yùn)營(yíng)的節(jié)奏提升到周級(jí)、天級(jí)甚至實(shí)時(shí)。我們隨時(shí)隨地了解我們企業(yè)經(jīng)營(yíng)狀況,需要不斷地更精細(xì) (細(xì)粒度) 地分析我們的業(yè)務(wù),快速做出業(yè)務(wù)決策。我們就需要能夠快速地構(gòu)建大量的 BI 報(bào)表,在一些重要的節(jié)點(diǎn) (大促) 時(shí),甚至需要盯著數(shù)據(jù)大屏。如果我們有能力,還可以建設(shè)場(chǎng)景化的數(shù)據(jù)產(chǎn)品來(lái)支持業(yè)務(wù)的決策。這一切都需要底層大數(shù)據(jù)的支持。
如何快速地利用底層大數(shù)據(jù)的支持,讓我們的數(shù)據(jù)化轉(zhuǎn)型、精細(xì)化運(yùn)營(yíng)能夠高頻的迭代,這就需要我們的數(shù)據(jù)中臺(tái)提供強(qiáng)有力的支持。
這里也提醒一點(diǎn),當(dāng)我們需要大規(guī)模的數(shù)據(jù)應(yīng)用時(shí) (搜索 / 推薦 /BI 報(bào)表...),我們才需要構(gòu)建數(shù)據(jù)中臺(tái)。因?yàn)榻ㄔO(shè)數(shù)據(jù)中臺(tái)的投入大。
打個(gè)比方,當(dāng)我一家人要吃飯,我自己買(mǎi)菜,在自己的廚房用普通的廚具自己做就好了,如果是富士康,幾萬(wàn)幾十萬(wàn)人吃飯,就需要建食材的加工配送中心 (類(lèi)比數(shù)據(jù)中臺(tái))。本質(zhì)上是“需求規(guī)模量級(jí)的變化,導(dǎo)致解決方案的質(zhì)變”。
所以我們看到的,基本是大公司在建設(shè)數(shù)據(jù)中臺(tái)。盡管你們可能現(xiàn)在不適合建設(shè)數(shù)據(jù)中臺(tái),但數(shù)據(jù)中臺(tái)的思想大家都可以借鑒。
小結(jié)一下,當(dāng)企業(yè)需要數(shù)據(jù)化轉(zhuǎn)型、精細(xì)化運(yùn)營(yíng),進(jìn)而產(chǎn)生大規(guī)模數(shù)據(jù)應(yīng)用需求的時(shí)候,就需要建設(shè)數(shù)據(jù)中臺(tái)。
什么是數(shù)據(jù)中臺(tái)?
這是一個(gè)千人千面的問(wèn)題。我們的定義是“數(shù)據(jù)中臺(tái)是高質(zhì)量、高效賦能數(shù)據(jù)前臺(tái)的一系列數(shù)據(jù)系統(tǒng)和數(shù)據(jù)服務(wù)的組合”。
因?yàn)橐?guī)范最終是在系統(tǒng)和服務(wù)中落地的,所以定義中就沒(méi)有包含規(guī)范部分。
數(shù)據(jù)中臺(tái)的核心職責(zé)是高效地賦能數(shù)據(jù)前臺(tái)為業(yè)務(wù)提供價(jià)值。要想理解數(shù)據(jù)中臺(tái)先要理解數(shù)據(jù)前臺(tái),上文說(shuō)到的搜索、推薦、BI 報(bào)表、數(shù)據(jù)大屏等都屬于數(shù)據(jù)前臺(tái)。
我們來(lái)看下面網(wǎng)易嚴(yán)選數(shù)據(jù)體系的圖就更清楚數(shù)據(jù)中臺(tái)的定位了。
數(shù)據(jù)中臺(tái)的下層是數(shù)據(jù)平臺(tái),數(shù)據(jù)平臺(tái)主要解決跟業(yè)務(wù)無(wú)關(guān)的問(wèn)題,主要是大數(shù)據(jù)的存儲(chǔ)和計(jì)算問(wèn)題。
數(shù)據(jù)中臺(tái)的上層就是數(shù)據(jù)前臺(tái),主要包括 BI 報(bào)表、數(shù)據(jù)產(chǎn)品和業(yè)務(wù)系統(tǒng)。
數(shù)據(jù)中臺(tái)首先賦能分析師通過(guò) BI 報(bào)表的形式來(lái)驅(qū)動(dòng)業(yè)務(wù)精細(xì)化運(yùn)營(yíng)。
如下圖所示,基于數(shù)倉(cāng)里已經(jīng)半加工好的數(shù)據(jù),分析師使用嚴(yán)選有數(shù)敏捷 BI 平臺(tái)可以快速地根據(jù)業(yè)務(wù)需求進(jìn)行數(shù)據(jù)可視化和數(shù)據(jù)分析。
嚴(yán)選有數(shù)現(xiàn)在每周的 UV 超過(guò) 800,每天報(bào)表瀏覽次數(shù)超過(guò) 12w,目前的圖表數(shù)超過(guò) 7w。對(duì)于一個(gè)事業(yè)部級(jí)的 BI 平臺(tái),應(yīng)該算是一個(gè)非常好的成績(jī)。這里特別感謝下我們的分析師團(tuán)隊(duì),她們的辛勤工作才會(huì)有這樣的成績(jī)。
數(shù)據(jù)中臺(tái)還會(huì)賦能業(yè)務(wù)系統(tǒng)開(kāi)發(fā)通過(guò)統(tǒng)一查詢(xún)服務(wù) (主要是統(tǒng)一查詢(xún)服務(wù)和標(biāo)簽服務(wù)) 來(lái)輔助業(yè)務(wù)過(guò)程中的決策。
基于數(shù)倉(cāng)里面加工好的數(shù)據(jù)模型,業(yè)務(wù)系統(tǒng)開(kāi)發(fā)人員使用統(tǒng)一查詢(xún)服務(wù)獲取到的模型數(shù)據(jù)在業(yè)務(wù)系統(tǒng)中增加輔助決策功能。
比如供應(yīng)商系統(tǒng)需要對(duì)供應(yīng)商進(jìn)行評(píng)級(jí),供應(yīng)商評(píng)級(jí)需要供應(yīng)商的商品銷(xiāo)售數(shù)據(jù)、評(píng)論數(shù)據(jù)、退貨數(shù)據(jù)、質(zhì)量數(shù)據(jù),供應(yīng)商采購(gòu)的交期數(shù)據(jù)等等。
數(shù)倉(cāng)會(huì)根據(jù)這些數(shù)據(jù)加工模型,供應(yīng)商系統(tǒng)可以通過(guò)統(tǒng)一查詢(xún)獲取模型在供應(yīng)商系統(tǒng)中使用。在嚴(yán)選,統(tǒng)一查詢(xún)服務(wù)已經(jīng)接入了 67 個(gè)應(yīng)用、670 個(gè)模型、每天有 300w 的調(diào)用。
我們自己做的數(shù)據(jù)產(chǎn)品(如下圖所示),基本會(huì)用到我們數(shù)據(jù)中臺(tái)所有的能力支持,包括統(tǒng)一查詢(xún)服務(wù)、標(biāo)簽服務(wù)、指標(biāo)監(jiān)控服務(wù)、數(shù)據(jù)產(chǎn)出服務(wù)等數(shù)據(jù)服務(wù),也會(huì)使用嚴(yán)選有數(shù)創(chuàng)建 BI 報(bào)表掛載到數(shù)據(jù)產(chǎn)品中。
數(shù)據(jù)中臺(tái)包含什么?
從上文的圖中,我們已經(jīng)初步了解了數(shù)據(jù)中臺(tái)包含了哪些系統(tǒng)和服務(wù)。概括來(lái)說(shuō),數(shù)據(jù)中臺(tái)包含數(shù)倉(cāng)體系、數(shù)據(jù)服務(wù)集和 BI 平臺(tái)。
1、數(shù)倉(cāng)體系
數(shù)倉(cāng)體系是數(shù)據(jù)中臺(tái)的核心,數(shù)據(jù)是新能源,是生產(chǎn)資料。
數(shù)倉(cāng)體系包含數(shù)倉(cāng)和一系列的管理系統(tǒng),用來(lái)管理數(shù)據(jù),保證數(shù)據(jù)的完整、一致和準(zhǔn)確。
數(shù)倉(cāng)體系的構(gòu)成和關(guān)系,如下圖所示。數(shù)倉(cāng)是數(shù)倉(cāng)體系的核心,也是整個(gè)中臺(tái)的核心。數(shù)倉(cāng)的開(kāi)發(fā)和存儲(chǔ),主要依賴(lài)網(wǎng)易猛犸數(shù)據(jù)平臺(tái)。
夸父 - 埋點(diǎn)管理系統(tǒng)和精衛(wèi) - 數(shù)據(jù)填報(bào)系統(tǒng)從供應(yīng)側(cè)保障數(shù)據(jù)的完整性和質(zhì)量。
埋點(diǎn)數(shù)據(jù)由于來(lái)源廣 (web 端、ios、android、小程序等)、鏈路長(zhǎng)、格式 (日志的 scheme 約束) 等問(wèn)題,一直是數(shù)據(jù)質(zhì)量的重災(zāi)區(qū)。
夸父 - 埋點(diǎn)管理系統(tǒng)提供了埋點(diǎn)的管理、埋點(diǎn)流程協(xié)同和埋點(diǎn)測(cè)試,提供了埋點(diǎn)日志的 scheme,保障了埋點(diǎn)數(shù)據(jù)質(zhì)量。
精衛(wèi) - 數(shù)據(jù)填報(bào)系統(tǒng)提供數(shù)據(jù)導(dǎo)入數(shù)倉(cāng)及導(dǎo)入時(shí)的驗(yàn)證功能,提升數(shù)據(jù)的完整性。
整個(gè)電商的業(yè)務(wù)過(guò)程非常多,所有業(yè)務(wù)過(guò)程都線上化的過(guò)程非常漫長(zhǎng)。當(dāng)我們下游的數(shù)據(jù)應(yīng)用需要某個(gè)業(yè)務(wù)過(guò)程的數(shù)據(jù),而這個(gè)業(yè)務(wù)過(guò)程還沒(méi)有線上化時(shí),就可以通過(guò)精衛(wèi) - 數(shù)據(jù)填報(bào)系統(tǒng)導(dǎo)入數(shù)據(jù)到數(shù)倉(cāng),下游就可以使用這份數(shù)據(jù)。
倉(cāng)頡 - 指標(biāo)管理系統(tǒng)和燧人 - 指標(biāo)地圖是從需求側(cè)提升數(shù)據(jù) (指標(biāo)) 的一致性。
倉(cāng)頡 - 指標(biāo)管理系統(tǒng)顧名思義是管理指標(biāo)定義,在提供指標(biāo)統(tǒng)一管理的同時(shí),提供了指標(biāo)定義規(guī)范的約束。數(shù)據(jù)開(kāi)發(fā)可以根據(jù)指標(biāo)定義里的指標(biāo)口徑來(lái)進(jìn)行指標(biāo)開(kāi)發(fā)。
燧人 - 指標(biāo)地圖是提供給業(yè)務(wù)方查看當(dāng)前的指標(biāo)分類(lèi)與指標(biāo)定義。
數(shù)倉(cāng)開(kāi)發(fā)本身要解決的核心問(wèn)題是質(zhì)量和效率 (所有開(kāi)發(fā)也都需要解決),無(wú)論是質(zhì)量和效率都需要好的架構(gòu)設(shè)計(jì)。
北斗 - 數(shù)倉(cāng)設(shè)計(jì)管理系統(tǒng)就是來(lái)完成數(shù)倉(cāng)設(shè)計(jì)的。數(shù)倉(cāng)的開(kāi)發(fā)原本總是非常的經(jīng)驗(yàn)化,很多知識(shí)都是存在數(shù)據(jù)開(kāi)發(fā)的腦子里。我們通過(guò)北斗 - 數(shù)倉(cāng)設(shè)計(jì)管理系統(tǒng)來(lái)推行數(shù)倉(cāng)先設(shè)計(jì)再開(kāi)發(fā),通過(guò)北斗 - 數(shù)倉(cāng)設(shè)計(jì)管理系統(tǒng)將數(shù)倉(cāng)開(kāi)發(fā)的經(jīng)驗(yàn)知識(shí)化、標(biāo)準(zhǔn)化、工具化。
數(shù)據(jù)質(zhì)量中心 (如下圖所示) 提供全鏈路的數(shù)據(jù)保障體系,提供任務(wù)監(jiān)控、數(shù)據(jù)監(jiān)控、應(yīng)用監(jiān)控、影響范圍評(píng)估和恢復(fù)的支撐。
2、數(shù)據(jù)服務(wù)集
數(shù)據(jù)服務(wù)主要是數(shù)據(jù)場(chǎng)景下的解決方案的沉淀。數(shù)據(jù)服務(wù)集極大的加速了數(shù)據(jù)應(yīng)用開(kāi)發(fā)效率。
核心的數(shù)據(jù)服務(wù)是統(tǒng)一查詢(xún)服務(wù)和標(biāo)簽服務(wù),提供指標(biāo)模型和標(biāo)簽?zāi)P蛯?duì)數(shù)據(jù)應(yīng)用系統(tǒng) (業(yè)務(wù)系統(tǒng)和數(shù)據(jù)產(chǎn)品) 的統(tǒng)一配送。
統(tǒng)一查詢(xún)服務(wù)核心提供表轉(zhuǎn)接口和數(shù)據(jù)網(wǎng)關(guān)的功能。數(shù)倉(cāng)管理的是數(shù)據(jù)模型表,通過(guò)統(tǒng)一查詢(xún),數(shù)據(jù)應(yīng)用系統(tǒng)就可以通過(guò)接口的形式來(lái)訪問(wèn)數(shù)據(jù)模型表。統(tǒng)一查詢(xún)服務(wù)是數(shù)據(jù)體系和數(shù)據(jù)應(yīng)用系統(tǒng)之間的總網(wǎng)關(guān),需要提供模型級(jí)限流、熔斷等網(wǎng)關(guān)功能。
3、BI平臺(tái)
BI 平臺(tái)我們用的是嚴(yán)選有數(shù),也就是在網(wǎng)易有數(shù)在嚴(yán)選的版本。網(wǎng)易有數(shù)是一款敏捷 BI 平臺(tái),在設(shè)計(jì)上通過(guò)以終為始的設(shè)計(jì)理念和類(lèi) PPT 操作模式,在保障靈活性的基礎(chǔ)上,提供了極大的操作便利。
在性能方面,我們結(jié)合數(shù)據(jù)產(chǎn)出服務(wù)做的基于數(shù)據(jù)產(chǎn)出的緩存策略極大地提升了報(bào)表的性能。圖表首訪緩存命中率基本穩(wěn)定在 100%,整體緩存命中率超過(guò) 80%。
數(shù)據(jù)中臺(tái)的內(nèi)容非常長(zhǎng),本文非常概括地從嚴(yán)選實(shí)踐介紹了數(shù)據(jù)中臺(tái)。
總結(jié)一下:當(dāng)企業(yè)需要數(shù)據(jù)化轉(zhuǎn)型、精細(xì)化運(yùn)營(yíng),進(jìn)而產(chǎn)生大規(guī)模數(shù)據(jù)應(yīng)用需求的時(shí)候,就需要建設(shè)數(shù)據(jù)中臺(tái)。數(shù)據(jù)中臺(tái)是高質(zhì)量、高效賦能數(shù)據(jù)前臺(tái)的一系列數(shù)據(jù)系統(tǒng)和數(shù)據(jù)服務(wù)的組合。數(shù)據(jù)中臺(tái)包含數(shù)倉(cāng)體系、數(shù)據(jù)服務(wù)集和 BI 平臺(tái)。
作者介紹
魏文慶,現(xiàn)任網(wǎng)易嚴(yán)選數(shù)據(jù)技術(shù)及產(chǎn)品部總監(jiān)。2007年浙江大學(xué)計(jì)算機(jī)碩士畢業(yè)后入職網(wǎng)易杭州研究院,從事前端開(kāi)發(fā),后歷任技術(shù)主管、技術(shù)經(jīng)理、技術(shù)總監(jiān)。曾負(fù)責(zé)網(wǎng)易攝影、網(wǎng)易企業(yè)郵箱、易信公眾號(hào)等產(chǎn)品開(kāi)發(fā),以及網(wǎng)易前端微專(zhuān)業(yè)。2015年開(kāi)始內(nèi)部創(chuàng)業(yè),孵化敏捷BI平臺(tái) - 網(wǎng)易有數(shù),任網(wǎng)易有數(shù)總經(jīng)理,負(fù)責(zé)產(chǎn)品研發(fā)和商業(yè)化。2017年開(kāi)始負(fù)責(zé)網(wǎng)易嚴(yán)選數(shù)據(jù)技術(shù)及產(chǎn)品部,從0到1搭建網(wǎng)易嚴(yán)選數(shù)據(jù)中臺(tái)和數(shù)據(jù)產(chǎn)品體系。