從阿里巴巴數(shù)據(jù)治理到瓴羊Dataphin
我們深知,企業(yè)需要一套完善的數(shù)據(jù)技術(shù)與工具,實(shí)現(xiàn)數(shù)據(jù)合規(guī)采集、存儲(chǔ)、計(jì)算、建 設(shè)和管理,利用數(shù)據(jù)思維對(duì)業(yè)務(wù)運(yùn)營(yíng)與管理場(chǎng)景問(wèn)題精細(xì)洞察,學(xué)會(huì)利用數(shù)據(jù)資產(chǎn)改善能效,以此循環(huán)往復(fù),推動(dòng)數(shù)據(jù)資產(chǎn)的持續(xù)沉淀,形成企業(yè)特有的數(shù)據(jù)資產(chǎn)體系。
基于阿里巴巴內(nèi)部的實(shí)踐經(jīng)驗(yàn)和成果,面向不同行業(yè)的實(shí)際業(yè)務(wù)場(chǎng)景Dataphin 應(yīng)運(yùn)而生,作為阿里巴巴統(tǒng)一方法論的工具化沉淀,Dataphin 希望能幫助企業(yè)探索更加復(fù)雜與多樣的數(shù)據(jù)建設(shè)之路。
本次內(nèi)容將以阿里巴巴數(shù)據(jù)治理的實(shí)踐和統(tǒng)一數(shù)據(jù)治理方法論工具化沉淀的Dataphin為核心內(nèi)容為大家詳細(xì)介紹。
一、數(shù)據(jù)建設(shè)的三個(gè)階段:從在線開(kāi)發(fā)到平臺(tái)構(gòu)建到數(shù)據(jù)綜合治理
從阿里自身的發(fā)展歷程來(lái)看,數(shù)據(jù)建設(shè)可以分為以下三個(gè)階段。
第一個(gè)階段:在線開(kāi)發(fā)。
在這個(gè)階段更多是把所有數(shù)據(jù)搬上來(lái),通過(guò)數(shù)據(jù)研發(fā)來(lái)滿足基本業(yè)務(wù)需求和開(kāi)發(fā)需求。數(shù)據(jù)規(guī)模相對(duì)不大,這一階段的目標(biāo)主要還是以響應(yīng)需求為主。
第二階段:數(shù)據(jù)平臺(tái)構(gòu)建與管理。
隨著淘寶業(yè)務(wù)不斷增長(zhǎng),對(duì)數(shù)據(jù)價(jià)值的訴求逐步加強(qiáng),數(shù)據(jù)服務(wù)業(yè)務(wù)的場(chǎng)景也不斷擴(kuò)大。數(shù)據(jù)的多樣性、數(shù)據(jù)處理的復(fù)雜度帶來(lái)數(shù)據(jù)處理的作業(yè)呈現(xiàn)較大規(guī)?;蜉^高水平的要求。這個(gè)時(shí)候就需要有一個(gè)數(shù)據(jù)平臺(tái)來(lái)支撐數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)。所以這一階段的目標(biāo)就是做數(shù)據(jù)平臺(tái)的構(gòu)建與管理,它對(duì)應(yīng)的頂層和核心是要支持類似于生意參謀這樣的面向于大量商家的應(yīng)用。
第三階段:數(shù)據(jù)綜合治理。
隨著阿里集團(tuán)的業(yè)務(wù)版圖越來(lái)越大,我們的業(yè)務(wù)數(shù)據(jù)也越來(lái)越多,只做一個(gè)數(shù)據(jù)平臺(tái)管一類數(shù)據(jù),已經(jīng)完全不能滿足需求了。數(shù)據(jù)服務(wù)業(yè)務(wù)輸出持續(xù)增多,業(yè)務(wù)數(shù)據(jù)化運(yùn)營(yíng)意識(shí)逐漸成熟,對(duì)數(shù)據(jù)價(jià)值的期待也越來(lái)越高,這個(gè)階段就需要數(shù)據(jù)綜合治理 ,以數(shù)據(jù)資產(chǎn)為中心開(kāi)展所有的數(shù)據(jù)工作,以業(yè)務(wù)可理解、便捷可消費(fèi)及服務(wù)業(yè)務(wù)的資產(chǎn)化組織和管理方向。所以這個(gè)階段需要有更匹配的產(chǎn)品,有更好的體系,以數(shù)據(jù)資產(chǎn)為核心來(lái)做數(shù)據(jù)中臺(tái)的建設(shè)。
二、大數(shù)據(jù)建設(shè),不僅僅是研發(fā)效能的問(wèn)題
從阿里巴巴的業(yè)務(wù)角度來(lái)看,大數(shù)據(jù)的建設(shè)不單是研發(fā)效率的問(wèn)題,不是只要有一個(gè)工具就能夠提高研發(fā)的效率,而是需要有一套體系化、理論化的東西來(lái)支撐整個(gè)數(shù)據(jù)中臺(tái)的建設(shè),我們把它分成四個(gè)維度:
- 數(shù)據(jù)標(biāo)準(zhǔn):由于多形態(tài)業(yè)務(wù)發(fā)展迅猛,煙囪式開(kāi)發(fā)及局部業(yè)務(wù)服務(wù)支撐,導(dǎo)致同名指標(biāo)不同口徑的問(wèn)題頻發(fā);歷史不同業(yè)務(wù)系統(tǒng)逐步迭代上線,相同對(duì)象屬性編碼不一致等問(wèn)題突出。只有知道要做什么,明確每一種數(shù)據(jù)的口徑表示,再著手業(yè)務(wù)和產(chǎn)品。
- 數(shù)據(jù)質(zhì)量:需要有一種工具能保障最終輸出的數(shù)據(jù)是符合這個(gè)口徑的。重復(fù)業(yè)務(wù)建設(shè)導(dǎo)致任務(wù)鏈冗長(zhǎng)、任務(wù)數(shù)繁多,計(jì)算資源緊張,數(shù)據(jù)時(shí)效性不好;另外,口徑梳理定義的文檔與開(kāi)發(fā)代碼脫節(jié),數(shù)據(jù)準(zhǔn)確性保障風(fēng)險(xiǎn)高,所以要保證數(shù)據(jù)質(zhì)量就是要糾正數(shù)據(jù),如果數(shù)據(jù)口徑不對(duì),需要有處理機(jī)制來(lái)做糾偏。
- 需求響應(yīng):煙囪式開(kāi)發(fā)的開(kāi)發(fā)周期長(zhǎng)、效率低,面向應(yīng)用的服務(wù)化不足,導(dǎo)致業(yè)務(wù)響應(yīng)速度慢,業(yè)務(wù)不滿且技術(shù)無(wú)沉淀;既懂業(yè)務(wù)又懂?dāng)?shù)據(jù)的人才不足,需求理解到開(kāi)發(fā)實(shí)現(xiàn)涉及大量溝通。因?yàn)槲覀兊臄?shù)據(jù)工作還是要為業(yè)務(wù)服務(wù),從業(yè)務(wù)的角度來(lái)看,沒(méi)人不在意你使用什么工具,但是如果產(chǎn)品能夠輔助提高需求響應(yīng)的速度,那么將是一個(gè)非常有價(jià)值的事情。
- 成本資源:在做數(shù)據(jù)建設(shè)的時(shí)候還需要考量成本。煙囪式開(kāi)發(fā)容易造成資源重復(fù)性浪費(fèi);上線難下線更難,源系統(tǒng)或業(yè)務(wù)變更不能及時(shí)反映到數(shù)據(jù)上,而且由于數(shù)據(jù)不標(biāo)準(zhǔn),研發(fā)維護(hù)難上加難,大量無(wú)用計(jì)算和存儲(chǔ)造成資源浪費(fèi)。
不能為了把需求、標(biāo)準(zhǔn)、質(zhì)量做得更全更快更好,就無(wú)限量地投入資源。在成本上也是需要去考量的,所以在數(shù)據(jù)治理的時(shí)候,需要綜合這 4 個(gè)角度的指標(biāo)來(lái)考察數(shù)據(jù)建設(shè)的成效。
三、阿里巴巴數(shù)據(jù)治理關(guān)鍵舉措
將分散的數(shù)據(jù)集中管理,制定一套統(tǒng)一的管理標(biāo)準(zhǔn),通過(guò)統(tǒng)一數(shù)據(jù)平臺(tái)輸出數(shù)據(jù)產(chǎn)品服務(wù)各個(gè)業(yè)務(wù),整體從資源到資產(chǎn)進(jìn)行轉(zhuǎn)變。
1、工具+規(guī)范打造標(biāo)準(zhǔn)化采集
為支撐整個(gè)數(shù)據(jù)平臺(tái)的建設(shè),第一要?jiǎng)?wù)是打造標(biāo)準(zhǔn)。流量采集中,建立相應(yīng)的日志埋點(diǎn)標(biāo)準(zhǔn),將數(shù)據(jù)上傳到日志采集中心,并通過(guò)各種采集工具、查看工具以及整套工具來(lái)管理和提升數(shù)據(jù)采集效率。同時(shí),在埋點(diǎn)過(guò)程中,還需要制定相應(yīng)規(guī)范并將其交予業(yè)務(wù)部門,這樣業(yè)務(wù)同學(xué)才能看到相應(yīng)埋點(diǎn),并最終轉(zhuǎn)換成實(shí)際數(shù)據(jù)。
2、閉環(huán)治理
在數(shù)據(jù)標(biāo)準(zhǔn)制定后,我們需要搭建整個(gè)數(shù)據(jù)治理的架構(gòu)。這個(gè)架構(gòu)分為多個(gè)部分,第一部分是內(nèi)容治理。在這一方面,需要明確數(shù)據(jù)健康標(biāo)準(zhǔn)和數(shù)據(jù)治理對(duì)象,確定數(shù)據(jù)治理范圍和相應(yīng)的治理方案。而我們已經(jīng)不再采取運(yùn)動(dòng)式或單點(diǎn)式的方案,轉(zhuǎn)而采用產(chǎn)品化、體系化的方案,并出現(xiàn)了一些評(píng)估體系來(lái)幫助我們進(jìn)行數(shù)據(jù)治理。
在阿里內(nèi)部,我們根據(jù)每個(gè)人使用數(shù)據(jù)的情況給予健康分,當(dāng)健康分低于標(biāo)準(zhǔn)時(shí),就需要采取問(wèn)責(zé)機(jī)制,讓使用者推進(jìn)自己的數(shù)據(jù)治理工作。而在存儲(chǔ)、計(jì)算和價(jià)值產(chǎn)出方面,也需要建立完整的機(jī)制進(jìn)行數(shù)據(jù)治理。
3、實(shí)戰(zhàn)沉淀數(shù)據(jù)產(chǎn)品
經(jīng)過(guò)多年實(shí)踐,阿里巴巴提出的One Model數(shù)據(jù)模型已被行業(yè)廣泛應(yīng)用,該標(biāo)準(zhǔn)將整個(gè)數(shù)據(jù)中臺(tái)分為三層,基礎(chǔ)層又被稱為ODS層,公共層或中間層則整合業(yè)務(wù)系統(tǒng)數(shù)據(jù),并以主題方式組織,為頂層應(yīng)用層提供數(shù)據(jù)服務(wù)。在應(yīng)用層角度,數(shù)據(jù)會(huì)按照不同的業(yè)務(wù)方和應(yīng)用場(chǎng)景組織。
經(jīng)過(guò)多年的實(shí)踐,我們總結(jié)出以下需要注意的要點(diǎn):
首先,數(shù)據(jù)需要有系統(tǒng)化的組織。在數(shù)據(jù)建設(shè)初期,需要建立頂層框架,明確整個(gè)組織需要哪些數(shù)據(jù),以及它們?cè)谀男I(yè)務(wù)領(lǐng)域發(fā)揮作用。只有這樣,我們才能精確地劃分?jǐn)?shù)據(jù)體系,進(jìn)行合規(guī)采集、清洗和關(guān)聯(lián)等工作。
其次,我們需要工具來(lái)有效地生產(chǎn)數(shù)據(jù),高效的生產(chǎn)意味著避免重復(fù)生產(chǎn)并確保數(shù)據(jù)的質(zhì)量。在這個(gè)過(guò)程中,技術(shù)人員需要積累經(jīng)驗(yàn)并進(jìn)行沉淀,技術(shù)本身應(yīng)有沉淀。
第三,我們擁有完善的數(shù)據(jù)體系后,要向各個(gè)業(yè)務(wù)和應(yīng)用場(chǎng)景提供便利的數(shù)據(jù)服務(wù)。目前已經(jīng)形成了獨(dú)具特色的大數(shù)據(jù)產(chǎn)品能力。也就是說(shuō),今天我們不僅要談?wù)撈脚_(tái)和方法,我們需要將這些東西集成到一個(gè)產(chǎn)品中,集中于一個(gè)平臺(tái)上,以承載整個(gè)實(shí)踐過(guò)的最佳方法論,我們把它稱為“One Data”。
現(xiàn)在One Data方法論已產(chǎn)品化,即智能數(shù)據(jù)建設(shè)與治理Dataphin。
四、Dataphin智能數(shù)據(jù)建設(shè)與治理
Dataphin平臺(tái)的數(shù)據(jù)架構(gòu)分為四個(gè)方面,包括數(shù)據(jù)采集、數(shù)據(jù)構(gòu)建、數(shù)據(jù)管理和數(shù)據(jù)使用。
首先,Dataphin的數(shù)據(jù)集成能力,將各個(gè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)收集到統(tǒng)一數(shù)據(jù)平臺(tái),并提供數(shù)據(jù)構(gòu)建能力,包括數(shù)據(jù)組織規(guī)劃、定義、開(kāi)發(fā)和標(biāo)簽提取。此過(guò)程中,還有很多輔助工具,如任務(wù)調(diào)度、運(yùn)維和發(fā)布管理。
完成數(shù)據(jù)構(gòu)建后,就需要數(shù)據(jù)管理能力,包括數(shù)據(jù)標(biāo)準(zhǔn)、質(zhì)量、安全和資源消耗管理。為了確保數(shù)據(jù)能夠被消費(fèi)者使用,Dataphin還提供數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)能力,如數(shù)據(jù)資產(chǎn)目錄服務(wù)、數(shù)據(jù)資產(chǎn)上架服務(wù)、服務(wù)監(jiān)控以及在線查詢服務(wù)和API服務(wù)。
最后是數(shù)據(jù)消費(fèi)能力,Dataphin可以與各個(gè)業(yè)務(wù)系統(tǒng)交互,同時(shí)也可以提供給Quick BI等報(bào)表展示工具和CDP引擎等廣告投放和營(yíng)銷服務(wù)。
1、Dataphin 的核心的能力
Dataphin 的核心的能力主要是分成以下幾塊:
(1)數(shù)據(jù)引入:全域數(shù)據(jù)可集成
Dataphin支持像Oracle、SAP等的HandleFTP,包括許多API方式來(lái)接入這些數(shù)據(jù)。同時(shí),在數(shù)據(jù)導(dǎo)入過(guò)程中,我們可以輕松清洗和轉(zhuǎn)換數(shù)據(jù),并將其輸出到數(shù)據(jù)中心,同時(shí)還能夠?qū)⑻幚砗玫臄?shù)據(jù)提供給外部用戶以更好地服務(wù)。
(2)數(shù)據(jù)規(guī)范定義:100% 消除二義性
數(shù)據(jù)規(guī)范定義是One Model最核心的規(guī)范之一。規(guī)范由阿里巴巴首創(chuàng),很多數(shù)據(jù)平臺(tái)也在使用。規(guī)范會(huì)將數(shù)據(jù)在宏觀層面上分為數(shù)據(jù)板塊、主題域、業(yè)務(wù)實(shí)體、業(yè)務(wù)活動(dòng)和業(yè)務(wù)對(duì)象。首先對(duì)數(shù)據(jù)板塊進(jìn)行劃分,然后在板塊下進(jìn)行主題域的劃分,再對(duì)主題域下的業(yè)務(wù)實(shí)體進(jìn)行分析。
業(yè)務(wù)實(shí)體分為兩種類型。完成概念模型后,我們就會(huì)得到邏輯模型,在這個(gè)模型中,我們會(huì)識(shí)別每一個(gè)實(shí)體的屬性,并將其形成概念模型。
舉個(gè)例子,我們業(yè)務(wù)對(duì)象中的“客戶”,客戶會(huì)有姓名、年齡等屬性。當(dāng)我們列出實(shí)體的所有屬性時(shí),這些內(nèi)容就構(gòu)成了我們的邏輯模型,或者是邏輯表。在邏輯表上,我們可以定義原子指標(biāo)業(yè)務(wù)限定。
原子指標(biāo)指的是最小的、無(wú)法拆分的統(tǒng)計(jì)算子,例如銷售金額、支付金額等。業(yè)務(wù)限定是為了確定范圍,例如男性銷售金額、大額銷售金額等。這兩者都是定義在邏輯模型之上的。派生指標(biāo)是指我們分析指標(biāo)時(shí)所使用的,具有業(yè)務(wù)意義的指標(biāo)。所有指標(biāo)都可以拆分成四個(gè)基本部分,第一個(gè)是時(shí)間周期,例如最近30天的買家在無(wú)線端的預(yù)付金額就是一個(gè)有業(yè)務(wù)意義的指標(biāo)。
Dataphin能夠判斷每個(gè)原子指標(biāo)和業(yè)務(wù)線的定義是否與現(xiàn)有的定義重復(fù),確保消除二義性。通過(guò)將所有內(nèi)容拆分成最小的粒度,可以幫助用戶更好地理解和組織其數(shù)據(jù)建設(shè)體系,以及規(guī)范模型的建設(shè)。
(3)設(shè)計(jì)即開(kāi)發(fā):保障數(shù)據(jù)模型與代碼的一致性
① 分鐘級(jí)自動(dòng)化代碼生成
當(dāng)用戶定義完成原子指標(biāo)和業(yè)務(wù)限定后,需在界面上選擇統(tǒng)計(jì)周期、統(tǒng)計(jì)粒度和原子指標(biāo),并確認(rèn)業(yè)務(wù)限定。系統(tǒng)會(huì)自動(dòng)為用戶生成該指標(biāo)的計(jì)算代碼,用戶無(wú)需干預(yù),只需站在業(yè)務(wù)角度選擇所需指標(biāo)。系統(tǒng)即可完成所有后臺(tái)代碼生成,實(shí)現(xiàn)設(shè)計(jì)即開(kāi)發(fā)。
② 標(biāo)簽萃取更需要快速簡(jiǎn)單融入業(yè)務(wù)經(jīng)驗(yàn)
除了進(jìn)行模型和標(biāo)準(zhǔn)建設(shè),我們還面向業(yè)務(wù)開(kāi)發(fā)標(biāo)簽等服務(wù)。目前,以 RTC 為例,主要應(yīng)用場(chǎng)景是在營(yíng)銷領(lǐng)域。為了為客戶提供更完整的營(yíng)銷方案,我們會(huì)將 Dataphin 和Quick Audience兩個(gè)產(chǎn)品進(jìn)行整合。
Dataphin將行為偏好標(biāo)簽、行為統(tǒng)計(jì)標(biāo)簽和靜態(tài)屬性標(biāo)簽整合在一個(gè)標(biāo)簽平臺(tái)中進(jìn)行管理。同時(shí),我們也與外部CDP平臺(tái)進(jìn)行打通,包括我們內(nèi)部的Quick Audience平臺(tái),以便將這些數(shù)據(jù)推送給CDP平臺(tái),從而進(jìn)行廣告投放和其他營(yíng)銷活動(dòng)。
2、數(shù)據(jù)資產(chǎn)管理:標(biāo)準(zhǔn)、質(zhì)量、安全、資源
然后除了這個(gè)模型的建設(shè)以及標(biāo)簽的建設(shè)之外, Dataphin還提供了一個(gè)叫做資產(chǎn)的管理,我們資產(chǎn)的管理是叫做 360°全鏈路的數(shù)據(jù)洞察和管理。
首先,Dataphin提供的能力之一是數(shù)據(jù)標(biāo)準(zhǔn)化。我們可以接入國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)以及企業(yè)自定義的標(biāo)準(zhǔn),并提供標(biāo)準(zhǔn)管理、類目維護(hù)、碼表和詞根等通用標(biāo)準(zhǔn)的能力。
第二,根據(jù)標(biāo)準(zhǔn)或用戶自定義來(lái)定義一些質(zhì)量規(guī)則。對(duì)于數(shù)據(jù)表,我們可以設(shè)置字段空值校驗(yàn)、唯一值校驗(yàn)、波動(dòng)性監(jiān)測(cè)和字段比對(duì)等多種質(zhì)量規(guī)則。
同時(shí),Dataphin還具備數(shù)據(jù)安全能力,包括數(shù)據(jù)分類分級(jí)、脫敏和加密,并可提供可信的數(shù)據(jù)交換和交易。
最后,數(shù)據(jù)治理功能可以控制計(jì)算、存儲(chǔ)資源消耗和成本,幫助用戶更好地管理和治理數(shù)據(jù)資產(chǎn)。
3、主題式服務(wù)
除了數(shù)據(jù)采集和管理工具之外,我們還提供面向數(shù)據(jù)消費(fèi)者的主題化服務(wù)。這項(xiàng)服務(wù)不僅支持通過(guò)搜索方式進(jìn)行查詢,還提供API及與其他工具的集成支持,讓用戶可以更加方便地利用我們的數(shù)據(jù)資源。由于我們并非完全基于物理表,而是擁有自己的數(shù)據(jù)模型,因此用戶不再需要直接查詢物理表、了解其表結(jié)構(gòu)以及表與表之間的關(guān)聯(lián),僅需在邏輯模型上使用數(shù)據(jù)即可。
如某知名零售品牌企業(yè),通過(guò)Dataphin進(jìn)行系統(tǒng)化建設(shè)、規(guī)劃數(shù)據(jù)方案,設(shè)計(jì)包括會(huì)員、商品交易和營(yíng)銷相關(guān)的零售板塊用戶主題,集成企業(yè)的營(yíng)銷、財(cái)務(wù)、CRM和ERP數(shù)據(jù)系統(tǒng),通過(guò)提取,處理接近200TB數(shù)據(jù),建立企業(yè)統(tǒng)一的用戶數(shù)據(jù)平臺(tái),支持采購(gòu)、供應(yīng)鏈、運(yùn)營(yíng)和營(yíng)銷優(yōu)化。
除了零售行業(yè),Dataphin在工業(yè)制造、金融、傳媒、地產(chǎn)、互聯(lián)網(wǎng)等各領(lǐng)域都有深度應(yīng)用。
更多Dataphin能力介紹及企業(yè)應(yīng)用實(shí)踐可查看白皮書《構(gòu)建企業(yè)級(jí)“好數(shù)據(jù)”,Dataphin智能數(shù)據(jù)建設(shè)與治理》
產(chǎn)品了解:https://www.lydaas.com/dataphin。