從阿里巴巴數(shù)據(jù)治理到瓴羊Dataphin

我們深知,企業(yè)需要一套完善的數(shù)據(jù)技術與工具,實現(xiàn)數(shù)據(jù)合規(guī)采集、存儲、計算、建 設和管理,利用數(shù)據(jù)思維對業(yè)務運營與管理場景問題精細洞察,學會利用數(shù)據(jù)資產(chǎn)改善能效,以此循環(huán)往復,推動數(shù)據(jù)資產(chǎn)的持續(xù)沉淀,形成企業(yè)特有的數(shù)據(jù)資產(chǎn)體系。
基于阿里巴巴內部的實踐經(jīng)驗和成果,面向不同行業(yè)的實際業(yè)務場景Dataphin 應運而生,作為阿里巴巴統(tǒng)一方法論的工具化沉淀,Dataphin 希望能幫助企業(yè)探索更加復雜與多樣的數(shù)據(jù)建設之路。
本次內容將以阿里巴巴數(shù)據(jù)治理的實踐和統(tǒng)一數(shù)據(jù)治理方法論工具化沉淀的Dataphin為核心內容為大家詳細介紹。
一、數(shù)據(jù)建設的三個階段:從在線開發(fā)到平臺構建到數(shù)據(jù)綜合治理

從阿里自身的發(fā)展歷程來看,數(shù)據(jù)建設可以分為以下三個階段。
第一個階段:在線開發(fā)。
在這個階段更多是把所有數(shù)據(jù)搬上來,通過數(shù)據(jù)研發(fā)來滿足基本業(yè)務需求和開發(fā)需求。數(shù)據(jù)規(guī)模相對不大,這一階段的目標主要還是以響應需求為主。
第二階段:數(shù)據(jù)平臺構建與管理。
隨著淘寶業(yè)務不斷增長,對數(shù)據(jù)價值的訴求逐步加強,數(shù)據(jù)服務業(yè)務的場景也不斷擴大。數(shù)據(jù)的多樣性、數(shù)據(jù)處理的復雜度帶來數(shù)據(jù)處理的作業(yè)呈現(xiàn)較大規(guī)?;蜉^高水平的要求。這個時候就需要有一個數(shù)據(jù)平臺來支撐數(shù)據(jù)倉庫的開發(fā)。所以這一階段的目標就是做數(shù)據(jù)平臺的構建與管理,它對應的頂層和核心是要支持類似于生意參謀這樣的面向于大量商家的應用。
第三階段:數(shù)據(jù)綜合治理。
隨著阿里集團的業(yè)務版圖越來越大,我們的業(yè)務數(shù)據(jù)也越來越多,只做一個數(shù)據(jù)平臺管一類數(shù)據(jù),已經(jīng)完全不能滿足需求了。數(shù)據(jù)服務業(yè)務輸出持續(xù)增多,業(yè)務數(shù)據(jù)化運營意識逐漸成熟,對數(shù)據(jù)價值的期待也越來越高,這個階段就需要數(shù)據(jù)綜合治理 ,以數(shù)據(jù)資產(chǎn)為中心開展所有的數(shù)據(jù)工作,以業(yè)務可理解、便捷可消費及服務業(yè)務的資產(chǎn)化組織和管理方向。所以這個階段需要有更匹配的產(chǎn)品,有更好的體系,以數(shù)據(jù)資產(chǎn)為核心來做數(shù)據(jù)中臺的建設。
二、大數(shù)據(jù)建設,不僅僅是研發(fā)效能的問題
從阿里巴巴的業(yè)務角度來看,大數(shù)據(jù)的建設不單是研發(fā)效率的問題,不是只要有一個工具就能夠提高研發(fā)的效率,而是需要有一套體系化、理論化的東西來支撐整個數(shù)據(jù)中臺的建設,我們把它分成四個維度:

- 數(shù)據(jù)標準:由于多形態(tài)業(yè)務發(fā)展迅猛,煙囪式開發(fā)及局部業(yè)務服務支撐,導致同名指標不同口徑的問題頻發(fā);歷史不同業(yè)務系統(tǒng)逐步迭代上線,相同對象屬性編碼不一致等問題突出。只有知道要做什么,明確每一種數(shù)據(jù)的口徑表示,再著手業(yè)務和產(chǎn)品。
 - 數(shù)據(jù)質量:需要有一種工具能保障最終輸出的數(shù)據(jù)是符合這個口徑的。重復業(yè)務建設導致任務鏈冗長、任務數(shù)繁多,計算資源緊張,數(shù)據(jù)時效性不好;另外,口徑梳理定義的文檔與開發(fā)代碼脫節(jié),數(shù)據(jù)準確性保障風險高,所以要保證數(shù)據(jù)質量就是要糾正數(shù)據(jù),如果數(shù)據(jù)口徑不對,需要有處理機制來做糾偏。
 - 需求響應:煙囪式開發(fā)的開發(fā)周期長、效率低,面向應用的服務化不足,導致業(yè)務響應速度慢,業(yè)務不滿且技術無沉淀;既懂業(yè)務又懂數(shù)據(jù)的人才不足,需求理解到開發(fā)實現(xiàn)涉及大量溝通。因為我們的數(shù)據(jù)工作還是要為業(yè)務服務,從業(yè)務的角度來看,沒人不在意你使用什么工具,但是如果產(chǎn)品能夠輔助提高需求響應的速度,那么將是一個非常有價值的事情。
 - 成本資源:在做數(shù)據(jù)建設的時候還需要考量成本。煙囪式開發(fā)容易造成資源重復性浪費;上線難下線更難,源系統(tǒng)或業(yè)務變更不能及時反映到數(shù)據(jù)上,而且由于數(shù)據(jù)不標準,研發(fā)維護難上加難,大量無用計算和存儲造成資源浪費。
 
不能為了把需求、標準、質量做得更全更快更好,就無限量地投入資源。在成本上也是需要去考量的,所以在數(shù)據(jù)治理的時候,需要綜合這 4 個角度的指標來考察數(shù)據(jù)建設的成效。
三、阿里巴巴數(shù)據(jù)治理關鍵舉措
將分散的數(shù)據(jù)集中管理,制定一套統(tǒng)一的管理標準,通過統(tǒng)一數(shù)據(jù)平臺輸出數(shù)據(jù)產(chǎn)品服務各個業(yè)務,整體從資源到資產(chǎn)進行轉變。
1、工具+規(guī)范打造標準化采集
為支撐整個數(shù)據(jù)平臺的建設,第一要務是打造標準。流量采集中,建立相應的日志埋點標準,將數(shù)據(jù)上傳到日志采集中心,并通過各種采集工具、查看工具以及整套工具來管理和提升數(shù)據(jù)采集效率。同時,在埋點過程中,還需要制定相應規(guī)范并將其交予業(yè)務部門,這樣業(yè)務同學才能看到相應埋點,并最終轉換成實際數(shù)據(jù)。
2、閉環(huán)治理
在數(shù)據(jù)標準制定后,我們需要搭建整個數(shù)據(jù)治理的架構。這個架構分為多個部分,第一部分是內容治理。在這一方面,需要明確數(shù)據(jù)健康標準和數(shù)據(jù)治理對象,確定數(shù)據(jù)治理范圍和相應的治理方案。而我們已經(jīng)不再采取運動式或單點式的方案,轉而采用產(chǎn)品化、體系化的方案,并出現(xiàn)了一些評估體系來幫助我們進行數(shù)據(jù)治理。
在阿里內部,我們根據(jù)每個人使用數(shù)據(jù)的情況給予健康分,當健康分低于標準時,就需要采取問責機制,讓使用者推進自己的數(shù)據(jù)治理工作。而在存儲、計算和價值產(chǎn)出方面,也需要建立完整的機制進行數(shù)據(jù)治理。
3、實戰(zhàn)沉淀數(shù)據(jù)產(chǎn)品
經(jīng)過多年實踐,阿里巴巴提出的One Model數(shù)據(jù)模型已被行業(yè)廣泛應用,該標準將整個數(shù)據(jù)中臺分為三層,基礎層又被稱為ODS層,公共層或中間層則整合業(yè)務系統(tǒng)數(shù)據(jù),并以主題方式組織,為頂層應用層提供數(shù)據(jù)服務。在應用層角度,數(shù)據(jù)會按照不同的業(yè)務方和應用場景組織。
經(jīng)過多年的實踐,我們總結出以下需要注意的要點:
首先,數(shù)據(jù)需要有系統(tǒng)化的組織。在數(shù)據(jù)建設初期,需要建立頂層框架,明確整個組織需要哪些數(shù)據(jù),以及它們在哪些業(yè)務領域發(fā)揮作用。只有這樣,我們才能精確地劃分數(shù)據(jù)體系,進行合規(guī)采集、清洗和關聯(lián)等工作。
其次,我們需要工具來有效地生產(chǎn)數(shù)據(jù),高效的生產(chǎn)意味著避免重復生產(chǎn)并確保數(shù)據(jù)的質量。在這個過程中,技術人員需要積累經(jīng)驗并進行沉淀,技術本身應有沉淀。
第三,我們擁有完善的數(shù)據(jù)體系后,要向各個業(yè)務和應用場景提供便利的數(shù)據(jù)服務。目前已經(jīng)形成了獨具特色的大數(shù)據(jù)產(chǎn)品能力。也就是說,今天我們不僅要談論平臺和方法,我們需要將這些東西集成到一個產(chǎn)品中,集中于一個平臺上,以承載整個實踐過的最佳方法論,我們把它稱為“One Data”。
現(xiàn)在One Data方法論已產(chǎn)品化,即智能數(shù)據(jù)建設與治理Dataphin。

四、Dataphin智能數(shù)據(jù)建設與治理
Dataphin平臺的數(shù)據(jù)架構分為四個方面,包括數(shù)據(jù)采集、數(shù)據(jù)構建、數(shù)據(jù)管理和數(shù)據(jù)使用。

首先,Dataphin的數(shù)據(jù)集成能力,將各個業(yè)務系統(tǒng)數(shù)據(jù)收集到統(tǒng)一數(shù)據(jù)平臺,并提供數(shù)據(jù)構建能力,包括數(shù)據(jù)組織規(guī)劃、定義、開發(fā)和標簽提取。此過程中,還有很多輔助工具,如任務調度、運維和發(fā)布管理。
完成數(shù)據(jù)構建后,就需要數(shù)據(jù)管理能力,包括數(shù)據(jù)標準、質量、安全和資源消耗管理。為了確保數(shù)據(jù)能夠被消費者使用,Dataphin還提供數(shù)據(jù)資產(chǎn)運營能力,如數(shù)據(jù)資產(chǎn)目錄服務、數(shù)據(jù)資產(chǎn)上架服務、服務監(jiān)控以及在線查詢服務和API服務。
最后是數(shù)據(jù)消費能力,Dataphin可以與各個業(yè)務系統(tǒng)交互,同時也可以提供給Quick BI等報表展示工具和CDP引擎等廣告投放和營銷服務。
1、Dataphin 的核心的能力
Dataphin 的核心的能力主要是分成以下幾塊:

(1)數(shù)據(jù)引入:全域數(shù)據(jù)可集成
Dataphin支持像Oracle、SAP等的HandleFTP,包括許多API方式來接入這些數(shù)據(jù)。同時,在數(shù)據(jù)導入過程中,我們可以輕松清洗和轉換數(shù)據(jù),并將其輸出到數(shù)據(jù)中心,同時還能夠將處理好的數(shù)據(jù)提供給外部用戶以更好地服務。
(2)數(shù)據(jù)規(guī)范定義:100% 消除二義性
數(shù)據(jù)規(guī)范定義是One Model最核心的規(guī)范之一。規(guī)范由阿里巴巴首創(chuàng),很多數(shù)據(jù)平臺也在使用。規(guī)范會將數(shù)據(jù)在宏觀層面上分為數(shù)據(jù)板塊、主題域、業(yè)務實體、業(yè)務活動和業(yè)務對象。首先對數(shù)據(jù)板塊進行劃分,然后在板塊下進行主題域的劃分,再對主題域下的業(yè)務實體進行分析。
業(yè)務實體分為兩種類型。完成概念模型后,我們就會得到邏輯模型,在這個模型中,我們會識別每一個實體的屬性,并將其形成概念模型。
舉個例子,我們業(yè)務對象中的“客戶”,客戶會有姓名、年齡等屬性。當我們列出實體的所有屬性時,這些內容就構成了我們的邏輯模型,或者是邏輯表。在邏輯表上,我們可以定義原子指標業(yè)務限定。
原子指標指的是最小的、無法拆分的統(tǒng)計算子,例如銷售金額、支付金額等。業(yè)務限定是為了確定范圍,例如男性銷售金額、大額銷售金額等。這兩者都是定義在邏輯模型之上的。派生指標是指我們分析指標時所使用的,具有業(yè)務意義的指標。所有指標都可以拆分成四個基本部分,第一個是時間周期,例如最近30天的買家在無線端的預付金額就是一個有業(yè)務意義的指標。
Dataphin能夠判斷每個原子指標和業(yè)務線的定義是否與現(xiàn)有的定義重復,確保消除二義性。通過將所有內容拆分成最小的粒度,可以幫助用戶更好地理解和組織其數(shù)據(jù)建設體系,以及規(guī)范模型的建設。
(3)設計即開發(fā):保障數(shù)據(jù)模型與代碼的一致性
① 分鐘級自動化代碼生成
當用戶定義完成原子指標和業(yè)務限定后,需在界面上選擇統(tǒng)計周期、統(tǒng)計粒度和原子指標,并確認業(yè)務限定。系統(tǒng)會自動為用戶生成該指標的計算代碼,用戶無需干預,只需站在業(yè)務角度選擇所需指標。系統(tǒng)即可完成所有后臺代碼生成,實現(xiàn)設計即開發(fā)。
② 標簽萃取更需要快速簡單融入業(yè)務經(jīng)驗
除了進行模型和標準建設,我們還面向業(yè)務開發(fā)標簽等服務。目前,以 RTC 為例,主要應用場景是在營銷領域。為了為客戶提供更完整的營銷方案,我們會將 Dataphin 和Quick Audience兩個產(chǎn)品進行整合。
Dataphin將行為偏好標簽、行為統(tǒng)計標簽和靜態(tài)屬性標簽整合在一個標簽平臺中進行管理。同時,我們也與外部CDP平臺進行打通,包括我們內部的Quick Audience平臺,以便將這些數(shù)據(jù)推送給CDP平臺,從而進行廣告投放和其他營銷活動。
2、數(shù)據(jù)資產(chǎn)管理:標準、質量、安全、資源
然后除了這個模型的建設以及標簽的建設之外, Dataphin還提供了一個叫做資產(chǎn)的管理,我們資產(chǎn)的管理是叫做 360°全鏈路的數(shù)據(jù)洞察和管理。
首先,Dataphin提供的能力之一是數(shù)據(jù)標準化。我們可以接入國家標準、行業(yè)標準以及企業(yè)自定義的標準,并提供標準管理、類目維護、碼表和詞根等通用標準的能力。
第二,根據(jù)標準或用戶自定義來定義一些質量規(guī)則。對于數(shù)據(jù)表,我們可以設置字段空值校驗、唯一值校驗、波動性監(jiān)測和字段比對等多種質量規(guī)則。
同時,Dataphin還具備數(shù)據(jù)安全能力,包括數(shù)據(jù)分類分級、脫敏和加密,并可提供可信的數(shù)據(jù)交換和交易。
最后,數(shù)據(jù)治理功能可以控制計算、存儲資源消耗和成本,幫助用戶更好地管理和治理數(shù)據(jù)資產(chǎn)。
3、主題式服務
除了數(shù)據(jù)采集和管理工具之外,我們還提供面向數(shù)據(jù)消費者的主題化服務。這項服務不僅支持通過搜索方式進行查詢,還提供API及與其他工具的集成支持,讓用戶可以更加方便地利用我們的數(shù)據(jù)資源。由于我們并非完全基于物理表,而是擁有自己的數(shù)據(jù)模型,因此用戶不再需要直接查詢物理表、了解其表結構以及表與表之間的關聯(lián),僅需在邏輯模型上使用數(shù)據(jù)即可。
如某知名零售品牌企業(yè),通過Dataphin進行系統(tǒng)化建設、規(guī)劃數(shù)據(jù)方案,設計包括會員、商品交易和營銷相關的零售板塊用戶主題,集成企業(yè)的營銷、財務、CRM和ERP數(shù)據(jù)系統(tǒng),通過提取,處理接近200TB數(shù)據(jù),建立企業(yè)統(tǒng)一的用戶數(shù)據(jù)平臺,支持采購、供應鏈、運營和營銷優(yōu)化。
除了零售行業(yè),Dataphin在工業(yè)制造、金融、傳媒、地產(chǎn)、互聯(lián)網(wǎng)等各領域都有深度應用。
更多Dataphin能力介紹及企業(yè)應用實踐可查看白皮書《構建企業(yè)級“好數(shù)據(jù)”,Dataphin智能數(shù)據(jù)建設與治理》
產(chǎn)品了解:https://www.lydaas.com/dataphin。















 
 
 






 
 
 
 