偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

網(wǎng)易傳媒數(shù)據(jù)管治建設(shè)實(shí)踐

數(shù)據(jù)庫 新聞
傳媒的數(shù)據(jù)管治體系,解決了資源使用負(fù)載高、不可控的痛點(diǎn),搭建了數(shù)據(jù)資產(chǎn)登記和成本運(yùn)營體系,保障了數(shù)據(jù)生產(chǎn)長期穩(wěn)定,為自動(dòng)化數(shù)據(jù)治理提供了一個(gè)很好的落地方案。

全文將圍繞以下四部分展開:

  • 傳媒業(yè)務(wù)介紹
  • 數(shù)倉建設(shè)演進(jìn)
  • 數(shù)據(jù)管治體系
  • 數(shù)據(jù)管治展望

01傳媒業(yè)務(wù)介紹

1. 業(yè)務(wù)介紹

圖片?

網(wǎng)易從門戶網(wǎng)站到新聞客戶端,我們的目標(biāo)是讓用戶在短時(shí)間內(nèi)去中心化地獲取內(nèi)容信息。整體的業(yè)務(wù)流程可以簡單理解為:內(nèi)容生產(chǎn)者生產(chǎn)內(nèi)容,平臺(tái)負(fù)責(zé)分發(fā),用戶去消費(fèi)這些內(nèi)容。

大數(shù)據(jù)團(tuán)隊(duì)的工作職責(zé)是:支撐業(yè)務(wù)運(yùn)營日?qǐng)?bào)等核心數(shù)據(jù)報(bào)告的產(chǎn)出,支撐ab實(shí)驗(yàn)平臺(tái)、運(yùn)營平臺(tái)、渠道分析等各個(gè)系統(tǒng)的一個(gè)數(shù)據(jù)產(chǎn)出,提供個(gè)性化自助報(bào)表及數(shù)據(jù)的多維分析服務(wù),客戶端買點(diǎn)的數(shù)據(jù)采集以及買點(diǎn)規(guī)范化的數(shù)據(jù)建設(shè)。

2. 數(shù)據(jù)架構(gòu)

圖片

數(shù)據(jù)架構(gòu)從上到下分為數(shù)據(jù)接入層、數(shù)據(jù)計(jì)算層、數(shù)據(jù)服務(wù)層和數(shù)據(jù)應(yīng)用層。

  • 數(shù)據(jù)接入層:將業(yè)務(wù)數(shù)據(jù)庫的數(shù)據(jù)(比如內(nèi)容生產(chǎn)數(shù)據(jù)、用戶信息)、公司集團(tuán)的數(shù)據(jù)(如用戶畫像等),還有客戶端日志、服務(wù)端日志等,這些結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)統(tǒng)一接入數(shù)倉。
  • 數(shù)據(jù)計(jì)算層:采用Lambda架構(gòu),離線計(jì)算和實(shí)時(shí)計(jì)算分離,離線計(jì)算采用Spark on Hive,實(shí)時(shí)計(jì)算采用Flink,離線和實(shí)時(shí)數(shù)倉分層是統(tǒng)一的,從下到上分別是ODS層、DWD層、DWS層和APP層。
  • 數(shù)據(jù)服務(wù)層:包括兩部分,一部分是數(shù)據(jù)工具層的存儲(chǔ),另一部分是數(shù)據(jù)標(biāo)準(zhǔn)服務(wù),我們標(biāo)準(zhǔn)化、統(tǒng)一化了數(shù)據(jù)輸出。
  • 數(shù)據(jù)應(yīng)用層:包括內(nèi)部數(shù)據(jù)應(yīng)用和外部數(shù)據(jù)應(yīng)用。

02 數(shù)倉建設(shè)演進(jìn)

接下來給大家介紹傳媒的數(shù)倉建設(shè)的演進(jìn)歷程。

1. 從1.0到2.0

圖片

2015年之前,當(dāng)時(shí)的背景是我們公司業(yè)務(wù)還處在一個(gè)門戶資訊的階段,這個(gè)時(shí)候的內(nèi)容形式比較單一,大多是以新聞文章、圖文為主,數(shù)據(jù)的豐富度比較低,數(shù)據(jù)量級(jí)也很小,數(shù)據(jù)需求以面向公司整體的運(yùn)營的數(shù)據(jù)報(bào)表為主。當(dāng)時(shí)沒有專業(yè)的數(shù)據(jù)團(tuán)隊(duì),所有的數(shù)據(jù)需求都統(tǒng)一是平臺(tái)組去支撐。

隨著公司業(yè)務(wù)發(fā)展,我們從門戶資訊向泛資訊轉(zhuǎn)型,內(nèi)容載體不再只是圖文文章,陸續(xù)引入了視頻、直播等新的載體。內(nèi)容生產(chǎn)方也不僅是編輯老師,而是增加了PGC、UGC,內(nèi)容生產(chǎn)更加多元化,同時(shí)也衍生出了很多平臺(tái),數(shù)據(jù)需求常常得不到及時(shí)響應(yīng)。另一方面,之前的數(shù)據(jù)統(tǒng)計(jì)邏輯大多在APP層,數(shù)據(jù)口徑不統(tǒng)一,對(duì)數(shù)、問題排查的成本極高。

我們開啟了數(shù)倉2.0,從零到一去搭建數(shù)據(jù)團(tuán)隊(duì),數(shù)倉建模采用維度建模的方法,自下而上進(jìn)行數(shù)據(jù)建設(shè),以高效支持業(yè)務(wù)需求為目的。我們也取得了如下的成果,確定了一個(gè)清晰的數(shù)據(jù)分層,確定了面向業(yè)務(wù)過程的數(shù)倉主題后使得影響范圍是可控的,數(shù)據(jù)輸出產(chǎn)品化,衍生了傳媒數(shù)據(jù)報(bào)表門戶、內(nèi)容運(yùn)營平臺(tái)等數(shù)據(jù)產(chǎn)品,較好地支持了定制化的數(shù)據(jù)產(chǎn)品需求,也較好的支持了業(yè)務(wù)的精細(xì)化運(yùn)營。

2. 從2.0到3.0

圖片

我們?cè)诮衲瓿蹰_啟了數(shù)倉3.0,針對(duì)臨時(shí)數(shù)據(jù)需求,開始進(jìn)行面向分析主題的一個(gè)寬表建設(shè),再加寬表模型產(chǎn)品化輸出,和業(yè)務(wù)方定期宣講我們的寬表模型以及自助取出工具使用,讓業(yè)務(wù)方直接在產(chǎn)品層面界面化的探索,獲取自己想要的數(shù)據(jù)。我們還對(duì)數(shù)倉層級(jí)進(jìn)行了簡化,將原來的六個(gè)層級(jí),在邏輯層面簡化為了標(biāo)準(zhǔn)的四層,并在ODS層引入了視圖,將數(shù)據(jù)解耦。

03 數(shù)據(jù)管治體系

1. 開展數(shù)據(jù)管治的背景

圖片

傳媒業(yè)務(wù)快速發(fā)展,數(shù)據(jù)團(tuán)隊(duì)承接了大量的數(shù)據(jù)需求,同時(shí)在資源成本、數(shù)據(jù)質(zhì)量以及研發(fā)效率上面臨了很多痛點(diǎn)問題:

  • 成本:資源使用負(fù)載高,資源使用不可控,為了資源最大化使用,所有離線任務(wù)都是提交到一個(gè)隊(duì)列上,沒有限制,一個(gè)不規(guī)范的任務(wù)占用大量資源,影響核心報(bào)表產(chǎn)出的情況在所難免。
  • 質(zhì)量:由于資源使用負(fù)載高和不可控,導(dǎo)致數(shù)據(jù)SLA不穩(wěn)定,并且數(shù)據(jù)質(zhì)量建設(shè)體系缺失。
  • 效率:資源的限制也限制了研發(fā)效率,使得數(shù)據(jù)需求交付周期長。

綜合以上問題,我們確定數(shù)據(jù)治理是非常必要的。

2. 數(shù)據(jù)管理框架

圖片

數(shù)據(jù)治理建設(shè)圍繞DAMA數(shù)據(jù)管理指南展開,分為十個(gè)模塊,整體是以元數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)治理。本次將重點(diǎn)介紹在數(shù)據(jù)建模與設(shè)計(jì)、元數(shù)據(jù)管理、數(shù)據(jù)資產(chǎn)管理和數(shù)據(jù)成本管理方面的實(shí)踐。

①數(shù)據(jù)建模與設(shè)計(jì)

圖片

數(shù)據(jù)的循環(huán)流轉(zhuǎn)包括兩部分:第一部分是數(shù)據(jù)化運(yùn)營,也就是用數(shù)據(jù),讓客戶快速獲取想要的數(shù)據(jù);第二部分是運(yùn)營數(shù)據(jù),也就是養(yǎng)數(shù)據(jù)、管數(shù)據(jù),主要包括收集數(shù)據(jù)、數(shù)據(jù)分層、面向主題建設(shè),不斷改進(jìn)數(shù)據(jù)模型、提升數(shù)據(jù)質(zhì)量,讓數(shù)據(jù)變得更加易用。

基于數(shù)據(jù)的循環(huán)流轉(zhuǎn),我們規(guī)范了數(shù)據(jù)的研發(fā)流程。從用數(shù)據(jù)到養(yǎng)數(shù)據(jù),再到用數(shù)據(jù),形成了數(shù)據(jù)應(yīng)用的閉環(huán)。

②元數(shù)據(jù)管理?

圖片

隨著數(shù)據(jù)產(chǎn)生速度的加快,元數(shù)據(jù)成為數(shù)據(jù)遷移和集成中不可或缺的一部分。隨著存儲(chǔ)能力的提升,元數(shù)據(jù)管理的作用也越來越重要。我們參考了DAMA數(shù)據(jù)管理指南,確定了元數(shù)據(jù)的語境關(guān)系圖,描述了元素?fù)?jù)體系建設(shè)落地流程:確定元數(shù)據(jù)管理的目標(biāo)-元數(shù)據(jù)的實(shí)施-從技術(shù)出發(fā)實(shí)現(xiàn)對(duì)元數(shù)據(jù)解析和影響分析。

  • 元數(shù)據(jù)管理之元數(shù)據(jù)構(gòu)成?

圖片

我們將元數(shù)據(jù)體系分為四塊:業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)、過程元數(shù)據(jù)和安全元數(shù)據(jù)。

  • 元數(shù)據(jù)管理之?dāng)?shù)據(jù)地圖

圖片?

第一塊是數(shù)倉表導(dǎo)引,基于數(shù)據(jù)的使用頻率以及業(yè)務(wù)的重要性,將數(shù)倉每個(gè)主題域下的一些核心的數(shù)據(jù)表對(duì)外開放,大家可以對(duì)數(shù)倉產(chǎn)出的所有的數(shù)據(jù)有個(gè)全局性的了解。

第二塊是數(shù)據(jù)洞察,當(dāng)前只是初步實(shí)現(xiàn)了幫助用戶找數(shù)據(jù)、用數(shù)據(jù)的功能。

③數(shù)據(jù)資產(chǎn)管理

圖片

第一步,定義數(shù)據(jù)資產(chǎn)等級(jí),分為L1-L4四個(gè)等級(jí)。第一塊是l4等級(jí),是具有全局影響的一個(gè)數(shù)據(jù)資產(chǎn),像項(xiàng)目的管理層日?qǐng)?bào)等;第二塊是l3等級(jí),是具有局部影響的數(shù)據(jù)資產(chǎn),主要包括支撐業(yè)務(wù)的決策分析,就某個(gè)核心業(yè)務(wù)線獨(dú)有的一些核心指標(biāo)和核心維度;第三塊是l2等級(jí),是具有一般影響的數(shù)據(jù)資產(chǎn),這塊兒出現(xiàn)問題幾乎不會(huì)帶來影響,或者帶來的影響非常小。最后一塊是l1等級(jí),這塊是具有未知影響的一個(gè)數(shù)據(jù)資產(chǎn)。有了數(shù)據(jù)資產(chǎn)等級(jí)的定點(diǎn),然后接下來就是如何去落地去執(zhí)行了。

圖片?

第二步,落地執(zhí)行:數(shù)據(jù)是從業(yè)務(wù)系統(tǒng)中產(chǎn)生的,然后經(jīng)過同步工具進(jìn)入到數(shù)倉,最后再通過同步工具輸出到數(shù)據(jù)產(chǎn)品中進(jìn)行消費(fèi)。不同的數(shù)據(jù)產(chǎn)品劃分等級(jí),再根據(jù)數(shù)據(jù)的血緣關(guān)系打上資產(chǎn)等級(jí)標(biāo)簽,不同等級(jí)采取相應(yīng)保障措施。核心資產(chǎn)的占比會(huì)控制在30%以內(nèi),同時(shí)會(huì)有準(zhǔn)入準(zhǔn)出的一個(gè)嚴(yán)格的審核流程。通過數(shù)據(jù)資產(chǎn)等級(jí)體系,確定了四個(gè)資產(chǎn)等級(jí),36個(gè)核心數(shù)據(jù)報(bào)表,153個(gè)核心的數(shù)據(jù)生產(chǎn)任務(wù)。

④數(shù)據(jù)成本管理?

資源成本優(yōu)化分三塊:存儲(chǔ)成本治理、計(jì)算成本治理、資源成本運(yùn)營體系。

  • 存儲(chǔ)成本治理

圖片

通過存儲(chǔ)使用監(jiān)控、僵尸文件管理、生命周期管理、存儲(chǔ)格式壓縮和數(shù)據(jù)模型優(yōu)化的舉措,近幾年數(shù)據(jù)的物理存儲(chǔ)降低25%,當(dāng)前周期內(nèi)數(shù)據(jù)存儲(chǔ)的占用值處在穩(wěn)定階段。

  • 計(jì)算成本治理?

圖片

搭建計(jì)算成本的監(jiān)控體系,設(shè)計(jì)相應(yīng)維度和指標(biāo)。

圖片?

通過僵尸任務(wù)治理、郵件任務(wù)遷移等策略執(zhí)行,今年2月以來CPU使用率逐步降低且趨于穩(wěn)定。資源空閑下來,數(shù)據(jù)使用方可以及時(shí)獲取數(shù)據(jù),調(diào)整運(yùn)營策略。

  • 資源成本運(yùn)營體系?

建設(shè)了資源成本運(yùn)營體系,分為事前、事中、事后。

圖片

事前對(duì)資源消耗場(chǎng)景進(jìn)行了拆解,確定了每個(gè)場(chǎng)景的資源使用方,制定了《離線數(shù)據(jù)研發(fā)規(guī)范》等,并定期組織串講。事前主要保障大家對(duì)研發(fā)規(guī)范的認(rèn)知對(duì)齊,減少不規(guī)范數(shù)據(jù)的提交。

圖片?

事中主要是對(duì)數(shù)據(jù)任務(wù)的上限審核。目前是主要圍繞數(shù)據(jù)任務(wù)占用計(jì)算資源、存儲(chǔ)資源、SQL代碼規(guī)范以及調(diào)度信息設(shè)置四塊進(jìn)行審核,避免不規(guī)范的任務(wù)上線,從而影響核心報(bào)表的一個(gè)數(shù)據(jù)產(chǎn)出。

圖片

事后的資源治理,一是對(duì)資源成本治理進(jìn)行分類:計(jì)算成本治理主要包括無效任務(wù)的治理、超長任務(wù)的優(yōu)化,以此提高資源的使用率;存儲(chǔ)成本治理上主要包括冷熱數(shù)據(jù)的管理、數(shù)據(jù)模型的優(yōu)化、數(shù)據(jù)生命周期的管理等;數(shù)據(jù)采集上主要包括日志上下游的應(yīng)用監(jiān)控、無效買點(diǎn)的清理下線。二是在計(jì)算資源方面,根據(jù)CPU和內(nèi)存的資源消耗統(tǒng)計(jì)了資源使用任務(wù)的排行榜,定期去優(yōu)化計(jì)算資源占用top的數(shù)據(jù)任務(wù)和存儲(chǔ)資源。

小結(jié):從資源視角看,通過存儲(chǔ)治理策略,近一年數(shù)據(jù)存儲(chǔ)減負(fù)25%,通過計(jì)算治理策略,CPU占用率降低了25%,通過建立資源成本的保障體系,資源使用穩(wěn)定、流程合理。從業(yè)務(wù)視角看,部分?jǐn)?shù)據(jù)報(bào)表產(chǎn)出從12:00提升到10:00前,產(chǎn)出時(shí)間穩(wěn)定,運(yùn)營、編輯、分析師、產(chǎn)品人員可以在上午處理數(shù)據(jù)需求。

04 數(shù)據(jù)管治展望

圖片?

結(jié)合DAMA的數(shù)據(jù)管理成熟度評(píng)估以及傳媒業(yè)務(wù)的實(shí)際情況,我們認(rèn)為數(shù)據(jù)治理主要有四個(gè)階段。

第一階段是初始階段,大家使用有限的工具集進(jìn)行通用的數(shù)據(jù)管理,很少或者根本沒有治理活動(dòng),然后數(shù)據(jù)處理過程中的角色和責(zé)任在各個(gè)部門中是分開定義的,數(shù)據(jù)質(zhì)量問題也是普遍存在的,基礎(chǔ)設(shè)施的支持也處于業(yè)務(wù)的單元級(jí)別。

第二階段是可重復(fù)級(jí)別。這個(gè)階段有一致的工具集或和角色來支持?jǐn)?shù)據(jù)治理流程的執(zhí)行,開始使用集中化的工具去展開數(shù)據(jù)治理活動(dòng)。在這個(gè)階段是主要是解決一個(gè)或者幾個(gè)非常關(guān)鍵的問題,在治理實(shí)施的過程中,大多還是依靠人為手動(dòng)處理問題,組織也開始關(guān)注數(shù)據(jù)質(zhì)量的問題。

第三階段是管理級(jí),引入了可擴(kuò)展的數(shù)據(jù)管理流程并且將它制度化。從數(shù)據(jù)生產(chǎn)的鏈路、整體的視角去集中規(guī)劃數(shù)據(jù)治理的一些相關(guān)功能。這個(gè)時(shí)候組織開始關(guān)注管理與數(shù)據(jù)相關(guān)的風(fēng)險(xiǎn),并且確定數(shù)據(jù)管理評(píng)價(jià),可量化的一些指標(biāo)體系。

最后階段是優(yōu)化級(jí),從前面的三個(gè)級(jí)別中獲取的一些經(jīng)驗(yàn)積累,然后結(jié)合強(qiáng)大的元數(shù)據(jù)體系,使得數(shù)據(jù)治理活動(dòng)自動(dòng)化,并且是高度可預(yù)測(cè)的。

網(wǎng)易傳媒2021年從零到一去開展數(shù)據(jù)治理,主要解決了資源使用負(fù)載高、不可控的痛點(diǎn),搭建了數(shù)據(jù)資產(chǎn)的等級(jí)體系和資源成本的保障、運(yùn)營體系,使得數(shù)據(jù)生產(chǎn)可長期穩(wěn)定可控。接下來希望依賴完善的元數(shù)據(jù)體系,實(shí)現(xiàn)數(shù)據(jù)治理活動(dòng)的標(biāo)準(zhǔn)化、自動(dòng)化。

05 Q&A

Q:數(shù)據(jù)鏈路監(jiān)控需要監(jiān)控整個(gè)卡夫卡的集群還是監(jiān)控寫入和讀取的數(shù)據(jù)就可以了?上升到數(shù)據(jù)質(zhì)量是怎么做的?

A:我們會(huì)對(duì)卡夫卡、MySQL以及Oracle過來的數(shù)據(jù)進(jìn)行數(shù)據(jù)一致性的監(jiān)控,監(jiān)控范圍包括接入數(shù)倉后的數(shù)據(jù)量和原來數(shù)據(jù)的數(shù)據(jù)量是不是一致,我們會(huì)根據(jù)資產(chǎn)等級(jí)體系對(duì)核心數(shù)據(jù)進(jìn)行監(jiān)控保障數(shù)據(jù)整體質(zhì)量。

Q:數(shù)據(jù)治理中數(shù)據(jù)量化比較難,有沒有好的方法或者一些實(shí)踐?

A:我們?cè)谧鰯?shù)據(jù)治理推動(dòng)的時(shí)候,一個(gè)是治理可以對(duì)業(yè)務(wù)帶來哪些價(jià)值,明確了治理效果才能推動(dòng)落地執(zhí)行。第二是元數(shù)據(jù)的覆蓋度和準(zhǔn)確性。

Q:傳媒的數(shù)據(jù)治理的數(shù)據(jù)量多少?用到什么框架?

A:涉及到數(shù)據(jù)表的元數(shù)據(jù)大約4000張,數(shù)據(jù)報(bào)告超過1200,還有一些不能衡量的元數(shù)據(jù)。我們這邊參考DAMA數(shù)據(jù)管理知識(shí)體系,整體上以元數(shù)據(jù)驅(qū)動(dòng)整個(gè)治理工作的展開。

Q:傳媒血緣體系如何實(shí)現(xiàn)的,是否需要人工介入,準(zhǔn)確度有多少?

A:我們這邊的血緣體系主要包括兩塊,一塊是數(shù)據(jù)表的血緣關(guān)系,通過Hive的插件掃描SQL的代碼實(shí)現(xiàn)。第二塊是數(shù)據(jù)表對(duì)應(yīng)的數(shù)據(jù)任務(wù)的血緣關(guān)系,主要靠大家在猛犸的離線開發(fā)建立任務(wù)。兩塊都會(huì)結(jié)合,以數(shù)據(jù)任務(wù)的血緣關(guān)系為準(zhǔn)。

責(zé)任編輯:張燕妮 來源: DataFunTalk
相關(guān)推薦

2022-11-10 08:48:20

開源數(shù)據(jù)湖Arctic

2017-11-30 09:59:14

2020-12-31 11:21:10

聚焦數(shù)據(jù)

2015-01-19 17:11:46

易傳媒阿里巴巴大數(shù)據(jù)

2013-03-18 16:51:59

2014-08-18 13:44:22

易傳媒

2011-08-12 15:26:20

LBS營銷

2014-04-28 14:21:44

移動(dòng)DMP

2014-05-29 10:21:22

易傳媒

2017-12-01 13:13:39

AI網(wǎng)易傳媒信息流

2014-03-19 10:43:57

易傳媒

2015-01-14 15:42:26

易傳媒阿里巴巴

2022-08-14 14:41:57

系統(tǒng)建設(shè)實(shí)踐

2014-03-03 13:33:03

易傳媒移動(dòng)DSP

2014-06-17 10:41:37

易傳媒

2022-09-19 18:29:20

數(shù)據(jù)資產(chǎn)管理

2023-06-12 07:44:21

大數(shù)據(jù)數(shù)據(jù)治理

2023-04-10 07:34:30

2022-07-05 09:48:25

DevSecOps工商銀行安全管控

2022-05-20 11:38:38

網(wǎng)易智能運(yùn)維
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)