聯(lián)通數(shù)科基于一體化數(shù)據(jù)平臺的元數(shù)據(jù)管理實踐
一、背景和挑戰(zhàn)
1. 數(shù)據(jù)要素發(fā)展背景下的數(shù)據(jù)平臺工具現(xiàn)狀
近年來,我國對“數(shù)據(jù)”的戰(zhàn)略地位日益提升,從將其定位為“國家基礎(chǔ)性戰(zhàn)略資源”、“關(guān)鍵生產(chǎn)要素”,到國家數(shù)據(jù)局成立后發(fā)布的“數(shù)據(jù)要素三年行動計劃”,都顯示了對數(shù)據(jù)重視程度的不斷增強。這不僅更準(zhǔn)確地體現(xiàn)了數(shù)據(jù)的業(yè)務(wù)和經(jīng)濟價值,也提高了對市場主體在數(shù)據(jù)管理方面的要求。目標(biāo)是在龐大的市場規(guī)模、海量數(shù)據(jù)資源和多樣化應(yīng)用場景中,充分發(fā)揮數(shù)據(jù)的乘數(shù)效應(yīng),推動經(jīng)濟社會發(fā)展。在不斷地探索和實踐中,數(shù)據(jù)的標(biāo)準(zhǔn)定義也日益明確。
廣義上,數(shù)據(jù)是任何形式記錄的信息,包括電子或其他方式。它經(jīng)過采集、治理、整合等治理分析過程,轉(zhuǎn)化為“數(shù)據(jù)資源”。那些能夠帶來經(jīng)濟利益或其成本能夠可靠計量的數(shù)據(jù)資源,被定義為“數(shù)據(jù)資產(chǎn)”,未來可進行會計入表或交易。目前,市場正處于數(shù)據(jù)資源管理的階段,必須夯實基礎(chǔ),為數(shù)據(jù)資產(chǎn)的入表和交易等后續(xù)工作打下堅實基礎(chǔ)。
2. 聯(lián)通數(shù)科一體化數(shù)據(jù)平臺所獲認(rèn)可與榮譽
聯(lián)通數(shù)科一體化數(shù)據(jù)資產(chǎn)管理平臺獲得了非常多的認(rèn)可與榮譽,包括工信部、環(huán)保部、DAMA 等頒發(fā)的獎項。2023 年數(shù)字資產(chǎn)管理大會的《數(shù)據(jù)治理產(chǎn)業(yè)圖 2.0》中,我們有 12 項能力入選圖譜。在 2023 年的信通院組織的元數(shù)據(jù)管理平臺專項評測里,我們的一體化數(shù)據(jù)資產(chǎn)管理平臺下的元數(shù)據(jù)管理模塊也是首家首批通過專項評測的平臺工具。
3. 元數(shù)據(jù)管理的挑戰(zhàn)與解法
針對于元數(shù)據(jù)管理,我們面臨以下挑戰(zhàn):
(1)操作層面
元數(shù)據(jù)實施或者運維的過程中,實施人員面臨“找不到、讀不懂、操作難”的問題。“找不到、讀不懂”是元數(shù)據(jù)本身要解決的最核心問題,“操作難”是因為傳統(tǒng)的元數(shù)據(jù)管理工具過多地依賴于人工操作。為了減少人力成本投入、提高元數(shù)據(jù)的準(zhǔn)確性,需要將這部分能力進行自動化,減少分人工操作的復(fù)雜性。
(2)管理層面
從整個數(shù)據(jù)治理管理過程角度,元數(shù)據(jù)面臨著“對接難,存儲難,見效難”的問題?!皩与y”指如何對多源資源進行統(tǒng)一接入及管理;“存儲難”指的是大量數(shù)據(jù)占據(jù)大量的存儲計算資源,資源的耗費如何通過元數(shù)據(jù)管理進行生命周期的控制,降低資源的浪費;“見效難”指的是元數(shù)據(jù)如何去產(chǎn)生價值,能夠體現(xiàn)出效用。
針對上述問題,我們采取了自動化、鏈接+、智能化三個解法。
(1)自動化
減少人工的操作,目前元數(shù)據(jù)管理平臺部署之后,只需要很少的人工操作,就能夠?qū)⒄麄€平臺跑起來,并且后續(xù)也不需要進行定期的維護,只需要在發(fā)生問題的時候進行核驗和排查。
(2)鏈接+
基于一體化平臺內(nèi)的多個模塊,與元數(shù)據(jù)平臺進行連接,共同對平臺數(shù)據(jù)管理過程進行賦能。同時支持對接其它外部管理模塊與平臺進行鏈接,提供標(biāo)準(zhǔn)的對接方式。
(3)智能化
基于大模型、數(shù)據(jù)虛擬化等技術(shù)進行探索,將平臺變得更智能、更好用。
二、探索與實踐
接下來介紹我們基于上述三個解法開展的具體的探索與實踐。
1. 聯(lián)通數(shù)科數(shù)據(jù)資源管理現(xiàn)狀
一體化平臺基于聯(lián)通數(shù)科內(nèi)部的需求進行研發(fā),主要在公司內(nèi)部進行使用。內(nèi)部500 + 數(shù)據(jù)庫、2.3 萬 + 張表、200 萬 + 字段、2000 + 數(shù)據(jù)節(jié)點,都是通過一體化平臺進行管理的,日均數(shù)據(jù)量達到 500 TB 級別。
此外我們對于平臺進行了一系列產(chǎn)品化的工作,并拓展了一些外部項目。平臺內(nèi)的數(shù)據(jù)服務(wù)了 1000 + 家政企客戶,并且基于一體化平臺,交付了 50 多個外部項目,其中包括 20 + 省部級以上的項目,所以我們對于元數(shù)據(jù)管理具備較強的實施及使用經(jīng)驗。
2. 一體化元數(shù)據(jù)管理整體流程
在元數(shù)據(jù)管理流程中,我們主要關(guān)注三類元數(shù)據(jù):業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。流程的起點是建立數(shù)據(jù)標(biāo)準(zhǔn),以此為基礎(chǔ)構(gòu)建邏輯模型,這些活動都屬于業(yè)務(wù)元數(shù)據(jù)的構(gòu)建階段。在構(gòu)建邏輯模型的同時,我們補充和整理業(yè)務(wù)元數(shù)據(jù),為后續(xù)的采集和展示做準(zhǔn)備。
隨著邏輯模型的物化,我們進入技術(shù)元數(shù)據(jù)的處理階段,創(chuàng)建物理模型。數(shù)據(jù)通過采集、加工計算等步驟進入數(shù)據(jù)倉庫,這是在線事務(wù)處理(OLTP)的過程。在這個過程中,物理模型、數(shù)據(jù)采集任務(wù)、數(shù)據(jù)加工任務(wù)等信息作為技術(shù)元數(shù)據(jù)被納入元數(shù)據(jù)管理平臺。
在數(shù)據(jù)倉庫建設(shè)過程中,我們對每個節(jié)點進行數(shù)據(jù)質(zhì)量稽核,并將稽核結(jié)果作為技術(shù)元數(shù)據(jù)存儲。此外,在線分析處理(OLAP)過程中的數(shù)據(jù)指標(biāo)構(gòu)建、標(biāo)簽構(gòu)建、BI 看板構(gòu)建等信息也屬于技術(shù)元數(shù)據(jù)的采集范圍。數(shù)據(jù)倉庫中數(shù)據(jù)還可被轉(zhuǎn)換為 API,這些 API 同樣作為技術(shù)元數(shù)據(jù)進行統(tǒng)一管理。
元數(shù)據(jù)管理平臺最終對數(shù)據(jù)表、數(shù)據(jù)指標(biāo)、數(shù)據(jù)標(biāo)簽、BI 看板、API、數(shù)據(jù)目錄等六大類資源進行統(tǒng)一元數(shù)據(jù)采集,覆蓋從數(shù)據(jù)采集到應(yīng)用的全流程過程。
為了進一步完善元數(shù)據(jù)管理,我們還與一體化平臺中的其他模塊對接,管理元數(shù)據(jù)中的相關(guān)內(nèi)容。例如,我們對接數(shù)據(jù)表的生命周期管理模塊,將生命周期信息作為管理元數(shù)據(jù)進行管理。同時,我們還對接數(shù)據(jù)表操作日志記錄和數(shù)據(jù)安全分類分級的產(chǎn)品模塊。
通過這些步驟,我們構(gòu)建了一個全面的元數(shù)據(jù)管理流程,確保數(shù)據(jù)的準(zhǔn)確性、完整性和可用性。
3. 元數(shù)據(jù)自動化管理
元數(shù)據(jù)自動化管理的核心目的是減少人工的干預(yù),提升管理效率,并提升元數(shù)據(jù)的準(zhǔn)確性,管理覆蓋元數(shù)據(jù)的采集、管理、質(zhì)量、統(tǒng)計分析的全過程。
(1)采集
元數(shù)據(jù)采集任務(wù)只需配置相應(yīng)的數(shù)據(jù)表、數(shù)據(jù)庫等元數(shù)據(jù)信息,設(shè)置采集時間周期、過濾字段后,系統(tǒng)可以按照設(shè)置的周期自動執(zhí)行采集任務(wù)。支持在采集實例模塊查看每次采集的狀態(tài)(成功或失敗),同時對于采集失敗的任務(wù),可以使用日志分析模塊協(xié)助排查問題。
系統(tǒng)支持采集任務(wù)的自動啟停,可以一鍵式地對采集任務(wù)進行開關(guān),方便在不需要采集的時候,隨時停止采集任務(wù)。
(2)管理
采集好的元數(shù)據(jù)會自動發(fā)布,形成元數(shù)據(jù)目錄。如果元數(shù)據(jù)發(fā)生變化,則可以通過自動定版的方式自動生成版本號,也可以采用手動定版的方式對版本號進行變更。此外,系統(tǒng)基于每個用戶的權(quán)限、機構(gòu)等信息,對元數(shù)據(jù)的維護權(quán)限進行自動控制。
(3)質(zhì)量
對元數(shù)據(jù)的質(zhì)量校驗包括三種校驗方式:一致性稽核、完整性稽核和標(biāo)準(zhǔn)覆蓋稽核。一致性稽核指校驗不同元數(shù)據(jù)在不同分層或環(huán)境中的變化,并形成分析報告;完整性稽核指分析元數(shù)據(jù)采集上來之后是否完整;標(biāo)準(zhǔn)覆蓋稽核指元數(shù)據(jù)每個字段是否關(guān)聯(lián)了數(shù)據(jù)標(biāo)準(zhǔn)。
(4)統(tǒng)計分析
在質(zhì)量統(tǒng)計模塊展示質(zhì)量統(tǒng)計報告及數(shù)據(jù)分析,用以監(jiān)控元數(shù)據(jù)的質(zhì)量問題,方便對元數(shù)據(jù)進行改善和調(diào)優(yōu)。同時,基于六大類數(shù)據(jù)資源形成分層分域、安全等級等統(tǒng)計,幫助用戶隨時明晰平臺內(nèi)數(shù)據(jù)資源的整體概況。
4. 元數(shù)據(jù)平臺鏈接+
傳統(tǒng)的元數(shù)據(jù)管理只是對表進行管理,而聯(lián)通數(shù)科內(nèi)部還會有其它一些內(nèi)容鏈接到元數(shù)據(jù)管理平臺。鏈接內(nèi)容及方式主要包括:
(1)數(shù)據(jù)資源類
包括表、分析、API、目錄等四類數(shù)據(jù)資源。表類資源包括數(shù)據(jù)模型、集群存儲、邏輯入湖;分析資源包括數(shù)據(jù)指標(biāo)、數(shù)據(jù)標(biāo)簽、BI 看板;API 包括表轉(zhuǎn)服務(wù) API,以及第三方注冊的API;目錄包括對外共享、對外開放的數(shù)據(jù)目錄,也包括數(shù)據(jù)交易、數(shù)據(jù)流通場景中的數(shù)據(jù)目錄等。
(2)任務(wù)調(diào)度類
主要包括通過平臺執(zhí)行的數(shù)據(jù)采集、數(shù)據(jù)加工、數(shù)據(jù)分析等任務(wù)。對任務(wù)的 SQL 進行解析,提取鏈路信息,獲取任務(wù)執(zhí)行成功或者失敗的情況、執(zhí)行時間、消耗資源等信息,并接入元數(shù)據(jù)平臺。
(3)外部系統(tǒng)類
除了一體化平臺內(nèi)部的信息外,我們在項目上也探索將外部的系統(tǒng)集成到平臺,比如通過數(shù)據(jù)推送(接口或 Kafka)把對方的數(shù)據(jù)推過來,或者采取數(shù)據(jù)拉?。↗DBC 或?qū)樱┑姆绞?,把系統(tǒng)里面的數(shù)據(jù)統(tǒng)一納入到元數(shù)據(jù)管理平臺。
鏈接的內(nèi)容接到平臺里后,首先由元模型管理模塊定義各類數(shù)據(jù)資源應(yīng)該采集的數(shù)據(jù),數(shù)據(jù)采集后落到元模型里面,并產(chǎn)出元數(shù)據(jù)目錄。元數(shù)據(jù)目錄與一體化平臺內(nèi)部的分類分級等模塊聯(lián)動補齊管理數(shù)據(jù),形成全鏈血緣分析,最終應(yīng)用在資產(chǎn)梳理、流向分析、比對驗證等場景。
5. 全鏈血緣管理
基于“鏈接+”的能力,實現(xiàn)了全鏈血緣的管理。數(shù)據(jù)從采集到最終應(yīng)用經(jīng)歷多個步驟,主節(jié)點的上下級血緣鏈接可能超過 10 層甚至 20 層,如何精確定位數(shù)據(jù)上下游血緣,對于元數(shù)據(jù)管理非常重要。通過全鏈血緣可以方便清晰地定位問題,避免低效的人工手動排查,數(shù)據(jù)治理和開發(fā)過程中的每一步都可以清晰呈現(xiàn)。
全鏈血緣主要包括以下幾個應(yīng)用場景。
- 應(yīng)用問題定位:這是交付項目中的常見場景,即對于數(shù)據(jù)應(yīng)用中產(chǎn)生的問題,進行字段級別的回溯定位。過去表級的回溯只能大概推測問題發(fā)生在哪兒,而現(xiàn)在引入字段級回溯,可以精準(zhǔn)定位到具體某一個字段發(fā)生的問題。
- 影響分析:數(shù)據(jù)變更時進行下游影響查詢,分析下游都有哪些鏈路,進行統(tǒng)一查詢,提前對下游鏈路中可能會產(chǎn)生的影響進行提前的郵件或短信告知。另一方面,如果元數(shù)據(jù)平臺檢測到上游表不一致,則可以對下游的影響表進行自動預(yù)警。
- 使用度分析:使用度是基于主節(jié)點的下游層級進行判斷,層級越多則使用度越高;而復(fù)雜度則是找到表的上游的層級,層級越多則復(fù)雜度越高。通過使用度、復(fù)雜度的排名分析,找到數(shù)據(jù)治理全鏈關(guān)鍵節(jié)點。比如使用度或復(fù)雜度排名前 10% 的表可能是關(guān)鍵節(jié)點,需要更多的關(guān)注。
- 孤島定位:應(yīng)用數(shù)據(jù)表加工關(guān)系對其進行疑似數(shù)據(jù)孤島判定,如為孤島數(shù)據(jù)或長時間不使用的數(shù)據(jù),則進行刪除或冷熱存儲介質(zhì)轉(zhuǎn)換,釋放資源來給其它更為重要的數(shù)據(jù)資源。
6. 數(shù)據(jù)認(rèn)責(zé)及生命周期管理
(1)數(shù)據(jù)認(rèn)責(zé)
傳統(tǒng)的數(shù)據(jù)治理的過程,真正出現(xiàn)問題的時候,在大組織里邊很難定位到具體應(yīng)該由哪個人對問題負責(zé)。我們基于元數(shù)據(jù)平臺向上下游進行拓展,把所有數(shù)據(jù)資產(chǎn)信息推送到認(rèn)責(zé)系統(tǒng),認(rèn)責(zé)系統(tǒng)對數(shù)倉、數(shù)據(jù)表、數(shù)據(jù)質(zhì)量等信息定義責(zé)任人,包括總負責(zé)人數(shù)據(jù) owner、技術(shù)負責(zé)人和業(yè)務(wù)負責(zé)人,未來如再出現(xiàn)問題,就可以定位到 owner,由 owner 協(xié)調(diào)相應(yīng)的技術(shù)負責(zé)人和業(yè)務(wù)負責(zé)人對數(shù)據(jù)問題進行處理,數(shù)據(jù)資源的調(diào)整、變更、更新的權(quán)限由任責(zé)人進行推進負責(zé)。
(2)數(shù)據(jù)生命周期
主要是對數(shù)據(jù)進行了冷熱溫分層,基于元數(shù)據(jù)系統(tǒng)結(jié)合相應(yīng)的邏輯規(guī)則,對數(shù)據(jù)不同分區(qū)進行定位。如長時間不使用則存入溫數(shù)據(jù)區(qū),如果再長時間不使用則轉(zhuǎn)到冷據(jù)區(qū)。冷數(shù)據(jù)區(qū)對數(shù)據(jù)模型有時限控制,超出時限則進行刪除,及時釋放數(shù)據(jù)資源。
三、總結(jié)和展望
1. 元數(shù)據(jù)智能化探索
(1)元數(shù)據(jù)智能分類
基于業(yè)務(wù)元數(shù)據(jù)、管理元數(shù)據(jù)、樣例數(shù)據(jù)等信息及數(shù)據(jù)血緣信息智能判斷元數(shù)據(jù)分層、分域信息,對元數(shù)據(jù)進行智能分類打標(biāo)。
(2)元數(shù)據(jù)智能補齊
通常元數(shù)據(jù)采集會因為各種原因?qū)е略獢?shù)據(jù)不完整,如果采用人工的方式進行補齊,則消耗資源比較多,并且人工填寫的準(zhǔn)確性存疑。而通過基于 AIGC 技術(shù)的元數(shù)據(jù)智能補齊能力,將元數(shù)據(jù)補齊工作嵌入元數(shù)據(jù)采集流程,實現(xiàn)采集過程中的自動元數(shù)據(jù)補齊,業(yè)務(wù)人員僅需采集流程結(jié)束后進行基本的核對,即可快速、完整地獲取元數(shù)據(jù)信息。
(3)元數(shù)據(jù)智能推薦
基于使用者用戶信息及平臺中的操作行為,在用戶進行元數(shù)據(jù)搜索時,智能推薦用戶感興趣、可能需要查詢的元數(shù)據(jù)信息;在數(shù)據(jù)認(rèn)責(zé)過程中,基于分層分域等信息,智能推薦數(shù)據(jù) owner、技術(shù)負責(zé)人、業(yè)務(wù)負責(zé)人。
2. 元數(shù)據(jù)管理助力數(shù)據(jù)資產(chǎn)入表探索
數(shù)據(jù)資產(chǎn)入表、數(shù)據(jù)資產(chǎn)估值和數(shù)據(jù)管理看似是兩個方向,數(shù)據(jù)管理更偏向技術(shù),數(shù)據(jù)資產(chǎn)入表更偏向于財務(wù),但實際上二者也有相輔相成的部分,比如數(shù)據(jù)估值包括成本法、收益法、市場法,在成本法、收益法中,平臺可以對數(shù)據(jù)資產(chǎn)入表提供幫助。目前數(shù)據(jù)資產(chǎn)入表多采用咨詢的方式,缺少工具能力助力細化成本,而元數(shù)據(jù)平臺可以對此場景提供幫助。
(1)全量數(shù)據(jù)資產(chǎn)盤點
因為元數(shù)據(jù)管理平臺本身會采集全量的資產(chǎn)進行管理,所以可以為企業(yè)梳理所有資產(chǎn)提供幫助。
(2)對成本進行可計量的探索
包括存儲成本、計算成本、人工成本。計算成本通過數(shù)據(jù)計算加工任務(wù)所消耗的 CPU 或者內(nèi)存進行核算;人工成本則通過數(shù)據(jù)計算加工過程中,數(shù)據(jù)治理人員在平臺進行開發(fā)的時間等信息進行核算。
(3)對數(shù)據(jù)質(zhì)量進行評估
基于不同數(shù)據(jù)質(zhì)量的情況,作為估值依據(jù)。
(4)數(shù)據(jù)應(yīng)用
包括 API 的調(diào)用情況、數(shù)據(jù)目錄共享的情況,量化數(shù)據(jù)產(chǎn)生價值,助力數(shù)據(jù)資產(chǎn)評估。
以上就是本次分享的內(nèi)容,謝謝大家。
四、Q&A
Q1:To B 業(yè)務(wù)如何打通數(shù)據(jù)孤島?由于監(jiān)管要求,很多數(shù)據(jù)是不能明文互通,一體化的元數(shù)據(jù)如何實現(xiàn)數(shù)據(jù)的隱私的計算和互聯(lián)互通?
A1:建議采用可信數(shù)據(jù)資源空間的模式,解決的不能明文互通的監(jiān)管要求的,主要是通過多方的隱私計算或數(shù)據(jù)沙箱方式進行數(shù)據(jù)的開發(fā)及利用。
Q2:對于有自己平臺的客戶,如何管理元數(shù)據(jù)?
A2:在項目拓展過程中,不可能是要求所有的客戶摒棄以往的平臺,我們需要考慮如何把對方的平臺引入進來,盡量把拓展的能力做標(biāo)準(zhǔn)化,比如定義好標(biāo)準(zhǔn)化接口,做一些元模型的定義,在盡可能減少開發(fā)資源的情況下,把這部分元數(shù)據(jù)進行統(tǒng)一管理。但是這個過程中需要去看對方的配合意愿以及程度。
Q3:元數(shù)據(jù)的全鏈血緣囊括的范圍是多大?出倉后的數(shù)據(jù)血緣如何推動全鏈路的血緣管理?
A3:從數(shù)據(jù)治理整個流程的角度,只要數(shù)據(jù)進入到一體化平臺內(nèi),即意味著已經(jīng)進入全鏈路血緣監(jiān)控的范圍了。全鏈路血緣包括多類資產(chǎn)管理,如表類資產(chǎn)、數(shù)據(jù)指標(biāo)、數(shù)據(jù)標(biāo)簽等,所有的資產(chǎn)都應(yīng)納入管理。數(shù)據(jù)出倉后,對其來源需要納入權(quán)限管理,包括最終的應(yīng)用方。這需要元數(shù)據(jù)管理平臺提前做好標(biāo)準(zhǔn)化,方便和上下游的廠商或組織機構(gòu)進行打通,將對方的數(shù)據(jù)或者信息推送給我們進行統(tǒng)一管理。