淺談數(shù)據(jù)治理中的智能數(shù)據(jù)目錄
在數(shù)字化轉(zhuǎn)型的戰(zhàn)略實(shí)施中,很多企業(yè)都在搭建自己的業(yè)務(wù)、數(shù)據(jù)及人工智能的中臺。在同這些企業(yè)合作和交流中,越來越體會到數(shù)據(jù)目錄是中臺建設(shè)的核心和基礎(chǔ)。為了更好地提供數(shù)據(jù)服務(wù),發(fā)揮數(shù)據(jù)價值,用戶需要先理解數(shù)據(jù)和信任數(shù)據(jù)。 企業(yè)擁有什么樣的數(shù)據(jù),這些數(shù)據(jù)在哪里,這些數(shù)據(jù)之間的關(guān)系及沿襲,數(shù)據(jù)是好是壞,這些都是數(shù)據(jù)目錄需要回答的問題。
企業(yè)的數(shù)據(jù)環(huán)境具有復(fù)雜和多樣性,數(shù)據(jù)分散在成百上千的本地和云端系統(tǒng)之中,其中包括傳統(tǒng)的事務(wù)性數(shù)據(jù)庫、大數(shù)據(jù)平臺或者數(shù)據(jù)湖、基于云的市場營銷等系統(tǒng),還有不斷涌現(xiàn)的新數(shù)據(jù)源和應(yīng)用。人工智能和機(jī)器學(xué)習(xí)可使數(shù)據(jù)目錄 “智能化”,使其具備自動發(fā)現(xiàn),自動數(shù)據(jù)分類,自動分析和關(guān)聯(lián)的能力,不斷滿足企業(yè)數(shù)據(jù)管理在處理規(guī)模、效率、創(chuàng)新和洞察力等方面的需求。
IBM很早就認(rèn)識到將機(jī)器學(xué)習(xí)應(yīng)用到數(shù)據(jù)管理的重要性,在IBM的Cloud Pak for Data中,機(jī)器學(xué)習(xí)無處不在,遍布數(shù)據(jù)集成、自動化數(shù)據(jù)管理、多云數(shù)據(jù)整合、數(shù)據(jù)準(zhǔn)備、建議和數(shù)據(jù)洞察,其中Watson Knowledge Catalog致力于改進(jìn)企業(yè)中數(shù)據(jù)管理者和數(shù)據(jù)使用者之間的數(shù)據(jù)流的通信、集成和自動化,被評為機(jī)器學(xué)習(xí)數(shù)據(jù)目錄領(lǐng)導(dǎo)者。
1. 自動數(shù)據(jù)發(fā)現(xiàn),快速構(gòu)建數(shù)據(jù)目錄
應(yīng)對企業(yè)復(fù)雜和多樣的數(shù)據(jù)環(huán)境,智能的數(shù)據(jù)目錄可以自動快速地發(fā)現(xiàn)數(shù)據(jù)并進(jìn)行識別,包括數(shù)據(jù)的輪廓,數(shù)據(jù)的業(yè)務(wù)含義,數(shù)據(jù)的分類,數(shù)據(jù)的質(zhì)量,數(shù)據(jù)集之間的關(guān)系,是否有隱私或者敏感的數(shù)據(jù),能快速地創(chuàng)建數(shù)據(jù)目錄,高效地提供數(shù)據(jù)準(zhǔn)備。
2. 關(guān)聯(lián)數(shù)據(jù)資產(chǎn),完整知識圖譜
企業(yè)的各種信息,不是孤立的個體,之間存在各種的關(guān)系,例如業(yè)務(wù)分類同業(yè)務(wù)術(shù)語,業(yè)務(wù)術(shù)語同技術(shù)資產(chǎn),業(yè)務(wù)規(guī)則同技術(shù)規(guī)則及數(shù)據(jù)資產(chǎn),數(shù)據(jù)分類同數(shù)據(jù)資產(chǎn),數(shù)據(jù)資產(chǎn)同數(shù)據(jù)管家等的關(guān)系。對于需要理解數(shù)據(jù)的用戶,希望從任一個關(guān)注點(diǎn)出發(fā),獲取到與其相關(guān)的業(yè)務(wù)上、技術(shù)上、管理上等維度的關(guān)聯(lián)的資產(chǎn)信息。
智能的數(shù)據(jù)目錄,先將企業(yè)中存在于系統(tǒng)、流程和集體知識中的各類信息集合在一起,分析并關(guān)聯(lián),將企業(yè)的各類數(shù)據(jù)資產(chǎn)以關(guān)系圖的形式展開,對于每個用戶,可以從中截取自己關(guān)注的片段,并可以隨信息的拓展而繼續(xù)探索和發(fā)現(xiàn)新的知識,從而更好地理解數(shù)據(jù),豐富自己的數(shù)據(jù)知識體系。
3. 自動數(shù)據(jù)校驗,提升數(shù)據(jù)質(zhì)量
在理解數(shù)據(jù)后,若要使用數(shù)據(jù),需要進(jìn)一步信任數(shù)據(jù)。數(shù)據(jù)質(zhì)量是數(shù)據(jù)信任的基石,需提供細(xì)粒度的量化的數(shù)據(jù)質(zhì)量監(jiān)管和變化追蹤,除了內(nèi)置多種數(shù)據(jù)質(zhì)量維度,自動進(jìn)行數(shù)據(jù)質(zhì)量打分外,還需要提供根據(jù)數(shù)據(jù)分類、業(yè)務(wù)特征、重要性等特定屬性自動進(jìn)行相關(guān)的數(shù)據(jù)規(guī)則校驗,而不需要考慮數(shù)據(jù)的來源,大大提高數(shù)據(jù)管理的效率和范圍。
4. 自動分析數(shù)據(jù)沿襲
用戶需要對其數(shù)據(jù)細(xì)致了解,才能對數(shù)據(jù)更加自信和篤定,才能支撐分析和數(shù)據(jù)科學(xué)。
智能的數(shù)據(jù)目錄能支撐從大量數(shù)據(jù)源中提取粗粒度—系統(tǒng)和系統(tǒng)之間的,數(shù)據(jù)集和和數(shù)據(jù)集合之間沿襲;同時支持細(xì)粒度—表和表之間,字段和字段之間的沿襲關(guān)系。
5. 智能搜索
無論是業(yè)務(wù)用戶或者技術(shù)用戶,無論數(shù)據(jù)處于企業(yè)什么位置,或者搜索時候輸入模糊或者近似的信息,用戶都能搜索到相應(yīng)的結(jié)果,及大量相關(guān)聯(lián)的信息。這些搜索結(jié)果會按照信息相關(guān)性從高到底給出。用戶還可以在圖形化的搜索對象上進(jìn)行深入的展開和探查。對于搜索到的數(shù)據(jù)資產(chǎn),用戶可以預(yù)覽數(shù)據(jù),了解數(shù)據(jù)輪廓,進(jìn)行數(shù)據(jù)可視化查看,為后續(xù)的數(shù)據(jù)分析和建模準(zhǔn)備數(shù)據(jù)。
智能的數(shù)據(jù)目錄,幫助用戶揭示復(fù)雜的數(shù)據(jù)關(guān)系,高效創(chuàng)建可信賴的分析基礎(chǔ)平臺,從數(shù)據(jù)采集、數(shù)據(jù)治理到數(shù)據(jù)自助服務(wù),提供端到端的一站式平臺服務(wù)。
詳情請訪問IBM官網(wǎng)頁面了解更多內(nèi)容:https://www.ibm.com/cloud/watson-knowledge-catalog
了解更多IBM相關(guān):http://cloud.51cto.com/act/ibm2021q3/cloud#p3
任何問題請撥打免費(fèi)咨詢熱線:4006690260 (工作日9:00-17:00)