譯者 | 晶顏
審校 | 重樓
據(jù)Gartner數(shù)據(jù)顯示,不良數(shù)據(jù)每年給企業(yè)造成1290萬美元的損失。因此,數(shù)據(jù)領(lǐng)導(dǎo)者幾十年來一直在為他們的商業(yè)智能(BI)和分析尋找單一的事實來源,以確保每個人都基于相同的數(shù)據(jù)和定義做出業(yè)務(wù)決策。
為了使數(shù)據(jù)保持一致性,BI提供商引入了語義層的概念,即在用行、列和字段名描述的原始數(shù)據(jù)之間的抽象層,只有數(shù)據(jù)專家才能理解,并為業(yè)務(wù)用戶提供見解。語義層隱藏了數(shù)據(jù)的復(fù)雜性,并將其映射到業(yè)務(wù)定義、邏輯和關(guān)系。它允許業(yè)務(wù)用戶使用收入和利潤等標準術(shù)語進行自助分析。
語義層激增
如今,BI工具及其相關(guān)的語義層激增,證實了語義層是一個備受歡迎的發(fā)展趨勢。上世紀90年代,BusinessObjects在SAP BusinessObjects中構(gòu)建了第一個輕量級語義層。問題在于,早期的BI套件(如businessojects)是單一的,且用戶界面不是特別友好。失望的用戶轉(zhuǎn)而采用了Tableau、Power BI和Looker,因為它們的易用性得到了提高。今天的問題是,這些工具已經(jīng)在組織中不斷發(fā)展和演變,粉碎了所有關(guān)于單一真相來源的希望。
現(xiàn)在,組織的不同部分使用不同的BI、分析和數(shù)據(jù)科學(xué)工具,創(chuàng)建獨特的數(shù)據(jù)定義、維度、度量、邏輯和上下文。獨立的團隊也分別管理他們自己的語義層。這將導(dǎo)致用戶組之間在數(shù)據(jù)解釋、業(yè)務(wù)邏輯和定義方面的差異,從而對來自數(shù)據(jù)的報告和情報產(chǎn)生不信任情緒。
此外,這種不一致性也經(jīng)常導(dǎo)致團隊之間的混亂。例如,活躍客戶是否為您的服務(wù)購買了持續(xù)付費訂閱?或者是最近七天內(nèi)登錄過的人?或者有人已經(jīng)注冊了七天免費試用?不一致的定義會影響財務(wù)團隊的計費目的,影響續(xù)訂團隊的客戶識別,影響處理和準確報告銷售產(chǎn)品的操作。
數(shù)據(jù)倉庫中語義層的興起
或許是覺得數(shù)據(jù)環(huán)境還不夠復(fù)雜,數(shù)據(jù)架構(gòu)師開始在數(shù)據(jù)倉庫中也實現(xiàn)了語義層。架構(gòu)師可能會認為他們管理的數(shù)據(jù)資產(chǎn)是所有用例的唯一真實來源。然而,通常情況并非如此,因為數(shù)以百萬計的非規(guī)范化表結(jié)構(gòu)通常不是“業(yè)務(wù)就緒”(business-ready)的。當(dāng)語義層嵌入到各種倉庫中時,數(shù)據(jù)工程師必須通過設(shè)計和維護數(shù)據(jù)管道來將分析用例與數(shù)據(jù)連接起來,通過轉(zhuǎn)換生成“分析就緒”(analytics-ready)的數(shù)據(jù)。
如果沒有一致的語義層,數(shù)據(jù)工程師就會在他們專門構(gòu)建的管道中硬編碼語義,以支持他們的數(shù)據(jù)消費者。語義含義(定義)將很快變得靜態(tài)和不靈活,使得集中式架構(gòu)團隊難以跟上不同工作組特定領(lǐng)域的需求。隨著規(guī)模的擴大,代碼會變得難以管理和不一致。這種方法會導(dǎo)致延遲和依賴,從而阻礙基于數(shù)據(jù)的決策。
本地化的語義層進一步擴展
更大的挑戰(zhàn)是,隨著數(shù)據(jù)倉庫遷移至云端,用戶查詢可能變得非常緩慢。緩慢的性能迫使業(yè)務(wù)用戶提取數(shù)據(jù)并將其加載到他們首選的分析平臺中,以便實現(xiàn)更輕松地操作和更快地查詢,從而在本地化的語義層中進一步擴展語義。
在今天的大多數(shù)情況下,在數(shù)據(jù)堆棧周圍都有一些語義層——云數(shù)據(jù)倉庫中有一些,轉(zhuǎn)換管道中有一些,每個BI工具中都有一些。由于數(shù)據(jù)工程師每次設(shè)計新的數(shù)據(jù)管道時都要重新創(chuàng)建常見的業(yè)務(wù)概念(例如,逐年預(yù)測或貨幣轉(zhuǎn)換),這種語義蔓延造成了極大的效率低下。每當(dāng)需要回答涉及不同數(shù)據(jù)定義或業(yè)務(wù)邏輯的新業(yè)務(wù)問題時,數(shù)據(jù)團隊都需要不斷地重新創(chuàng)建散布在各種語義層中的公共業(yè)務(wù)概念,這種重復(fù)性的工作不僅浪費時間和資源,還會導(dǎo)致數(shù)據(jù)團隊產(chǎn)生倦怠情緒。
創(chuàng)建通用語義層
我們需要的是一個通用的語義層,為所有可能的數(shù)據(jù)體驗定義所有指標和元數(shù)據(jù):可視化工具、面向客戶的分析、嵌入式分析和人工智能代理。使用通用語義層,業(yè)務(wù)中的每個人都同意“客戶”和“潛在客戶”等術(shù)語的標準定義集,以及數(shù)據(jù)之間的標準關(guān)系(標準業(yè)務(wù)邏輯和定義),因此數(shù)據(jù)團隊可以構(gòu)建一個一致的語義數(shù)據(jù)模型。
通用語義層位于數(shù)據(jù)倉庫之上,為各種數(shù)據(jù)應(yīng)用程序提供數(shù)據(jù)語義(上下文)。它可以與轉(zhuǎn)換工具無縫協(xié)作,允許企業(yè)定義指標、準備數(shù)據(jù)模型,并將其公開給不同的BI和分析工具。
為了構(gòu)建通用語義層,數(shù)據(jù)團隊必須首先建立業(yè)務(wù)邏輯、運算和上下文,這些都將進入語義數(shù)據(jù)模型。他們首先要了解業(yè)務(wù)需要解決的實際問題,收集必要的數(shù)據(jù),然后對數(shù)據(jù)之間的關(guān)系進行編碼,并定義治理和安全策略,以啟用可信訪問。之后,他們使用元數(shù)據(jù)在數(shù)據(jù)上構(gòu)建抽象層,以便向下游數(shù)據(jù)消費者一致地公開維度、層次結(jié)構(gòu)和運算。
一旦建立了底層數(shù)據(jù)和語義,通用語義層必須與數(shù)據(jù)消費者集成,例如生成式AI、BI、電子表格和嵌入式分析。Cube Cloud是一個通用的語義層平臺,提供了大量預(yù)構(gòu)建的集成和強大的API套件,因此企業(yè)可以一次建模數(shù)據(jù)并將其交付到任何地方。它還提供了大量開發(fā)人員工具,使協(xié)作和構(gòu)建數(shù)據(jù)模型、設(shè)置緩存和預(yù)聚合以及維護數(shù)據(jù)訪問控制變得更加容易。
通用語義層的好處
有了通用語義層,數(shù)據(jù)團隊就有了更多的治理和控制權(quán),如果實施得當(dāng),終端用戶可以從數(shù)據(jù)中獲得更多價值,減少團隊之間的誤解。這提高了效率,并確保所有數(shù)據(jù)消費場所都使用相同的、準確的數(shù)據(jù)。因此,無論數(shù)據(jù)是由查看儀表板的人使用,還是由向某人提供問題答案的大型語言模型使用,數(shù)據(jù)都是一致的。
所有這些都使得數(shù)據(jù)團隊可以更輕松地將數(shù)據(jù)快速交付給他們在內(nèi)部和外部工作的各種消費者。數(shù)據(jù)團隊可以輕松地更新或定義新的度量標準,設(shè)計特定于領(lǐng)域的數(shù)據(jù)視圖,并合并新的原始數(shù)據(jù)源。他們還可以執(zhí)行治理策略,包括訪問控制、定義和性能。
另一個好處是:隨著數(shù)據(jù)量的激增,云計算的成本也在飆升。通用語義層通過預(yù)處理或預(yù)聚合數(shù)據(jù)、存儲常用的業(yè)務(wù)指標并將其用作分析的基礎(chǔ)來解決這個問題,從而降低了云數(shù)據(jù)費用。通用語義層還在企業(yè)范圍的數(shù)據(jù)上提供了異常高的性能和低延遲,加快了用戶查詢的速度。
結(jié)語
我們需要一個通用的語義層來支持下一代數(shù)據(jù)驅(qū)動的應(yīng)用程序,并接受這樣一個現(xiàn)實:將有許多不同的工具來可視化和使用這些數(shù)據(jù),以及存儲這些數(shù)據(jù)的許多不同數(shù)據(jù)源。最后,通用語義層可以為企業(yè)指標創(chuàng)建一個單一的事實來源,為決策者提供他們需要的數(shù)據(jù),以獲得一致、快速和準確的答案。
原文標題:Overcoming data inconsistency with a universal semantic layer,作者:Artyom Keydunov