偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

數(shù)據(jù)湖與實(shí)時(shí)數(shù)倉(cāng)應(yīng)用實(shí)踐

大數(shù)據(jù) 數(shù)據(jù)湖
本文將分享滴普科技基于 Data Fabric 的實(shí)時(shí)湖倉(cāng)平臺(tái)技術(shù)實(shí)踐。文章將介紹 Data Fabric 的基本原理和概念,并分享滴普基于 Data Fabric 構(gòu)建的一款產(chǎn)品——FastData。

一、Data Fabric 介紹

首先,讓我們來(lái)看一下 Data Fabric 的定義。

圖片

Data Fabric 是一種新興的數(shù)據(jù)管理設(shè)計(jì)理念,起源于美國(guó)。根據(jù) Gartner 的定義,Data Fabric 可以實(shí)現(xiàn)跨異構(gòu)數(shù)據(jù)源的增強(qiáng)、數(shù)據(jù)集成和共享。這意味著以前在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)時(shí)需要進(jìn)行大量的ETL工作,將不同業(yè)務(wù)關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中,并通過(guò)各種鏈路進(jìn)行數(shù)據(jù)同步。然后,在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行分層加工,最終生成各種指標(biāo),供用戶(hù)進(jìn)行分析和生成報(bào)表。

Data Fabric 的理念與傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)有所不同。在某些情況下,分析師可能并不需要將整個(gè)數(shù)據(jù)完全搬移到自己的工作環(huán)境中,而只需要進(jìn)行簡(jiǎn)單的數(shù)據(jù)探查。因此,Data Fabric 的概念就應(yīng)運(yùn)而生。簡(jiǎn)單來(lái)說(shuō),Data Fabric 就是一種對(duì)企業(yè)內(nèi)部數(shù)據(jù)進(jìn)行輕量級(jí)探查的編織概念。

圖片

基于Data Fabric 的理念,我們可以進(jìn)行更加靈活和高效的數(shù)據(jù)分析。自2019年起,Gartner 已經(jīng)連續(xù)三年將 Data Fabric 技術(shù)列入十大數(shù)據(jù)分析技術(shù)趨勢(shì)之一。這表明 Data Fabric 技術(shù)正在逐漸成為數(shù)據(jù)管理和分析領(lǐng)域的重要趨勢(shì)。在2022年,Gartner 將 Data Fabric 技術(shù)列為數(shù)據(jù)管理和分析領(lǐng)域的排名第一的技術(shù)趨勢(shì),它的出現(xiàn)為企業(yè)提供了更加靈活和高效的數(shù)據(jù)管理和分析解決方案,因此備受關(guān)注和追捧。

圖片

Data Fabric 的價(jià)值主要體現(xiàn)在降低成本和提高效率方面。它可以幫助用戶(hù)減少在數(shù)據(jù)開(kāi)發(fā)、分析和管理過(guò)程中的工作量,避免頻繁的數(shù)據(jù)遷移和復(fù)制。那么,Data Fabric 實(shí)際上解決了什么問(wèn)題呢?最主要的問(wèn)題是打破數(shù)據(jù)孤島。通過(guò)將數(shù)據(jù)接入到統(tǒng)一的平臺(tái)中,企業(yè)可以獲得對(duì)整個(gè)企業(yè)內(nèi)所有數(shù)據(jù)的高級(jí)視圖,了解企業(yè)內(nèi)部的數(shù)據(jù)在哪里、做什么用途。此外,用戶(hù)還可以進(jìn)行簡(jiǎn)單的數(shù)據(jù)探查,而無(wú)需將數(shù)據(jù)全部遷移到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖中。這樣一來(lái),Data Fabric 為企業(yè)提供了更加綜合和靈活的數(shù)據(jù)管理和探索方式,從而提高了數(shù)據(jù)分析的效率和準(zhǔn)確性。

圖片

現(xiàn)在硅谷流行一個(gè)概念——Lakehouse 數(shù)據(jù)湖。數(shù)據(jù)湖和 Data Fabric 的理念密切相關(guān)。數(shù)據(jù)湖強(qiáng)調(diào)存儲(chǔ)的易用性,與傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)不同,它對(duì)數(shù)據(jù)的存儲(chǔ)和拉取要求不那么嚴(yán)格,數(shù)據(jù)的結(jié)構(gòu)和格式也不需要遵循傳統(tǒng)的范式結(jié)構(gòu)化數(shù)據(jù)的要求。這與數(shù)據(jù)倉(cāng)庫(kù)的要求有所不同,數(shù)據(jù)倉(cāng)庫(kù)要求數(shù)據(jù)必須遵循嚴(yán)格的范式結(jié)構(gòu),并需要進(jìn)行各種加工處理。因此,數(shù)據(jù)湖和Data Fabric的理念是密不可分的。

目前,硅谷的一些頭部互聯(lián)網(wǎng)公司都推出了基于 Data Fabric 概念的產(chǎn)品。例如微軟在今年五月份推出了 Microsoft Fabric 和 OneLake 兩款產(chǎn)品,它們共同組成了整個(gè)數(shù)據(jù)平臺(tái)。IBM 也在5月9日發(fā)布了基于 Data Fabric 理念的產(chǎn)品 Watsonx.data lakehouse,與其另一款產(chǎn)品 Cloud Pak for Data 相互關(guān)聯(lián),構(gòu)建了一個(gè)從底層到開(kāi)發(fā)應(yīng)用的全數(shù)據(jù)加工平臺(tái)。微軟的 Fabric 理念是"All your data, all your teams, all in one place",意味著所有數(shù)據(jù)都可以在一個(gè)平臺(tái)上進(jìn)行查看,但并不一定要將所有數(shù)據(jù)都搬到一個(gè)地方。

二、FastData 實(shí)時(shí)智能湖倉(cāng)平臺(tái)介紹

圖片

滴普科技基于 Data Fabric 理念打造了一款產(chǎn)品,名為FastData。該產(chǎn)品定位為一站式的實(shí)時(shí)智能數(shù)據(jù)湖平臺(tái),主要包含三個(gè)層次。

首先是我們的 DLink 引擎,解決了在各種云基礎(chǔ)設(shè)施上的存儲(chǔ)和計(jì)算問(wèn)題。它有效地組織和存儲(chǔ)數(shù)據(jù),并提供了針對(duì)不同工作負(fù)載的計(jì)算能力。在這一層之上,有開(kāi)發(fā)套件和分析套件。開(kāi)發(fā)套件類(lèi)似于數(shù)據(jù)開(kāi)發(fā)中的工具箱,提供了調(diào)度、編輯器和工作流編排等功能。而分析套件主要解決指標(biāo)管理問(wèn)題,更加面向業(yè)務(wù),幫助管理各種非 SQL 方式的指標(biāo)。

圖片

湖倉(cāng)部分是數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)中的一個(gè)重要組成部分,主要解決數(shù)據(jù)存儲(chǔ)和計(jì)算的問(wèn)題。在數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)通常以表格形式存儲(chǔ),湖倉(cāng)管理需要考慮如何存儲(chǔ)和管理不同格式的數(shù)據(jù)表格,以及如何提供加速和管理源數(shù)據(jù)。在存算分離的情況下,湖倉(cāng)管理需要提供高效的數(shù)據(jù)訪問(wèn)和查詢(xún)功能,以便用戶(hù)能夠快速獲取所需的數(shù)據(jù)。

基于 Data Fabric 架構(gòu),數(shù)據(jù)可以分布在不同的位置和系統(tǒng)中,因此湖倉(cāng)管理需要持有各種數(shù)據(jù)的源數(shù)據(jù),以便能夠更好地管理和查看數(shù)據(jù)。這樣可以提供更高階的 view 視圖,使用戶(hù)能夠更好地了解數(shù)據(jù)的整體情況。

湖倉(cāng)管理還提供了一些計(jì)算能力和開(kāi)發(fā)套件,用于建模、數(shù)據(jù)質(zhì)量、數(shù)據(jù)治理、調(diào)度和數(shù)據(jù)集成等方面。例如,用戶(hù)可以使用開(kāi)發(fā)套件來(lái)建立模型、評(píng)估數(shù)據(jù)質(zhì)量、制定數(shù)據(jù)治理策略、調(diào)度數(shù)據(jù)處理任務(wù)以及實(shí)現(xiàn)數(shù)據(jù)集成。這些工具可以幫助用戶(hù)更好地管理和利用數(shù)據(jù)資源。

最高層的分析層主要解決如何建立各種指標(biāo),并通過(guò)自己的模型語(yǔ)言來(lái)管理這些指標(biāo),從而形成企業(yè)的數(shù)據(jù)資產(chǎn)。用戶(hù)可以使用分析層來(lái)定義和計(jì)算各種指標(biāo),例如銷(xiāo)售額、用戶(hù)增長(zhǎng)率、市場(chǎng)份額等。這些指標(biāo)可以幫助企業(yè)更好地了解自己的業(yè)務(wù)狀況,并制定相應(yīng)的決策和戰(zhàn)略。

圖片

現(xiàn)代數(shù)據(jù)棧(MDS)是一個(gè)全流程架構(gòu)的概念,它是可組裝的而不是整體式的。每個(gè)客戶(hù)在使用平臺(tái)時(shí),并不需要使用所有的套件,因此 MDS 采用了可插拔的插件形式,根據(jù)客戶(hù)的需求進(jìn)行組裝,實(shí)現(xiàn)了一種非大而全的平臺(tái)。這種可組裝的方式可以降低企業(yè)的成本,并簡(jiǎn)化平臺(tái)架構(gòu)。

MDS 的整個(gè)平臺(tái)架構(gòu)從數(shù)據(jù)源的數(shù)據(jù)拉取開(kāi)始,包括實(shí)時(shí)和離線的數(shù)據(jù)采集和集成部分,然后將數(shù)據(jù)集成到數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)中,形成湖倉(cāng)一體的架構(gòu)。這個(gè)架構(gòu)實(shí)現(xiàn)了數(shù)據(jù)的整合和統(tǒng)一管理,使得企業(yè)能夠更好地利用數(shù)據(jù)資源。

總的來(lái)說(shuō),MDS 是一個(gè)靈活可組裝的數(shù)據(jù)架構(gòu),通過(guò)插件形式提供所需的功能,覆蓋從數(shù)據(jù)源到數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的整個(gè)數(shù)據(jù)流程,幫助企業(yè)降低成本并簡(jiǎn)化平臺(tái)架構(gòu)。

圖片

在存儲(chǔ)底座中使用 DLink 套件時(shí),數(shù)據(jù)開(kāi)始進(jìn)行開(kāi)發(fā),并在開(kāi)發(fā)界面中進(jìn)行相應(yīng)的開(kāi)發(fā)工作。在數(shù)據(jù)開(kāi)發(fā)過(guò)程中,數(shù)據(jù)治理是一個(gè)重要的環(huán)節(jié),確保數(shù)據(jù)質(zhì)量的高標(biāo)準(zhǔn)。然后,數(shù)據(jù)進(jìn)入到數(shù)據(jù)的分析與應(yīng)用層,這是分析套件所要解決的問(wèn)題。分析套件提供了一系列工具和功能,幫助用戶(hù)進(jìn)行數(shù)據(jù)分析和應(yīng)用開(kāi)發(fā)。

最底層是控制臺(tái),這是另一款產(chǎn)品,其主要解決的問(wèn)題是對(duì)基礎(chǔ)設(shè)施的計(jì)算資源和存儲(chǔ)資源進(jìn)行管理。它還提供了監(jiān)控和告警功能,以及對(duì)數(shù)據(jù)源的統(tǒng)一管理。這個(gè)產(chǎn)品被稱(chēng)為 DCE(Data Control Engine),它的主要目標(biāo)是管理和優(yōu)化基礎(chǔ)設(shè)施資源,確保系統(tǒng)的高效運(yùn)行。

圖片

產(chǎn)品的核心優(yōu)勢(shì)可以簡(jiǎn)單概括為四個(gè)方面。首先是低成本,因?yàn)樗梢酝耆蛛x地部署在各種公共云的對(duì)象存儲(chǔ)上,同時(shí)也支持私有云的部署,比如在 IDC 里面可以對(duì)接傳統(tǒng)的 HDFS 等。其次是易用性,它提供了敏捷的數(shù)據(jù)開(kāi)發(fā)能力,包括低代碼指示和低代碼開(kāi)發(fā)等工具。第三是可組裝性,即根據(jù)需求選擇自己的鏈路,這是基于現(xiàn)代數(shù)據(jù)棧(MDS)的思想,可以根據(jù)客戶(hù)需求進(jìn)行定制化部署。最后是簡(jiǎn)單擴(kuò)展性,它是從 Hadoop 生態(tài)的大數(shù)據(jù)平臺(tái)向互聯(lián)網(wǎng)一體的新一代大數(shù)據(jù)平臺(tái)演進(jìn),同時(shí)也支持國(guó)產(chǎn)化新創(chuàng),為用戶(hù)提供更多的選擇。

概括而言,F(xiàn)astData 具有低成本、易用性、可組裝和易擴(kuò)展等核心優(yōu)勢(shì),可以幫助企業(yè)更好地管理和利用數(shù)據(jù)資源,提高數(shù)據(jù)分析和應(yīng)用的效率。

圖片

FastData 分析套件主要用來(lái)處理指標(biāo),它采用了統(tǒng)一 ML(Model Language)模型語(yǔ)言來(lái)定義、管理和加工指標(biāo)。一旦指標(biāo)加工好了,我們就可以將其存儲(chǔ)在各種不同的存儲(chǔ)介質(zhì)中,包括開(kāi)源存儲(chǔ)和我們自己的湖倉(cāng)引擎等。這個(gè)分析套件主要關(guān)注指標(biāo)層的存儲(chǔ)和管理,而不關(guān)心指標(biāo)具體存儲(chǔ)在哪里。

為了更好地服務(wù)于客戶(hù),我們還提供了各種各樣的服務(wù),包括對(duì)接各種 BI 工具、提供數(shù)據(jù)企業(yè)產(chǎn)品 API link 等。客戶(hù)可以通過(guò)這些服務(wù)來(lái)查詢(xún)指標(biāo)數(shù)據(jù),進(jìn)行各種數(shù)據(jù)分析和應(yīng)用。此外,我們還提供了 AI link 服務(wù),客戶(hù)可以通過(guò)數(shù)據(jù)科學(xué)和 Jupyter 等工具來(lái)訪問(wèn)指標(biāo)數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)應(yīng)用的開(kāi)發(fā)和部署。

FastData 分析套件統(tǒng)一的指標(biāo)管理和加工方案,以及豐富的服務(wù)和工具,可以幫助客戶(hù)更好地利用和應(yīng)用數(shù)據(jù)資源,提高數(shù)據(jù)分析和應(yīng)用的效率。

圖片

分析套件的功能架構(gòu)主要包括指標(biāo)語(yǔ)言的建設(shè)和指標(biāo)加速兩個(gè)方面。首先,指標(biāo)語(yǔ)言的建設(shè)是指如何定義和管理功能指標(biāo)。用戶(hù)可以使用統(tǒng)一 ML 模型語(yǔ)言來(lái)定義復(fù)雜的指標(biāo)邏輯,包括指標(biāo)的計(jì)算、聚合和過(guò)濾等操作。這樣可以幫助用戶(hù)更好地理解和描述業(yè)務(wù)需求。

其次,指標(biāo)加速是非常重要的一點(diǎn)。由于用戶(hù)建立的指標(biāo)邏輯可能非常復(fù)雜,我們需要在用戶(hù)查詢(xún)時(shí)能夠快速地找到指標(biāo)數(shù)據(jù)。為了實(shí)現(xiàn)指標(biāo)的快速查詢(xún),我們采用了一系列優(yōu)化技術(shù),包括數(shù)據(jù)索引、緩存和并行計(jì)算等。通過(guò)這些加速技術(shù),可以大大提高指標(biāo)查詢(xún)的效率,使用戶(hù)能夠快速獲取所需的數(shù)據(jù)。

圖片

分析套件的價(jià)值在于提供了無(wú)門(mén)檻的數(shù)據(jù)洞察能力,即使不懂 SQL 的人也能夠建立指標(biāo)。用戶(hù)只需要進(jìn)行簡(jiǎn)單的配置,比如配置一些原子指標(biāo)和修飾詞,然后指定一些加工公式,就能夠計(jì)算出所需的指標(biāo)。通過(guò)儀表盤(pán)等工具,用戶(hù)可以洞察到隱藏在數(shù)據(jù)背后的業(yè)務(wù)見(jiàn)解。

另外,統(tǒng)一指標(biāo)服務(wù)是通過(guò)模型語(yǔ)言提供各種對(duì)外的 API,如 JDBC 和 SDK 等。這樣可以方便用戶(hù)通過(guò)外部工具訪問(wèn)和查詢(xún)指標(biāo)數(shù)據(jù)。此外,CubeLess 是用于構(gòu)建數(shù)據(jù)立方體的一種技術(shù)。它通過(guò)底層的預(yù)計(jì)算能力和緩存技術(shù),事先計(jì)算好指標(biāo)并加速查詢(xún)。同時(shí),分析套件還可以輕松對(duì)接各種流行的BI工具,提供加速查詢(xún)的能力。

圖片

下面重點(diǎn)介紹開(kāi)發(fā)治理套件。開(kāi)發(fā)治理套件是一個(gè)相對(duì)傳統(tǒng)的數(shù)據(jù)開(kāi)發(fā)和管理工具,按照常規(guī)的數(shù)據(jù)鏈路進(jìn)行數(shù)據(jù)開(kāi)發(fā)。首先,進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化和建立模型,然后進(jìn)行數(shù)據(jù)開(kāi)發(fā),其中涉及到數(shù)據(jù)的血緣關(guān)系和調(diào)度。這個(gè)過(guò)程涉及到元數(shù)據(jù),然后發(fā)布到生產(chǎn)環(huán)境中進(jìn)行運(yùn)行。在這個(gè)過(guò)程中,還需要進(jìn)行質(zhì)量校驗(yàn)、數(shù)據(jù)集成和數(shù)據(jù)安全(如加密和脫敏)等處理,最終對(duì)外提供服務(wù)。整個(gè)流程比較標(biāo)準(zhǔn)化。

圖片

最底層的存和算引擎是湖倉(cāng)引擎,主要解決高效存儲(chǔ)和計(jì)算的問(wèn)題。在存儲(chǔ)方面,我們采用了表格式,主要使用了 Apache 的 Iceberg,并進(jìn)行了大量的二次開(kāi)發(fā)。在計(jì)算方面,我們?yōu)椴煌墓ぷ髫?fù)載提供了三種內(nèi)置的算力引擎。對(duì)于離線工作負(fù)載,提供了 Spark;對(duì)于實(shí)時(shí)工作負(fù)載,提供了Flink;而對(duì)于機(jī)器查詢(xún)和分析工作負(fù)載,則提供了內(nèi)置的 Trino 組件。這樣,能夠滿(mǎn)足不同場(chǎng)景下的高效存儲(chǔ)和計(jì)算需求。

圖片

湖倉(cāng)引擎的價(jià)值主要在于:

首先,能夠提供多工作負(fù)載,并能夠以云化方式提供數(shù)據(jù)服務(wù),也就是它的工作負(fù)載。不同的工作負(fù)載有不同的內(nèi)置組件來(lái)支撐。

另外,它的架構(gòu)是存算分離的,它的存儲(chǔ)底座可以對(duì)接各種對(duì)象存儲(chǔ),可以提供 PB 乃至 EB 級(jí)的海量數(shù)據(jù)存儲(chǔ)。

分布式數(shù)據(jù)湖架構(gòu),企業(yè)可以建立多個(gè)數(shù)據(jù)湖,包括總公司和各個(gè)分公司的數(shù)據(jù)湖。然而,如何實(shí)現(xiàn)不同數(shù)據(jù)湖之間的有效數(shù)據(jù)共享是一個(gè)需要解決的問(wèn)題。

圖片

邏輯入湖與物理入湖是數(shù)據(jù)管理和分析領(lǐng)域的兩種不同方法。物理入湖是將傳統(tǒng)的數(shù)據(jù)完全搬遷到數(shù)據(jù)湖中,并在數(shù)據(jù)湖上構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)或進(jìn)行數(shù)據(jù)分析。在物理入湖的過(guò)程中,通常會(huì)采用批流一體的方式,將離線和實(shí)時(shí)數(shù)據(jù)處理合并為一條數(shù)據(jù)流,以提高數(shù)據(jù)處理效率。此外,還需要對(duì)整個(gè)數(shù)據(jù)集成過(guò)程進(jìn)行管理,包括處理數(shù)據(jù)結(jié)構(gòu)變更的問(wèn)題,以確保數(shù)據(jù)湖中的數(shù)據(jù)與源數(shù)據(jù)保持同步。

邏輯入湖是一種基于 Fabric 架構(gòu)的實(shí)踐方法。它的主要技術(shù)要求是統(tǒng)一元數(shù)據(jù),包括已經(jīng)入湖的數(shù)據(jù)和未入湖的數(shù)據(jù)。邏輯入湖并不涉及將數(shù)據(jù)搬遷到數(shù)據(jù)湖中,而是通過(guò)管理元數(shù)據(jù)的方式,將元數(shù)據(jù)撈取過(guò)來(lái)并進(jìn)行管理。數(shù)據(jù)仍然保留在原始位置。在數(shù)據(jù)倉(cāng)庫(kù)層進(jìn)行數(shù)據(jù)加工和分析時(shí),可以直接使用SQL進(jìn)行操作,無(wú)需關(guān)心數(shù)據(jù)的具體存儲(chǔ)位置。

圖片

分布式數(shù)據(jù)湖是一個(gè)多湖的概念,它可以解決大型企業(yè)中總公司和分公司之間數(shù)據(jù)交換的問(wèn)題。以中國(guó)移動(dòng)為例,總公司和各個(gè)省分公司都有自己的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖。為了實(shí)現(xiàn)數(shù)據(jù)交換,可以采用分布式多湖聯(lián)邦查詢(xún)的能力來(lái)解決。具體做法是,分公司可以將自己的數(shù)據(jù)湖注冊(cè)到總公司,并提供一個(gè)注冊(cè)賬號(hào)來(lái)管理權(quán)限。這個(gè)注冊(cè)賬號(hào)可以控制總公司對(duì)分公司數(shù)據(jù)的訪問(wèn)權(quán)限,可以隨時(shí)擴(kuò)大或縮小權(quán)限,甚至收回權(quán)限。這樣就實(shí)現(xiàn)了有限制的數(shù)據(jù)分享,不需要將所有權(quán)限開(kāi)放給總公司。例如,可以只開(kāi)放讀權(quán)限而不開(kāi)放寫(xiě)權(quán)限。分布式數(shù)據(jù)湖的架構(gòu)主要解決這種情況下的數(shù)據(jù)交換問(wèn)題。

圖片

分布式數(shù)據(jù)湖中的核心理念是 Fabric,它能夠?qū)崿F(xiàn)統(tǒng)一的數(shù)據(jù)視圖,而這是通過(guò)統(tǒng)一的元數(shù)據(jù)服務(wù)來(lái)實(shí)現(xiàn)的。這個(gè)元數(shù)據(jù)服務(wù)不僅可以管理數(shù)據(jù)湖內(nèi)的數(shù)據(jù),還可以管理企業(yè)內(nèi)其他各種數(shù)據(jù)存儲(chǔ)的元數(shù)據(jù)。此外,權(quán)限管控也非常重要,因?yàn)槿绻磾?shù)據(jù)管理沒(méi)有權(quán)限控制,數(shù)據(jù)的安全性就無(wú)法得到保障。

圖片

在 FastData 團(tuán)隊(duì)中負(fù)責(zé)構(gòu)建近實(shí)時(shí)的數(shù)倉(cāng),是我們的一個(gè)重要工作。我們采用了 Apache 的 Iceberg 來(lái)做底層的表格式存儲(chǔ)。從數(shù)據(jù)源到 ODS 層,我們使用 Flink CDC 技術(shù)將數(shù)據(jù)源拉進(jìn)來(lái),之后從 ODS 層到下面的 DWD 層或 DWS 層,需要讓數(shù)據(jù)快速地流動(dòng)起來(lái)。為了實(shí)現(xiàn)這個(gè)目標(biāo),我們需要Iceberg這一層支持 CDC 技術(shù),也就是說(shuō)通過(guò)使用Flink這種流式讀取 Iceberg 的 Connector,可以快速地感知上游 Iceberg 表的數(shù)據(jù)變化和schema變化,并將這些變化及時(shí)地同步給下一層。這樣,數(shù)據(jù)和 DML 就可以不需要人工操作便自動(dòng)地流動(dòng)起來(lái)。除了 append 數(shù)據(jù)之外,還有 delete 數(shù)據(jù)和 update 數(shù)據(jù),這些數(shù)據(jù)都需要通過(guò)整個(gè)鏈路不停地往下游流動(dòng),以便產(chǎn)生的指標(biāo)能夠跟著業(yè)務(wù)數(shù)據(jù)的變化而變化。我們已經(jīng)做到了這一點(diǎn),但是 Iceberg 的 changlog 產(chǎn)生是依賴(lài)于上游表的 commit 操作。commit 的頻率越高,時(shí)效性越好,但是會(huì)產(chǎn)生更多的雜亂無(wú)章的文件,對(duì)后臺(tái)的自動(dòng)化運(yùn)維提出了較高的要求。commit 的時(shí)間越長(zhǎng),拉的時(shí)間越長(zhǎng),對(duì)文件是更好,但是時(shí)效性就差了一些。因此,我們需要根據(jù)業(yè)務(wù)的實(shí)際時(shí)效要求做出合理的配置。

圖片

自動(dòng)化表運(yùn)維方面,因?yàn)閿?shù)據(jù)湖與傳統(tǒng)的 Hive 表格有所不同,數(shù)據(jù)湖支持行級(jí)別和列級(jí)別的更新,因此會(huì)產(chǎn)生各種各樣的刪除文件和小文件。同時(shí),數(shù)據(jù)湖也支持實(shí)時(shí)寫(xiě)入,這會(huì)導(dǎo)致更多的小文件和刪除文件。如果不及時(shí)整理這些文件,直接查詢(xún)的效果將非常差。為了解決這個(gè)問(wèn)題,我們使用了異步合并和讀時(shí)合并 MOR 等技術(shù)來(lái)提高性能。在后臺(tái),我們必須確保這些工作得到良好的處理。

在 FastData 內(nèi)部,我們致力于讓用戶(hù)完全無(wú)需關(guān)心這些工作。就像使用傳統(tǒng)的 Hive 表格一樣,用戶(hù)只需要專(zhuān)注于他們的數(shù)據(jù)業(yè)務(wù),寫(xiě)入和讀取數(shù)據(jù)即可。后續(xù)的維護(hù)工作由系統(tǒng)自動(dòng)完成,用戶(hù)無(wú)需進(jìn)行操作。

圖片

物化視圖是一種常見(jiàn)的空間換時(shí)間的策略,通常在 MPP 中也會(huì)使用,例如 StarRocks 也使用了這種策略。物化視圖的一個(gè)特點(diǎn)是對(duì)于那些查詢(xún)相對(duì)固定的query,查詢(xún)加速的效果比較好,因?yàn)樗拿新瘦^高。

在 Fastdata 內(nèi)部,我們基于 Trino 實(shí)現(xiàn)了物化視圖。然而,社區(qū)版的物化視圖基本上無(wú)法使用。首先,它的刷新需要手動(dòng)刷新數(shù)據(jù),全量刷新是不可行的。例如,如果我的基表有上億條數(shù)據(jù),如果我做了一個(gè)聚合查詢(xún)生成一個(gè)物化視圖,如果要全量刷新,代價(jià)太大了。因此,我們?cè)谶@個(gè)基礎(chǔ)上做了一些優(yōu)化工作。例如,我們現(xiàn)在可以自動(dòng)刷新,第二刷新可以做增量刷新。增量刷新意味著,當(dāng)基表發(fā)生任何變更時(shí),例如添加了一行或刪除了某一行數(shù)據(jù),這種變更很快就能體現(xiàn)在物化視圖中。在后臺(tái),我們通過(guò)使用 Iceberg 的CDC 技術(shù)來(lái)實(shí)現(xiàn)實(shí)時(shí)監(jiān)控基表的變化。一旦感知到變化,就會(huì)觸發(fā)增量計(jì)算。我們使用Flink 來(lái)進(jìn)行增量計(jì)算,然后將結(jié)果同步到物化視圖中。

三、FastData 實(shí)時(shí)智能湖倉(cāng)平臺(tái)實(shí)踐案例

圖片

FastData 已經(jīng)在多個(gè)行業(yè)中積累了一些客戶(hù)案例。尤其在能源和商品流通領(lǐng)域,特別是新零售方面,得到了廣泛應(yīng)用,并取得了一定的成果。

圖片

在能源領(lǐng)域,我們的平臺(tái)主要解決兩個(gè)核心問(wèn)題。首先,利用 Hadoop 技術(shù)來(lái)處理各個(gè)油田的數(shù)據(jù)。由于油田分布廣泛,每個(gè)油田都有自己的數(shù)據(jù)管理系統(tǒng),因此我們的平臺(tái)能夠?qū)⑦@些數(shù)據(jù)整合起來(lái),并提供更快速的數(shù)據(jù)采集速度,從T+1天級(jí)別提升到分鐘級(jí)別。

其次,我們通過(guò)建立分布式數(shù)據(jù)湖(Lakehouse)來(lái)解決數(shù)據(jù)管理的問(wèn)題。以前,各個(gè)油田的數(shù)據(jù)是相互獨(dú)立的,沒(méi)有統(tǒng)一的管理方式?,F(xiàn)在我們的平臺(tái)允許各個(gè)油田建立自己的數(shù)據(jù)湖,并將數(shù)據(jù)注冊(cè)到總部。這樣,總部就可以隨時(shí)進(jìn)行數(shù)據(jù)分析,了解各個(gè)油田當(dāng)天的生產(chǎn)經(jīng)營(yíng)情況。同時(shí),數(shù)據(jù)仍然保留在各個(gè)油田的本地存儲(chǔ)中,實(shí)現(xiàn)了數(shù)據(jù)的集中管理和分散存儲(chǔ),解決了這兩個(gè)核心痛點(diǎn)問(wèn)題。

圖片

FastData 平臺(tái)不僅提供結(jié)構(gòu)化數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖倉(cāng)庫(kù)的能力,還能處理半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。對(duì)于零售客戶(hù)來(lái)說(shuō),這是一個(gè)重要的功能。在過(guò)去的 Hadoop 時(shí)代,處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)通常需要使用完全獨(dú)立的技術(shù)棧和平臺(tái)。但通過(guò) FastData 平臺(tái),可以實(shí)現(xiàn)半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一存儲(chǔ)和管理,解決了企業(yè)內(nèi)部存在的各種非結(jié)構(gòu)化數(shù)據(jù)的問(wèn)題。這樣,客戶(hù)可以在一個(gè)統(tǒng)一的平臺(tái)上處理和管理不同類(lèi)型的數(shù)據(jù),提高數(shù)據(jù)處理的效率和一致性。

圖片

這個(gè)案例是一家新能源汽車(chē)企業(yè)的數(shù)字化轉(zhuǎn)型。他們主要面臨以下問(wèn)題:營(yíng)銷(xiāo)不精準(zhǔn)、被動(dòng)式服務(wù)、缺乏用戶(hù)價(jià)值的運(yùn)營(yíng),以及數(shù)據(jù)管理混亂,難以發(fā)現(xiàn)數(shù)據(jù)背后的價(jià)值。

我們的產(chǎn)品在這個(gè)案例中的重點(diǎn)是分析套件,通過(guò)它來(lái)幫助企業(yè)構(gòu)建數(shù)據(jù)資產(chǎn)并發(fā)現(xiàn)業(yè)務(wù)價(jià)值。FastData 分析套件能夠幫助企業(yè)進(jìn)行數(shù)據(jù)分析,提升營(yíng)銷(xiāo)精準(zhǔn)度,改善服務(wù)質(zhì)量,并發(fā)現(xiàn)潛在的業(yè)務(wù)價(jià)值。通過(guò)這個(gè)案例,我們能夠看到企業(yè)在數(shù)字化轉(zhuǎn)型中取得了顯著的進(jìn)展。

四、FastData 實(shí)時(shí)智能湖倉(cāng)平臺(tái)未來(lái)規(guī)劃

圖片

FastData 平臺(tái)的未來(lái)規(guī)劃包括以下幾個(gè)方向:

首先,我們將繼續(xù)致力于構(gòu)建高性能、低成本、易使用的大數(shù)據(jù)平臺(tái)。

其次,我們將提升數(shù)據(jù)湖內(nèi)部的數(shù)據(jù)服務(wù)性能。目前我們的數(shù)據(jù)服務(wù)在高并發(fā)情況下仍有待提高。

第三,我們計(jì)劃統(tǒng)一 Gateway 服務(wù),以提供一致的用戶(hù)體驗(yàn)。不同的工作負(fù)載和引擎可能有不同的使用方式,我們希望能夠統(tǒng)一這些工作方式,使用戶(hù)能夠像使用 MySQL 一樣方便地使用我們的平臺(tái)。

第四,我們計(jì)劃支持更多的云環(huán)境。目前我們已經(jīng)適配了一些主流的云平臺(tái),但對(duì)于一些較冷門(mén)的云平臺(tái),仍需要增加適配能力。

最后,我們將通過(guò)大模型技術(shù)來(lái)解決數(shù)據(jù)資產(chǎn)變現(xiàn)的問(wèn)題。傳統(tǒng)的數(shù)據(jù)處理鏈路需要人工參與,從數(shù)據(jù)集成、開(kāi)發(fā)、指標(biāo)加工到?jīng)Q策,都需要人工操作。通過(guò)大模型技術(shù),我們希望能夠降低重復(fù)勞動(dòng),并實(shí)現(xiàn)自然語(yǔ)言翻譯和直接生成 SQL 等功能,以提升效率。

責(zé)任編輯:姜華 來(lái)源: DataFunTalk
相關(guān)推薦

2023-08-29 10:20:00

2022-05-23 13:30:48

數(shù)據(jù)胡實(shí)踐

2024-09-03 14:59:00

2023-05-25 08:24:46

Kafka大數(shù)據(jù)

2024-09-11 14:47:00

2021-07-22 18:29:58

AI

2023-05-06 07:19:48

數(shù)倉(cāng)架構(gòu)技術(shù)架構(gòu)

2022-06-27 09:09:34

快手Flink數(shù)倉(cāng)建設(shè)

2021-09-13 13:46:29

Apache HudiB 站數(shù)據(jù)湖

2023-07-27 07:44:07

云音樂(lè)數(shù)倉(cāng)平臺(tái)

2025-05-20 10:03:59

數(shù)據(jù)倉(cāng)庫(kù)Flink SQLPaimon

2022-07-14 15:29:26

數(shù)據(jù)庫(kù)實(shí)踐

2022-09-28 07:08:25

技術(shù)實(shí)時(shí)數(shù)倉(cāng)

2021-08-31 10:18:34

Flink 數(shù)倉(cāng)一體快手

2023-06-28 07:28:36

湖倉(cāng)騰訊架構(gòu)

2021-01-18 05:20:52

數(shù)倉(cāng)hive架構(gòu)

2022-08-01 15:58:48

數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)數(shù)據(jù)

2018-10-19 14:16:09

Flink數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)系統(tǒng)

2022-07-07 10:19:05

數(shù)據(jù)畫(huà)像

2024-08-27 09:12:36

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)