偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<samp id="ocrhr"></samp>

<blockquote id="ocrhr"></blockquote>

<u id="ocrhr"></u>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

如何基于MaxCompute快速打通數(shù)據(jù)倉庫和數(shù)據(jù)湖的湖倉一體實踐

作者：佚名 2021-06-07 10:45:16

大數(shù)據(jù) 數(shù)據(jù)倉庫數(shù)據(jù)湖

縱觀整個計算機科學(xué)技術(shù)領(lǐng)域，對于數(shù)據(jù)處理的技術(shù)主要分為四個階段，數(shù)據(jù)庫階段、大數(shù)據(jù)技術(shù)探索階段、大數(shù)據(jù)技術(shù)發(fā)展階段、大數(shù)據(jù)普惠階段。

本文主要分為四個部分：

一、湖倉融合的趨勢分析

二、阿里云湖倉一體

三、客戶案例分析

四、湖倉一體演示

一、湖倉融合的趨勢分析

現(xiàn)在很多企業(yè)說不清楚現(xiàn)有大數(shù)據(jù)系統(tǒng)是數(shù)據(jù)湖還是數(shù)據(jù)倉庫，所以先帶著大家一起回顧一下。過去20年，整個大數(shù)據(jù)技術(shù)發(fā)展的過程，通過這樣一個剖析，希望能夠讓大家理解，數(shù)據(jù)湖和數(shù)據(jù)倉庫到底是一個什么樣的系統(tǒng)，它們是因為什么原因產(chǎn)生的，并且今天我們提的湖倉一體，它出現(xiàn)的一個背景是什么。縱觀整個計算機科學(xué)技術(shù)領(lǐng)域，對于數(shù)據(jù)處理的技術(shù)主要分為四個階段，數(shù)據(jù)庫階段、大數(shù)據(jù)技術(shù)探索階段、大數(shù)據(jù)技術(shù)發(fā)展階段、大數(shù)據(jù)普惠階段。

數(shù)據(jù)庫階段主要是在上個世紀(jì)70年代至90年代期間，這個階段主要是數(shù)據(jù)庫加單機的黃金時代。數(shù)據(jù)庫系統(tǒng)主要是面向操作，面向事務(wù)，面向在線業(yè)務(wù)系統(tǒng)的一個數(shù)據(jù)系統(tǒng)。其實在90年代左右，數(shù)據(jù)倉庫概念就已經(jīng)出現(xiàn)了。數(shù)據(jù)倉庫面向的是歷史全量數(shù)據(jù)分析，探查，但因為當(dāng)時的整體數(shù)據(jù)量并不大，所以用一些數(shù)據(jù)庫技術(shù)的擴展，能夠支持當(dāng)時數(shù)據(jù)倉庫的需求。

2000年左右，隨著互聯(lián)網(wǎng)技術(shù)的爆發(fā)，我們迎來了大數(shù)據(jù)時代。在這個階段，我們用傳統(tǒng)數(shù)據(jù)庫的技術(shù)是很難滿足海量數(shù)據(jù)處理的需求。大家應(yīng)該都知道，Google的三篇論文，分布式存儲、調(diào)度、計算，奠定了整個大數(shù)據(jù)技術(shù)的基礎(chǔ)?；旧显谕粋€時期，2006年出現(xiàn)了Hadoop的系統(tǒng)，阿里巴巴在2009年發(fā)展出了飛天系統(tǒng)，包括微軟等頭部公司都發(fā)展出了比較優(yōu)秀的分布式系統(tǒng)。整個這個階段，整個大數(shù)據(jù)的技術(shù)，其實是把數(shù)據(jù)做起來，數(shù)據(jù)大起來再說。

2010年左右，進入了大數(shù)據(jù)的一個蓬勃發(fā)展階段，這個階段是之前我們希望大數(shù)據(jù)技術(shù)從能用轉(zhuǎn)變?yōu)楹糜谩＿@個階段出現(xiàn)了一系列以SQL表達(dá)為主的一些引擎，包括Hadoop體系發(fā)展出來Hive、Flink、Presto等一系列引擎。這個時候，逐漸形成了以HDFS為統(tǒng)一的存儲，以O(shè)RC、Parquet 為開放的文件格式，上面有很多開放引擎為主的一個體系，這個體系像我們今天講的數(shù)據(jù)湖系統(tǒng)。這個階段，Hadoop的本質(zhì)其實是一個數(shù)據(jù)湖系統(tǒng)。那數(shù)據(jù)湖的本質(zhì)是什么？本質(zhì)是統(tǒng)一的存儲，能夠存儲原始的數(shù)據(jù)，能夠支持多種計算范式，這就是數(shù)據(jù)湖的本質(zhì)。

同一時期，阿里巴巴在飛天系統(tǒng)的基礎(chǔ)上發(fā)布了 MaxCompute ，Google 發(fā)布了Big Query，AWS 發(fā)布了Redshift。這幾個系統(tǒng)可以稱之為大數(shù)據(jù)時代下的云數(shù)據(jù)倉庫。那云數(shù)據(jù)倉庫系統(tǒng)跟上述Hadoop體系有什么區(qū)別呢？云數(shù)據(jù)倉庫并不對外暴露文件系統(tǒng)，暴露的是對數(shù)據(jù)的描述，用表的方式，用視圖的方式暴露出來。存儲引擎，計算引擎是被屏蔽在系統(tǒng)里面的，所以存儲引擎，計算引擎可以進行深度的優(yōu)化，然而用戶是沒有辦法感知的。這個階段可以看出來，整個大數(shù)據(jù)技術(shù)已經(jīng)開始細(xì)分，已經(jīng)初步的形成了湖的形態(tài)和倉的形態(tài)。

現(xiàn)在我們所處的這個階段，也就是2015年左右，我們進入了大數(shù)據(jù)普惠階段。這個階段我們有觀察到兩個趨勢。第一個趨勢，大數(shù)據(jù)技術(shù)的發(fā)展除了追求規(guī)模，性能之外。更多的是看數(shù)據(jù)安全、數(shù)據(jù)治理、穩(wěn)定性、低成本等企業(yè)級能力。我們也可以看出來，阿里巴巴基于MaxCompute ，構(gòu)建出了非常有阿里特色的數(shù)據(jù)中臺系統(tǒng)。開源體系，也發(fā)展出了Atlas和Ranger，主要圍繞血緣、治理、安全等開源項目。第二個趨勢，隨著AI、IOT、云原生技術(shù)的發(fā)展，對于非結(jié)構(gòu)化數(shù)據(jù)處理的需求越來越強烈。使用云上對象存儲作為統(tǒng)一存儲的趨勢越來越明顯。Hadoop的體系也逐漸由HDFS為統(tǒng)一存儲，發(fā)展為云上像S3、OSS這樣的云存儲，做為統(tǒng)一存儲的數(shù)據(jù)湖體系。與此同時，出現(xiàn)了很多數(shù)據(jù)湖構(gòu)建，像AWS Lake Formation以及阿里云發(fā)布的DLF這樣的產(chǎn)品。倉的這條線，也在為了適應(yīng)這樣一個趨勢，我們也在跟數(shù)據(jù)湖做很密切的聯(lián)動，發(fā)展出了外表，通過外表的方式，可以對數(shù)據(jù)庫里面的數(shù)據(jù)進行聯(lián)邦計算。

縱觀整個20年的發(fā)展，隨著大數(shù)據(jù)技術(shù)的演進，其實是發(fā)展出來了倉跟湖的兩種體系。

我們可以用下圖這張表來對比一下數(shù)據(jù)湖跟數(shù)據(jù)倉庫到底有什么區(qū)別。

整體上來說，數(shù)據(jù)湖是一個寬進寬出，相對協(xié)同比較松耦合的系統(tǒng)。數(shù)據(jù)倉庫是一個嚴(yán)進嚴(yán)出，比較嚴(yán)格緊耦合的系統(tǒng)。數(shù)據(jù)湖是數(shù)據(jù)先進來，然后再開始用，所以是屬于事后建模?？梢源鎯Y(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖是提供了一套標(biāo)準(zhǔn)的開放接口，來支持更多的引擎，像插拔式的插到這個體系里面，所以它是向所有的引擎開放。但是這里要注意了，正是因為它是插拔式的這種方式，計算跟存儲其實是獨立的兩套系統(tǒng)。它們彼此之間，其實是不能夠相互理解的，也沒有辦法做到深度的優(yōu)化。這樣其實導(dǎo)致，引擎的優(yōu)化只能做到適度有限優(yōu)化。數(shù)據(jù)湖易于啟動，但是隨著數(shù)據(jù)規(guī)模的增長，一系列的治理管理的問題出現(xiàn)，后期是比較難以運維的。因為數(shù)據(jù)湖不做Schema的強一致的數(shù)據(jù)檢查，所以數(shù)據(jù)治理比較低，難管理使用。因為數(shù)據(jù)湖的數(shù)據(jù)是先進來再使用，所以它更適合解決未知的問題，比如探查類的分析，科學(xué)計算，數(shù)據(jù)挖掘等計算處理。

數(shù)據(jù)倉庫在對比維度里基本都是相反的狀態(tài)，數(shù)據(jù)倉庫是一個嚴(yán)格的系統(tǒng)，所以需要事前建模，數(shù)據(jù)經(jīng)過轉(zhuǎn)化清洗進到倉里面，存儲類型變?yōu)榻Y(jié)構(gòu)化或者半結(jié)構(gòu)化。因為數(shù)據(jù)倉庫是一個相對封閉的系統(tǒng)，是一個自閉環(huán)的系統(tǒng)，所以數(shù)據(jù)倉庫向特定引擎開放，但是恰恰因為數(shù)據(jù)倉庫是一個自閉環(huán)系統(tǒng)，它的計算引擎、存儲引擎、元數(shù)據(jù)之間是可以做到非常深度、垂直的優(yōu)化，可以獲得一個非常好的性能。數(shù)據(jù)倉庫因為事前建模，數(shù)據(jù)才能進來，所以難啟動，相對來講啟動成本較高。但一旦數(shù)據(jù)進入數(shù)倉之后，整個數(shù)據(jù)的高質(zhì)量，方便做治理，這個時候它的整體成本會降低，甚至達(dá)到一個免運維的狀態(tài)。數(shù)據(jù)倉庫的Schema會做強一致的檢查，所以數(shù)據(jù)質(zhì)量很高，易于使用。所以數(shù)據(jù)倉庫的計算負(fù)載天然的適合做離線計算，交互式計算以及BI和可視化。

整體上來講，數(shù)據(jù)湖更偏靈活性，數(shù)據(jù)倉庫更偏企業(yè)級能力。那么這兩種特點對于企業(yè)到底意味著什么呢？我們用下面這張圖來表示。

橫軸是代表企業(yè)的業(yè)務(wù)規(guī)模，縱軸是代表企業(yè)搭建一套大數(shù)據(jù)系統(tǒng)所需要的成本。在企業(yè)初創(chuàng)的時候，整個業(yè)務(wù)規(guī)模還不大，數(shù)據(jù)從產(chǎn)生到消費的整個鏈路，是一個探索和創(chuàng)新的階段。在這個階段使用數(shù)據(jù)湖是非常容易啟動，成本也是比較低的。但是隨著業(yè)務(wù)的發(fā)展和壯大，參與的人員和部門越來越多，對于數(shù)據(jù)質(zhì)量管理、權(quán)限控制、成本要求會越來越高。這個時候再使用數(shù)據(jù)湖，成本是指數(shù)級上升。所以這個時候適合用數(shù)據(jù)倉庫，可以做好成本控制、數(shù)據(jù)質(zhì)量管理等。從上圖可以看出，對于一個企業(yè)來講，在不同的階段，數(shù)據(jù)湖和數(shù)據(jù)倉庫都發(fā)揮著各自關(guān)鍵的作用。那是否有一種技術(shù)或者架構(gòu)能同時發(fā)揮出兩者的優(yōu)勢呢？

以阿里云對業(yè)界的觀察和本身大量的實踐，我們認(rèn)為數(shù)據(jù)湖和數(shù)據(jù)倉庫正在發(fā)生融合。并且它們以各自的方式，向著湖倉一體的方向進行演進。從上圖中可以看出，數(shù)據(jù)倉庫到湖倉一體的演進方向，數(shù)據(jù)湖到湖倉一體的演進方向，兩者是相反的，相對的。那么在它們各自的演進上面需要做什么工作呢？

數(shù)據(jù)倉庫是一個嚴(yán)格的系統(tǒng)，所以數(shù)據(jù)倉庫更適合做事務(wù)支持，Schema強一致檢查和演進，天然支持BI，更容易做實時性。對于數(shù)據(jù)湖，優(yōu)勢在于數(shù)據(jù)類型豐富，支持多種計算模式，有開放的文件系統(tǒng)，開放的文件格式，是存儲計算分離的架構(gòu)。

所以數(shù)據(jù)倉庫到湖倉一體的演進，需要從本身擁有的特性發(fā)展出數(shù)據(jù)湖的特性。其實是要跟HDFS、OSS這樣的系統(tǒng)做好聯(lián)動，做好融合，所以數(shù)據(jù)倉庫的結(jié)構(gòu)更偏左右結(jié)構(gòu)。對于數(shù)據(jù)湖到湖倉一體的演進，是需要更多的站在HDFS、OSS基礎(chǔ)上面，來做出強倉的特性。所以數(shù)據(jù)湖的結(jié)構(gòu)更像一個上下結(jié)構(gòu)。那么，DeltaLake和Hudi其實就是在上下結(jié)構(gòu)當(dāng)中插了一層，做了一個湖上面的，能夠支持強倉的文件類型。

但不管是數(shù)據(jù)倉庫到湖倉一體，還是數(shù)據(jù)湖到湖倉一體，最終大家演進的這個方向都是一致的，都是湖倉一體。湖倉一體的特性是不變的，四種偏倉的特性，四種偏湖的特性。

二、阿里云湖倉一體

上圖為阿里云湖倉一體整體架構(gòu)，從下往上看，底層是網(wǎng)絡(luò)層，中間層為湖倉引擎層，在往上是DataWorks 湖倉數(shù)據(jù)開發(fā)層，最上面是業(yè)務(wù)應(yīng)用層。我們重點來講下引擎層，阿里云湖倉一體是左右結(jié)構(gòu)，左邊是阿里云數(shù)據(jù)倉庫 MaxCompute，右邊是阿里云數(shù)據(jù)湖 EMR，中間是通過元數(shù)據(jù)的統(tǒng)一，通過開放格式兼容，以達(dá)到數(shù)據(jù)跟任務(wù)可以在數(shù)據(jù)倉庫和數(shù)據(jù)湖之間的任意流動。在2020年云棲大會上發(fā)布的是，對于Hadoop數(shù)據(jù)湖的支持。近期我們已經(jīng)支持了OSS 數(shù)據(jù)湖的湖倉一體。

上圖右側(cè)是列出來一些我們近期發(fā)布的具體功能點。

1.支持云原生數(shù)據(jù)湖

MaxCompute 對接了阿里云數(shù)據(jù)湖構(gòu)建產(chǎn)品DLF，可以做到元數(shù)據(jù)的自動發(fā)現(xiàn)，做到湖/倉元數(shù)據(jù)統(tǒng)一存儲和管理。

2.對于數(shù)據(jù)湖查詢更好的性能

近期阿里云正在灰度一個功能，智能Cache，此功能可以實現(xiàn)OSS到倉里面智能化的數(shù)據(jù)分層。MaxCompute 在2020年發(fā)布了查詢加速功能，未來一個版本我們會把查詢加速引擎也投射到數(shù)據(jù)湖上面，讓它能夠支持?jǐn)?shù)據(jù)湖上面的查詢加速。

3.生態(tài)開放性

近期已支持Delta Lake開源文件格式。

4.DataWorks 統(tǒng)一的數(shù)據(jù)開發(fā)平臺

DataWorks支持多引擎，提供了湖倉一體開發(fā)體驗。

不管是從上下結(jié)構(gòu)還是左右結(jié)構(gòu)演進過來的湖倉一體，最終都應(yīng)該是一個簡單易用的系統(tǒng)體系。阿里云湖倉一體有四大關(guān)鍵特性，這四大關(guān)鍵特性都是在圍繞怎么把數(shù)據(jù)湖跟數(shù)據(jù)倉庫做到更加易用。

快速接入
主要有兩個層次，一個是網(wǎng)絡(luò)層，一個是湖倉一體的開通層。MaxCompute 支持云上云下任何環(huán)境下Hadoop體系的打通，因為MaxCompute 自有的多租戶體系，如何跟特定的一個用戶環(huán)境打通，技術(shù)方面有很大的挑戰(zhàn)，我們研發(fā)了PrivateAccess網(wǎng)絡(luò)連通技術(shù)，來達(dá)到這個目標(biāo)。第二個關(guān)于DataWorks白屏操作自助開通湖倉一體，未來我們會很快發(fā)布一個版本，用戶在控制臺里面就可以很快開通湖倉一體，目前還是需要用工單方式來提交開通。

2. 統(tǒng)一的數(shù)據(jù)/元數(shù)據(jù)

其中關(guān)鍵的技術(shù)是，有一個Database級別的元數(shù)據(jù)映射，就是我們可以把數(shù)據(jù)湖上面的Database映射成MaxCompute 里面的一個Project。數(shù)據(jù)湖上面的數(shù)據(jù)不需要移動，就可以讓 MaxCompute 像訪問操作普通Project一樣進行消費。同時做到數(shù)據(jù)湖和數(shù)據(jù)倉庫的數(shù)據(jù)/元數(shù)據(jù)做到實時同步，如果數(shù)據(jù)湖內(nèi)的一張表數(shù)據(jù)或者Schema發(fā)生變化，可以及時的反應(yīng)在 MaxCompute 數(shù)倉這一側(cè)。同時 MaxCompute 具備內(nèi)置的存儲跟文件格式，我們也在持續(xù)的跟進開源生態(tài)內(nèi)的文件格式，包含上文提到的Delta Lake。

3. 提供統(tǒng)一的開發(fā)體驗

數(shù)據(jù)湖和數(shù)據(jù)倉庫本身是兩套不同的系統(tǒng)，兩個系統(tǒng)有不同的數(shù)據(jù)庫模型的定義，對象模型的定義，我們在MaxCompute 這一側(cè)，把數(shù)據(jù)湖跟數(shù)據(jù)倉庫的對象模型進行了統(tǒng)一，再加上 MaxCompute 的SQL和Spark是高度兼容社區(qū)的，所以我們可以做到作業(yè)在兩套系統(tǒng)內(nèi)，無縫遷移。

4. 自動數(shù)倉

這條線比較有意思，也是我們近期重點投入領(lǐng)域。我們?nèi)ツ曜隽艘话鍯ache，主要是根據(jù)歷史數(shù)據(jù)做Cache，今年我又做了一版Cache，是能夠根據(jù)業(yè)務(wù)場景動態(tài)調(diào)整的策略智能化Cache，最終是要做到數(shù)據(jù)可以在數(shù)據(jù)湖跟數(shù)據(jù)倉庫中智能化的冷熱分層。我們的Cache本身需要存儲跟計算，要做到深度耦合，所以數(shù)倉做這層Cache，可以做到更加的極致。另外，我們還嘗試在數(shù)據(jù)湖的數(shù)據(jù)上進行打標(biāo)跟識別，是從數(shù)據(jù)建模的角度來判定，哪些數(shù)據(jù)更適合放到倉里面，哪些數(shù)據(jù)更適合放到湖里面。比如一些結(jié)構(gòu)化被反復(fù)訪問，比較高頻的表數(shù)據(jù)，更適合放到數(shù)據(jù)倉庫內(nèi)。如果偏非結(jié)構(gòu)化/半結(jié)構(gòu)化低頻的數(shù)據(jù)，更適合放到數(shù)據(jù)湖內(nèi)。最終的目的是為了在性能、成本以及業(yè)務(wù)效果上達(dá)到一個最佳的平衡。

阿里云湖倉一體適合哪些場景？概況起來有三大類。

1.Hadoop集群利舊上云

線下Hadoop上云需要很繁重的數(shù)據(jù)、任務(wù)搬遷，甚至要修改。這時就可以使用湖倉一體，讓線下Hadoop跟阿里云 MaxCompute 進行快速的打通，線下的作業(yè)不需要修改，不需要搬遷的情況下，可以直接運行到MaxCompute 的系統(tǒng)里面。

2.數(shù)據(jù)湖ETL/Ad-hoc加速

MaxCompute 作為SaaS模式云數(shù)據(jù)倉庫，具有高性能、低成本以及Serverless能力。通過湖倉一體，是可以把倉的能力投射到湖里面。

3.企業(yè)級跨平臺的統(tǒng)一大數(shù)據(jù)平臺

企業(yè)可以基于湖倉一體的技術(shù)，將現(xiàn)有的一個或多個Hadoop甚至OSS湖上的數(shù)據(jù)，跟 MaxCompute 數(shù)倉進行一個打通，最后構(gòu)建一整套統(tǒng)一的數(shù)據(jù)開發(fā)，統(tǒng)一的管理、治理、調(diào)度的數(shù)據(jù)開發(fā)平臺。對上層業(yè)務(wù)提供的是，統(tǒng)一的、透明的中臺能力。

三、客戶案例分析
案例1、MaxCompute 數(shù)倉跟Hadoop數(shù)據(jù)湖的數(shù)倉一體案例業(yè)務(wù)介紹：

主要做社交媒體領(lǐng)域里的推薦 / 排序、文本 / 圖像分類、反垃圾 / 反作弊等。在開源 Hadoop數(shù)據(jù)湖的基礎(chǔ)上，借助阿里巴巴MaxCompute和PAI，解決了超大規(guī)模下的特征工程、模型訓(xùn)練等性能問題，形成了MaxCompute 和Hadoop數(shù)據(jù)湖共存的格局。

痛點：

數(shù)據(jù)同步安排專人專項負(fù)責(zé)，工作量巨大；

訓(xùn)練數(shù)據(jù)體量大，導(dǎo)致耗時多，無法滿足實時訓(xùn)練要求；

新寫 SQL 數(shù)據(jù)處理 query，無法復(fù)用 Hive SQL 原有 query。

價值：

通過湖倉一體，無須進行數(shù)據(jù)搬遷和作業(yè)遷移，原有生產(chǎn)作業(yè)無縫靈活調(diào)度MaxCompute 集群和 EMR 集群中，且性能有提升；

封裝構(gòu)建AI計算中臺，極大提升該團隊的業(yè)務(wù)支撐能力。

案例2、MaxCompute 數(shù)倉跟OSS數(shù)據(jù)湖的湖倉一體案例業(yè)務(wù)介紹：

客戶廣告算法團隊是湖倉一體主要客戶，主要應(yīng)用是機器學(xué)習(xí)DW + MC + PAI + EAS 在線模型服務(wù) 。

痛點：

算法團隊想更集中在業(yè)務(wù)和算法上，需要自服務(wù)程度高、一站式的機器學(xué)習(xí)平臺；

Hadoop 集群是多團隊共用，使用集群管控較嚴(yán)，無法短時間支撐大workload 的創(chuàng)新業(yè)務(wù)。

價值：

通過湖倉一體將新業(yè)務(wù)平臺與原有數(shù)據(jù)平臺打通，PAI on MaxCompute + DataWorks 為客戶創(chuàng)新業(yè)務(wù)提供敏捷、一站式機器學(xué)習(xí)模型開發(fā)、訓(xùn)練、模型發(fā)布，大規(guī)模計算能力、EAS 模型發(fā)布流程；

起到好的示范作用，并快速復(fù)制到其他業(yè)務(wù)線，高效的支撐了該客戶業(yè)務(wù)的快速增長。

案例3、MaxCompute數(shù)倉跟OSS數(shù)據(jù)湖的湖倉一體案例業(yè)務(wù)介紹：

豐富的大數(shù)據(jù)平臺建設(shè)經(jīng)驗，持續(xù)進行平臺的迭代升級以滿足業(yè)務(wù)不斷發(fā)展的需求。從國外某廠商遷移到阿里云后，積極建設(shè)和改造數(shù)據(jù)湖架構(gòu)。

痛點：

第一代數(shù)據(jù)湖是 EMR + OSS，公司引入的數(shù)據(jù)中臺的執(zhí)行引擎和存儲是Maxcompute，兩套異構(gòu)的執(zhí)行引擎帶來存儲冗余、元數(shù)據(jù)不統(tǒng)一、權(quán)限不統(tǒng)一、湖倉計算不能自由流動。

價值：

將 EMR 的元數(shù)據(jù)統(tǒng)一到DLF，底層使用 OSS 作統(tǒng)一存儲，并通過湖倉一體打通EMR數(shù)據(jù)湖和MaxCompute數(shù)倉兩套體系，讓數(shù)據(jù)和計算在湖和倉之間自由流動；

實現(xiàn)湖倉數(shù)據(jù)分層存儲。數(shù)據(jù)中臺對數(shù)據(jù)湖數(shù)據(jù)進行維度建模的中間表存儲在MaxCompute上，建模的結(jié)果表放在數(shù)據(jù)湖里供EMR或其他引擎消費。

責(zé)任編輯：梁菲來源：阿里云云棲號

大數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)湖湖倉一體

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<del id="mj9pf"></del>

<nav id="mj9pf"><dl id="mj9pf"><dl id="mj9pf"></dl></dl></nav>

<nav id="mj9pf"><strong id="mj9pf"></strong></nav>