偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

如何基于MaxCompute快速打通數(shù)據(jù)倉庫和數(shù)據(jù)湖的湖倉一體實踐

大數(shù)據(jù) 數(shù)據(jù)倉庫 數(shù)據(jù)湖
縱觀整個計算機科學(xué)技術(shù)領(lǐng)域,對于數(shù)據(jù)處理的技術(shù)主要分為四個階段,數(shù)據(jù)庫階段、大數(shù)據(jù)技術(shù)探索階段、大數(shù)據(jù)技術(shù)發(fā)展階段、大數(shù)據(jù)普惠階段。

 [[404152]]

本文主要分為四個部分:

一、湖倉融合的趨勢分析

二、阿里云湖倉一體

三、客戶案例分析

四、湖倉一體演示

一、 湖倉融合的趨勢分析

現(xiàn)在很多企業(yè)說不清楚現(xiàn)有大數(shù)據(jù)系統(tǒng)是數(shù)據(jù)湖還是數(shù)據(jù)倉庫,所以先帶著大家一起回顧一下。過去20年,整個大數(shù)據(jù)技術(shù)發(fā)展的過程,通過這樣一個剖析,希望能夠讓大家理解,數(shù)據(jù)湖和數(shù)據(jù)倉庫到底是一個什么樣的系統(tǒng),它們是因為什么原因產(chǎn)生的,并且今天我們提的湖倉一體,它出現(xiàn)的一個背景是什么。縱觀整個計算機科學(xué)技術(shù)領(lǐng)域,對于數(shù)據(jù)處理的技術(shù)主要分為四個階段,數(shù)據(jù)庫階段、大數(shù)據(jù)技術(shù)探索階段、大數(shù)據(jù)技術(shù)發(fā)展階段、大數(shù)據(jù)普惠階段。

數(shù)據(jù)庫階段主要是在上個世紀(jì)70年代至90年代期間,這個階段主要是數(shù)據(jù)庫加單機的黃金時代。數(shù)據(jù)庫系統(tǒng)主要是面向操作,面向事務(wù),面向在線業(yè)務(wù)系統(tǒng)的一個數(shù)據(jù)系統(tǒng)。其實在90年代左右,數(shù)據(jù)倉庫概念就已經(jīng)出現(xiàn)了。數(shù)據(jù)倉庫面向的是歷史全量數(shù)據(jù)分析,探查,但因為當(dāng)時的整體數(shù)據(jù)量并不大,所以用一些數(shù)據(jù)庫技術(shù)的擴展,能夠支持當(dāng)時數(shù)據(jù)倉庫的需求。

2000年左右,隨著互聯(lián)網(wǎng)技術(shù)的爆發(fā),我們迎來了大數(shù)據(jù)時代。在這個階段,我們用傳統(tǒng)數(shù)據(jù)庫的技術(shù)是很難滿足海量數(shù)據(jù)處理的需求。大家應(yīng)該都知道,Google的三篇論文,分布式存儲、調(diào)度、計算,奠定了整個大數(shù)據(jù)技術(shù)的基礎(chǔ)?;旧显谕粋€時期,2006年出現(xiàn)了Hadoop的系統(tǒng),阿里巴巴在2009年發(fā)展出了飛天系統(tǒng),包括微軟等頭部公司都發(fā)展出了比較優(yōu)秀的分布式系統(tǒng)。整個這個階段,整個大數(shù)據(jù)的技術(shù),其實是把數(shù)據(jù)做起來,數(shù)據(jù)大起來再說。

2010年左右,進入了大數(shù)據(jù)的一個蓬勃發(fā)展階段,這個階段是之前我們希望大數(shù)據(jù)技術(shù)從能用轉(zhuǎn)變?yōu)楹糜谩_@個階段出現(xiàn)了一系列以SQL表達(dá)為主的一些引擎,包括Hadoop體系發(fā)展出來Hive、Flink、Presto等一系列引擎。這個時候,逐漸形成了以HDFS為統(tǒng)一的存儲,以O(shè)RC、Parquet 為開放的文件格式,上面有很多開放引擎為主的一個體系,這個體系像我們今天講的數(shù)據(jù)湖系統(tǒng)。這個階段,Hadoop的本質(zhì)其實是一個數(shù)據(jù)湖系統(tǒng)。那數(shù)據(jù)湖的本質(zhì)是什么?本質(zhì)是統(tǒng)一的存儲,能夠存儲原始的數(shù)據(jù),能夠支持多種計算范式,這就是數(shù)據(jù)湖的本質(zhì)。

同一時期,阿里巴巴在飛天系統(tǒng)的基礎(chǔ)上發(fā)布了 MaxCompute ,Google 發(fā)布了Big Query,AWS 發(fā)布了Redshift。這幾個系統(tǒng)可以稱之為大數(shù)據(jù)時代下的云數(shù)據(jù)倉庫。那云數(shù)據(jù)倉庫系統(tǒng)跟上述Hadoop體系有什么區(qū)別呢?云數(shù)據(jù)倉庫并不對外暴露文件系統(tǒng),暴露的是對數(shù)據(jù)的描述,用表的方式,用視圖的方式暴露出來。存儲引擎,計算引擎是被屏蔽在系統(tǒng)里面的,所以存儲引擎,計算引擎可以進行深度的優(yōu)化,然而用戶是沒有辦法感知的。這個階段可以看出來,整個大數(shù)據(jù)技術(shù)已經(jīng)開始細(xì)分,已經(jīng)初步的形成了湖的形態(tài)和倉的形態(tài)。

現(xiàn)在我們所處的這個階段,也就是2015年左右,我們進入了大數(shù)據(jù)普惠階段。這個階段我們有觀察到兩個趨勢。第一個趨勢,大數(shù)據(jù)技術(shù)的發(fā)展除了追求規(guī)模,性能之外。更多的是看數(shù)據(jù)安全、數(shù)據(jù)治理、穩(wěn)定性、低成本等企業(yè)級能力。我們也可以看出來,阿里巴巴 基于MaxCompute ,構(gòu)建出了非常有阿里特色的數(shù)據(jù)中臺系統(tǒng)。開源體系,也發(fā)展出了Atlas和Ranger,主要圍繞血緣、治理、安全等開源項目。第二個趨勢,隨著AI、IOT、云原生技術(shù)的發(fā)展,對于非結(jié)構(gòu)化數(shù)據(jù)處理的需求越來越強烈。使用云上對象存儲作為統(tǒng)一存儲的趨勢越來越明顯。Hadoop的體系也逐漸由HDFS為統(tǒng)一存儲,發(fā)展為云上像S3、OSS這樣的云存儲,做為統(tǒng)一存儲的數(shù)據(jù)湖體系。與此同時,出現(xiàn)了很多數(shù)據(jù)湖構(gòu)建,像AWS Lake Formation以及阿里云發(fā)布的DLF這樣的產(chǎn)品。倉的這條線,也在為了適應(yīng)這樣一個趨勢,我們也在跟數(shù)據(jù)湖做很密切的聯(lián)動,發(fā)展出了外表,通過外表的方式,可以對數(shù)據(jù)庫里面的數(shù)據(jù)進行聯(lián)邦計算。

縱觀整個20年的發(fā)展,隨著大數(shù)據(jù)技術(shù)的演進,其實是發(fā)展出來了倉跟湖的兩種體系。

我們可以用下圖這張表來對比一下數(shù)據(jù)湖跟數(shù)據(jù)倉庫到底有什么區(qū)別。

整體上來說,數(shù)據(jù)湖是一個寬進寬出,相對協(xié)同比較松耦合的系統(tǒng)。數(shù)據(jù)倉庫是一個嚴(yán)進嚴(yán)出,比較嚴(yán)格緊耦合的系統(tǒng)。數(shù)據(jù)湖是數(shù)據(jù)先進來,然后再開始用,所以是屬于事后建模??梢源鎯Y(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖是提供了一套標(biāo)準(zhǔn)的開放接口,來支持更多的引擎,像插拔式的插到這個體系里面,所以它是向所有的引擎開放。但是這里要注意了,正是因為它是插拔式的這種方式,計算跟存儲其實是獨立的兩套系統(tǒng)。它們彼此之間,其實是不能夠相互理解的,也沒有辦法做到深度的優(yōu)化。這樣其實導(dǎo)致,引擎的優(yōu)化只能做到適度有限優(yōu)化。數(shù)據(jù)湖易于啟動,但是隨著數(shù)據(jù)規(guī)模的增長,一系列的治理管理的問題出現(xiàn),后期是比較難以運維的。因為數(shù)據(jù)湖不做Schema的強一致的數(shù)據(jù)檢查,所以數(shù)據(jù)治理比較低,難管理使用。因為數(shù)據(jù)湖的數(shù)據(jù)是先進來再使用,所以它更適合解決未知的問題,比如探查類的分析,科學(xué)計算,數(shù)據(jù)挖掘等計算處理。

數(shù)據(jù)倉庫在對比維度里基本都是相反的狀態(tài),數(shù)據(jù)倉庫是一個嚴(yán)格的系統(tǒng),所以需要事前建模,數(shù)據(jù)經(jīng)過轉(zhuǎn)化清洗進到倉里面,存儲類型變?yōu)榻Y(jié)構(gòu)化或者半結(jié)構(gòu)化。因為數(shù)據(jù)倉庫是一個相對封閉的系統(tǒng),是一個自閉環(huán)的系統(tǒng),所以數(shù)據(jù)倉庫向特定引擎開放,但是恰恰因為數(shù)據(jù)倉庫是一個自閉環(huán)系統(tǒng),它的計算引擎、存儲引擎、元數(shù)據(jù)之間是可以做到非常深度、垂直的優(yōu)化,可以獲得一個非常好的性能。數(shù)據(jù)倉庫因為事前建模,數(shù)據(jù)才能進來,所以難啟動,相對來講啟動成本較高。但一旦數(shù)據(jù)進入數(shù)倉之后,整個數(shù)據(jù)的高質(zhì)量,方便做治理,這個時候它的整體成本會降低,甚至達(dá)到一個免運維的狀態(tài)。數(shù)據(jù)倉庫的Schema會做強一致的檢查,所以數(shù)據(jù)質(zhì)量很高,易于使用。所以數(shù)據(jù)倉庫的計算負(fù)載天然的適合做離線計算,交互式計算以及BI和可視化。

整體上來講,數(shù)據(jù)湖更偏靈活性,數(shù)據(jù)倉庫更偏企業(yè)級能力。那么這兩種特點對于企業(yè)到底意味著什么呢?我們用下面這張圖來表示。

橫軸是代表企業(yè)的業(yè)務(wù)規(guī)模,縱軸是代表企業(yè)搭建一套大數(shù)據(jù)系統(tǒng)所需要的成本。在企業(yè)初創(chuàng)的時候,整個業(yè)務(wù)規(guī)模還不大,數(shù)據(jù)從產(chǎn)生到消費的整個鏈路,是一個探索和創(chuàng)新的階段。在這個階段使用數(shù)據(jù)湖是非常容易啟動,成本也是比較低的。但是隨著業(yè)務(wù)的發(fā)展和壯大,參與的人員和部門越來越多,對于數(shù)據(jù)質(zhì)量管理、權(quán)限控制、成本要求會越來越高。這個時候再使用數(shù)據(jù)湖,成本是指數(shù)級上升。所以這個時候適合用數(shù)據(jù)倉庫,可以做好成本控制、數(shù)據(jù)質(zhì)量管理等。從上圖可以看出,對于一個企業(yè)來講,在不同的階段,數(shù)據(jù)湖和數(shù)據(jù)倉庫都發(fā)揮著各自關(guān)鍵的作用。那是否有一種技術(shù)或者架構(gòu)能同時發(fā)揮出兩者的優(yōu)勢呢?

以阿里云對業(yè)界的觀察和本身大量的實踐,我們認(rèn)為數(shù)據(jù)湖和數(shù)據(jù)倉庫正在發(fā)生融合。并且它們以各自的方式,向著湖倉一體的方向進行演進。從上圖中可以看出,數(shù)據(jù)倉庫到湖倉一體的演進方向,數(shù)據(jù)湖到湖倉一體的演進方向,兩者是相反的,相對的。那么在它們各自的演進上面需要做什么工作呢?

數(shù)據(jù)倉庫是一個嚴(yán)格的系統(tǒng),所以數(shù)據(jù)倉庫更適合做事務(wù)支持,Schema強一致檢查和演進,天然支持BI,更容易做實時性。對于數(shù)據(jù)湖,優(yōu)勢在于數(shù)據(jù)類型豐富,支持多種計算模式,有開放的文件系統(tǒng),開放的文件格式,是存儲計算分離的架構(gòu)。

所以數(shù)據(jù)倉庫到湖倉一體的演進,需要從本身擁有的特性發(fā)展出數(shù)據(jù)湖的特性。其實是要跟HDFS、OSS這樣的系統(tǒng)做好聯(lián)動,做好融合,所以數(shù)據(jù)倉庫的結(jié)構(gòu)更偏左右結(jié)構(gòu)。對于數(shù)據(jù)湖到湖倉一體的演進,是需要更多的站在HDFS、OSS基礎(chǔ)上面,來做出強倉的特性。所以數(shù)據(jù)湖的結(jié)構(gòu)更像一個上下結(jié)構(gòu)。那么,DeltaLake和Hudi其實就是在上下結(jié)構(gòu)當(dāng)中插了一層,做了一個湖上面的,能夠支持強倉的文件類型。

但不管是數(shù)據(jù)倉庫到湖倉一體,還是數(shù)據(jù)湖到湖倉一體,最終大家演進的這個方向都是一致的,都是湖倉一體。湖倉一體的特性是不變的,四種偏倉的特性,四種偏湖的特性。

二、阿里云湖倉一體

上圖為阿里云湖倉一體整體架構(gòu),從下往上看,底層是網(wǎng)絡(luò)層,中間層為湖倉引擎層,在往上是DataWorks 湖倉數(shù)據(jù)開發(fā)層,最上面是業(yè)務(wù)應(yīng)用層。我們重點來講下引擎層,阿里云湖倉一體是左右結(jié)構(gòu),左邊是阿里云數(shù)據(jù)倉庫 MaxCompute,右邊是阿里云數(shù)據(jù)湖 EMR,中間是通過元數(shù)據(jù)的統(tǒng)一,通過開放格式兼容,以達(dá)到數(shù)據(jù)跟任務(wù)可以在數(shù)據(jù)倉庫和數(shù)據(jù)湖之間的任意流動。在2020年云棲大會上發(fā)布的是,對于Hadoop數(shù)據(jù)湖的支持。近期我們已經(jīng)支持了OSS 數(shù)據(jù)湖的湖倉一體。

上圖右側(cè)是列出來一些我們近期發(fā)布的具體功能點。

1.支持云原生數(shù)據(jù)湖

MaxCompute 對接了阿里云數(shù)據(jù)湖構(gòu)建產(chǎn)品DLF,可以做到元數(shù)據(jù)的自動發(fā)現(xiàn),做到湖/倉元數(shù)據(jù)統(tǒng)一存儲和管理。

2.對于數(shù)據(jù)湖查詢更好的性能

近期阿里云正在灰度一個功能,智能Cache,此功能可以實現(xiàn)OSS到倉里面智能化的數(shù)據(jù)分層。MaxCompute 在2020年發(fā)布了查詢加速功能,未來一個版本我們會把查詢加速引擎也投射到數(shù)據(jù)湖上面,讓它能夠支持?jǐn)?shù)據(jù)湖上面的查詢加速。

3.生態(tài)開放性

近期已支持Delta Lake開源文件格式。

4.DataWorks 統(tǒng)一的數(shù)據(jù)開發(fā)平臺

DataWorks支持多引擎,提供了湖倉一體開發(fā)體驗。

不管是從上下結(jié)構(gòu)還是左右結(jié)構(gòu)演進過來的湖倉一體,最終都應(yīng)該是一個簡單易用的系統(tǒng)體系。阿里云湖倉一體有四大關(guān)鍵特性,這四大關(guān)鍵特性都是在圍繞怎么把數(shù)據(jù)湖跟數(shù)據(jù)倉庫做到更加易用。

快速接入
主要有兩個層次,一個是網(wǎng)絡(luò)層,一個是湖倉一體的開通層。MaxCompute 支持云上云下任何環(huán)境下Hadoop體系的打通,因為MaxCompute 自有的多租戶體系,如何跟特定的一個用戶環(huán)境打通,技術(shù)方面有很大的挑戰(zhàn),我們研發(fā)了PrivateAccess網(wǎng)絡(luò)連通技術(shù),來達(dá)到這個目標(biāo)。第二個關(guān)于DataWorks白屏操作自助開通湖倉一體,未來我們會很快發(fā)布一個版本,用戶在控制臺里面就可以很快開通湖倉一體,目前還是需要用工單方式來提交開通。

2. 統(tǒng)一的數(shù)據(jù)/元數(shù)據(jù)

其中關(guān)鍵的技術(shù)是,有一個Database級別的元數(shù)據(jù)映射,就是我們可以把數(shù)據(jù)湖上面的Database映射成MaxCompute 里面的一個Project。數(shù)據(jù)湖上面的數(shù)據(jù)不需要移動,就可以讓 MaxCompute 像訪問操作普通Project一樣進行消費。同時做到數(shù)據(jù)湖和數(shù)據(jù)倉庫的數(shù)據(jù)/元數(shù)據(jù)做到實時同步,如果數(shù)據(jù)湖內(nèi)的一張表數(shù)據(jù)或者Schema發(fā)生變化,可以及時的反應(yīng)在 MaxCompute 數(shù)倉這一側(cè)。同時 MaxCompute 具備內(nèi)置的存儲跟文件格式,我們也在持續(xù)的跟進開源生態(tài)內(nèi)的文件格式,包含上文提到的Delta Lake。

3. 提供統(tǒng)一的開發(fā)體驗

數(shù)據(jù)湖和數(shù)據(jù)倉庫本身是兩套不同的系統(tǒng),兩個系統(tǒng)有不同的數(shù)據(jù)庫模型的定義,對象模型的定義,我們在MaxCompute 這一側(cè),把數(shù)據(jù)湖跟數(shù)據(jù)倉庫的對象模型進行了統(tǒng)一,再加上 MaxCompute 的SQL和Spark是高度兼容社區(qū)的,所以我們可以做到作業(yè)在兩套系統(tǒng)內(nèi),無縫遷移。

4. 自動數(shù)倉

這條線比較有意思,也是我們近期重點投入領(lǐng)域。我們?nèi)ツ曜隽艘话鍯ache,主要是根據(jù)歷史數(shù)據(jù)做Cache,今年我又做了一版Cache,是能夠根據(jù)業(yè)務(wù)場景動態(tài)調(diào)整的策略智能化Cache,最終是要做到數(shù)據(jù)可以在數(shù)據(jù)湖跟數(shù)據(jù)倉庫中智能化的冷熱分層。我們的Cache本身需要存儲跟計算,要做到深度耦合,所以數(shù)倉做這層Cache,可以做到更加的極致。另外,我們還嘗試在數(shù)據(jù)湖的數(shù)據(jù)上進行打標(biāo)跟識別,是從數(shù)據(jù)建模的角度來判定,哪些數(shù)據(jù)更適合放到倉里面,哪些數(shù)據(jù)更適合放到湖里面。比如一些結(jié)構(gòu)化被反復(fù)訪問,比較高頻的表數(shù)據(jù),更適合放到數(shù)據(jù)倉庫內(nèi)。如果偏非結(jié)構(gòu)化/半結(jié)構(gòu)化低頻的數(shù)據(jù),更適合放到數(shù)據(jù)湖內(nèi)。最終的目的是為了在性能、成本以及業(yè)務(wù)效果上達(dá)到一個最佳的平衡。

阿里云湖倉一體適合哪些場景?概況起來有三大類。

1.Hadoop集群利舊上云

線下Hadoop上云需要很繁重的數(shù)據(jù)、任務(wù)搬遷,甚至要修改。這時就可以使用湖倉一體,讓線下Hadoop跟阿里云 MaxCompute 進行快速的打通,線下的作業(yè)不需要修改,不需要搬遷的情況下,可以直接運行到MaxCompute 的系統(tǒng)里面。

2.數(shù)據(jù)湖ETL/Ad-hoc加速

MaxCompute 作為SaaS模式云數(shù)據(jù)倉庫,具有高性能、低成本以及Serverless能力。通過湖倉一體,是可以把倉的能力投射到湖里面。

3.企業(yè)級跨平臺的統(tǒng)一大數(shù)據(jù)平臺

企業(yè)可以基于湖倉一體的技術(shù),將現(xiàn)有的一個或多個Hadoop甚至OSS湖上的數(shù)據(jù),跟 MaxCompute 數(shù)倉進行一個打通,最后構(gòu)建一整套統(tǒng)一的數(shù)據(jù)開發(fā),統(tǒng)一的管理、治理、調(diào)度的數(shù)據(jù)開發(fā)平臺。對上層業(yè)務(wù)提供的是,統(tǒng)一的、透明的中臺能力。

三、客戶案例分析
案例1、MaxCompute 數(shù)倉跟Hadoop數(shù)據(jù)湖的數(shù)倉一體案例業(yè)務(wù)介紹:

主要做社交媒體領(lǐng)域里的推薦 / 排序、文本 / 圖像分類、反垃圾 / 反作弊等。在開源 Hadoop數(shù)據(jù)湖的基礎(chǔ)上,借助阿里巴巴MaxCompute和PAI,解決了超大規(guī)模下的特征工程、模型訓(xùn)練等性能問題,形成了MaxCompute 和Hadoop數(shù)據(jù)湖共存的格局。

痛點:

數(shù)據(jù)同步安排專人專項負(fù)責(zé),工作量巨大;

訓(xùn)練數(shù)據(jù)體量大,導(dǎo)致耗時多,無法滿足實時訓(xùn)練要求;

新寫 SQL 數(shù)據(jù)處理 query,無法復(fù)用 Hive SQL 原有 query。

價值:

通過湖倉一體,無須進行數(shù)據(jù)搬遷和作業(yè)遷移,原有生產(chǎn)作業(yè)無縫靈活調(diào)度MaxCompute 集群和 EMR 集群中,且性能有提升;

封裝構(gòu)建AI計算中臺,極大提升該團隊的業(yè)務(wù)支撐能力。

案例2、MaxCompute 數(shù)倉跟OSS數(shù)據(jù)湖的湖倉一體案例業(yè)務(wù)介紹:

客戶廣告算法團隊是湖倉一體主要客戶,主要應(yīng)用是機器學(xué)習(xí)DW + MC + PAI + EAS 在線模型服務(wù) 。

痛點:

算法團隊想更集中在業(yè)務(wù)和算法上,需要自服務(wù)程度高、一站式的機器學(xué)習(xí)平臺;

Hadoop 集群是多團隊共用,使用集群管控較嚴(yán),無法短時間支撐大workload 的創(chuàng)新業(yè)務(wù)。

價值:

通過湖倉一體將新業(yè)務(wù)平臺與原有數(shù)據(jù)平臺打通,PAI on MaxCompute + DataWorks 為客戶創(chuàng)新業(yè)務(wù)提供敏捷、一站式機器學(xué)習(xí)模型開發(fā)、訓(xùn)練、模型發(fā)布,大規(guī)模計算能力、EAS 模型發(fā)布流程;

起到好的示范作用,并快速復(fù)制到其他業(yè)務(wù)線,高效的支撐了該客戶業(yè)務(wù)的快速增長。

案例3、MaxCompute數(shù)倉跟OSS數(shù)據(jù)湖的湖倉一體案例業(yè)務(wù)介紹:

豐富的大數(shù)據(jù)平臺建設(shè)經(jīng)驗,持續(xù)進行平臺的迭代升級以滿足業(yè)務(wù)不斷發(fā)展的需求。從國外某廠商遷移到阿里云后,積極建設(shè)和改造數(shù)據(jù)湖架構(gòu)。

痛點:

第一代數(shù)據(jù)湖是 EMR + OSS,公司引入的數(shù)據(jù)中臺的執(zhí)行引擎和存儲是Maxcompute,兩套異構(gòu)的執(zhí)行引擎帶來存儲冗余、元數(shù)據(jù)不統(tǒng)一、權(quán)限不統(tǒng)一、湖倉計算不能自由流動。

價值:

將 EMR 的元數(shù)據(jù)統(tǒng)一到DLF,底層使用 OSS 作統(tǒng)一存儲,并通過湖倉一體打通EMR數(shù)據(jù)湖和MaxCompute數(shù)倉兩套體系,讓數(shù)據(jù)和計算在湖和倉之間自由流動;

實現(xiàn)湖倉數(shù)據(jù)分層存儲。數(shù)據(jù)中臺對數(shù)據(jù)湖數(shù)據(jù)進行維度建模的中間表存儲在MaxCompute上,建模的結(jié)果表放在數(shù)據(jù)湖里供EMR或其他引擎消費。

責(zé)任編輯:梁菲 來源: 阿里云云棲號
相關(guān)推薦

2025-08-21 09:29:11

2023-08-30 07:14:27

MaxCompute湖倉一體

2020-12-02 17:20:58

數(shù)據(jù)倉庫阿里云數(shù)據(jù)湖

2022-11-29 17:16:57

2022-10-14 14:20:20

云原生數(shù)據(jù)倉庫

2023-12-13 07:26:24

數(shù)據(jù)湖倉數(shù)據(jù)倉庫性能

2021-06-11 14:01:51

數(shù)據(jù)倉庫湖倉一體 Flink

2024-03-05 08:21:23

湖倉一體數(shù)據(jù)湖數(shù)據(jù)倉庫

2023-12-14 13:01:00

Hudivivo

2023-06-28 07:28:36

湖倉騰訊架構(gòu)

2022-12-13 17:42:47

Arctic存儲湖倉

2023-05-16 07:24:25

數(shù)據(jù)湖快手

2024-09-05 16:08:52

2022-06-24 10:41:53

日志數(shù)據(jù)

2024-03-19 13:45:27

數(shù)據(jù)倉庫數(shù)據(jù)湖大數(shù)據(jù)

2023-05-26 06:45:08

2023-12-01 14:55:32

數(shù)據(jù)網(wǎng)格數(shù)據(jù)湖

2024-02-20 07:55:48

數(shù)據(jù)平臺架構(gòu)湖倉一體Alluxio

2023-03-27 21:24:18

架構(gòu)數(shù)據(jù)處理分析服務(wù)
點贊
收藏

51CTO技術(shù)棧公眾號