偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

數(shù)倉架構(gòu)持續(xù)演進與發(fā)展:云原生、湖倉一體、離線實時一體、SaaS

大數(shù)據(jù) 云原生 SaaS
數(shù)據(jù)倉庫概念從1990年提出,經(jīng)過了四個主要階段。從最初的數(shù)據(jù)庫演進到數(shù)據(jù)倉庫,到MPP架構(gòu),到大數(shù)據(jù)時代的數(shù)據(jù)倉庫,再到今天的云原生的數(shù)據(jù)倉庫。在不斷的演進過程中,數(shù)據(jù)倉庫面臨著不同的挑戰(zhàn)。

談到數(shù)據(jù)倉庫,我們往往容易忽略“數(shù)據(jù)”兩個字,阿里云有著很多業(yè)務(wù)場景和業(yè)務(wù)體系,在這些數(shù)據(jù)應(yīng)用之下我們?nèi)绾喂芾頂?shù)據(jù)的呢?數(shù)據(jù)倉庫是如何幫到我們以及它自身是如何演進的?

數(shù)據(jù)倉庫概念從1990年提出,經(jīng)過了四個主要階段。從最初的數(shù)據(jù)庫演進到數(shù)據(jù)倉庫,到MPP架構(gòu),到大數(shù)據(jù)時代的數(shù)據(jù)倉庫,再到今天的云原生的數(shù)據(jù)倉庫。在不斷的演進過程中,數(shù)據(jù)倉庫面臨著不同的挑戰(zhàn)。

 

 

第一 啟動成本高、建設(shè)周期長,價值難以快速驗證

對于數(shù)倉的建設(shè)人員,面臨的挑戰(zhàn)是業(yè)務(wù)人員希望數(shù)倉建設(shè)周期能更短。而傳統(tǒng)數(shù)據(jù)倉庫往往要面臨從采購服務(wù)器,建立物理倉庫到邏輯倉庫等一個較長的周期,所以數(shù)據(jù)倉庫面臨的第一個挑戰(zhàn)就是怎樣去降低建設(shè)周期。

第二 如何處理多樣數(shù)據(jù),擁抱新技術(shù),充分挖掘數(shù)據(jù)價值

隨著大數(shù)據(jù)的到來,傳統(tǒng)數(shù)據(jù)倉庫管理的大多是結(jié)構(gòu)化數(shù)據(jù)。如何對半結(jié)構(gòu)化的數(shù)據(jù)進行統(tǒng)一全面的管理就成為傳統(tǒng)數(shù)據(jù)倉庫面臨的第二個挑戰(zhàn)。

第三 難以共享企業(yè)數(shù)據(jù)資產(chǎn)、數(shù)據(jù)創(chuàng)新成本高

數(shù)據(jù)倉庫更加強調(diào)管理和安全,在強調(diào)安全的情況下如何在組織里以及整個生態(tài)上下游中更好的共享和交換數(shù)據(jù),成為了新的挑戰(zhàn)。例如在企業(yè)的部門間或業(yè)務(wù)間依然存在為數(shù)不少的數(shù)據(jù)孤島,數(shù)據(jù)共享成本高,缺乏企業(yè)級別的統(tǒng)一的數(shù)據(jù)獲取出口,由此導(dǎo)致數(shù)據(jù)消費方獲取數(shù)據(jù)困難,難于自助分析,嚴重依賴IT部門支持來滿足企業(yè)更廣泛的數(shù)據(jù)需求。

第四 平臺架構(gòu)復(fù)雜、運營成本高

隨著數(shù)據(jù)處理種類的多樣化和數(shù)據(jù)量的不斷變大,不同的技術(shù)被疊加在一起從而使得數(shù)據(jù)倉庫架構(gòu)變得越發(fā)復(fù)雜。同一企業(yè)里往往會同時存在各種技術(shù)類型的數(shù)據(jù)倉庫。所以如何簡化數(shù)據(jù)倉庫的架構(gòu)也是面臨的一個重要挑戰(zhàn)。一般需要投入專業(yè)團隊負責(zé)管理復(fù)雜的數(shù)據(jù)平臺,同時對資源利用率不高的情況進行管理和治理。

第五 滿足業(yè)務(wù)需要的擴展性、彈性、靈活性

業(yè)務(wù)快速發(fā)展的企業(yè),經(jīng)常會有大促活動,補數(shù)據(jù),處理非常規(guī)事件的需求,如何快速擴展數(shù)倉性能,提高業(yè)務(wù)峰谷的響應(yīng)時效,也帶來很多挑戰(zhàn)。

對于傳統(tǒng)數(shù)據(jù)倉庫面臨的這些挑戰(zhàn),在技術(shù)和業(yè)務(wù)的驅(qū)動下新型數(shù)據(jù)倉庫如何應(yīng)對呢?這里可以看到六個主要的驅(qū)動力。

 

第一 我們希望有一個統(tǒng)一的數(shù)據(jù)平臺,能去連接,去存儲和處理多種數(shù)據(jù)。

第二 實時化,企業(yè)基于數(shù)據(jù)驅(qū)動能實時對業(yè)務(wù)作出支撐和決策的信息,這里有更高時效性的要求。

第三 數(shù)據(jù)量變得非常龐大,在海量數(shù)據(jù)中如何找到想要的數(shù)據(jù),就需要有一張地圖,要對數(shù)據(jù)進行管理和治理。

第四 傳統(tǒng)數(shù)據(jù)倉庫中,數(shù)據(jù)的存儲采用集中的方式,一定要把數(shù)據(jù)集中在同一個存儲中。而在新的業(yè)務(wù)驅(qū)動下,需要去連接數(shù)據(jù)而不是統(tǒng)一存儲在一起。

第五 數(shù)據(jù)倉庫之上如何支持更多智能化的應(yīng)用,信息化的業(yè)務(wù)以及業(yè)務(wù)的信息化等關(guān)系。這就是數(shù)倉智能化和智能化數(shù)倉的需求驅(qū)動力。

第六 數(shù)據(jù)領(lǐng)域的不同角色對數(shù)據(jù)平臺有著不同需求。例如數(shù)據(jù)工程師,數(shù)據(jù)分析人員,數(shù)據(jù)科學(xué)家等,他們對數(shù)據(jù)平臺的響應(yīng)時間,處理速度,數(shù)據(jù)量,開發(fā)語言等有著不同的需求。所以更多的做好分析服務(wù),成為數(shù)據(jù)管理平臺第六個驅(qū)動力。

據(jù)倉庫在不斷地演進過程中,從30年前的概念來看已經(jīng)注入了更多新的內(nèi)涵。對于新的內(nèi)涵,我們可以從數(shù)據(jù)倉庫的基礎(chǔ)架構(gòu),數(shù)據(jù)架構(gòu),數(shù)據(jù)分析以及服務(wù)模型四個角度來明顯看到云原生,湖倉一體,離線實時一體化、服務(wù)模型的SAAS化的演進趨勢。

云原生 — 數(shù)倉基礎(chǔ)架構(gòu)的演進方向

云原生是數(shù)倉基礎(chǔ)架構(gòu)的一個基本的演進方向。傳統(tǒng)數(shù)據(jù)倉庫是基于物理服務(wù)器或云上托管服務(wù)器的模式。而云原生的情況下可以更多去應(yīng)用云的基礎(chǔ)服務(wù),包括存儲服務(wù),網(wǎng)絡(luò)服務(wù)以及更多的監(jiān)控服務(wù)。這就意味著在云上用原生服務(wù)可以獲得云的自服務(wù)、彈性等能力,云數(shù)倉就可以更好的去集成更多的云上服務(wù),包括如何把日志數(shù)據(jù)從各種數(shù)據(jù)源抽取到數(shù)據(jù)倉庫中,也包括如何進行全鏈路的數(shù)據(jù)管理和機器學(xué)習(xí)等。所以云原生往往包含了如何構(gòu)建和如何與云上服務(wù)原生的集成。

如圖,云原生的情況下在底層充分利用了云的彈性計算,存儲以及安全能力。在此之上可以看到我們把所有云的復(fù)雜性都屏蔽掉,作為數(shù)據(jù)平臺的用戶,只需開通服務(wù),通過web方式創(chuàng)建項目空間,五分鐘開通一個數(shù)據(jù)倉庫進行數(shù)據(jù)倉庫后面模型的開發(fā)。大大簡化了服務(wù)交付的周期以及數(shù)據(jù)倉庫整個底層架構(gòu),技術(shù)架構(gòu)構(gòu)建過程。另一方面是云原生數(shù)倉的擴展性,不管你提交了一個只需要1CU的作業(yè)還是提交一個可能需要10000CU的作業(yè),平臺都會按你的需要調(diào)度資源來進行數(shù)據(jù)處理。所以云原生又給我們帶來近乎無限的擴展性。

湖倉一體 — 數(shù)倉數(shù)據(jù)架構(gòu)的演進方向

講到湖倉一體,先來看湖倉一體背后的原因。不得不說到今天為止數(shù)據(jù)倉庫仍然是企業(yè)管理數(shù)據(jù)最優(yōu)的解決方案。各個企業(yè)大都有自己的數(shù)據(jù)倉庫,只不過可能是基于不同的技術(shù)形態(tài)構(gòu)建的數(shù)據(jù)倉庫。在處理策略,對語義的支持上,對場景的優(yōu)化上以及工程經(jīng)驗上,數(shù)據(jù)倉庫是目前沉淀下來的一個最優(yōu)的方案。在此之上,企業(yè)數(shù)據(jù)量越來越大,需要更靈活更敏捷的數(shù)據(jù)探索能力。同時,對未知數(shù)據(jù)存在先存儲下來再進一步探索的訴求。由此,企業(yè)在架構(gòu)上需要融合數(shù)據(jù)分析的最優(yōu)化和可探索兩個方面的優(yōu)勢,從處理策略到語義支持,以及使用案例上,數(shù)據(jù)倉庫和數(shù)據(jù)湖分別帶給企業(yè)不同的優(yōu)勢。數(shù)據(jù)倉庫在易管理,數(shù)據(jù)質(zhì)量高,而數(shù)據(jù)湖在可探索,靈活性強方面為我們帶來優(yōu)勢。我們要思考和討論如何將兩種方式結(jié)合起來共用,這就是提出“湖倉一體”的背景。

在MaxCompute以數(shù)據(jù)倉庫為主的場景下,將數(shù)據(jù)倉庫對數(shù)據(jù)管理的最優(yōu)工程經(jīng)驗,管理經(jīng)驗和數(shù)據(jù)湖對數(shù)據(jù)管理的靈活性,數(shù)據(jù)處理的靈活性更好的結(jié)合在一起, 2019年我們在全球率先提出了“湖倉一體”的全新數(shù)據(jù)管理架構(gòu)?;贛axCompute數(shù)據(jù)倉庫來提供安全可靠的,結(jié)構(gòu)化的數(shù)據(jù)管理方式,以及在此之上由DataWorks提供數(shù)據(jù)血緣,數(shù)據(jù)地圖和數(shù)據(jù)治理等能力。這些能力如何延伸到數(shù)據(jù)湖中?今天我們可見的數(shù)據(jù)湖包括基于云上的對象存儲OSS,也包含企業(yè)中基于Hadoop HDFS的數(shù)據(jù)湖,對于這兩類數(shù)據(jù)湖如何基于已有的靈活性能夠獲得更容易探索能力,能提升它們得數(shù)據(jù)處理性能,管理能力和安全性?

我們所做的就是把數(shù)據(jù)倉庫和數(shù)據(jù)湖兩者打通,通過數(shù)據(jù)湖構(gòu)建DLF,發(fā)現(xiàn)數(shù)據(jù)湖的元數(shù)據(jù),進行結(jié)構(gòu)化的統(tǒng)一管理,融合湖的靈活和便捷優(yōu)勢。這就是以倉為中心的湖倉一體新型數(shù)據(jù)管理的架構(gòu),數(shù)據(jù)倉庫在企業(yè)數(shù)據(jù)的管理方式上往前又推進了一步。

離線實時一體 — 數(shù)倉數(shù)據(jù)分析的演進方向

在企業(yè)的數(shù)據(jù)倉庫中,通過SLS、Kafka等訂閱的方式進行數(shù)據(jù)采集,通常有三種路徑。第一種可能是將一部分數(shù)據(jù)歸檔在數(shù)據(jù)倉庫中,然后進行全量的分析。第二種是進行實時的查詢分析,比如風(fēng)控場景下查一個電話號碼過去三年的通話記錄,要馬上查出來,就需要進行實時的連接分析。第三種是進行一些關(guān)聯(lián)的多維度查詢,對這些實時數(shù)據(jù)等進行關(guān)聯(lián)的基礎(chǔ)上,后面再來進行批量的處理,實時處理以及點查。實時數(shù)據(jù)的獲取,計算以及應(yīng)用這三方面,構(gòu)成了整個數(shù)倉由離線向?qū)崟r發(fā)展的三個核心含義。這里最核心的就是計算。計算的本質(zhì)無外乎兩個,一個是主動計算,另一個是被動計算。離線計算往往是被動計算,需要數(shù)倉工程師通過定義任務(wù)來調(diào)度作業(yè),才能計算出新的結(jié)果。在實時離線一體化中,除了被動計算,還要有主動計算能力。當數(shù)據(jù)流入后,不做人工干預(yù),任何作業(yè)的插入和重啟都能自動算出新的結(jié)果或中間結(jié)果。參與實時計算就最大程度的增加了主動計算的過程,而主動的結(jié)果帶給我們的好處就是無需重新調(diào)度任何作業(yè)就能拿到想要的結(jié)果數(shù)據(jù)。

在離線和實時一體的情況下雖然可以解決業(yè)務(wù)上的一些問題,但架構(gòu)會非常復(fù)雜。所以阿里云提出離線實時一體化的數(shù)倉架構(gòu)。簡化是說我們只需要核心的幾個產(chǎn)品,就可以實現(xiàn)離線和實時一體化的架構(gòu)。數(shù)據(jù)源包括了交易數(shù)據(jù)以及各個服務(wù)器生成的人的行為數(shù)據(jù)和物的行為數(shù)據(jù),通過日志服務(wù),定期歸檔到Hologres,之后,實時數(shù)倉加上流計算來進行實時計算,然后在下面是全量的數(shù)倉,整個完成了主動計算、被動計算和數(shù)據(jù)的實時獲取。結(jié)果數(shù)據(jù)可以不用做任何搬遷,直接通過Hologres來做實時分析。將實時的數(shù)據(jù)獲取,實時的數(shù)據(jù)計算和實時的數(shù)據(jù)分析服務(wù)三者打通為一體,架構(gòu)上做了最大程度的簡化,這就是今天所說的離線實時一體化的云數(shù)據(jù)倉庫。

SaaS模式 — 數(shù)倉服務(wù)模式的演進方向

基于數(shù)倉基礎(chǔ)架構(gòu)、數(shù)據(jù)管理架構(gòu)、數(shù)據(jù)分析架構(gòu)的演進,這些產(chǎn)品的服務(wù)是如何被交付的呢?那就是通過SaaS化的方式向客戶來交付數(shù)據(jù)倉庫,可以最簡化的去使用數(shù)據(jù)倉庫的服務(wù)。

數(shù)據(jù)倉庫的構(gòu)成有幾種方式,第一種是說基于物理服務(wù)器自建數(shù)據(jù)倉庫,這是大家最為熟悉的方式。第二種是在云上基于Hadoop,也可以基于各種MPP的數(shù)據(jù)庫去構(gòu)建和搭建半托管的云上數(shù)據(jù)倉庫。第三種和第四種就屬于比較深的云原生的形式,第三種是典型Snowflake的方式,這種方式下云基礎(chǔ)服務(wù)其實并不會暴露給數(shù)據(jù)倉庫的管理者,所以我們把它叫做嵌入式的,將IaaS這一層嵌入到PaaS層中,但最終數(shù)據(jù)倉庫是通過SaaS的完全web的方式暴露出來的。2021年全球Forrester評測中有13家廠商參與了評估,其中以SaaS模式交付數(shù)據(jù)倉庫服務(wù)的只有三家,分別是谷歌的BigQuery,Snowflake和阿里云MaxCompute。

可以看到通過云計算的數(shù)據(jù)倉庫服務(wù),從自建到云原生,幫我們最大化的降低了數(shù)據(jù)倉庫的管理復(fù)雜度,整個架構(gòu)少了很多層,無需管理集群和軟件,通過服務(wù)化的方式達到免運維,將底層的所有這些需管理的內(nèi)容去掉,后臺升級是由云廠商來提供服務(wù)的,只需要管理自己的數(shù)據(jù)和數(shù)據(jù)模型,通過web方式來使用數(shù)據(jù)倉庫服務(wù)。在數(shù)據(jù)倉庫里存儲的數(shù)據(jù)與云存儲一樣,按存儲量付費。計算也是一樣的,不計算不花錢。充分體現(xiàn)了SaaS化的優(yōu)勢。同時,在匹配業(yè)務(wù)需求上具備非常強的彈性能力,我們有很多客戶日常只需要一萬核的算力,在雙十一當天需要三萬核的算力。在這種SaaS模式的服務(wù)下,用戶在完全無感知的情況下我們就可以保證充沛的彈性能力去滿足數(shù)據(jù)倉庫的各種工作需求了。

綜上,數(shù)據(jù)倉庫從1990年的數(shù)據(jù)庫演進到數(shù)據(jù)倉庫,到MPP架構(gòu),到大數(shù)據(jù)時代的數(shù)據(jù)倉庫,再到今天的云原生的數(shù)據(jù)倉庫的一路演進,基礎(chǔ)架構(gòu)的云原生,數(shù)據(jù)架構(gòu)的湖倉一體,數(shù)據(jù)分析的離線實時一體化以及數(shù)倉服務(wù)模式的SaaS化,是最為主要的四個演進的方向和特征。 阿里云正在通過全新數(shù)據(jù)倉庫架構(gòu)給企業(yè)帶來具備更優(yōu)體驗的數(shù)據(jù)管理的方式。

責(zé)任編輯:梁菲 來源: 阿里云云棲號
相關(guān)推薦

2023-06-19 07:13:51

云原生湖倉一體

2022-09-29 09:22:33

數(shù)據(jù)倉

2024-09-03 14:59:00

2023-06-28 07:28:36

湖倉騰訊架構(gòu)

2022-12-13 17:42:47

Arctic存儲湖倉

2023-08-30 07:14:27

MaxCompute湖倉一體

2024-02-20 07:55:48

數(shù)據(jù)平臺架構(gòu)湖倉一體Alluxio

2022-07-29 15:02:26

巨杉數(shù)據(jù)庫湖倉一體

2023-03-27 21:24:18

架構(gòu)數(shù)據(jù)處理分析服務(wù)

2023-12-14 13:01:00

Hudivivo

2023-04-19 15:52:15

ClickHouse大數(shù)據(jù)

2021-06-11 14:01:51

數(shù)據(jù)倉庫湖倉一體 Flink

2024-03-05 08:21:23

湖倉一體數(shù)據(jù)湖數(shù)據(jù)倉庫

2022-08-18 11:12:51

Cloudera?數(shù)據(jù)湖倉SaaS

2025-08-21 09:29:11

2022-08-16 16:22:18

湖倉一體網(wǎng)易數(shù)帆開源

2022-08-11 18:07:35

網(wǎng)易數(shù)帆華泰證券Arctic

2021-05-15 16:01:44

巨杉數(shù)據(jù)庫湖倉一體
點贊
收藏

51CTO技術(shù)棧公眾號