偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

亞馬遜云科技實(shí)時(shí)數(shù)倉相關(guān)產(chǎn)品的特點(diǎn)和優(yōu)勢

數(shù)據(jù)庫
本文為大家提供一種高效的實(shí)時(shí)數(shù)倉架構(gòu):基于亞馬遜云科技 Serverless 架構(gòu)的實(shí)時(shí)數(shù)倉架構(gòu)。

近年來,各級(jí)政府和企業(yè)響應(yīng)數(shù)字化轉(zhuǎn)型的號(hào)召,都已開始或者即將開始數(shù)字化轉(zhuǎn)型。各類企業(yè)通過前期的業(yè)務(wù)線上化、信息化,積累了大量數(shù)據(jù),而數(shù)字化轉(zhuǎn)型就是要聚合這些數(shù)據(jù),進(jìn)行深入挖掘分析,用數(shù)據(jù)來驅(qū)動(dòng)業(yè)務(wù),用數(shù)據(jù)來支撐決策、用數(shù)據(jù)來推動(dòng)業(yè)務(wù)和商業(yè)模式創(chuàng)新、推動(dòng)業(yè)務(wù)流程優(yōu)化,進(jìn)而實(shí)現(xiàn)降本增效。

要實(shí)現(xiàn)數(shù)據(jù)價(jià)值,建設(shè)數(shù)據(jù)倉庫是在數(shù)字化轉(zhuǎn)型過程中不得不面對的一項(xiàng)任務(wù)。數(shù)據(jù)倉庫匯聚各個(gè)業(yè)務(wù)部門數(shù)據(jù),避免數(shù)據(jù)孤島,使數(shù)據(jù)真正成為整個(gè)企業(yè)的數(shù)據(jù),而不是某個(gè)部門的數(shù)據(jù)。

數(shù)據(jù)倉庫的技術(shù)架構(gòu)包括離線數(shù)倉和實(shí)時(shí)數(shù)倉或準(zhǔn)實(shí)時(shí)數(shù)倉。離線數(shù)倉已發(fā)展多年,當(dāng)前已無法完全滿足企業(yè)在競爭中脫穎而出的發(fā)展需求,實(shí)時(shí)數(shù)倉越來越多成為企業(yè)建設(shè)數(shù)據(jù)倉庫的首選。然而由于實(shí)時(shí)數(shù)倉對實(shí)時(shí)性的嚴(yán)格要求,實(shí)現(xiàn)實(shí)時(shí)數(shù)倉的技術(shù)難度遠(yuǎn)遠(yuǎn)大于離線數(shù)倉,一些現(xiàn)有的實(shí)時(shí)數(shù)倉架構(gòu),只能實(shí)現(xiàn)準(zhǔn)實(shí)時(shí),而且無法解決削峰平谷、無感擴(kuò)展等問題。

本文為大家提供一種高效的實(shí)時(shí)數(shù)倉架構(gòu):基于亞馬遜云科技 Serverless 架構(gòu)的實(shí)時(shí)數(shù)倉架構(gòu)。

實(shí)時(shí)數(shù)倉常見場景與亞馬遜云科技的做法賞析

我們先來賞析一下常見的實(shí)時(shí)數(shù)倉場景,以及亞馬遜云科技Serverless架構(gòu)的實(shí)時(shí)數(shù)倉成功落地的案例:

1、APP 埋點(diǎn)數(shù)據(jù)實(shí)時(shí)采集與分析(比如:實(shí)時(shí)智能推薦、實(shí)時(shí)欺詐檢測)

在此,我們以智能推薦場景為例:根據(jù)用戶歷史的購買或?yàn)g覽行為,通過推薦算法預(yù)測用戶興趣與需要,并從海量推薦資產(chǎn)(可能是短視頻、廣告、動(dòng)圖)中挑選最合適的進(jìn)行推送。推薦系統(tǒng)在飛速發(fā)展,對時(shí)延的要求也越來越苛刻和實(shí)時(shí)化。往往業(yè)務(wù)方希望客戶在使用App(或?yàn)g覽網(wǎng)頁)時(shí),就能基于當(dāng)前行為和歷史數(shù)據(jù)進(jìn)行動(dòng)態(tài)推薦。

數(shù)據(jù)來源一般為App埋點(diǎn)采集和歷史瀏覽數(shù)據(jù)、消費(fèi)數(shù)據(jù)、和廣告資產(chǎn)等。

常見做法:流式ETL與數(shù)據(jù)同步與傳輸可能會(huì)用到Flume、Kafka等工具,計(jì)算有可能會(huì)采用ClickHouse、Flink、Spark等大數(shù)據(jù)計(jì)算工具。數(shù)據(jù)源端和數(shù)據(jù)消費(fèi)端就五花八門一些,在此不作展開。(同樣的技術(shù)架構(gòu)也出現(xiàn)在實(shí)時(shí)欺詐檢測等場景中)

我們來看一下亞馬遜云科技的案例:使用 Amazon Kinesis Data Streams (流式數(shù)據(jù)接入產(chǎn)品,AmazonKDS)實(shí)時(shí)接入 APP 埋點(diǎn)數(shù)據(jù)到 AmazonRedshift(云原生數(shù)據(jù)倉庫) 中,用于指標(biāo)分析和 BI 展現(xiàn)。支持高達(dá)30萬/秒的數(shù)據(jù)攝入速率,延遲小于10秒;在數(shù)據(jù)實(shí)時(shí)攝入數(shù)倉的同時(shí),支持高并發(fā)實(shí)時(shí)查詢,支持大寬表多表關(guān)聯(lián),復(fù)雜聚合等各種 SQL 查詢,查詢結(jié)果秒級(jí)響應(yīng)。

圖1 實(shí)時(shí)數(shù)倉架構(gòu)--APP 埋點(diǎn)數(shù)據(jù)實(shí)時(shí)采集與分析

2、RDBMS CDC+KDS+Amazon Redshift Serverless(實(shí)時(shí)BI報(bào)表、復(fù)雜事件處理)

在這個(gè)案例中,主要采集源頭日志數(shù)據(jù)和 RDS 結(jié)構(gòu)化數(shù)據(jù)的變更數(shù)據(jù)動(dòng)態(tài)捕獲(Change Data Capture,CDC)。這是一個(gè)數(shù)據(jù)倉庫非常常見的需求,外部數(shù)據(jù)庫系統(tǒng)(賬戶、存款、制造、人力資源等)作為數(shù)據(jù)源時(shí),業(yè)務(wù)團(tuán)隊(duì)需求需要CDC日志數(shù)據(jù)動(dòng)態(tài)接入數(shù)據(jù)倉庫,實(shí)現(xiàn)實(shí)時(shí)的分析需求,比如實(shí)時(shí)BI報(bào)表、復(fù)雜事件處理(應(yīng)急響應(yīng))。

CDC日志數(shù)據(jù)通過Amazon Kinesis 實(shí)時(shí)發(fā)送到 Amazon KDS,經(jīng)過流處理后,結(jié)果寫入 RDS,并提供 API 的方式供第三方查詢。同時(shí),Amazon Redshift可以直接消費(fèi) Kinesis 數(shù)據(jù),用于查詢分析,整體延遲小于30秒。

CDC日志采集方式支持多種,包括 Amazon DMS、Debezium、Flink CDC、Canal 等,采集數(shù)據(jù)寫入Kinesis后,接著使用 Amazon Redshift StreamingIngestion 功能將CDC數(shù)據(jù)實(shí)時(shí)寫入 AmazonRedshift。?

圖2  實(shí)時(shí)數(shù)倉--RDBMSCDC+KDS+Amazon Redshift Serverless

經(jīng)典解決方案—借助Amazon Redshift打造云原生數(shù)倉

在繼續(xù)開展下文前,需要介紹一個(gè)無法繞過的產(chǎn)品——Amazon Redshift ,一種快速、可擴(kuò)展、安全且完全托管的云數(shù)據(jù)倉庫,可以幫助用戶通過標(biāo)準(zhǔn) SQL 語言簡單、經(jīng)濟(jì)地分析各類數(shù)據(jù)。

無論是構(gòu)建傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)還是實(shí)時(shí)數(shù)倉架構(gòu),借助Amazon Redshift用戶都可以一站式的進(jìn)行部署。相比其他云數(shù)據(jù)倉庫,Amazon Redshift 可實(shí)現(xiàn)高達(dá)三倍的性能價(jià)格比。數(shù)萬家客戶正在借助Amazon Redshift 每天處理 EB 級(jí)別的數(shù)據(jù),借此為高性能商業(yè)智能(BI)報(bào)表、儀表板應(yīng)用、數(shù)據(jù)探索、實(shí)時(shí)分析和等分析工作負(fù)載以及機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘提供強(qiáng)大動(dòng)力。Amazon Redshift支持ACID事務(wù)特性、ANSI SQL標(biāo)準(zhǔn)、JDBC/ODBC 連接協(xié)議的 MPP 架構(gòu)列式存儲(chǔ)數(shù)據(jù)倉庫。Amazon Redshift 不僅可以基于自身內(nèi)部表進(jìn)行數(shù)據(jù)分析,還可以查詢 Amazon S3 中的數(shù)據(jù),S3 是一項(xiàng)具備極致彈性的對象存儲(chǔ),它已經(jīng)成為了云上數(shù)據(jù)湖事實(shí)上的標(biāo)準(zhǔn),既可以存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),也可以是半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。Redshift與S3 可以無縫結(jié)合,實(shí)現(xiàn)智能湖倉架構(gòu)。?

 

圖3  Amazon Redshift Serverless 架構(gòu)

實(shí)時(shí)數(shù)倉架構(gòu)要解決的問題

良好的實(shí)時(shí)數(shù)倉架構(gòu),可以解決以下四方面的問題:數(shù)據(jù)實(shí)時(shí)接入、數(shù)據(jù)實(shí)時(shí)分析、數(shù)據(jù)實(shí)時(shí)輸出。

  • 數(shù)據(jù)實(shí)時(shí)接入:數(shù)據(jù)倉庫主要用來存儲(chǔ)來自各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。實(shí)時(shí)數(shù)倉的第一步,就是要解決數(shù)據(jù)如何實(shí)時(shí)進(jìn)入數(shù)據(jù)倉庫的問題。
  • 數(shù)據(jù)實(shí)時(shí)分析:實(shí)時(shí)接入的數(shù)據(jù),要能夠立即可用,滿足即席查詢、報(bào)表分析和挖掘預(yù)測的需求,數(shù)據(jù)準(zhǔn),延遲低。
  • 數(shù)據(jù)實(shí)時(shí)輸出:數(shù)據(jù)實(shí)時(shí)分析的結(jié)果,要能夠及時(shí)進(jìn)行 BI 報(bào)表展現(xiàn)、及時(shí)以數(shù)據(jù)服務(wù)的形式提供給第三方。
  • 實(shí)時(shí)數(shù)倉智能化:數(shù)據(jù)分析解決的是過去發(fā)生了什么,數(shù)倉智能化要解決的是未來要發(fā)生什么。讓實(shí)時(shí)數(shù)倉具備機(jī)器學(xué)習(xí)、智能預(yù)測能力,是實(shí)現(xiàn)智能湖倉的必備功能。

Serverless 架構(gòu)不僅彌補(bǔ)了傳統(tǒng)離線數(shù)倉的不足,而且完美解決了上述四方面的問題,先看下整體實(shí)時(shí)數(shù)倉架構(gòu)圖:

圖4 亞馬遜云科技 Serverless實(shí)時(shí)數(shù)倉架構(gòu)圖

Serverless 實(shí)時(shí)數(shù)倉架構(gòu)采用 Amazon KDS(Amazon Kinesis Data Streams) + Amazon RedshiftServerless+Redshift ML+S3 技術(shù)產(chǎn)品組合,KDS 負(fù)責(zé)數(shù)據(jù)的實(shí)時(shí)接入,Redshift Serverless+Redshift ML+S3 負(fù)責(zé)"智能湖倉"的落地,實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)分析、實(shí)時(shí)輸出、實(shí)時(shí)預(yù)測。同時(shí),RedshiftServerless 架構(gòu),運(yùn)維簡單,按需計(jì)費(fèi),降本增效,將客戶從紛繁復(fù)雜的架構(gòu)搭建、監(jiān)控、運(yùn)維中解放出來,專注于數(shù)據(jù)查詢分析,數(shù)據(jù)價(jià)值挖掘,實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)決策。

  • 數(shù)據(jù)實(shí)時(shí)接入:接入的數(shù)據(jù),可以分為三大類:結(jié)構(gòu)化數(shù)據(jù)(數(shù)據(jù)庫數(shù)據(jù))、半結(jié)構(gòu)化數(shù)據(jù)(Json、CSV數(shù)據(jù))和非結(jié)構(gòu)化數(shù)據(jù)(圖片視頻數(shù)據(jù))。對于源自數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù),通用的實(shí)時(shí)接入方式是使用 CDC 技術(shù)增量接入。在亞馬遜云科技實(shí)時(shí)數(shù)倉架構(gòu)中,采用Amazon DMS產(chǎn)品接入CDC數(shù)據(jù)到Amazon KDS。Amazon DMS支持同構(gòu)遷移、不同數(shù)據(jù)庫平臺(tái)之間的異構(gòu)遷移和CDC數(shù)據(jù)接入,可以從任何支持的源中將數(shù)據(jù)低延遲、持續(xù)地復(fù)制到任何支持的目標(biāo)。此外,利用 Amazon Redshift 流式攝取功能可以將 Kinesis 中的數(shù)據(jù)以極低延遲攝取到 Amazon Redshift 中。



圖5  Amazon Database Migration Service (AmazonDMS) 遷移數(shù)據(jù)到智能湖倉

對于非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)實(shí)時(shí)接入方式是掃描指定目錄,將新增文件寫入文件系統(tǒng)(HDFS、Amazon S3 等),然后開發(fā)程序解析文件,寫入數(shù)據(jù)庫表中。然而,采用亞馬遜云科技提供的 DMS+S3+Redshift 方式,無需開發(fā)數(shù)據(jù)解析程序,只需通過簡單的配置,即可實(shí)現(xiàn)數(shù)據(jù)入寫 S3,Redshift 可與 S3 完美集成,即數(shù)據(jù)進(jìn)入 S3,即可在 Redshift 中查詢分析。

  • 數(shù)據(jù)實(shí)時(shí)分析:數(shù)據(jù)的實(shí)時(shí)分析,由 Amazon Redshift Serverless 提供,智能湖倉的各個(gè)分層都創(chuàng)建在 Redshift 數(shù)據(jù)庫中,使用 SQL 語句做數(shù)倉指標(biāo)計(jì)算,采用 ETL 工具調(diào)度指標(biāo)計(jì)算任務(wù),兼容開源 ETL 工具,也可以使用亞馬遜的 ETL 工具。
  • 數(shù)據(jù)實(shí)時(shí)輸出:AmazonRedshift 支持 JDBC 協(xié)議,可以作為各類 BI 報(bào)表產(chǎn)品的數(shù)據(jù)源,實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)輸出;Amazon Redshift Data API 可以將數(shù)據(jù)以 API 的方式提供給第三方,Amazon Redshift Data API 不需要與集群的持久連接。提供了安全 HTTP 終端節(jié)點(diǎn)以及與亞馬遜云科技開發(fā)工具包的集成。使用終端節(jié)點(diǎn)運(yùn)行SQL 語句,無需管理連接。對 Data API 的調(diào)用是異步的。



圖6  Amazon Redshift Data API?

  • AmazonRedshift 實(shí)時(shí)數(shù)倉+ML:為實(shí)時(shí)數(shù)倉增加機(jī)器學(xué)習(xí)和人工智能的能力,是大多數(shù)企業(yè)在建設(shè)實(shí)時(shí)數(shù)倉過程中面臨的一個(gè)難題,主要問題在于:1、機(jī)器學(xué)習(xí)的門檻高;2、機(jī)器學(xué)習(xí)開發(fā)人員招聘困難。Amazon Redshift實(shí)時(shí)數(shù)倉架構(gòu)利用 Amazon RedshiftML 產(chǎn)品解決了上述難點(diǎn),大大降低了建設(shè)智能湖倉的難度。Amazon Redshift ML 使 SQL 用戶可以輕松地使用熟悉的 SQL 命令創(chuàng)建、訓(xùn)練和部署機(jī)器學(xué)習(xí)模型。通過使用 Amazon Redshift ML,可以使用 Redshift 集群中的數(shù)據(jù)來通過 Amazon SageMaker 訓(xùn)練模型。隨后,模型將會(huì)本地化,并可在Amazon Redshift 數(shù)據(jù)庫中進(jìn)行預(yù)測。借助 Amazon Redshift ML,無需移動(dòng)數(shù)據(jù)或?qū)W習(xí)新技能,即可利用 Amazon SageMaker 這種完全托管的機(jī)器學(xué)習(xí)服務(wù)。借助Amazon SageMaker 提供支持的Amazon Redshift ML,使用 SQL 語句從 Amazon Redshift 中的數(shù)據(jù)創(chuàng)建和訓(xùn)練機(jī)器學(xué)習(xí)模型,然后將這些模型用于多種使用案例場景,例如直接在查詢和 BI 報(bào)表中進(jìn)行流失預(yù)測和欺詐風(fēng)險(xiǎn)評(píng)分。用寫 SQL 語句的方式,開發(fā)機(jī)器學(xué)習(xí)功能,底層各種機(jī)器學(xué)習(xí)算法的復(fù)雜性,交由 Amazon Redshift ML 解決,客戶可以將更多的精力專注在業(yè)務(wù)上面。



圖7  Amazon Redshift 實(shí)時(shí)數(shù)倉+ML

Serverless 實(shí)時(shí)數(shù)倉架構(gòu)的優(yōu)勢

成熟的技術(shù)架構(gòu),可以大大降低企業(yè)的人力和財(cái)力成本。傳統(tǒng)的實(shí)時(shí)數(shù)倉架構(gòu)(采用托管服務(wù)器的方式),無法實(shí)現(xiàn)削峰平谷。以電商行業(yè)為例,實(shí)時(shí)數(shù)倉架構(gòu)的服務(wù)器資源,必須能夠應(yīng)對數(shù)據(jù)高峰(各類大型活動(dòng)、促銷與其他不可預(yù)測的工作負(fù)載)帶來的壓力,所以硬件采購?fù)前促Y源峰值采購的,結(jié)果是大部分資源在大部分時(shí)間都是閑置的,無形提高了企業(yè)成本;傳統(tǒng)實(shí)時(shí)數(shù)倉架構(gòu),無法實(shí)現(xiàn)無感擴(kuò)展,即服務(wù)器集群節(jié)點(diǎn)的增加和減少,會(huì)增加運(yùn)維人員工作量,可能會(huì)帶來業(yè)務(wù)的暫停??偟膩碚f,Serverless 實(shí)時(shí)數(shù)倉架構(gòu)的優(yōu)勢包括如下幾點(diǎn):

1.  Serverless 實(shí)時(shí)數(shù)倉架構(gòu)讓數(shù)據(jù)倉庫優(yōu)雅的具備實(shí)時(shí)數(shù)據(jù)分析能力(實(shí)時(shí) OLAP 看板,實(shí)時(shí)業(yè)務(wù)監(jiān)測);

2.  Serverless 實(shí)時(shí)數(shù)倉架構(gòu)讓實(shí)時(shí)智能分析成為可能(基于實(shí)時(shí)數(shù)據(jù)與歷史數(shù)據(jù)的實(shí)時(shí)風(fēng)控/實(shí)時(shí)推薦/實(shí)時(shí)機(jī)器學(xué)習(xí));

3.  亞馬遜云科技提供了云上實(shí)時(shí)數(shù)倉搭建最全面的功能組件,讓用戶可以敏捷,高效,低成本的構(gòu)建自己的實(shí)時(shí)數(shù)倉;

4.  使用 Serverless 實(shí)時(shí)數(shù)倉云平臺(tái),自動(dòng)擁有削峰平谷、無感擴(kuò)展、運(yùn)維簡單、易于使用等優(yōu)勢。

 10月亞馬遜云科技中國峰會(huì)《智能湖倉 統(tǒng)一分析》 分論壇上,將首次揭秘智能湖倉2.0, 講述如何打破數(shù)據(jù)孤島,跨數(shù)據(jù)庫、數(shù)據(jù)湖、數(shù)據(jù)分析和機(jī)器學(xué)習(xí),釋放數(shù)據(jù)價(jià)值,助力企業(yè)更好做出決策。

感興趣的朋友可以點(diǎn)擊下方鏈接或掃描海報(bào)上二維碼報(bào)名參會(huì)!

??https://summit.awsevents.cn/2022/signin?source=gh/ZsR4xii4TX2Vs20QVMkW6A9pXuQSKzIgROLJHkTQ=&tab=1&type=2??

責(zé)任編輯:張燕妮
相關(guān)推薦

2022-09-28 07:08:25

技術(shù)實(shí)時(shí)數(shù)倉

2020-10-23 16:29:11

云安全

2023-07-27 07:44:07

云音樂數(shù)倉平臺(tái)

2023-08-29 10:20:00

2022-08-01 15:58:48

數(shù)據(jù)倉庫架構(gòu)數(shù)據(jù)

2024-07-25 08:12:11

2023-05-06 07:19:48

數(shù)倉架構(gòu)技術(shù)架構(gòu)

2021-07-21 15:58:06

亞馬遜云科技云計(jì)算德勤

2021-07-13 07:04:19

Flink數(shù)倉數(shù)據(jù)

2023-10-13 07:25:50

2022-08-22 11:04:53

亞馬遜云科技AMI

2021-07-22 18:29:58

AI

2024-09-03 14:59:00

2020-09-21 17:29:42

云計(jì)算

2021-03-31 13:31:33

亞馬遜云科技

2022-06-27 09:09:34

快手Flink數(shù)倉建設(shè)

2021-01-18 05:20:52

數(shù)倉hive架構(gòu)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)