偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

流批一體技術(shù)在數(shù)字政府大屏領(lǐng)域的探索和實(shí)踐

數(shù)字化轉(zhuǎn)型
在流批一體這一目標(biāo)的引導(dǎo)下,Apache Flink 現(xiàn)在已經(jīng)對(duì)底層的算子、調(diào)度、Shuffle進(jìn)行了統(tǒng)一的抽象,以統(tǒng)一的方式向上支持 DataStream API 和 Table API兩套接口。DataStream API 是一種比較偏物理層的接口,Table API 是一種 Declearetive 的接口,這兩套接口對(duì)流和批來(lái)說(shuō)都是統(tǒng)一的。

Labs 導(dǎo)讀

在數(shù)字化浪潮的推動(dòng)下,以政府、工業(yè)、金融等為代表的多領(lǐng)域正在全面開(kāi)展數(shù)字化轉(zhuǎn)型建設(shè),一些應(yīng)用場(chǎng)景,對(duì)數(shù)據(jù)處理的時(shí)效性提出了更高的要求。基于此需求,設(shè)計(jì)并搭建了數(shù)據(jù)實(shí)時(shí)處理分析平臺(tái),該平臺(tái)提供基于Flink SQL的數(shù)據(jù)分析能力,單個(gè)SQL語(yǔ)句即可完成數(shù)據(jù)的采集、計(jì)算和傳輸全流程開(kāi)發(fā),極大降低了用戶使用實(shí)時(shí)計(jì)算能力的門(mén)檻,有效提高了實(shí)時(shí)計(jì)算服務(wù)的開(kāi)發(fā)效率和質(zhì)量,助力政府、工業(yè)、金融等領(lǐng)域數(shù)字化建設(shè)。

Part 01 背景

2022年,國(guó)務(wù)院公開(kāi)發(fā)布了《全國(guó)一體化政務(wù)大數(shù)據(jù)體系建設(shè)指南》,要求各地區(qū)各部門(mén)按需建設(shè)政務(wù)數(shù)據(jù)實(shí)時(shí)交換系統(tǒng),支持海量數(shù)據(jù)高速傳輸,實(shí)現(xiàn)數(shù)據(jù)分鐘級(jí)共享,形成安全穩(wěn)定、運(yùn)行高效的數(shù)據(jù)供應(yīng)鏈[1]。

傳統(tǒng)的基于CDC[2]的ETL中,數(shù)據(jù)采集工具是必不可少的,通常使用DataX 和 Sqoop 做全量數(shù)據(jù)采集,使用 Canal 或 Debezium做增量變更數(shù)據(jù)采集,采集到的數(shù)據(jù)傳輸?shù)较⒅虚g件Kafka中,F(xiàn)link 計(jì)算引擎再去實(shí)時(shí)消費(fèi)這一部分?jǐn)?shù)據(jù)傳輸?shù)?的端,基于此理念,數(shù)據(jù)采集鏈路長(zhǎng),數(shù)據(jù)傳輸?shù)臅r(shí)延較高,全量數(shù)據(jù)和增量變更數(shù)據(jù)的采集是割裂的兩個(gè)階段,此外,需投入更多的時(shí)間去維護(hù)采集工具和消息隊(duì)列,運(yùn)維成本較高。針對(duì)上述數(shù)據(jù)采集鏈路長(zhǎng)、組件維護(hù)成本高等問(wèn)題,設(shè)計(jì)并搭建了數(shù)據(jù)實(shí)時(shí)處理分析平臺(tái),該平臺(tái)基于Apache Flink[3]構(gòu)建,提供基于Flink SQL的數(shù)據(jù)分析能力,一個(gè)Flink SQL即可完成數(shù)據(jù)的采集、計(jì)算和傳輸全流程開(kāi)發(fā)?;贔link CDC[4],可替換傳統(tǒng)ETL中的采集工具和消息隊(duì)列,從?簡(jiǎn)化數(shù)據(jù)傳輸鏈路,降低組件維護(hù)成本。

Part 02 什么是流批一體 

早期時(shí)候Apache Flink雖然是一個(gè)可以同時(shí)支持流處理和批處理的框架,但是它的流處理和批處理的實(shí)現(xiàn),不管是在API層,還是在底層的Shuffle、調(diào)度、算子層,都是單獨(dú)的兩套,這兩套實(shí)現(xiàn)是完全獨(dú)立的,沒(méi)有特別緊密的關(guān)聯(lián)。如圖1所示,流批一體早期架構(gòu)。

在流批一體這一目標(biāo)的引導(dǎo)下,Apache Flink 現(xiàn)在已經(jīng)對(duì)底層的算子、調(diào)度、Shuffle進(jìn)行了統(tǒng)一的抽象,以統(tǒng)一的方式向上支持 DataStream API 和 Table API兩套接口。DataStream API 是一種比較偏物理層的接口,Table API 是一種 Declearetive 的接口,這兩套接口對(duì)流和批來(lái)說(shuō)都是統(tǒng)一的。如圖2所示,流批一體統(tǒng)一架構(gòu)。

2.1、流批一體架構(gòu)

圖1 流批一體早期架構(gòu)圖1 流批一體早期架構(gòu)


圖2 流批一體統(tǒng)一架構(gòu)圖2 流批一體統(tǒng)一架構(gòu)

2.2 流批一體架構(gòu)優(yōu)點(diǎn)

- 代碼復(fù)用

基于DataStream API和Table API,用戶可以寫(xiě)同一套代碼來(lái)同時(shí)處理歷史的數(shù)據(jù)和實(shí)時(shí)的數(shù)據(jù);

- 易于開(kāi)發(fā)

統(tǒng)一的Connector和算子實(shí)現(xiàn),減少開(kāi)發(fā)和維護(hù)的成本;

- 易于學(xué)習(xí)

減少學(xué)習(xí)成本,避免學(xué)習(xí)兩套相似接口;

- 易于維護(hù)

使用同一系統(tǒng)支持流作業(yè)和批作業(yè),減少維護(hù)成本。

Part 03 數(shù)據(jù)實(shí)時(shí)處理分析平臺(tái)整體架構(gòu)介紹

該架構(gòu)自下而上包括數(shù)據(jù)源層、數(shù)據(jù)接入層、資源調(diào)度層、實(shí)時(shí)計(jì)算平臺(tái)、數(shù)據(jù)存儲(chǔ)層以及數(shù)據(jù)應(yīng)用層?;谠摷軜?gòu)可有效解決海量數(shù)據(jù)快速傳輸和秒級(jí)計(jì)算難題,助力政府、工業(yè)、金融等領(lǐng)域數(shù)字化建設(shè)。

圖片圖片

(1)數(shù)據(jù)源層:該分析平臺(tái)可支持采集數(shù)據(jù)庫(kù)中變更的數(shù)據(jù),例如,MySQL數(shù)據(jù)庫(kù)中Binlog日志完整記錄了數(shù)據(jù)變更,因此可以把 Binlog 文件當(dāng)作流的數(shù)據(jù)源;此外該分析平臺(tái)還支持采集推送至Kafka消息中間件的JSON格式數(shù)據(jù)。

(2)接入層:該分析平臺(tái)通過(guò)Connector對(duì)接外圍存儲(chǔ)系統(tǒng),主要包含F(xiàn)link Connector、Flink CDC Connector和用戶自定義Connector,基于這三類Connector,該分析平臺(tái)構(gòu)建起完備的外圍存儲(chǔ)系統(tǒng)生態(tài)。

(3)調(diào)度層:該分析平臺(tái)可支持基于K8S[4]的作業(yè)調(diào)度,借助其強(qiáng)大的能力,實(shí)現(xiàn)資源的彈性擴(kuò)縮容,確保不同作業(yè)之間相互隔離,互不影響,避免資源爭(zhēng)用搶占,提高作業(yè)并行運(yùn)行的可靠性。

(4)實(shí)時(shí)計(jì)算平臺(tái):該平臺(tái)是整個(gè)架構(gòu)中的關(guān)鍵組成,其由配置中心、數(shù)據(jù)開(kāi)發(fā)和運(yùn)維中心三個(gè)核心子模塊共同組成。其中,配置中心模塊主要承擔(dān)平臺(tái)配置管理工作,數(shù)據(jù)開(kāi)發(fā)模塊主要承擔(dān)作業(yè)的開(kāi)發(fā)和提交工作,運(yùn)維中心模塊主要承擔(dān)作業(yè)的監(jiān)控、告警和運(yùn)維工作。

(5)存儲(chǔ)層:用于存儲(chǔ)作業(yè)的計(jì)算結(jié)果,通過(guò)Flink Connector將計(jì)算結(jié)果輸出到目標(biāo)端,支持常見(jiàn)的MySQL、PostGreSQL等關(guān)系型數(shù)據(jù)庫(kù),還可支持MPP數(shù)據(jù)庫(kù)Doris及消息中間件Kafka等。

(6)應(yīng)用層:該分析平臺(tái)可以支持各種流式數(shù)據(jù)分析需求,具備豐富的應(yīng)用領(lǐng)域和廣闊的使用前景,比如可應(yīng)用于可視化駕駛艙大屏、物聯(lián)網(wǎng)傳感器數(shù)據(jù)分析等。

Part 04 平臺(tái)特性

圖片圖片

數(shù)據(jù)實(shí)時(shí)處理分析平臺(tái)經(jīng)過(guò)長(zhǎng)期的技術(shù)積累、業(yè)務(wù)沉淀,可以總結(jié)出以下5大特性:

1.易用的平臺(tái),提供從SQL開(kāi)發(fā)調(diào)試到上線下線的運(yùn)維監(jiān)控及SQL的查詢執(zhí)行能力,使數(shù)倉(cāng)建設(shè)及數(shù)據(jù)治理一體化;

2.敏捷的平臺(tái),支持與DevOps協(xié)同,一鍵部署線上作業(yè);

3.云化的平臺(tái),支持K8S資源調(diào)度,借助其強(qiáng)大的能力,實(shí)現(xiàn)資源的彈性擴(kuò)縮容;

4.安全的平臺(tái),采用多租戶隔離機(jī)制,在數(shù)據(jù)存儲(chǔ)、計(jì)算、調(diào)度等層面保障用戶數(shù)據(jù)安全;

5.開(kāi)放的平臺(tái),擁抱開(kāi)放的生態(tài),開(kāi)放的架構(gòu)。

Part 05 平臺(tái)功能介紹

該分析平臺(tái)由配置中心、數(shù)據(jù)開(kāi)發(fā)和運(yùn)維中心三個(gè)核心子模塊共同組成。其中,配置中心模塊主要承擔(dān)平臺(tái)配置管理工作,數(shù)據(jù)開(kāi)發(fā)模塊主要承擔(dān)作業(yè)的開(kāi)發(fā)和提交工作,運(yùn)維中心模塊主要承擔(dān)作業(yè)的監(jiān)控、告警和運(yùn)維工作;

5.1 概覽頁(yè)

圖片圖片

5.2 可視化作業(yè)開(kāi)發(fā)

該分析平臺(tái)提供基于可視化、沉浸式的作業(yè)開(kāi)發(fā)界面,幫助用戶快速的構(gòu)建SQL作業(yè),具備自動(dòng)提示、補(bǔ)全、高亮、美化等高級(jí)特性,可通過(guò)腳本模式去構(gòu)建SQL作業(yè),這種模式適合高級(jí)開(kāi)發(fā)者,也可通過(guò)引導(dǎo)模式去構(gòu)建SQL作業(yè),通過(guò)選數(shù)據(jù)源、維表和目標(biāo)表一鍵生成SQL作業(yè),顯著提升SQL作業(yè)創(chuàng)建效率,還提供標(biāo)準(zhǔn)的SQL語(yǔ)法檢查,幫助用戶快速定位開(kāi)發(fā)過(guò)程中碰到的問(wèn)題,基于以上模式創(chuàng)建的SQL作業(yè),可一鍵提交部署到集群中去,不必關(guān)心作業(yè)提交細(xì)節(jié)。

5.2.1 腳本模式創(chuàng)建作業(yè)

圖片圖片

5.2.2 引導(dǎo)模式創(chuàng)建作業(yè)

圖片圖片

5.2.3 語(yǔ)法校驗(yàn)

圖片圖片

5.3 作業(yè)運(yùn)維與監(jiān)控

該分析平臺(tái)提供通過(guò)Flink Web UI、錯(cuò)誤日志等實(shí)時(shí)監(jiān)控作業(yè)的運(yùn)行狀態(tài),還提供對(duì)錯(cuò)誤作業(yè)進(jìn)行郵件、短信提示,縮短發(fā)現(xiàn)作業(yè)問(wèn)題時(shí)間,提升問(wèn)題定位效率,還提供作業(yè)的啟動(dòng)、停止等操作,還支持根據(jù)不同位點(diǎn)恢復(fù)作業(yè),確保數(shù)據(jù)不丟失。

5.3.1 作業(yè)運(yùn)維

圖片圖片

5.3.2 作業(yè)監(jiān)控

圖片圖片

5.3.3 作業(yè)告警

圖片圖片

Part 06 應(yīng)用實(shí)踐-可視化駕駛艙大屏

在Chrome數(shù)字政府建設(shè)的第一要素是數(shù)據(jù),數(shù)據(jù)在數(shù)字政府建設(shè)進(jìn)程中至關(guān)重要,做什么樣的上層應(yīng)用,呈現(xiàn)什么樣的指標(biāo),均需要數(shù)據(jù)來(lái)“說(shuō)話”。以某市政務(wù)服務(wù)熱線12345數(shù)據(jù)為例,通過(guò)設(shè)計(jì)科學(xué)的指標(biāo)體系,整合不同來(lái)源數(shù)據(jù),基于該分析平臺(tái)、大數(shù)據(jù)分析挖掘和知識(shí)圖譜等核心技術(shù),通過(guò)實(shí)時(shí)高效的數(shù)據(jù)計(jì)算與人機(jī)交互能力,將核心數(shù)據(jù)指標(biāo)實(shí)時(shí)動(dòng)態(tài)呈現(xiàn),構(gòu)建可視化駕駛艙大屏,幫助管理者掌握全局,提高決策的科學(xué)性和有效性,如圖3所示,可視化駕駛艙大屏數(shù)據(jù)流圖。

圖3 可視化駕駛艙大屏數(shù)據(jù)流圖圖3 可視化駕駛艙大屏數(shù)據(jù)流圖

6.1 數(shù)據(jù)源

圍繞數(shù)字政府建設(shè)要求,某市通過(guò)庫(kù)表的形式提供了政務(wù)服務(wù)熱線12345數(shù)據(jù),比如業(yè)務(wù)訴求表,業(yè)務(wù)評(píng)價(jià)表等,依據(jù)表業(yè)務(wù)數(shù)據(jù),設(shè)計(jì)科學(xué)的指標(biāo)體系。

6.2 實(shí)時(shí)計(jì)算平臺(tái)

該平臺(tái)通過(guò)Flink CDC技術(shù)采集數(shù)據(jù)庫(kù)變更日志,將數(shù)據(jù)高效的歸集到平臺(tái)中存儲(chǔ),并將這些日志按發(fā)生的順序捕獲、解析,形成特定的數(shù)據(jù)格式,通過(guò)對(duì)數(shù)據(jù)的清洗、聚合和關(guān)聯(lián)等操作,將計(jì)算結(jié)果實(shí)時(shí)寫(xiě)入MPP數(shù)據(jù)庫(kù)Doris中。

6.3 前端可視化展示

前端服務(wù)器定期輪詢MPP數(shù)據(jù)庫(kù)Doris中的數(shù)據(jù),結(jié)合酷炫的可視化組件,實(shí)現(xiàn)數(shù)據(jù)的動(dòng)態(tài)實(shí)時(shí)呈現(xiàn),幫助管理者掌握全局,提高決策的科學(xué)性和有效性。

Part 07 未來(lái)展望

在數(shù)據(jù)實(shí)時(shí)處理分析平臺(tái)的探索過(guò)程中,性能、場(chǎng)景的支持度、穩(wěn)定性一直是推動(dòng)我們平臺(tái)不斷升級(jí)的原動(dòng)力。未來(lái)我們將從以下3個(gè)方向進(jìn)行探索:

首先,實(shí)時(shí)數(shù)倉(cāng),湖倉(cāng)一體探索,基于Flink強(qiáng)大的流批一體能力,去構(gòu)建實(shí)時(shí)數(shù)倉(cāng),湖倉(cāng)一體體系架構(gòu);

其次,F(xiàn)link與K8S 的深度結(jié)合探索,隨著云服務(wù)向算力服務(wù)的不斷引進(jìn),通過(guò)K8S的資源調(diào)度能力,提升作業(yè)運(yùn)行的穩(wěn)定性,并能進(jìn)行大規(guī)模運(yùn)行;

最后,數(shù)據(jù)高鐵探索,數(shù)據(jù)高鐵的建設(shè)主要是通過(guò)歸集模式的提升,從公共數(shù)據(jù)平臺(tái)、各個(gè)應(yīng)用系統(tǒng)里直接拉數(shù)據(jù),保證數(shù)據(jù)的及時(shí)性、完整性和準(zhǔn)確性。

??參考文獻(xiàn)

[1] 國(guó)務(wù)院辦公廳關(guān)于印發(fā)全國(guó)一體化政務(wù)大數(shù)據(jù)體系建設(shè)指南的通知 https://www.gov.cn/zhengce/content/2022-10/28/content_5722322.htm.

[2] https://blog.csdn.net/qq30211478/article/details/100690948.

[3] Apache Flink 官網(wǎng) https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/.

[4] Flink CDC 2.0 正式發(fā)布,詳解核心改進(jìn) https://developer.aliyun.com/article/786600.

[5] K8S:https://kubernetes.io/zh-cn/docs/home/.

責(zé)任編輯:龐桂玉 來(lái)源: 移動(dòng)Labs
相關(guān)推薦

2022-06-30 09:30:36

FlinkSQL流批一體京東

2023-09-05 07:22:17

Hudi數(shù)據(jù)存儲(chǔ)

2023-05-16 07:24:25

數(shù)據(jù)湖快手

2023-03-30 07:40:03

FeatHub 項(xiàng)目特征工程開(kāi)發(fā)

2020-01-13 14:39:06

FlinkSQL無(wú)限流

2021-08-02 10:19:08

Dataphin 數(shù)倉(cāng)架構(gòu)存儲(chǔ)計(jì)算分離

2019-07-01 15:40:53

大數(shù)據(jù)架構(gòu)流處理

2024-06-25 13:08:31

2022-09-29 09:22:33

數(shù)據(jù)倉(cāng)

2021-06-30 09:20:08

數(shù)倉(cāng)FlinkHive

2021-11-18 21:09:50

流批場(chǎng)景引擎

2012-12-10 11:15:27

一體機(jī)

2023-12-20 07:35:03

大模型數(shù)據(jù)治理機(jī)器學(xué)習(xí)

2023-03-27 21:24:18

架構(gòu)數(shù)據(jù)處理分析服務(wù)

2012-02-23 16:11:56

一體機(jī)推薦

2020-11-24 10:26:08

2023-09-17 17:59:28

邊緣計(jì)算調(diào)度方案

2024-07-18 08:38:31

2012-03-13 17:54:14

聯(lián)想一體機(jī)

2023-07-19 22:13:25

一體化推送平臺(tái)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)