偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

云集技術(shù)學(xué)社 | 主流大數(shù)據(jù)架構(gòu)及適用場景

企業(yè)動(dòng)態(tài)
對(duì)于大部分用戶來說,對(duì)大數(shù)據(jù)只有一個(gè)模糊的概念,不了解特別具象化的應(yīng)用場景。數(shù)據(jù)分析是大數(shù)據(jù)的核心場景,依據(jù)對(duì)于分析效率和方式的不同,基本上可以分為批處理、交互式分析、實(shí)時(shí)分析、分析預(yù)測、智能決策等場景。

 7月22日,深信服大數(shù)據(jù)負(fù)責(zé)人Letian在信服云《云集技術(shù)學(xué)社》系列直播課上進(jìn)行了《主流大數(shù)據(jù)架構(gòu)及適用場景》的分享,對(duì)典型大數(shù)據(jù)的分析場景進(jìn)行了總結(jié),歸納了大數(shù)據(jù)新架構(gòu)及適用應(yīng)用場景,從大數(shù)據(jù)開發(fā)的視角來分析大數(shù)據(jù)開發(fā)過程以及如何簡化開發(fā)。以下是他分享內(nèi)容摘要,想要了解更多可以點(diǎn)擊http://sangfor.bizconf.cn/live/watch/technology/?id=m471p65m&time=1628846273488觀看直播回放。

看點(diǎn)一:大數(shù)據(jù)分析典型應(yīng)用場景

對(duì)于大部分用戶來說,對(duì)大數(shù)據(jù)只有一個(gè)模糊的概念,不了解特別具象化的應(yīng)用場景。數(shù)據(jù)分析是大數(shù)據(jù)的核心場景,依據(jù)對(duì)于分析效率和方式的不同,基本上可以分為批處理、交互式分析、實(shí)時(shí)分析、分析預(yù)測、智能決策等場景。

 

 

 

大數(shù)據(jù)分析的主要應(yīng)用場景有五個(gè)

一是離線分析場景,應(yīng)用于用戶需要貼合業(yè)務(wù)形成的報(bào)表中,常見的是對(duì)靜態(tài)數(shù)據(jù)的批處理。離線分析場景往往需要對(duì)于海量數(shù)據(jù)處理幾個(gè)小時(shí)甚至幾天才能得到貼合業(yè)務(wù)需求的結(jié)果報(bào)表。

二是交互式分析場景,應(yīng)用于儀表盤或自助分析。它的特點(diǎn)是表與表之間的關(guān)聯(lián)關(guān)系不確定,分析維度不確定,查詢度量不確定,通過即席查詢滿足秒級(jí)~分鐘級(jí)的分析需求。

三是實(shí)時(shí)分析場景,通常應(yīng)用在交易風(fēng)險(xiǎn)預(yù)警、實(shí)時(shí)反欺詐、交易特征分析中,它的特點(diǎn)是表與表之間的關(guān)聯(lián)關(guān)系確定,分析維度不確定,查詢度量不確定,通過數(shù)據(jù)立方(Cube)技術(shù)提前預(yù)設(shè)數(shù)據(jù)模型,滿足從既定的多層次多維度的亞秒~秒級(jí)的分析需求。

四是流處理場景,流處理是指對(duì)如傳感器信號(hào)、日志、時(shí)空軌跡、網(wǎng)購、交易等連續(xù)的、沒有邊界的、快速隨時(shí)間不斷變化的數(shù)據(jù)項(xiàng)(又稱“流式數(shù)據(jù)“)進(jìn)行過濾、轉(zhuǎn)化、復(fù)雜邏輯等操作,主要應(yīng)用在公安緝查布控、套牌車分析、互聯(lián)網(wǎng)實(shí)時(shí)推薦系統(tǒng)中。

五是綜合檢索,即從海量的結(jié)構(gòu)化、半/非結(jié)構(gòu)化數(shù)據(jù)中快速抓取到符合要求的信息。通常應(yīng)用在站內(nèi)搜索引擎、知識(shí)庫以及高并發(fā)精準(zhǔn)查詢等通過關(guān)鍵字檢索快速獲得信息的使用場景中。

看點(diǎn)二:大數(shù)據(jù)新架構(gòu)及適用場景

信息技術(shù)的發(fā)展催生了大數(shù)據(jù)新架構(gòu)的不斷升級(jí)迭代與創(chuàng)新,在本次課程中,Letian介紹了不同類型的大數(shù)據(jù)新架構(gòu)及適用場景。

(1)存算分離

基于IO與CPU(含內(nèi)存)的訴求可能出現(xiàn)不對(duì)等情況,人們意識(shí)到Hadoop發(fā)明之初強(qiáng)調(diào)存算融合,利用局部性讓計(jì)算跟著數(shù)據(jù)跑的局部性原理帶來的硬件節(jié)省,不如存儲(chǔ)和計(jì)算分別擴(kuò)容帶來的節(jié)省硬件收益。對(duì)于企業(yè)而言,可以實(shí)現(xiàn)計(jì)算和存儲(chǔ)按需靈活擴(kuò)容,降本增效。一般來說,數(shù)據(jù)量超過300TB,且大數(shù)據(jù)服務(wù)器總數(shù)量超過20臺(tái)時(shí),用戶可以考慮采用存算分離架構(gòu)。當(dāng)分析時(shí)延要求極低且不具備緩存/RDMA能力時(shí)則不考慮采用存算分離架構(gòu)。

 

 

 

(2)Lambda架構(gòu)

Lambda架構(gòu)是一個(gè)實(shí)時(shí)大數(shù)據(jù)處理框架,通過Batch Layer和Speed Layer的分層設(shè)計(jì)來實(shí)現(xiàn)在一個(gè)系統(tǒng)內(nèi)同時(shí)支持流處理和批處理。

Lambda(λ)架構(gòu)的數(shù)據(jù)流采用基于不可變?nèi)罩镜姆植际较⑾到y(tǒng)Kafka,數(shù)據(jù)進(jìn)入Kafka后,一部分進(jìn)行批處理,一部分進(jìn)行流處理。批處理通常使用MR或Spark進(jìn)行Batch View的預(yù)計(jì)算, Batch View自身結(jié)果數(shù)據(jù)的存儲(chǔ)采用HBase(查詢大量的歷史結(jié)果數(shù)據(jù))。Speed Layer(流處理)增量數(shù)據(jù)的處理可選用Flink,Realtime View增量結(jié)果數(shù)據(jù)集為了滿足實(shí)時(shí)更新的效率,選用Redis。Lambda架構(gòu)滿足了高容錯(cuò)、低延時(shí)和可擴(kuò)展等實(shí)時(shí)數(shù)據(jù)處理需求。

 

 

 

(3)批流融合

除了Lambda(λ)架構(gòu)這種批流分離的架構(gòu)外,批流融合也是十分流行的架構(gòu)。批流融合支持ACID的upsert、delete、insert等可以實(shí)現(xiàn)流處理和批處理一體,確保統(tǒng)一的原始視圖(ODS),數(shù)據(jù)直接進(jìn)入大數(shù)據(jù)數(shù)倉,計(jì)算口徑統(tǒng)一。批流融合不再采用消息隊(duì)列,其作用可以被流引擎部分替換,可以內(nèi)部自動(dòng)合并小文件,對(duì)上屏蔽小文件的處理復(fù)雜性,還可以讓用戶查詢給定時(shí)間點(diǎn)的快照或回滾錯(cuò)誤更新到之前正確的數(shù)據(jù)。

 

 

 

(4)實(shí)時(shí)數(shù)倉

據(jù)Gartner統(tǒng)計(jì)實(shí)時(shí)數(shù)據(jù)規(guī)模在未來三年內(nèi)會(huì)達(dá)到25%,數(shù)據(jù)規(guī)模高速增長帶來了強(qiáng)勁的數(shù)據(jù)分析需求,由此實(shí)時(shí)數(shù)倉應(yīng)運(yùn)而生,它可以進(jìn)行內(nèi)存級(jí)、細(xì)粒度的實(shí)時(shí)預(yù)計(jì)算。將cube的構(gòu)建分為內(nèi)存部分和磁盤部分,磁盤部分對(duì)應(yīng)于傳統(tǒng)的預(yù)計(jì)算,內(nèi)存部分對(duì)應(yīng)于實(shí)時(shí)場景。在實(shí)時(shí)預(yù)計(jì)算系統(tǒng)中,用戶預(yù)先設(shè)置好需要在線分析的統(tǒng)計(jì)方法(度量及指標(biāo))。對(duì)實(shí)時(shí)產(chǎn)生的數(shù)據(jù),實(shí)時(shí)數(shù)倉以極細(xì)的時(shí)間粒度(segment)進(jìn)行計(jì)算和匯總;實(shí)時(shí)數(shù)倉收到用戶查詢請(qǐng)求(query)時(shí),如果計(jì)算結(jié)果處于內(nèi)存中(realtime-node)中,則直接從內(nèi)存中獲取結(jié)果。實(shí)時(shí)數(shù)倉廣泛應(yīng)用于用戶畫像分析、點(diǎn)擊流分析、網(wǎng)絡(luò)流量分析等場景中。

(5)數(shù)據(jù)湖

企業(yè)在持續(xù)發(fā)展,企業(yè)的數(shù)據(jù)也不斷堆積,在數(shù)據(jù)存儲(chǔ)層面上,“含金量”最高的數(shù)據(jù)已經(jīng)存在數(shù)據(jù)庫和數(shù)倉里,支撐著企業(yè)的運(yùn)轉(zhuǎn)。但是,企業(yè)希望把生產(chǎn)經(jīng)營中的所有相關(guān)數(shù)據(jù),歷史的、實(shí)時(shí)的,在線的、離線的,內(nèi)部的、外部的,結(jié)構(gòu)化的、非結(jié)構(gòu)化的,都能完整保存下來,方便未來“沙中淘金”。因此,數(shù)據(jù)湖誕生,它由數(shù)據(jù)存儲(chǔ)架構(gòu)、數(shù)據(jù)管理工具、數(shù)據(jù)探索和開發(fā)工具三要素構(gòu)建。

(6)湖倉一體方案

數(shù)據(jù)湖起步成本很低,但隨著數(shù)據(jù)體量增大,TCO成本會(huì)加速飆升,數(shù)倉則恰恰相反,前期建設(shè)要小心地處理數(shù)據(jù),開支很大。一個(gè)后期成本高,一個(gè)前期成本高,對(duì)于既想修湖、又想建倉的用戶來說,既然都是拿數(shù)據(jù)為業(yè)務(wù)服務(wù),數(shù)據(jù)湖和數(shù)倉作為兩大“數(shù)據(jù)集散地”,能不能彼此整合一下?于是數(shù)倉一體方案出現(xiàn),讓一套架構(gòu)里面具備數(shù)據(jù)湖靈活性,兼有數(shù)據(jù)倉庫的成長性。

 

 

 

看點(diǎn)三:如何簡化大數(shù)據(jù)的開發(fā)

大數(shù)據(jù)的開發(fā)過程受工具及開發(fā)流程的影響,開發(fā)團(tuán)隊(duì)的使用門檻高,上手難度大。對(duì)于項(xiàng)目交付而言,一是大數(shù)據(jù)分析的定制需求多,需要專業(yè)團(tuán)隊(duì)才能交付;二是實(shí)施階段問題多,全階段都需要研發(fā)投入;三是項(xiàng)目成本中大數(shù)據(jù)占比高,驗(yàn)證階段壓力大。這三重問題使得項(xiàng)目交付的成本高。其次,大數(shù)據(jù)復(fù)雜的架構(gòu)就意味著技術(shù)棧復(fù)雜,尋找復(fù)合型人才難度大,人力成本高。由此可見,大數(shù)據(jù)的開發(fā)亟需降本增效,那么如何簡化大數(shù)據(jù)的開發(fā),提高研發(fā)人員的開發(fā)效率呢? Letian給出了如下建議:

一、通過外部工具將可視化展示內(nèi)遷應(yīng)用到大數(shù)據(jù)上??梢暬谴髷?shù)據(jù)分析的最后環(huán)節(jié),針對(duì)離線分析場景可以通過配置SQL/SPL 編寫圖/表的代碼,或者選擇預(yù)置的圖或表模板實(shí)現(xiàn)從立方體到交叉表(中國式復(fù)雜報(bào)表)的展示。針對(duì)交互式分析場景可以通過敏捷BI(Tableau、Kibana-Lens)進(jìn)行拖拽實(shí)時(shí)自動(dòng)地生成圖或表實(shí)現(xiàn)交互式分析可視化展示。

二、通過數(shù)倉開發(fā)工具簡化流程。數(shù)倉開發(fā)是大數(shù)據(jù)開發(fā)的主要場景,針對(duì)數(shù)倉開發(fā)可以通過工具或者可視化平臺(tái)減少需要反復(fù)的過程。在數(shù)據(jù)進(jìn)行清洗后,數(shù)倉可以進(jìn)入可視化平臺(tái)開發(fā)免除繁瑣的代碼編寫,在原始數(shù)據(jù)中加載數(shù)據(jù)可以有可視化操作,通過拖拽構(gòu)建數(shù)倉模型,從中提取指標(biāo)并設(shè)置加速機(jī)制自動(dòng)進(jìn)行預(yù)計(jì)算,設(shè)置上線定時(shí)周期腳本讓模型在固定時(shí)間關(guān)聯(lián)、運(yùn)行、驗(yàn)證。

三、流計(jì)算開發(fā)工具。在流處理場景中,可以通過可視化工具進(jìn)行輔助開發(fā)。通過可視化開發(fā)畫布,進(jìn)行數(shù)據(jù)來源配置、觸發(fā)條件配置和數(shù)據(jù)目的配置,省去流計(jì)算中的代碼編寫。

四、調(diào)度開發(fā)工具。大數(shù)據(jù)的開發(fā)需要不同代碼的編寫,各個(gè)代碼之間可以通過可視化調(diào)度開發(fā)工具實(shí)現(xiàn)管理、調(diào)度和依賴關(guān)系的處置。

責(zé)任編輯:趙立京 來源: 網(wǎng)絡(luò)
相關(guān)推薦

2019-06-17 16:17:03

存儲(chǔ)MySQL主流

2021-08-16 13:50:56

大數(shù)據(jù)深信服

2021-02-22 10:32:53

大數(shù)據(jù)大數(shù)據(jù)平臺(tái)大數(shù)據(jù)技術(shù)棧

2021-08-16 13:58:09

數(shù)據(jù)庫大數(shù)據(jù)

2015-03-11 13:54:25

云技術(shù)云應(yīng)用云存儲(chǔ)

2021-09-03 11:46:59

數(shù)字化

2009-06-05 10:43:29

struts2 checheckbox實(shí)例

2023-11-29 07:43:30

2019-03-20 08:44:52

大數(shù)據(jù)算法統(tǒng)計(jì)分布

2021-03-04 09:00:00

架構(gòu)Lambda工具

2021-09-06 15:39:00

大數(shù)據(jù)技術(shù)醫(yī)療

2024-06-26 08:14:43

2017-06-22 11:03:58

大數(shù)據(jù)大數(shù)據(jù)平臺(tái)架構(gòu)技術(shù)

2010-03-02 16:50:34

WCF返回值

2019-03-27 15:35:35

大數(shù)據(jù)招聘互聯(lián)網(wǎng)

2021-04-08 10:45:37

大數(shù)據(jù)技術(shù)安全

2020-06-16 15:40:32

閉鎖柵欄線程

2023-08-27 21:22:02

Redis數(shù)據(jù)類

2011-05-26 15:10:15

靜態(tài)變量

2012-08-13 10:42:16

大數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)