什么是大數(shù)據(jù)架構(gòu)?
大數(shù)據(jù)架構(gòu)是用于攝取和處理大量數(shù)據(jù)(通常稱為“大數(shù)據(jù)”)的總體系統(tǒng),因此可以針對(duì)業(yè)務(wù)目的進(jìn)行分析。該架構(gòu)可視為基于組織業(yè)務(wù)需求的大數(shù)據(jù)解決方案的藍(lán)圖。大數(shù)據(jù)架構(gòu)旨在處理以下類型的工作:
- 批量處理大數(shù)據(jù)源。
- 實(shí)時(shí)處理大數(shù)據(jù)。
- 預(yù)測(cè)分析和機(jī)器學(xué)習(xí)。
精心設(shè)計(jì)的大數(shù)據(jù)架構(gòu)可以節(jié)省企業(yè)資金,并幫助其預(yù)測(cè)未來趨勢(shì),從而做出明智的業(yè)務(wù)決策。
大數(shù)據(jù)架構(gòu)的好處
可用于分析的數(shù)據(jù)量每天都在增長。而且,流媒體資源比以往更多,其中包括流量傳感器、健康傳感器、事務(wù)日志和活動(dòng)日志中提供的數(shù)據(jù)。但擁有數(shù)據(jù)只是業(yè)務(wù)成功的一半。企業(yè)還需要能夠理解數(shù)據(jù),并及時(shí)使用它來影響關(guān)鍵決策。使用大數(shù)據(jù)架構(gòu)可以幫助企業(yè)節(jié)省資金并做出關(guān)鍵決策,其中包括:
- 降低成本。在存儲(chǔ)大量數(shù)據(jù)時(shí),Hadoop和基于云計(jì)算的分析等大數(shù)據(jù)技術(shù)可以顯著地降低成本。
- 做出更快、更好的決策。使用大數(shù)據(jù)架構(gòu)的流組件,企業(yè)可以實(shí)時(shí)做出決策。
- 預(yù)測(cè)未來需求并創(chuàng)建新產(chǎn)品。大數(shù)據(jù)可以幫助企業(yè)衡量客戶需求并使用分析預(yù)測(cè)未來趨勢(shì)。
大數(shù)據(jù)架構(gòu)的挑戰(zhàn)
如果做得好,大數(shù)據(jù)架構(gòu)可以為企業(yè)節(jié)省資金,并幫助預(yù)測(cè)重要的趨勢(shì),但它并非沒有挑戰(zhàn)。在處理大數(shù)據(jù)時(shí),需要注意以下問題:
(1)數(shù)據(jù)質(zhì)量
無論何時(shí)使用各種數(shù)據(jù)源,數(shù)據(jù)質(zhì)量都是一項(xiàng)挑戰(zhàn)。這意味著企業(yè)需要做的工作是確保數(shù)據(jù)格式匹配,并且沒有重復(fù)數(shù)據(jù)或缺少數(shù)據(jù)將會(huì)使分析不可靠。企業(yè)需要先分析和準(zhǔn)備數(shù)據(jù),然后才能將其與其他數(shù)據(jù)一起進(jìn)行分析。
(2)擴(kuò)展
大數(shù)據(jù)的價(jià)值在于其數(shù)量。但是,這也可能成為一個(gè)重要問題。如果企業(yè)尚未設(shè)計(jì)架構(gòu)以進(jìn)行擴(kuò)展,則可能會(huì)很快遇到問題。首先,如果企業(yè)不計(jì)劃支持基礎(chǔ)設(shè)施,那么支持基礎(chǔ)設(shè)施的成本就會(huì)增加。這可能會(huì)給企業(yè)的預(yù)算帶來負(fù)擔(dān)。其次,如果企業(yè)不打算進(jìn)行擴(kuò)展,那么其性能可能會(huì)顯著下降。這兩個(gè)問題都應(yīng)該在構(gòu)建大數(shù)據(jù)架構(gòu)的規(guī)劃階段得到解決。
(3)安全性
雖然大數(shù)據(jù)可以為企業(yè)提供對(duì)數(shù)據(jù)的深入了解,但保護(hù)這些數(shù)據(jù)仍然具有挑戰(zhàn)性。欺詐者和黑客可能對(duì)企業(yè)的數(shù)據(jù)非常感興趣,他們可能會(huì)嘗試添加自己的偽造數(shù)據(jù)或?yàn)g覽企業(yè)的數(shù)據(jù)以獲取敏感信息。網(wǎng)絡(luò)犯罪分子可以制作數(shù)據(jù)并將其引入其數(shù)據(jù)湖。例如,假設(shè)企業(yè)跟蹤網(wǎng)站點(diǎn)擊次數(shù)以發(fā)現(xiàn)流量中的異常模式,并在其網(wǎng)站上查找犯罪活動(dòng),網(wǎng)絡(luò)犯罪分子可以滲透企業(yè)的系統(tǒng),在企業(yè)的大數(shù)據(jù)中可以找到大量的敏感信息,如果企業(yè)沒有保護(hù)周邊環(huán)境,加密數(shù)據(jù)并努力匿名化數(shù)據(jù)以移除敏感信息的話,網(wǎng)絡(luò)犯罪分子可能會(huì)挖掘其數(shù)據(jù)以獲取這些信息。
大數(shù)據(jù)架構(gòu)因公司的基礎(chǔ)設(shè)施和需求而異,但通常包含以下組件:
- 數(shù)據(jù)源。所有大數(shù)據(jù)架構(gòu)都從源代碼開始。這可以包括來自數(shù)據(jù)庫的數(shù)據(jù)、來自實(shí)時(shí)源(如物聯(lián)網(wǎng)設(shè)備)的數(shù)據(jù),以及從應(yīng)用程序(如Windows日志)生成的靜態(tài)文件。
- 實(shí)時(shí)消息接收。如果有實(shí)時(shí)源,則需要在架構(gòu)中構(gòu)建一種機(jī)制來攝取數(shù)據(jù)。
- 數(shù)據(jù)存儲(chǔ)。企業(yè)需要存儲(chǔ)將通過大數(shù)據(jù)架構(gòu)處理的數(shù)據(jù)。通常,數(shù)據(jù)將存儲(chǔ)在數(shù)據(jù)湖中,這是一個(gè)可以輕松擴(kuò)展的大型非結(jié)構(gòu)化數(shù)據(jù)庫。
- 批處理和實(shí)時(shí)處理的組合。企業(yè)需要同時(shí)處理實(shí)時(shí)數(shù)據(jù)和靜態(tài)數(shù)據(jù),因此應(yīng)在大數(shù)據(jù)架構(gòu)中內(nèi)置批量和實(shí)時(shí)處理的組合。這是因?yàn)榭梢允褂门幚碛行У靥幚泶罅繑?shù)據(jù),而實(shí)時(shí)數(shù)據(jù)需要立即處理才能帶來價(jià)值。批處理涉及到長時(shí)間運(yùn)行的作業(yè),用于篩選、聚合和準(zhǔn)備數(shù)據(jù)進(jìn)行分析。
- 分析數(shù)據(jù)存儲(chǔ)。準(zhǔn)備好要分析的數(shù)據(jù)后,需要將它們放在一個(gè)位置,以便對(duì)整個(gè)數(shù)據(jù)集進(jìn)行分析。分析數(shù)據(jù)存儲(chǔ)的重要性在于,企業(yè)的所有數(shù)據(jù)都集中在一個(gè)位置,因此其分析將是全面的,并且針對(duì)分析而非事務(wù)進(jìn)行了優(yōu)化。這可能采取基于云計(jì)算的數(shù)據(jù)倉庫或關(guān)系數(shù)據(jù)庫的形式,具體取決于企業(yè)的需求。
- 分析或報(bào)告工具。在攝取和處理各種數(shù)據(jù)源之后,企業(yè)需要包含一個(gè)分析數(shù)據(jù)的工具。通常,企業(yè)將使用BI(商業(yè)智能)工具來完成這項(xiàng)工作,并且可能需要數(shù)據(jù)科學(xué)家來探索數(shù)據(jù)。
- 自動(dòng)化。通過這些不同的系統(tǒng)移動(dòng)數(shù)據(jù)需要通常以某種形式的自動(dòng)化進(jìn)行編排。數(shù)據(jù)的攝取和轉(zhuǎn)換、批量移動(dòng)和流處理,將其加載到分析數(shù)據(jù)存儲(chǔ),***獲得洞察力必須在可重復(fù)的工作流程中,以便企業(yè)可以不斷從大數(shù)據(jù)中獲取洞察力。






















