偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

數(shù)據(jù)湖到底是什么湖?

大數(shù)據(jù) 數(shù)據(jù)湖
近兩年,隨著大數(shù)據(jù)、云計算等技術(shù)的發(fā)展與成熟,數(shù)據(jù)湖再次被人們提起,人們對原始數(shù)據(jù)的分析、非結(jié)構(gòu)化數(shù)據(jù)的分析的應(yīng)用也越來越多,數(shù)據(jù)湖開始走向企業(yè)的實際應(yīng)用中。

數(shù)據(jù)作為一項重要資產(chǎn),已經(jīng)成為企業(yè)的共識,為了更好地存儲數(shù)據(jù)、挖掘數(shù)據(jù),企業(yè)需要:

  • 一個超級大的存儲庫,對數(shù)據(jù)進行長期的原樣的存儲;
  • 能夠?qū)@些數(shù)據(jù)高效地管理與集中治理;
  • 需要強大的計算能力滿足數(shù)據(jù)處理需求。

假設(shè)有這樣一種解決方案:在一種技術(shù)的支持下,企業(yè)在快速實現(xiàn)企業(yè)中各類的數(shù)據(jù)集成的同時,也能輕松獲取企業(yè)外部數(shù)據(jù),打通產(chǎn)業(yè)鏈上下游數(shù)據(jù),實現(xiàn)生態(tài)化數(shù)據(jù)整合,實現(xiàn)全貌數(shù)據(jù)分析。同時,數(shù)據(jù)存儲量大,支持批量歷史數(shù)據(jù)和實時流數(shù)據(jù)的處理,能夠?qū)崿F(xiàn)數(shù)據(jù)的快速查詢和高級分析。

這樣的解決方案,你是否會心動?

其實,這個方案,通過數(shù)據(jù)湖就能實現(xiàn)。

一、什么是數(shù)據(jù)湖?

數(shù)據(jù)湖概念的提出,最早是在2010年,由Pentaho的創(chuàng)始人兼CTO詹姆斯·狄克遜(James Dixon)在紐約Hadoop World大會上提出的,就在當(dāng)時,發(fā)布了如今被大數(shù)據(jù)界廣泛使用的開源框架Hadoop的第一個版本。

近兩年,隨著大數(shù)據(jù)、云計算等技術(shù)的發(fā)展與成熟,數(shù)據(jù)湖再次被人們提起,人們對原始數(shù)據(jù)的分析、非結(jié)構(gòu)化數(shù)據(jù)的分析的應(yīng)用也越來越多,數(shù)據(jù)湖開始走向企業(yè)的實際應(yīng)用中。

 

數(shù)據(jù)湖到底是什么湖?

維基百科對數(shù)據(jù)湖的定義:數(shù)據(jù)湖是一個以原始格式(通常是對象塊或文件)存儲數(shù)據(jù)的系統(tǒng)或存儲庫。數(shù)據(jù)湖通常是所有企業(yè)數(shù)據(jù)的單一存儲,用于報告、可視化、高級分析和機器學(xué)習(xí)等任務(wù)。數(shù)據(jù)湖可以包括來自關(guān)系數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)(行和列)、半結(jié)構(gòu)化數(shù)據(jù)(CSV、日志、XML、JSON)、非結(jié)構(gòu)化數(shù)據(jù)(電子郵件、文檔、pdf)和二進制數(shù)據(jù)(圖像、音頻、視頻)。

根據(jù)網(wǎng)上資料,有一張數(shù)據(jù)湖的參考架構(gòu):

 

數(shù)據(jù)湖到底是什么湖?

從架構(gòu)上來看,數(shù)據(jù)湖的主要特征有:

  • 數(shù)據(jù)接入:數(shù)據(jù)湖提供各種類型數(shù)據(jù)的接入,包括數(shù)據(jù)庫中的表、各種格式的文件、數(shù)據(jù)流、ETL工具轉(zhuǎn)換后的數(shù)據(jù)、應(yīng)用API獲取的數(shù)據(jù)等等,并自動生成元數(shù)據(jù)信息。
  • 數(shù)據(jù)存儲:數(shù)據(jù)湖存儲的數(shù)據(jù)量大、來源多,并且是以原始格式存儲,不同于數(shù)據(jù)倉庫的結(jié)構(gòu)化存儲方式,數(shù)據(jù)湖以自然格式存儲數(shù)據(jù)。
  • 數(shù)據(jù)處理:支持數(shù)據(jù)的驗證、清洗、聚合、權(quán)限管理以及數(shù)據(jù)安全等。
  • 數(shù)據(jù)應(yīng)用:除了BI、報表分析、可視化分析、高級分析外,也適用于機器學(xué)習(xí)。

數(shù)據(jù)湖本質(zhì)上是一套先進的企業(yè)數(shù)據(jù)架構(gòu)。

2、數(shù)據(jù)湖和數(shù)據(jù)倉庫有什么區(qū)別呢?

在這里,我們拿數(shù)據(jù)湖和熟知的數(shù)據(jù)倉庫進行對比,方便大家對數(shù)據(jù)湖進一步理解。

 

數(shù)據(jù)湖到底是什么湖?

通過對比,我們可以看到數(shù)據(jù)湖相比于數(shù)據(jù)倉庫,不僅在數(shù)據(jù)源上更豐富,數(shù)據(jù)也不需要提前進行定義,在準備使用數(shù)據(jù)時再定義即可,這提高了數(shù)據(jù)的靈活性與可擴展性。

數(shù)據(jù)湖在未來的使用中應(yīng)用范圍更廣,使用場景也從批處理、BI擴展到機器學(xué)習(xí)、高級分析。

三、數(shù)據(jù)湖能夠給企業(yè)帶來哪些價值?

通過對數(shù)據(jù)的分析與應(yīng)用成功創(chuàng)造商業(yè)價值的企業(yè),將會在數(shù)字化浪潮下越走越遠。數(shù)據(jù)湖的核心價值是為企業(yè)帶來了數(shù)據(jù)平臺化運營機制,真正幫助企業(yè)實現(xiàn)技術(shù)轉(zhuǎn)型,應(yīng)對快速發(fā)展的商業(yè)環(huán)境下層出不窮的新問題。據(jù)Aberdeen 的一項調(diào)查顯示,實施數(shù)據(jù)湖的組織比同類公司在有機收入增長方面高出 9%。

數(shù)據(jù)湖對企業(yè)的價值主要體現(xiàn)在:

1、保存原始數(shù)據(jù),企業(yè)數(shù)據(jù)保真

數(shù)據(jù)倉庫保存的數(shù)據(jù)都是結(jié)構(gòu)化處理后的數(shù)據(jù),而非原始數(shù)據(jù),且無用數(shù)據(jù)不會被納入。但是目前看來"無用"的數(shù)據(jù)是否真的沒有用處呢?其他格式的數(shù)據(jù)是否沒有價值?有用無用依賴的是我們業(yè)務(wù)人員的經(jīng)驗來判斷的,這明顯不符合大數(shù)據(jù)的原則,而數(shù)據(jù)湖能夠保存原始數(shù)據(jù),同時過程數(shù)據(jù)會不斷的完善、演化,以滿足業(yè)務(wù)的需要,保證用戶能獲取到各個階段的數(shù)據(jù)。

 

數(shù)據(jù)湖到底是什么湖?

2、打破數(shù)據(jù)孤島,實現(xiàn)數(shù)據(jù)互通

有的企業(yè)先后上線了ERP系統(tǒng)、CRM系統(tǒng)、OA系統(tǒng)等,企業(yè)的數(shù)據(jù)分別存儲在這些系統(tǒng)中,數(shù)據(jù)之間互不相通,而數(shù)據(jù)湖可以容納所有系統(tǒng)的數(shù)據(jù),同時也能夠充分利用企業(yè)外部數(shù)據(jù),打破數(shù)據(jù)孤島,整合企業(yè)全貌數(shù)據(jù)。

 

數(shù)據(jù)湖到底是什么湖?

3、支持實時數(shù)據(jù),提高運營效率

物聯(lián)網(wǎng) (IoT) 引入了更多方式來收集有關(guān)制造等流程的數(shù)據(jù),包括來自互聯(lián)網(wǎng)連接設(shè)備的實時數(shù)據(jù)。數(shù)據(jù)湖支持對實時和高速數(shù)據(jù)流執(zhí)行 ETL 功能,并對機器生成的 IoT 數(shù)據(jù)進行分析,從而能夠協(xié)助企業(yè)發(fā)現(xiàn)降低運營成本、提高運營效率的方法。

 

[[336232]]

4、實現(xiàn)數(shù)據(jù)挖掘,驅(qū)動價值增長

數(shù)據(jù)湖統(tǒng)一管理所有數(shù)據(jù),通過數(shù)據(jù)湖能夠輕松實現(xiàn)對數(shù)據(jù)的搜索、查詢、計算和訪問,結(jié)合機器學(xué)習(xí)和深度學(xué)習(xí)能夠為企業(yè)構(gòu)建更多優(yōu)化后的運營模型,進行數(shù)據(jù)挖掘和數(shù)據(jù)分析。數(shù)據(jù)湖還會跟蹤和確認數(shù)據(jù)血統(tǒng),這有助于確保數(shù)據(jù)值得信任,還會快速生成可用于數(shù)據(jù)驅(qū)動決策的 BI,提供企業(yè)級數(shù)據(jù)服務(wù),驅(qū)動企業(yè)的價值增長。

 

數(shù)據(jù)湖到底是什么湖?

5、靈活可拓展,支持敏捷開發(fā)

由于數(shù)據(jù)湖采用的是分布式架構(gòu)部署,具有很高的拓展性。相比于傳統(tǒng)集中存儲式,數(shù)據(jù)湖具有更高的靈活性和敏捷性,當(dāng)需要修改或增添新單元時,無需對數(shù)據(jù)湖進行大規(guī)模改變,能夠在段時間內(nèi)(如幾天或幾周)實現(xiàn)。

 

[[336233]]

四、數(shù)據(jù)湖的發(fā)展前景

目前,數(shù)據(jù)湖與云計算技術(shù)的融合成為一種趨勢,由于數(shù)據(jù)湖的特性與優(yōu)勢,數(shù)據(jù)湖在企業(yè)數(shù)據(jù)存儲、處理和分析上將扮演更重要的角色。

一方面,云計算具有高效的運算能力,在原有服務(wù)器基礎(chǔ)上增加云計算功能能夠使計算速度迅速提高,為企業(yè)帶來了更多的管理便捷性;

另一方面,云計算采用虛擬化、多租戶等技術(shù),將資源放在虛擬資源池中統(tǒng)一管理,在一定程度上優(yōu)化了物理資源,用戶不再需要昂貴、存儲空間大的主機,降低企業(yè)對IT基礎(chǔ)設(shè)施的成本,為企業(yè)帶來了巨大的經(jīng)濟性。

數(shù)據(jù)湖+云計算,兩大技術(shù)融合使用,將大數(shù)據(jù)計算部署在云上,把存儲資源與計算資源獨立開來,實現(xiàn)計算和數(shù)據(jù)各自獨立擴展,彈性伸縮。

當(dāng)前,數(shù)據(jù)湖架構(gòu)已經(jīng)在公有云上得到了較完美的實現(xiàn)和應(yīng)用,企業(yè)上云已經(jīng)成為一種發(fā)展趨勢,將會有越來越多的企業(yè)通過上云服務(wù)來提升自己的競爭力。

數(shù)鑰分析云(Saas版)即將上線,更好地為企業(yè)提供一站式大數(shù)據(jù)解決方案,敬請期待!

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2025-03-28 01:33:00

2025-03-24 12:18:25

數(shù)據(jù)庫數(shù)據(jù)倉庫存儲

2020-09-15 12:56:00

數(shù)據(jù)湖架構(gòu)

2023-12-21 11:44:11

數(shù)據(jù)湖數(shù)據(jù)管理數(shù)據(jù)存儲庫

2011-04-27 09:30:48

企業(yè)架構(gòu)

2020-09-27 06:53:57

MavenCDNwrapper

2020-10-14 06:22:14

UWB技術(shù)感知

2020-09-22 08:22:28

快充

2010-11-01 01:25:36

Windows NT

2017-04-06 13:58:42

數(shù)據(jù)湖大數(shù)據(jù)數(shù)據(jù)管理

2015-10-26 11:50:11

數(shù)據(jù)湖大數(shù)據(jù)

2019-10-30 10:13:15

區(qū)塊鏈技術(shù)支付寶

2013-06-09 09:47:31

.NetPDBPDB文件

2010-04-22 14:14:29

Live-USB

2021-09-03 09:12:09

Linux中斷軟件

2017-03-20 09:33:21

數(shù)據(jù)湖智能

2021-05-28 09:23:07

數(shù)據(jù)倉庫數(shù)據(jù)湖

2021-01-21 21:24:34

DevOps開發(fā)工具

2021-09-01 23:29:37

Golang語言gRPC

2021-02-05 10:03:31

區(qū)塊鏈技術(shù)智能
點贊
收藏

51CTO技術(shù)棧公眾號