偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

常見的大數(shù)據(jù)存儲(chǔ)工具

大數(shù)據(jù)
大數(shù)據(jù)分析需求迫使數(shù)據(jù)存儲(chǔ)范式發(fā)生巨大轉(zhuǎn)變,從傳統(tǒng)的基于塊和文件的存儲(chǔ)網(wǎng)絡(luò)轉(zhuǎn)向更具可擴(kuò)展性的模型,如對象存儲(chǔ)、橫向擴(kuò)展 NAS 和數(shù)據(jù)湖。

?大數(shù)據(jù)需要大存儲(chǔ)

大數(shù)據(jù)是一個(gè)包羅萬象的術(shù)語,是傳統(tǒng)數(shù)據(jù)處理軟件無法處理的大量復(fù)雜的非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)集。這些數(shù)據(jù)集是從大量資源中生成的,例如大型電子商務(wù)、醫(yī)療記錄、圖像和視頻檔案以及購買交易記錄。

大數(shù)據(jù)分析可以揭示關(guān)聯(lián)、趨勢和模式,尤其是與人類互動(dòng)和行為相關(guān)的。當(dāng)前有許多專業(yè)設(shè)計(jì)的硬件和軟件工具可用于大數(shù)據(jù)分析。

從大數(shù)據(jù)中提取有意義的洞察,有助于做出關(guān)鍵的業(yè)務(wù)增長決策。因此,大量IT投資用于維護(hù)和管理大數(shù)據(jù)。預(yù)計(jì)到 2023 年,大數(shù)據(jù)行業(yè)的價(jià)值將達(dá)到 770 億美元。不過,要理解大數(shù)據(jù),第一步需要了解的是主流的大數(shù)據(jù)存儲(chǔ)工具。

為什么需要大數(shù)據(jù)存儲(chǔ)工具

到 2025 年,將需要分析超過 150 ZB 的數(shù)據(jù)。只有擁有能夠大規(guī)模擴(kuò)展以應(yīng)對大數(shù)據(jù)挑戰(zhàn)的安全存儲(chǔ)解決方案,組織才能利用大數(shù)據(jù)的力量。大數(shù)據(jù)存儲(chǔ)工具收集和管理大數(shù)據(jù)并實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)分析。

一般來說,大數(shù)據(jù)存儲(chǔ)架構(gòu)分為以下幾類:

  • 地理分布的服務(wù)器節(jié)點(diǎn),例如 Apache Hadoop 模型
  • 數(shù)據(jù)庫框架,例如SQL (NoSQL)
  • 橫向擴(kuò)展網(wǎng)絡(luò)附加存儲(chǔ) (NAS)
  • 存儲(chǔ)區(qū)域網(wǎng)絡(luò) (SAN)
  • 固態(tài)硬盤 (SSD) 陣列
  • 對象存儲(chǔ)
  • 數(shù)據(jù)湖(以原始格式存儲(chǔ)數(shù)據(jù)的存儲(chǔ)庫或系統(tǒng))
  • 數(shù)據(jù)倉庫

常見的大數(shù)據(jù)存儲(chǔ)工具

Apache Hadoop

Apache Hadoop 是一個(gè)開源軟件庫,可以使用簡單的編程模型跨計(jì)算機(jī)集群(稱為節(jié)點(diǎn))對大型復(fù)雜數(shù)據(jù)集進(jìn)行分布式處理。該框架旨在擴(kuò)展到數(shù)千個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都提供本地計(jì)算和存儲(chǔ)。Apache Hadoop 旨在檢測和處理應(yīng)用層的故障,從而在計(jì)算機(jī)集群之上提供高度可用的服務(wù),每個(gè)集群都可能容易出現(xiàn)故障。

Apache Hadoop 包括以下模塊:Hadoop Common、Hadoop 分布式文件系統(tǒng) (HDFS)、Hadoop Yet Another Resource Negotiator (YARN) 和 Hadoop MapReduce。Hadoop Common 是指支持其他 Hadoop 模塊的通用實(shí)用程序和庫。

HDFS 提供對在商用硬件上運(yùn)行的大型復(fù)雜數(shù)據(jù)集的高吞吐量訪問。HDFS 用于將單個(gè)節(jié)點(diǎn)擴(kuò)展到數(shù)千個(gè)節(jié)點(diǎn)。HDFS 的目標(biāo)包括從硬件故障中快速恢復(fù)、訪問流數(shù)據(jù)、容納大型復(fù)雜數(shù)據(jù)集以及可移植性。

Hadoop YARN 是一個(gè)用于作業(yè)調(diào)度/監(jiān)控和集群資源管理的并行處理框架。

Hadoop MapReduce 是基于 YARN 的系統(tǒng),用于并行處理大型復(fù)雜數(shù)據(jù)集。

Apache 的 Hadoop 相關(guān)項(xiàng)目包括 ZooKeeper、Tez、Submarine、Spark、Pig、Ozone、Mahout、Hive、HBase、Chukwa、Cassandra、Avro 和 Ambari。

Apache HBase?

Apache HBase 是一個(gè)開源、分布式、版本化的 NoSQL 數(shù)據(jù)庫,它以 Google 的 Bigtable 為模型。它在 Apache Hadoop 和 HDFS 之上提供類似于 Bigtable 的功能。

Apache HBase 的目標(biāo)是在商用硬件集群上托管大型復(fù)雜表(數(shù)十億行和數(shù)百萬列)。HBase 提供模塊化和線性可擴(kuò)展性,提供嚴(yán)格統(tǒng)一的讀寫。

NetApp 橫向擴(kuò)展 NAS?

NetApp 是 NAS 行業(yè)的先驅(qū)。NetApp 橫向擴(kuò)展 NAS 可簡化數(shù)據(jù)管理,在降低成本的同時(shí)跟上增長的步伐。大數(shù)據(jù)工具在統(tǒng)一架構(gòu)內(nèi)為組織提供無縫的可擴(kuò)展性、效率提升和無中斷操作。

NetApp 橫向擴(kuò)展 NAS 由 NetApp ONTAP 企業(yè)數(shù)據(jù)管理軟件提供支持。用戶可以使用 StorageGrid 自動(dòng)將冷數(shù)據(jù)分層到私有云或公共云,以最大限度地提高性能層的容量。云層和性能可以合并到一個(gè)數(shù)據(jù)池中,從而降低總擁有成本 (TCO)。

數(shù)據(jù)可以在邊緣訪問,并且可以跨多個(gè)數(shù)據(jù)中心和所有具有集成緩存功能的主要公共云訪問。

Active IQ 使用人工智能進(jìn)行 IT 運(yùn)營 (AIOps) 來自動(dòng)執(zhí)行 NetApp 環(huán)境的主動(dòng)優(yōu)化和維護(hù)。用戶可以在不影響性能的情況下對存儲(chǔ)進(jìn)行重復(fù)數(shù)據(jù)刪除和壓縮。借助內(nèi)置的數(shù)據(jù)安全性,用戶可以保護(hù)敏感的客戶和公司信息,可以在卷級別加密傳輸中的數(shù)據(jù)和數(shù)據(jù),以及安全地清除文件。

用于數(shù)據(jù)湖分析的Snowflake 

Snowflake 的跨云平臺提供對所有數(shù)據(jù)的快速、可靠和安全的訪問。Snowflake for Data Lake Analytics 結(jié)合了任何格式的非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù);提供快速可靠的處理和查詢;并實(shí)現(xiàn)安全協(xié)作。

大型和復(fù)雜的數(shù)據(jù)集可以存儲(chǔ)在 Snowflake 管理的存儲(chǔ)中,并具有靜態(tài)和傳輸中的加密、自動(dòng)微分區(qū)和高效壓縮??梢栽趩蝹€(gè)平臺上使用所選擇的語言(Scala、Python 或 Java)支持非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)上的大量工作負(fù)載。借助 Snowflake 的彈性處理引擎,可以運(yùn)行管道以實(shí)現(xiàn)低維護(hù)、節(jié)省成本和可靠的性能。

可以使用選擇的語言(SQL、Scala、Python 或 Java)和 Snowpark 來簡化管道開發(fā)——無需管理數(shù)據(jù)、服務(wù)或集群的額外副本。幾乎無限的專用計(jì)算資源可以支持無限數(shù)量的并發(fā)查詢和用戶。使用內(nèi)置的訪問歷史記錄,可以知道誰在訪問哪些數(shù)據(jù)。Snowflake 支持利益相關(guān)者之間的協(xié)作,并通過安全、實(shí)時(shí)的數(shù)據(jù)共享豐富企業(yè)的數(shù)據(jù)湖。借助可擴(kuò)展的基于行的訪問策略,企業(yè)可以跨云實(shí)施行和列級別的安全性。

Databricks Lakehouse 平臺?

Databricks Lakehouse Platform 結(jié)合了最佳的數(shù)據(jù)湖和數(shù)據(jù)倉庫。大數(shù)據(jù)存儲(chǔ)工具提供數(shù)據(jù)倉庫的性能、強(qiáng)大的治理和可靠性,以及數(shù)據(jù)湖的機(jī)器學(xué)習(xí) (ML) 支持、靈活性和開放性。

Databricks Lakehouse Platform 來自 Koalas、MLflow、Delta Lake 和 Apache Spark 的原始創(chuàng)建者。企業(yè)可以在一個(gè)平臺上統(tǒng)一數(shù)據(jù)倉庫和 AI 用例。統(tǒng)一的方法消除了傳統(tǒng)上將 ML、數(shù)據(jù)科學(xué)、商業(yè)智能 (BI) 和分析分開的孤島。大數(shù)據(jù)工具建立在開源和開放標(biāo)準(zhǔn)之上,以最大限度地提高靈活性。Databricks Lakehouse Platform 的通用數(shù)據(jù)治理、安全性和管理方法可幫助企業(yè)更快地進(jìn)行創(chuàng)新并提高運(yùn)營效率。

對于大數(shù)據(jù)存儲(chǔ)工具的選擇

大數(shù)據(jù)行業(yè)不斷發(fā)展,并為眾多面向業(yè)務(wù)的應(yīng)用程序提供動(dòng)力。例如,谷歌和 Facebook 等科技巨頭利用大數(shù)據(jù)的潛力為用戶提供有針對性的廣告和內(nèi)容。分析大數(shù)據(jù)的第一步是安全存儲(chǔ)。文中僅作為參考,企業(yè)需找到針對自身業(yè)務(wù),能滿足自身需求的大數(shù)據(jù)存儲(chǔ)解決方案。

責(zé)任編輯:華軒 來源: DOIT傳媒
相關(guān)推薦

2019-04-08 17:16:43

大數(shù)據(jù)開源工具

2016-10-18 17:46:52

2013-08-08 10:07:43

大數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)

2019-07-31 14:16:35

大數(shù)據(jù)人工智能算法

2018-03-20 10:37:33

存儲(chǔ)大數(shù)據(jù)管理

2017-07-13 11:13:18

大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)

2015-04-14 09:58:21

大數(shù)據(jù)分析工具常見難題

2012-09-13 09:52:14

大數(shù)據(jù)數(shù)據(jù)應(yīng)用開源工具

2022-08-31 17:01:56

大數(shù)據(jù)工具數(shù)據(jù)治理

2013-03-20 15:49:28

大數(shù)據(jù)

2013-01-05 14:25:27

大數(shù)據(jù)

2016-09-13 09:10:35

大數(shù)據(jù)

2013-05-07 14:56:27

大數(shù)據(jù)應(yīng)用工具數(shù)據(jù)中心網(wǎng)絡(luò)

2019-11-06 15:01:30

大數(shù)據(jù)Hadoop技術(shù)

2019-06-27 15:54:44

大數(shù)據(jù)工具開源

2018-07-04 09:30:55

列式存儲(chǔ)格式

2012-09-26 10:42:11

大數(shù)據(jù)

2021-04-26 16:52:13

大數(shù)據(jù)SQL

2017-03-08 10:29:06

HBase大數(shù)據(jù)存儲(chǔ)

2017-06-23 21:32:16

MySQL大數(shù)據(jù)優(yōu)化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號