偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大數(shù)據(jù)存儲平臺之異構(gòu)存儲實踐深度解讀

大數(shù)據(jù)
在數(shù)據(jù)被視為公司資產(chǎn)的時代,每個公司基本都會保存最近數(shù)年的數(shù)據(jù),而這些數(shù)據(jù)尤其是冷數(shù)據(jù)的累積也給存儲平臺帶來了甜蜜的負擔。下面就來分享下如何解決這些“負擔”。

經(jīng)常做數(shù)據(jù)處理的伙伴們肯定會有這樣一種體會:最近一周內(nèi)的數(shù)據(jù)會被經(jīng)常使用到,而比如最近幾周的數(shù)據(jù)使用率會有下降,每周僅僅被訪問幾次;在比如3月以前的數(shù)據(jù)使用率會大幅下滑,存儲的數(shù)據(jù)可能一個月才被訪問幾次。

大數(shù)據(jù)存儲平臺之異構(gòu)存儲實踐深度解讀

這就產(chǎn)生了一種熱和冷數(shù)據(jù),對需要頻繁訪問的數(shù)據(jù)我們稱之為“熱”數(shù)據(jù),反之我們稱之為”冷”數(shù)據(jù),而處于中間的數(shù)據(jù)我們稱之為”溫”數(shù)據(jù)。

在數(shù)據(jù)被視為公司資產(chǎn)的時代,每個公司基本都會保存最近數(shù)年的數(shù)據(jù),而這些數(shù)據(jù)尤其是冷數(shù)據(jù)的累積也給存儲平臺帶來了甜蜜的負擔。下面就來分享下如何解決這些“負擔”。

首先如何定義數(shù)據(jù)為冷熱數(shù)據(jù)呢,eBay公司根據(jù)數(shù)據(jù)年齡和使用頻率來定義不失為一種辦法,下圖為eBay關(guān)于數(shù)據(jù)溫度的定義

 

大數(shù)據(jù)存儲平臺之異構(gòu)存儲實踐深度解讀

從hadoop2.6開始,HDFS更好的支持了這種冷熱數(shù)據(jù)的分離存儲,我們可以按HDFS路徑指定其存儲策略,目前HDFS支持的存儲策略有:HOT、WARM、COLD、All_SSD、One_SSD、Lazy_Persist,我們著重介紹SSD相關(guān)的存儲策略,具體如下:

  • All_SSD - 用于將所有副本存儲在SSD中
  • One_SSD - 用于將其中一個副本存儲在SSD中。剩余的副本存儲在DISK中
  • Lazy_Persist - 用于在內(nèi)存中寫入單個副本的塊。該副本首先寫入RAM_DISK,然后在DISK中延續(xù)

創(chuàng)建文件或目錄時,其存儲策略未指定。可以使用“hdfs dfsadmin -setStoragePolicy ”命令指定存儲策略。文件或目錄的有效存儲策略由以下規(guī)則解決。

  1. 如果文件或目錄特定于存儲策略,則返回。
  2. 對于未指定的文件或目錄,如果是根目錄,則返回默認存儲策略。否則,返回其父級的有效存儲策略。

我們在實踐過程中,因為有一部分實時分析的需求,一部分是歷史數(shù)據(jù)的保存,歷史數(shù)據(jù)很少參與計算,只需偶爾查詢會用到。那么對于歷史數(shù)據(jù)來說,我們可以使用一批計算能力較弱,而硬盤較多、容量較大的SATA盤,而實時分析的場景,需要高性能的計算力和硬盤吞吐能力,我們選用SSD硬盤來支撐,此外HDFS還提供了內(nèi)存存儲類型,但我們的內(nèi)存還是有限,暫未使用到。實際上,我們的每臺服務(wù)器的12塊硬盤slot中有3個是SSD,其余9個是SATA。我們實踐結(jié)果表明,使用這種策略的效果比以前好了4倍以上。

要使用存儲策略,我們需要在在每個數(shù)據(jù)節(jié)點上hdfs-site.xml中參數(shù)dfs.datanode.data.dir配置的由逗號分隔的存儲位置使用的存儲類型進行標記。例如:

  1. 使用[DISK]file:///dfs/dn來標識這個存儲位置為普通硬盤
  2. 使用[SSD]file:/// dfs/dn來標識這個存儲位置為SSD硬盤

此外,默認情況下的存儲格式為DISK。

下面介紹設(shè)置存儲策略命令:

  1. hdfsstoragepolicies -setStoragePolicy -path -policy 

相應(yīng)的獲取存儲策略命令為:

  1. hdfs storagepolicies -getStoragePolicy -path 

總結(jié)下:我們可以在一個限定的Hadoop集群中進行設(shè)置不同的磁盤使用不同的存儲策略,還可以利用API將數(shù)據(jù)存儲到不同的存儲層。HDFS設(shè)計的詳細存儲類型和存儲策略如下表,有興趣的同學可以看看:

 

大數(shù)據(jù)存儲平臺之異構(gòu)存儲實踐深度解讀

注:HDFS新加的ARCHIVE存儲類型, 它是一種支持PB級的高容量存儲但很少的 計算能力,用于歸檔數(shù)據(jù)使用,從上圖可以看出冷數(shù)據(jù)適合使用archive存儲類型。

責任編輯:未麗燕 來源: 網(wǎng)絡(luò)大數(shù)據(jù)
相關(guān)推薦

2013-08-08 10:07:43

大數(shù)據(jù)存儲結(jié)構(gòu)化數(shù)據(jù)

2023-02-18 18:26:11

隨著信息大爆炸,企業(yè)

2017-07-13 11:13:18

大數(shù)據(jù)數(shù)據(jù)存儲

2013-09-12 14:28:44

大數(shù)據(jù)存儲

2022-09-28 07:38:29

金融容器云平臺

2018-01-24 10:33:18

存儲

2021-05-24 17:14:09

數(shù)字化

2018-03-20 10:37:33

存儲大數(shù)據(jù)管理

2013-04-22 09:39:24

數(shù)據(jù)分析大數(shù)據(jù)IDC

2018-10-08 13:52:28

Android數(shù)據(jù)安全存儲安全

2018-12-18 11:36:30

私有云存儲云計算

2016-10-08 22:02:01

大數(shù)據(jù)時代大數(shù)據(jù)

2020-03-17 09:21:20

MariaDBSpider存儲

2012-09-26 10:42:11

大數(shù)據(jù)

2022-09-01 23:34:18

大數(shù)據(jù)數(shù)據(jù)分析工具

2015-02-03 03:18:56

SparkSpark內(nèi)核

2018-04-08 08:25:15

Ceph對象存儲混合云

2021-01-20 10:53:41

云計算云存儲云遷移

2011-05-31 17:32:32

Android SharedPref

2017-03-22 20:25:31

大數(shù)據(jù)存儲紫光西部數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號