對象存儲(chǔ)系統(tǒng) vs Hadoop 云存儲(chǔ)怎么選?
選擇多如牛毛,為你的應(yīng)用選擇***的云存儲(chǔ)系統(tǒng)并非易事。但是對象存儲(chǔ)系統(tǒng)是一個(gè)選擇,尤其是如果你的應(yīng)用要求訪問控制。而那些使用云進(jìn)行大數(shù)據(jù)分析的則要考慮Hadoop。
對象存儲(chǔ)系統(tǒng),比如AWS S3、微軟Azure Blob和谷歌云存儲(chǔ),可以在一個(gè)持久穩(wěn)固且高度可用的系統(tǒng)中存儲(chǔ)任意的對象,且獨(dú)立于虛擬機(jī)實(shí)例之外。應(yīng)用和用戶可以在對象存儲(chǔ)中使用簡單的API訪問數(shù)據(jù);這些通常都基于表屬性狀態(tài)轉(zhuǎn)移(REST)架構(gòu),但是也有面向編程語言的界面。
對象存儲(chǔ)提供了數(shù)據(jù)上受限操作的訪問控制。數(shù)據(jù)管理員可以在bucket層級上(類似于目錄)或者對象層級上(類似目錄中的文件)應(yīng)用訪問控制。存儲(chǔ)對象的授權(quán)/認(rèn)證通過云提供商的身份認(rèn)證管理系統(tǒng)或者你的目錄服務(wù)來管理。通過后者,你可能有一個(gè)本地的目錄,同基于云的目錄服務(wù)同步,鞏固所有的訪問控制角色和進(jìn)入單一注冊庫的特權(quán)。
提及存儲(chǔ),對于那些使用云進(jìn)行大數(shù)據(jù)分析的還有額外的選擇考慮。比如AWS提供了彈性Map Reduce (EMR),這是一項(xiàng)Hadoop服務(wù)。Hadoop旨在同期文件系統(tǒng)工作,以HDFS著稱。
當(dāng)用戶用EMR創(chuàng)建了一個(gè)Hadoop集群,他們可以從AWS S3或者一些其他的數(shù)據(jù)存儲(chǔ)復(fù)制數(shù)據(jù)到集群上的HDFS,或者也可以直接從S3訪問數(shù)據(jù)。HDFS使用本地存儲(chǔ),而且通常提供了比從S3恢復(fù)更好的性能,但是在運(yùn)行Hadoop工作之前,也需要時(shí)間從S3復(fù)制數(shù)據(jù)到HDFS。如果EMR集群要運(yùn)行一段時(shí)間,且針對多項(xiàng)工作使用相同的數(shù)據(jù),可能值得額外的啟動(dòng)時(shí)間來從S3復(fù)制數(shù)據(jù)到HDFS。
云存儲(chǔ)選擇適用于廣泛的需求,但是要針對你的需求找到正確的存儲(chǔ)類型,也意味著要找到延遲、易用性、數(shù)據(jù)完整性和成本之間的合適的平衡點(diǎn)。
控制歸檔成本
云存儲(chǔ)的另一個(gè)常用用例是歸檔。這個(gè)程序要需要較長時(shí)間復(fù)制數(shù)據(jù)來進(jìn)行持久的存儲(chǔ)。下面是在控制歸檔成本時(shí)需要考慮的三個(gè)內(nèi)容:
- 歸檔數(shù)據(jù)一次寫入且很少讀取。因此,***先考慮的就是受限的歸檔成本。
 - 對象存儲(chǔ)可以用來歸檔,但是除非你需要低延遲檢索,開支可能要比所需高。
 - AWS提供的Glacier歸檔存儲(chǔ)服務(wù)成本比S3大幅減少。從Glacier檢索數(shù)據(jù)用時(shí)數(shù)小時(shí),因此并不適用于大多數(shù)應(yīng)用。
 
原文鏈接:http://www.searchcloudcomputing.com.cn/showcontent_87943.htm















 
 
 






 
 
 
 