偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<font id="o1cry"></font>

<u id="o1cry"><rp id="o1cry"></rp></u>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

掃盲：Hadoop分布式文件系統(tǒng)（HDFS）基礎(chǔ)概念講解！

作者：趙鈺瑩 2018-08-14 10:44:58

大數(shù)據(jù) 分布式 Hadoop

本文為您帶來通過shell命令管理Hadoop HDFS的十大基本操作，這些操作對于管理HDFS集群上的文件非常有用。出于測試目的，你可以使用Cloudera或者Hortonworks等中的某些VM調(diào)用此命令，或者用于偽分布式集群設(shè)置。

無論你如何將Hadoop與Spark進行對比，無論Spark生態(tài)多么成熟和完善，其底層終歸要基于HDFS，畢竟這是目前最成熟的分布式底層文件系統(tǒng)，幾乎沒有哪家公司愿意重新花費精力研發(fā)一個全新的文件系統(tǒng)。

本文將討論Hadoop分布式文件系統(tǒng)(HDFS)的基本概念以及管理HDFS的十大Hadoop Shell命令。HDFS是Apache Hadoop框架的底層文件系統(tǒng)，是一個分布式存儲框架，跨越數(shù)千種商用硬件。該文件系統(tǒng)提供容錯、高吞吐、流數(shù)據(jù)訪問以及高可靠性等功能。HDFS的體系架構(gòu)適用于存儲大量數(shù)據(jù)及快速處理，HDFS是Apache生態(tài)系統(tǒng)的一部分。

在此之前，我們先來了解Apache Hadoop框架，其主要包含以下幾大模塊：

Hadoop Common——包含Hadoop其他模塊所需的庫和實用程序;
HDFS——商用機存儲數(shù)據(jù)的分布式文件系統(tǒng)，在集群中提供非常高的聚合帶寬;
Hadoop YARN ——資源管理平臺，負責(zé)管理集群上的計算資源并使用它們調(diào)度用戶應(yīng)用程序;
Hadoop MapReduce——用于大規(guī)模數(shù)據(jù)處理的編程模型。

Hadoop中的所有模塊都設(shè)計了一個基本假設(shè)，即硬件故障(單個機器或整個機架)是顯而易見的，因此應(yīng)由Hadoop框架在軟件應(yīng)用程序中自動處理，Apache Hadoop的HDFS組件最初來自Google的MapReduce和Google File System(GFS)。

HDFS是Hadoop應(yīng)用程序使用的主要分布式存儲，HDFS集群主要由NameNode和DataNode組成。NameNode管理文件系統(tǒng)元數(shù)據(jù)，DataNode用于存儲實際數(shù)據(jù)。

HDFS架構(gòu)圖解釋了NameNode、DataNode和客戶端之間的基本交互，客戶端組件調(diào)用NameNode以獲取文件元數(shù)據(jù)或修改，客戶端直接使用DataNodes執(zhí)行實際的文件I / O操作。HDFS可能存在一些用戶感興趣的顯著特征：

非常適合使用低成本商用硬件進行分布式存儲和處理。Hadoop具有可擴展性，容錯性且易于擴展。MapReduce以其大量分布式應(yīng)用程序的簡單性和適用性而著稱。HDFS則具有高度可配置性，默認配置足以滿足大多數(shù)應(yīng)用程序的需求。通常，僅需要針對非常大的集群調(diào)整默認配置;

Hadoop是基于Java平臺編寫的，幾乎在所有主要平臺上都受支持;
Hadoop支持shell和shell類命令與HDFS的通信;
NameNode和DataNode具有內(nèi)置Web服務(wù)器，可以輕松檢查集群的當前狀態(tài);
HDFS中經(jīng)常實現(xiàn)新的功能和更新，以下列表是HDFS中可用的功能子集：

文件權(quán)限和身份驗證;

Rackawareness：有助于在計劃任務(wù)和分配存儲時考慮節(jié)點的物理位置;

Safemode：管理主要用于維護的模式;

fsck：這是一個實用程序，用于診斷文件系統(tǒng)的運行狀況以及查找丟失的文件或塊;

fetchdt：這是一個用于獲取DelegationToken并將其存儲在本地系統(tǒng)文件中的實用程序;

Rebalancer：當數(shù)據(jù)在DataNode之間分布不均時，這是一個用于平衡集群的工具;

升級和回滾：軟件升級后，可以在升級前回滾到上一狀態(tài)，以防出現(xiàn)任何意外;

SecondaryNameNode：此節(jié)點執(zhí)行命名空間的Checkpoint，并幫助將包含HDFS修改日志的文件大小保持在NameNode的特定限制內(nèi);

Checkpoint節(jié)點：此節(jié)點執(zhí)行命名空間的Checkpoint，并有助于最小化存儲在NameNode中的日志大小，其中包含對HDFS所做的更改，它還替換了以前由Secondary NameNode填充的角色或功能。作為替代方案，NameNode允許多個節(jié)點作為Checkpoint，只要系統(tǒng)沒有可用(注冊)的備份節(jié)點即可;

Backup節(jié)點：可以將其定義為Checkpoint節(jié)點的擴展。除了Checkpoint之外，它還用于從NameNode接收編輯流。因此，它維護自己命名空間的內(nèi)存副本，始終與活動的NameNode和命名空間狀態(tài)同步，一次只允許向NameNode注冊一個備份節(jié)點。

HDFS的設(shè)計目標

Hadoop的目標是在非常大的集群中使用常用服務(wù)器，并且每個服務(wù)器都有一組廉價內(nèi)部磁盤驅(qū)動器。為了獲得更好的性能，MapReduce API嘗試在存儲要處理的數(shù)據(jù)的服務(wù)器上分配工作負載，這稱為數(shù)據(jù)局部性。因此，在Hadoop環(huán)境中，建議不要使用區(qū)域存儲網(wǎng)絡(luò)(SAN)或網(wǎng)絡(luò)直接存儲(NAS) 。對于使用SAN或NAS的Hadoop部署，額外的網(wǎng)絡(luò)通信開銷可能會導(dǎo)致性能瓶頸，尤其是在集群規(guī)模較大的情況下。

假設(shè)，我們目前擁有1000臺機器集群，每臺機器都有三個內(nèi)部磁盤驅(qū)動器。因此，請考慮由3000個廉價驅(qū)動器+ 1000個廉價服務(wù)器組成的集群的故障率，這個數(shù)值會非常大!不過，好在廉價硬件相關(guān)的MTTF故障率實際上已被很好地理解和接受，這讓用戶對Hadoop的包容性變得很高。Hadoop具有內(nèi)置的容錯和故障補償功能，HDFS也是如此，因為數(shù)據(jù)被分成塊，這些塊的副本存儲在Hadoop集群的其他服務(wù)器上。為了使其易于理解，我們可以說單個文件實際上存儲為較小的塊，這些塊在整個集群中的多個服務(wù)器之間進行復(fù)制，以便更快地訪問文件。

我們可以考慮一個應(yīng)用場景，假設(shè)我們現(xiàn)在需要存儲某區(qū)域內(nèi)所有居民的電話號碼，將姓氏以A開頭的存儲在服務(wù)器1上，以B開頭的在服務(wù)器2上，依此類推。在Hadoop環(huán)境中，此電話簿的各個部分將分布式存儲在整個集群中。如果要重建整個電話簿的數(shù)據(jù)，程序需要訪問集群中每個服務(wù)器的塊。為了實現(xiàn)更高的可用性，HDFS默認將較小的數(shù)據(jù)復(fù)制到另外兩臺服務(wù)器上。這里會涉及到冗余的概念，但支持冗余是為了避免故障并提供容錯解決方案，可以基于每個文件或針對整個環(huán)境增加或減少該冗余。這種冗余具備多種好處，最明顯的一個是數(shù)據(jù)高可用。除此之外，數(shù)據(jù)冗余允許Hadoop集群將工作分解為更小的塊，并在集群中的所有服務(wù)器上運行較小的作業(yè)，以實現(xiàn)更好的可伸縮性。最后，作為最終用戶，我們獲得了數(shù)據(jù)局部性的好處，這在處理大型數(shù)據(jù)集時至關(guān)重要。

管理HDFS的十大Hadoop Shell命令

以下是通過shell命令管理Hadoop HDFS的十大基本操作，這些操作對于管理HDFS集群上的文件非常有用。出于測試目的，你可以使用Cloudera或者Hortonworks等中的某些VM調(diào)用此命令，或者用于偽分布式集群設(shè)置。

1、在給定路徑的HDFS中創(chuàng)建目錄

2、列出目錄內(nèi)容

3、在HDFS中上傳和下載文件

Upload:  
hadoop fs -put:

將單個src文件或多個src文件從本地文件系統(tǒng)復(fù)制到Hadoop數(shù)據(jù)文件系統(tǒng)

將文件復(fù)制/下載到本地文件系統(tǒng)

Download:  
hadoop fs -get:

4、查看文件的內(nèi)容

與unix cat命令相同：

5、將文件從源復(fù)制到目標

此命令也允許多個源，在這種情況下，目標必須是目錄。

6、將文件從(到)本地文件系統(tǒng)復(fù)制到HDFS

與put命令類似，但源僅限于本地文件引用。

7、將文件從源移動到目標

注意：不允許跨文件系統(tǒng)移動文件。

8、刪除HDFS中的文件或目錄

刪除指定為參數(shù)的文件，僅在目錄為空時刪除目錄：

9、顯示文件的最后幾行

類似于Unix中的tail命令

10、顯示文件的聚合長度

結(jié)論

我們已經(jīng)看到HDFS是Apache Hadoop生態(tài)系統(tǒng)的重要組件之一。相比于本地文件系統(tǒng)，HDFS確實非常強大。因此，所有大數(shù)據(jù)應(yīng)用程序都使用HDFS進行數(shù)據(jù)存儲，這也是作為大數(shù)據(jù)人必須了解HDFS的原因。

責(zé)任編輯：未麗燕來源： it168網(wǎng)站

Hadoop HDFS 命令分布式

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<center id="n6u5h"></center>