偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ul id="uualb"><dd id="uualb"><source id="uualb"></source></dd></ul>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

基于Hadoop云盤系統(tǒng)1：上傳和下載效率優(yōu)化

作者：張子良 2013-03-07 14:47:14

大數(shù)據(jù) Hadoop

基于任何平臺實現(xiàn)的云盤系統(tǒng)，面臨的首要的技術問題就是客戶端上傳和下載效率優(yōu)化問題?；贖adoop實現(xiàn)的云盤系統(tǒng)，受到Hadoop文件讀寫機制的影響，采用Hadoop提供的API進行HDFS文件系統(tǒng)訪問，文件讀取時默認是順序、逐block讀??；寫入時是順序寫入。

一、讀寫機制　　

首先來看文件讀取機制：盡管DataNode實現(xiàn)了文件存儲空間的水平擴展和多副本機制，但是針對單個具體文件的讀取，Hadoop默認的API接口并沒有提供多DataNode的并行讀取機制?；贖adoop提供的API接口實現(xiàn)的云盤客戶端也自然面臨同樣的問題。Hadoop的文件讀取流程如下圖所示：

使用HDFS提供的客戶端開發(fā)庫，向遠程的Namenode發(fā)起RPC請求；
Namenode會視情況返回文件的部分或者全部block列表，對于每個block，Namenode都會返回有該block拷貝的datanode地址；
客戶端開發(fā)庫會選取離客戶端最接近的datanode來讀取block；
讀取完當前block的數(shù)據(jù)后，關閉與當前的datanode連接，并為讀取下一個block尋找***的datanode；
當讀完列表的block后，且文件讀取還沒有結束，客戶端開發(fā)庫會繼續(xù)向Namenode獲取下一批的block列表。
讀取完一個block都會進行checksum驗證，如果讀取datanode時出現(xiàn)錯誤，客戶端會通知Namenode，然后再從下一個擁有該block拷貝的datanode繼續(xù)讀取。

　　這里需要注意的關鍵點是：多個Datanode順序讀取。

　　其次再看文件的寫入機制：

使用HDFS提供的客戶端開發(fā)庫，向遠程的Namenode發(fā)起RPC請求；
Namenode會檢查要創(chuàng)建的文件是否已經(jīng)存在，創(chuàng)建者是否有權限進行操作，成功則會為文件創(chuàng)建一個記錄，否則會讓客戶端拋出異常；
當客戶端開始寫入文件的時候，開發(fā)庫會將文件切分成多個packets，并在內(nèi)部以"data queue"的形式管理這些packets，并向Namenode申請新的blocks，獲取用來存儲replicas的合適的datanodes列表，列表的大小根據(jù)在Namenode中對replication的設置而定。
開始以pipeline（管道）的形式將packet寫入所有的replicas中。開發(fā)庫把packet以流的方式寫入***個 datanode，該datanode把該packet存儲之后，再將其傳遞給在此pipeline中的下一個datanode，直到***一個 datanode，這種寫數(shù)據(jù)的方式呈流水線的形式。
***一個datanode成功存儲之后會返回一個ack packet，在pipeline里傳遞至客戶端，在客戶端的開發(fā)庫內(nèi)部維護著"ack queue"，成功收到datanode返回的ack packet后會從"ack queue"移除相應的packet。
如果傳輸過程中，有某個datanode出現(xiàn)了故障，那么當前的pipeline會被關閉，出現(xiàn)故障的datanode會從當前的 pipeline中移除，剩余的block會繼續(xù)剩下的datanode中繼續(xù)以pipeline的形式傳輸，同時Namenode會分配一個新的 datanode，保持replicas設定的數(shù)量。

　　關鍵詞：開發(fā)庫把packet以流的方式寫入***個datanode，該datanode將其傳遞給pipeline中的下一個datanode，知道***一個Datanode，這種寫數(shù)據(jù)的方式呈流水線方式。

二、解決方案

　　1.下載效率優(yōu)化

　　通過以上讀寫機制的分析，我們可以發(fā)現(xiàn)基于Hadoop實現(xiàn)的云盤客戶段下載效率的優(yōu)化可以從兩個層級著手：

　　1.文件整體層面：采用并行訪問多線程（多進程）份多文件并行讀取。

　　2.Block塊讀?。焊膶慔adoop接口擴展，多Block并行讀取。

　　2.上傳效率優(yōu)化

　　上傳效率優(yōu)化只能采用文件整體層面的并行處理，不支持分Block機制的多Block并行讀取。

原文鏈接：http://www.cnblogs.com/hadoopdev/archive/2013/03/07/2947447.html

【編輯推薦】

分布式文件系統(tǒng)HDFS設計
分布式文件系統(tǒng)HDFS中Block介紹
HBase設計：看上去很美
三種東西永遠不要放到數(shù)據(jù)庫里
沒有數(shù)據(jù)驅動的流程和產(chǎn)品大數(shù)據(jù)將毫無價值

責任編輯：彭凡來源：博客園

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<abbr id="uuoh6"><form id="uuoh6"><optgroup id="uuoh6"></optgroup></form></abbr>^{<wbr id="uuoh6"></wbr>}