偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<nobr id="o7dc5"><listing id="o7dc5"><strong id="o7dc5"></strong></listing></nobr>

<s id="o7dc5"><cite id="o7dc5"></cite></s>

<s id="o7dc5"><source id="o7dc5"></source></s>

<tr id="o7dc5"><menuitem id="o7dc5"></menuitem></tr>

<nobr id="o7dc5"><table id="o7dc5"></table></nobr>

<abbr id="o7dc5"></abbr>

<ruby id="o7dc5"></ruby>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

10億級(jí)數(shù)據(jù)量的系統(tǒng)性能優(yōu)化設(shè)計(jì)，被驚艷到了

作者：石杉的架構(gòu)筆記 2022-09-25 22:09:09

開發(fā) 架構(gòu)

這篇文章，我們來聊一聊在十億級(jí)的大數(shù)據(jù)量技術(shù)挑戰(zhàn)下，世界上最優(yōu)秀的大數(shù)據(jù)系統(tǒng)之一的Hadoop是如何將系統(tǒng)性能提升數(shù)十倍的？

首先一起來畫個(gè)圖，回顧一下Hadoop HDFS中的超大數(shù)據(jù)文件上傳的原理。

其實(shí)說出來也很簡(jiǎn)單，比如有個(gè)十億數(shù)據(jù)量級(jí)的超大數(shù)據(jù)文件，可能都達(dá)到TB級(jí)了，此時(shí)這個(gè)文件實(shí)在是太大了。

此時(shí)，HDFS客戶端會(huì)給拆成很多block，一個(gè)block就128MB。

這個(gè)HDFS客戶端你可以理解為是云盤系統(tǒng)、日志采集系統(tǒng)之類的東西，比如有人上傳一個(gè)1TB的大文件到網(wǎng)盤，或者是上傳個(gè)1TB的大日志文件。

然后HDFS客戶端把一個(gè)一個(gè)的block上傳到第一個(gè)DataNode，第一個(gè)DataNode會(huì)把這個(gè)block復(fù)制一份，做一個(gè)副本發(fā)送給第二個(gè)DataNode，然后第二個(gè)DataNode發(fā)送一個(gè)block副本到第三個(gè)DataNode。

所以你會(huì)發(fā)現(xiàn)，一個(gè)block有3個(gè)副本，分布在三臺(tái)機(jī)器上。任何一臺(tái)機(jī)器宕機(jī)，數(shù)據(jù)是不會(huì)丟失的。

然后一個(gè)TB級(jí)大文件就被拆散成了N多個(gè)MB級(jí)的小文件存放在很多臺(tái)機(jī)器上了，這不就是分布式存儲(chǔ)么？

今天要討論的問題，就是那個(gè)HDFS客戶端上傳TB級(jí)大文件的時(shí)候，到底是怎么上傳呢？

如果用一個(gè)比較原始的方式來上傳，我們大概能想到的是下面這個(gè)圖里的樣子。

其實(shí)很簡(jiǎn)單，無非就是不停的從本地磁盤文件用輸入流讀取數(shù)據(jù)，然后讀到一點(diǎn)，就立馬通過網(wǎng)絡(luò)的輸出流寫到DataNode里去。

參見上圖，對(duì)文件的輸入流最多就是個(gè)FileInputStream，對(duì)DataNode的輸出流，最多就是個(gè)Socket返回的OutputStream，然后中間找一個(gè)小的內(nèi)存byte[]數(shù)組，進(jìn)行流對(duì)考就行了。從本地文件讀一點(diǎn)數(shù)據(jù)，就給DataNode發(fā)一點(diǎn)數(shù)據(jù)。

但是如果真是這么弄，性能真是極其的低下了，網(wǎng)絡(luò)通信講究的是適當(dāng)頻率，每次batch批量發(fā)送，你得讀一大批數(shù)據(jù)，通過網(wǎng)絡(luò)通信發(fā)一批數(shù)據(jù)。不能讀一點(diǎn)點(diǎn)數(shù)據(jù)，就立馬來一次網(wǎng)絡(luò)通信，就發(fā)出去這一點(diǎn)點(diǎn)的數(shù)據(jù)。

如果按照上面這種原始的方式，絕對(duì)會(huì)導(dǎo)致網(wǎng)絡(luò)通信效率極其低下，大文件上傳性能很差。相當(dāng)于你可能剛讀出來幾百個(gè)字節(jié)的數(shù)據(jù)，立馬就寫網(wǎng)絡(luò)，卡頓個(gè)比如幾百毫秒，然后再讀下一批幾百個(gè)字節(jié)的數(shù)據(jù)，再寫網(wǎng)絡(luò)卡頓個(gè)幾百毫秒，這個(gè)性能很差，幾乎在工業(yè)級(jí)的大規(guī)模分布式系統(tǒng)中，是無法容忍的。

Hadoop中的大文件上傳如何優(yōu)化性能？我們來看看下面那張圖。

你需要自己創(chuàng)建一個(gè)針對(duì)本地TB級(jí)磁盤文件的輸入流，然后讀到數(shù)據(jù)之后立馬寫入HDFS提供的FSDataOutputStream輸出流。

這個(gè)FSDataOutputStream輸出流在干啥呢？他會(huì)天真的立馬把數(shù)據(jù)通過網(wǎng)絡(luò)傳輸寫給DataNode嗎？

答案當(dāng)然是否定的！這么干的話，不就跟之前的那種方式一樣了！

1、Chunk緩沖機(jī)制

首先，數(shù)據(jù)會(huì)被寫入一個(gè)chunk緩沖數(shù)組，這個(gè)chunk是一個(gè)512字節(jié)大小的數(shù)據(jù)片段，你可以這么來理解。

然后這個(gè)緩沖數(shù)組可以容納多個(gè)chunk大小的數(shù)據(jù)在里面緩沖。光是這個(gè)緩沖，首先就可以讓客戶端快速的寫入數(shù)據(jù)了，不至于說幾百字節(jié)就要進(jìn)行一次網(wǎng)絡(luò)傳輸，對(duì)吧？

2、Packet數(shù)據(jù)包機(jī)制

接著，當(dāng)chunk緩沖數(shù)組都寫滿了之后，就會(huì)把這個(gè)chunk緩沖數(shù)組進(jìn)行一下chunk切割，切割為一個(gè)一個(gè)的chunk，一個(gè)chunk是一個(gè)數(shù)據(jù)片段。然后多個(gè)chunk會(huì)直接一次性寫入另外一個(gè)內(nèi)存緩沖數(shù)據(jù)結(jié)構(gòu)，就是Packet數(shù)據(jù)包。

一個(gè)Packet數(shù)據(jù)包，設(shè)計(jì)為可以容納127個(gè)chunk，大小大致為64mb。所以說大量的chunk會(huì)不斷的寫入Packet數(shù)據(jù)包的內(nèi)存緩沖中。通過這個(gè)Packet數(shù)據(jù)包機(jī)制的設(shè)計(jì)，又可以在內(nèi)存中容納大量的數(shù)據(jù)，進(jìn)一步避免了頻繁的網(wǎng)絡(luò)傳輸影響性能。

3、內(nèi)存隊(duì)列異步發(fā)送機(jī)制

當(dāng)一個(gè)Packet被塞滿了chunk之后，就會(huì)將這個(gè)Packet放入一個(gè)內(nèi)存隊(duì)列來進(jìn)行排隊(duì)，然后有一個(gè)DataStreamer線程會(huì)不斷的獲取隊(duì)列中的Packet數(shù)據(jù)包，通過網(wǎng)絡(luò)傳輸直接寫一個(gè)Packet數(shù)據(jù)包給DataNode。

如果一個(gè)Block默認(rèn)是128mb的話，那么一個(gè)Block默認(rèn)會(huì)對(duì)應(yīng)兩個(gè)Packet數(shù)據(jù)包，每個(gè)Packet數(shù)據(jù)包是64MB。

也就是說傳送兩個(gè)Packet數(shù)據(jù)包DataNode之后，就會(huì)發(fā)一個(gè)通知說，一個(gè)Block的數(shù)據(jù)都傳輸完畢，那DataNode就知道自己收到了一個(gè)Block了，包含了人家發(fā)送過來的兩個(gè)Packet數(shù)據(jù)包。

總結(jié)：

ok，大家看完了上面的那個(gè)圖以及hadoop采取的大文件上傳機(jī)制，是不是感覺設(shè)計(jì)的很巧妙？

工業(yè)級(jí)的大規(guī)模分布式系統(tǒng)，都不會(huì)采取特別簡(jiǎn)單的代碼和模式，那樣性能很低下。這里都有大量的并發(fā)優(yōu)化、網(wǎng)絡(luò)IO優(yōu)化、內(nèi)存優(yōu)化、磁盤讀寫優(yōu)化的架構(gòu)設(shè)計(jì)、生產(chǎn)方案在里面。

所以大家觀察上面那個(gè)圖，hdfs客戶端可以快速的將tb級(jí)大文件的數(shù)據(jù)讀出來，然后快速的交給hdfs的輸出流寫入內(nèi)存，基于內(nèi)存里的chunk緩沖機(jī)制、packet數(shù)據(jù)包機(jī)制、內(nèi)存隊(duì)列異步發(fā)送機(jī)制，絕對(duì)不會(huì)有任何網(wǎng)絡(luò)傳輸?shù)目D，導(dǎo)致大文件的上傳速度變慢。反而通過上述幾種機(jī)制，可以大幅度提升一個(gè)TB級(jí)大文件的上傳性能。

責(zé)任編輯：姜華來源：今日頭條

大數(shù)據(jù)量技術(shù)HDFS客戶端

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ruby id="oehpu"><th id="oehpu"></th></ruby>

<abbr id="oehpu"><listing id="oehpu"></listing></abbr>