偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Storm源碼淺析之topology的提交

開發(fā) 后端
最近一直在讀twitter開源的這個(gè)分布式流計(jì)算框架——storm的源碼,還是有必要記錄下一些比較有意思的地方。我按照storm的主要概念進(jìn)行組織,并且只分析我關(guān)注的東西,因此稱之為淺析。

最近一直在讀twitter開源的這個(gè)分布式流計(jì)算框架——storm的源碼,還是有必要記錄下一些比較有意思的地方。我按照storm的主要概念進(jìn)行組織,并且只分析我關(guān)注的東西,因此稱之為淺析。

一、介紹

Storm的開發(fā)語(yǔ)言主要是Java和Clojure,其中Java定義骨架,而Clojure編寫核心邏輯。源碼統(tǒng)計(jì)結(jié)果:

     180 text files.
     177 unique files.                                          
       7 files ignored.

http://cloc.sourceforge.net v 1.55  T=1.0 s (171.0 files/s, 46869.0 lines/s)
-------------------------------------------------------------------------------
Language                     files          blank        comment           code
-------------------------------------------------------------------------------
Java                           125           5010           2414          25661
Lisp                            33            732            283           4871
Python                           7            742            433           4675
CSS                              1             12             45           1837
ruby                             2             22              0            104
Bourne Shell                     1              0              0              6
Javascript                       2              1             15              6
-------------------------------------------------------------------------------
SUM:                           171           6519           3190          37160
-------------------------------------------------------------------------------

Java代碼25000多行,而Clojure(Lisp)只有4871行,說(shuō)語(yǔ)言不重要再次證明是扯淡。

二、Topology和Nimbus

Topology是storm的核心理念,將spout和bolt組織成一個(gè)topology,運(yùn)行在storm集群里,完成實(shí)時(shí)分析和計(jì)算的任務(wù)。這里我主要想介紹下topology部署到storm集群的大概過(guò)程。提交一個(gè)topology任務(wù)到Storm集群是通過(guò)StormSubmitter.submitTopology方法提交:

StormSubmitter.submitTopology(name, conf, builder.createTopology());

我們將topology打成jar包后,利用bin/storm這個(gè)python腳本,執(zhí)行如下命令:

bin/storm jar xxxx.jar com.taobao.MyTopology args

將jar包提交給storm集群。storm腳本會(huì)啟動(dòng)JVM執(zhí)行Topology的main方法,執(zhí)行submitTopology的過(guò)程。而submitTopology會(huì)將jar文件上傳到nimbus,上傳是通過(guò)socket傳輸。在storm這個(gè)python腳本的jar方法里可以看到:

  1. def jar(jarfile, klass, *args):                                                                                                                                
  2.    exec_storm_class(                                                                                                                                           
  3.         klass,                                                                                                                                                 
  4.         jvmtype="-client",                                                                                                                                     
  5.         extrajars=[jarfile, CONF_DIR, STORM_DIR + "/bin"],                                                                                                     
  6.         args=args,                                                                                                                                             
  7.         prefix="export STORM_JAR=" + jarfile + ";"

通過(guò)環(huán)境變量找到j(luò)ar包的地址,然后上傳。利用環(huán)境變量傳參是個(gè)小技巧。

其次,nimbus在接收到j(luò)ar文件后,存放到數(shù)據(jù)目錄的inbox目錄,nimbus數(shù)據(jù)目錄的結(jié)構(gòu):

-nimbus
     -inbox
         -stormjar-57f1d694-2865-4b3b-8a7c-99104fc0aea3.jar
         -stormjar-76b4e316-b430-4215-9e26-4f33ba4ee520.jar
     -stormdist
        -storm-id
           -stormjar.jar
           -stormconf.ser
           -stormcode.ser

其中inbox用于存放提交的jar文件,每個(gè)jar文件都重命名為stormjar加上一個(gè)32位的UUID。而stormdist存放的是啟動(dòng)topology后生成的文件,每個(gè)topology都分配一個(gè)唯一的id,ID的規(guī)則是“name-計(jì)數(shù)-時(shí)間戳”。啟動(dòng)后的topology的jar文件名命名為storm.jar ,而它的配置經(jīng)過(guò)java序列化后存放在stormconf.ser文件,而stormcode.ser是將topology本身序列化后存放的文件。這些文件在部署的時(shí)候,supervisor會(huì)從這個(gè)目錄下載這些文件,然后在supervisor本地執(zhí)行這些代碼。

進(jìn)入重點(diǎn),topology任務(wù)的分配過(guò)程(zookeeper路徑說(shuō)明忽略root):

1.在zookeeper上創(chuàng)建/taskheartbeats/{storm id} 路徑,用于任務(wù)的心跳檢測(cè)。storm對(duì)zookeeper的一個(gè)重要應(yīng)用就是利用zk的臨時(shí)節(jié)點(diǎn)做存活檢測(cè)。task將定時(shí)刷新節(jié)點(diǎn)的時(shí)間戳,然后nimbus會(huì)檢測(cè)這個(gè)時(shí)間戳是否超過(guò)timeout設(shè)置。

2.從topology中獲取bolts,spouts設(shè)置的并行數(shù)目以及全局配置的***并行數(shù),然后產(chǎn)生task id列表,如[1 2 3 4]

3.在zookeeper上創(chuàng)建/tasks/{strom id}/{task id}路徑,并存儲(chǔ)task信息

4.開始分配任務(wù)(內(nèi)部稱為assignment), 具體步驟:

(1)從zk上獲得已有的assignment(新的toplogy當(dāng)然沒(méi)有了)

(2)查找所有可用的slot,所謂slot就是可用的worker,在所有supervisor上配置的多個(gè)worker的端口。

(3)將任務(wù)均勻地分配給可用的worker,這里有兩種情況:

(a)task數(shù)目比worker多,例如task是[1 2 3 4],可用的slot只有[host1:port1 host2:port1],那么最終是這樣分配

  1. {1: [host1:port1] 2 : [host2:port1] 
  2.          3 : [host1:port1] 4 : [host2:port1]} 

,可以看到任務(wù)平均地分配在兩個(gè)worker上。

(b)如果task數(shù)目比worker少,例如task是[1 2],而worker有[host1:port1 host1:port2 host2:port1 host2:port2],那么首先會(huì)將woker排序,將不同host間隔排列,保證task不會(huì)全部分配到同一個(gè)worker上,也就是將worker排列成

[host1:port1 host2:port1 host1:port2 host2:port2]

,然后分配任務(wù)為

{1: host1:port1 , 2 : host2:port2}

(4)記錄啟動(dòng)時(shí)間

(5)判斷現(xiàn)有的assignment是否跟重新分配的assignment相同,如果相同,不需要變更,否則更新assignment到zookeeper的/assignments/{storm id}上。

5.啟動(dòng)topology,所謂啟動(dòng),只是將zookeeper上/storms/{storm id}對(duì)應(yīng)的數(shù)據(jù)里的active設(shè)置為true。

6.nimbus會(huì)檢查task的心跳,如果發(fā)現(xiàn)task心跳超過(guò)超時(shí)時(shí)間,那么會(huì)重新跳到第4步做re-assignment。

原文鏈接:http://www.blogjava.net/killme2008/archive/2011/11/17/364112.html

【編輯推薦】

  1. Java代碼規(guī)范那些事
  2. Java效率真的很低嗎?Android為何要采用?
  3. 漫談Java開源5年:自由但帶著枷鎖
  4. JavaFX2.0網(wǎng)格布局窗格GridPane
  5. BicaVM:基于JavaScript的JVM-為什么呢?
責(zé)任編輯:林師授 來(lái)源: dennis的博客
相關(guān)推薦

2013-08-29 14:28:09

StormHadoop

2014-01-16 11:14:37

StormTopology

2011-04-19 15:38:16

MongodbCursor

2021-10-26 10:22:27

ArrayList阿里云

2014-07-04 10:58:47

Apache Spar

2009-07-08 14:06:22

ClassLoaderJDK源碼

2009-09-09 12:35:00

ASP.NET回車提交回車提交事件

2009-09-07 13:41:48

C# HttpWebR提交數(shù)據(jù)方式

2017-02-27 09:03:37

Mesos架構(gòu)源碼

2009-07-08 12:53:29

JDK源碼Java.lang.B

2012-07-30 08:31:08

Storm數(shù)據(jù)流

2023-12-17 14:43:17

2018-11-13 09:49:11

存儲(chǔ)云存儲(chǔ)云備份

2014-02-14 15:49:03

storm安裝部署

2009-10-27 16:26:58

2021-05-26 05:22:09

Virtual DOMSnabbdom虛擬DOM

2009-12-03 17:43:27

Linux服務(wù)器

2021-07-29 12:05:18

Vue3Api前端

2009-08-11 09:19:52

C#選擇排序C#算法

2021-01-19 07:02:26

算法數(shù)據(jù)結(jié)構(gòu)堆排序
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)