storm启动脚本 storm run

转载

mob64ca13fe9c58 2024-02-09 15:19:24

文章标签 storm启动脚本 storm 深入了解storm 并行度 ui界面 文章分类 Storm 大数据

程序的执行是由多个supervisor 共同执行的。supervisor 运行的是topology 中的spout/bolt task

是storm 中进行计算的最小的运行单位，表示是spout 或者bolt 的运行实例。

程序执行的最大粒度的运行单位是进程，刚才说的task 也是需要有进程来运行它的，在supervisor 中，运行task 的进程称为worker ，

节点上可以运行非常多的worker 进程，一般在一个进程中是可以启动多个线程的，所以我们可以在worker 中运行多个线程，这些线程称为executor ，在executor 中运行task 。

这样的话就可以提高strom 的计算能力。

总结一下：worker>executor>task

要想提高storm 的并行度可以从三个方面来改造

进程)>executor( 线程)>task( 实例)

增加work进程，增加executor线程，增加task实例

这表示是一个work进程，其实就是一个jvm虚拟机进程，在这个work进程里面有多个executor线程，每个executor线程会运行一个或多个task实例。一个task是最终完成数据处理的实体单元。(默认情况下一个executor运行一个task)

个worker 进程执行的是1 个topology 的子集（注：不会出现1 个worker 为多个topology 服务）。1 个worker 进程会启动1 个或多个executor 线程来执行1 个topology 的component(spout 或bolt) 。因此，1 个运行中的topology 就是由集群中多台物理机上的多个worker 进程组成的。

是1 个被worker 进程启动的单独线程。每个executor 只会运行1 个topology 的1 个component(spout 或bolt) 的task （注：task 可以是1 个或多个，storm 默认是1 个component 只生成1 个task ，executor 线程里会在每次循环里顺序调用所有task 实例）。

是最终运行spout 或bolt 中代码的单元（注：1 个task 即为spout 或bolt 的1 个实例，executor 线程在执行期间会调用该task 的nextTuple 或execute 方法）。topology 启动后，1 个component(spout 或bolt) 的task 数目是固定不变的，但该component 使用的executor 线程数可以动态调整（例如：1 个executor 线程可以执行该component 的1 个或多个task 实例）。这意味着，对于1 个component 存在这样的条件：#threads<=#tasks （即：线程数小于等于task 数目）。默认情况下task 的数目等于executor 线程数目，即1 个executor 线程只运行1 个task 。

worker(进程)：这个worker进程数量是在集群启动之前配置好的，在哪配置的呢？是在storm/conf/storm.yaml文件中，参数是supervisor.slots.port，如果我们不在这进行配置的话，这个参数也是有默认值的，在strom-0.9.3的压缩包中的lib目录下，有一个strom-core.jar，打开这个jar文件，在里面有一个defaults.yaml文件中是有一些默认配置的。

id, spout, parallelism_hint);或者builder.setBolt( id, bolt, parallelism_hint);来提高线程数的。

num);来设置实例的个数

默认情况下，一个supervisor节点会启动4个worker进程。每个worker进程会启动1个executor，每个executor启动1个task。

Ok，这几个参数都可以使用一些方法进行增加。

下面来举个例子看一下对这些配置修改之后的效果

l worker(进程)，通过在代码中设置，可以在ui界面上查看worker的总数，并且还可以在linux服务器上执行jps查看work进程。

在代码中设置使用3个worker，查看ui界面，发现workers是3个，executors使用了5个，为什么呢？因为每一个worker默认都会占用一个executor（这个executor会启动一个acker任务），这样就会占用三个，剩下的两个是spout和bolt实例占用了。

如果使用5个worker，executor会使用7个，因为worker本身就会占用5个，spout和bolt占用两个。

Acker任务默认是每个worker进程启动一个executor线程来执行,，可以在topology中取消acker任务，这样的话就不会多出来一个executor和任务了。

注意：虽然在这设置了多个task实例，但是并行度并没有很大提高，因为只有两个线程去运行这些实例，只有设置足够多的线程和实例才可以真正的提高并行度。

在这设置多个实例主要是为了下面执行rebalance的时候用到，因为rebalance不需要修改代码，就可以动态修改topology的并行度，这样的话就必须提前配置好多个实例，在rebalance的时候主要是对之前设置多余的任务实例分配线程去执行。

在命令行动态修改并行度

除了使用代码进行调整，还可以在shell命令行下对并行度进行调整。

storm rebalance mytopology -w 10 -n 2 -e spout=2 -e bolt=2

表示 10秒之后对mytopology进行并行度调整。把spout调整为2个executor，把bolt调整为2个executor

注意：并行度主要就是调整executor 的数量，但是调整之后的executor 的数量必须小于等于task 的数量，如果分配的executor 的线程数比task 数量多的话也只能分配和task 数量相等的executor 。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：sql server 数据库初始创建脚本怎么用sql脚本创建数据库

下一篇：docker容器与容器云第三版PDF免费下载每天5分钟玩转docker容器技术

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

storm启动脚本 storm run

storm启动脚本 storm run

51CTO博客