stormy danisle stormy danisle 掠夺者

转载

mob64ca140ac564 2024-06-29 20:32:09

文章标签 stormy danisle 重启 Hadoop 数据 文章分类 Storm 大数据

理解Storm的架构，有助于帮助我们理解大型分布式系统设计中需要解决的问题，以及解决问题的思路，帮助我们更好的进行Storm性能调优化。

架构

先上一张Storm的架构图，如果熟悉 GFS和Hadoop的架构，会发现这些系统的架构图都很类似。

Storm架构图

各节点的作用

如果你熟悉Hadoop的话，可以这样做一下类比：

Hadoop	Storm
JobTracker	Nimbus(只有一个)
TaskTracker	Supervisor（有很多个)
MapReduce任务	Topology

Nimbus是调度器，Worker是Task的容器，Task是任务的真正执行者。

启动拓扑

storm jar命令来提交拓扑:

storm jar my-topology-version-with-dependency.jar com.corp.MyTopology arg1 arg2

这个命令会连到Nimbus，上传jar包。接下来Nimbus会把拓扑的代码运送到多台不同的机器或者JVM上。只有当拓扑在机器上部署成功了并且在JVM中初始化了之后，才能真正开始处理消息。

Master结点(Master node)

在分布式系统中，调度服务非常重要，它的设计，会直接关系到系统的运行效率，错误恢复(fail over),故障检测(error detection)和水平扩展(scale)的能力。

Master节点来负责。这台机器上运行的Nimbus进程负责任务的调度。另外一个进程是Storm UI，可以界面上查看集群和所有的拓扑的运行状态。

从节点(Slave node)

Slave上的Supervisor进程是用来监督和管理实际运行业务代码的进程。在Storm 0.9之后，又多了一个进程Logviewer,可以用Storm UI来查看Slave节点上的log文件。

在配置文件storm.yaml中,决定了一台机器上运行几个worker:

supervisor.slots.ports:
- 6700
- 6701
- 6702

ZooKeeper的作用

ZooKeeper在Storm上不是用来做消息传输用的，而是用来提供协调服务(coordination service)，同时存储拓扑的状态和统计数据。

ZooKeeper相当于一块黑板，

Supervisor

Nimbus

和worker都在上面留下约定好的信息。例如

Supervisor

启动时，会在ZooKeeper上注册，

Nimbus

就可以发现

Supervisor

在ZooKeeper上留下心跳信息，

Nimbus

通过这些心跳信息来对

Supervisor

进行健康检测，检测出坏节点
由于Storm组件(component)的状态信息存储在ZooKeeper上，所以Storm组件就可以无状态，可以 kill -9来杀死

例如：Supervisors/Nimbus的重启不影响正在运行中的拓扑，因为状态都在ZooKeeper上，从ZooKeeper上重新加载一下就好了

用来做心跳

Worker通过ZooKeeper把孩子executor的情况以心跳的形式汇报给Nimbus
Supervisor进程通过ZK把自己的状态也以心跳的形式汇报给Nimbua

存储最近任务的错误情况(拓扑停止时会删除)

Storm的容错(Fault Tolerance)机制

正如“搭建一个Storm集群”一文介绍的一样，必须用工具如daemontools或者monit来监控Nimbus和Supervisor的后台进程。这样如果Nimbus或者Supervisor进程挂掉，会被daemontools检测到，并进行重启。Nimbus和Supervisor进程被设计成快速失败(fail fast)的(当遇到异常的情况，进程就会挂掉)并且是无状态的(状态都保存在Zookeeper或者在磁盘上)。Nimbus或者Supervisor挂掉而受影响。这跟Hadoop是不一样的，当JobTracker挂掉，所有的任务都会没了。

当Nimbus挂掉会怎样？如果Nimbus是以推荐的方式处于进程监管(例如通过supervisord)之下，那它会被重启，不会有任何影响否则当Nimbus挂掉后：

已经存在的拓扑可以继续正常运行，但是不能提交新拓扑
正在运行的worker进程仍然可以继续工作。而且当worker挂掉，supervisor会一直重启worker。
失败的任务不会被分配到其他机器(是Nimbus的职责)上了

当一个Supervisor(slave节点)挂掉会怎样？如果Supervisor是以推荐的方式处于进程监管(例如通过(supervisord)[supervisord.org/])之下，那它会被重启，不会有任何影响否则当Supervisor挂掉: 分配到这台机器的所有任务(task)会超时，Nimbus会把这些任务(task)重新分配给其他机器。
当一个worker挂掉会怎么样？当一个worker挂掉，supervisor会重启它。如果启动一直失败那么此时worker也就不能和Nimbus保持心跳了，Nimbus会重新分配worker到其他机器
Nimbus算是一个单点故障吗？如果Nimbus节点挂掉，worker进程仍然可以继续工作。而且当worker挂掉，supervisor会一直重启worker。但是，没有了Nimbus，当需要的时候(如果worker机器挂掉了)worker就不能被重新分配到其他机器了。所以答案是，Nimbus在“某种程度”上属于单点故障的。在实际中，这种情况没什么大不了的，因为当Nimbus进程挂掉，不会有灾难性的事情发生