捣鼓一天终于解决了一些Storm集群问题。。如下:

#1 tuples太多,即使增加机器依然很多fail。
解决方法:查了N多文档然后不断尝试发现增加ackers的数量可以解决这个问题。应该是tuple太多acker进程太少导致ack效率很低,ack树的完成时间超过限制出现不断的fail。
#2 Storm的job自动重启问题。
解决方法:这个问题得视具体情况看日志来解决,我自己遇到的情况是查日志后发现zookeeper的问题,出现
[ERROR] Error on initialization of server mk-worker这个错误。这个是由于机器的别名导致的,如果集群中使用的机器是有别名的必须在每一台机器上都设好hosts,不然就会遇到我这个同样的问题咯!