情况
公司停电之后回来看到集群情况如下,主要问题是cdh识别不到其中一台服务器状态。
这种情况下重启整个集群会超时失败。
原因
识别不到的可能原因有三个:
一是服务器没有启动
二是cm客户端程序没有启动
三是防火墙问题
解决方法
依次排查以上三个原因解决问题。
ssh远程连接服务器可知服务器是否已启动,能连接上则没问题。
cm客户端程序的启动问题排查可以参考文章:
遇到问题—CDH重启namenode–Command aborted because of exception:Command timed-out after 150 seconds–角色正在启动
防火墙状态查询和关闭使用命令
sudo service iptables status
sudo service iptables stop