情况

公司停电之后回来看到集群情况如下,主要问题是cdh识别不到其中一台服务器状态。

这种情况下重启整个集群会超时失败。

遇到问题--hadoop---cdh识别不到服务器状态_hadoop

原因

识别不到的可能原因有三个:
一是服务器没有启动
二是cm客户端程序没有启动
三是防火墙问题

解决方法

依次排查以上三个原因解决问题。

ssh远程连接服务器可知服务器是否已启动,能连接上则没问题。

遇到问题--hadoop---cdh识别不到服务器状态_hadoop_02

cm客户端程序的启动问题排查可以参考文章:
遇到问题—CDH重启namenode–Command aborted because of exception:Command timed-out after 150 seconds–角色正在启动

防火墙状态查询和关闭使用命令

sudo service iptables status
sudo service iptables stop