hadoop集群启动时活动节点只启动了一个

今天早上启动集群的时候发现自己的集群有一个节点的datanode启动不起来,想到昨天都能启动,怎么突然就启动不起来了,看了很多这个博客都是说这个防火墙没有关闭,跑去查看这个防火墙,是关闭状态啊,又去格式化namenode发现都不行,回去翻看配置文件才发现这个core-site.xml文件的配置不见了,是克隆的前一台虚拟机,前面都有配置后面不知道为什么突然就没了,配置完成后启动hdfs查看这个web页面发现只有一个活动节点(这个节点时不时还会变化),看这些进程已经启动了的,这个是因为节点的datanode内容冲突了,导致这个节点不断闪现,将各个节点的data/以及logs/文件,格式化namenode bin/hdfs namenode -format我的这个文件是放到/opt/module/hadoop-2.7.2/tmp/dfs下面的

hadoop start all hadoop start all 只启动一个节点_hdfs


具体查看配置文件这里就是这个文件的位置了

到hadoop-2.7.2/etc/hadoop目录下

cat core-site/xml

hadoop start all hadoop start all 只启动一个节点_配置文件_02


格式化完成之后查看主节点的/opt/module/hadoop-2.7.2/tmp/dfs路径下只会出现name/文件,启动hdfs进程的时候才会出现data/,完成不要将data节点复制给其他节点,各个节点上的data只有VIERSION中的clusterID一样其他的都有区别的,弄成一样就会导致集群节点的互挤的现象。

上面这个方法就是通过格式化将所有节点的datanode文件重置。按理说也可以这样将hdfs的进程关闭将所有节点的data/与logs/删除然后再启动hdfs进程,刷新namenode hdfs dfsadmin -refreshNodes,但我这样弄了导致一个活动节点都没了哈哈哈,可以先试试这个

在集群的基础上新增节点将克隆的机器的data与logs文件删除启动datanode节点就可以了,然后在主节点给设置给免密就可以群起了。