hadoop集群启动节点配置hadoop集群主节点

转载

mob6454cc623087 2023-07-21 15:03:22

文章标签 hadoop集群启动节点 hadoop 集群 Hadoop xml 文章分类 Hadoop 大数据

文章一：

无论是在Hadoop集群中添加机器和删除机器，都无需停机，整个服务不中断。

本次操作之前，Hadoop的集群情况如下：

HDFS的机器情况如下：

MR的机器情况如下：

添加机器

在集群的Master机器中，修改$HADOOP_HOME/conf/slaves文件，在其中添加需要加入集群的新机器（hp3）的主机名：

hp3
hp2
 dell1
 dell2
 dell3
 dell4

然后在Master机器中执行如下命令：

$HADOOP_HOME/bin/start-all.sh

这样操作完成之后，新的机器就添加到集群中来了。

HDFS集群增加了一台新的机器：

MR集群中也新增了一台机器：

$Q5CV$04(6({R8ZTJJ$FW_T7$

删除机器

不安全的方式

由于Hadoop集群自身具备良好的容错性，可以直接关闭相应的机器，从而达到将该机器撤除的目的。但是如果一次性操作3台以上的机器，就有可能造成部分数据丢失，所以不推荐使用这种方式进行操作。

安全的方式

在集群的Master机器中，新建一个文件：$HADOOP_HOME/conf/nn-excluded-list，在这个文件中指定需要删除的机器主机名（hp3）：

hp3

然后，修改Master机器的配置文件：$HADOOP_HOME/conf/hdfs-site.xml，添加如下内容：

<property>
  <name>dfs.hosts.exclude</name>
  <value>conf/nn-excluded-list</value>
</property>

最后，在Master机器中执行如下命令：

$HADOOP_HOME/bin/hadoop dfsadmin -refreshNodes

这样操作完成之后，可以在HDFS集群中看到，hp3机器已经处于Decommission In Progress状态：

但是MR机器中hp3机器依旧在运行中：

$Q5CV$04(6({R8ZTJJ$FW_T7$

我们需要等待一定的时间，等待hp3中datanode的Decommission操作完成以后，再到hp3机器中关闭所有的Hadoop进程即可。

这样就完成了整个从集群中删除机器的操作。

文章二：

hadoop要发到每个节点的配置文件，只有core-site.xml mapred-site.xml hdfs-site.xml

添加节点

1.修改host
和普通的datanode一样。添加namenode的ip

2.修改namenode的配置文件conf/slaves
添加新增节点的ip或host

3.在新节点的机器上，启动服务

[root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode
[root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start tasktracker

4.均衡block

[root@slave-004 hadoop]# ./bin/start-balancer.sh

1) 如果不balance，那么cluster会把新的数据都存放在新的node上，这样会降低mapred的工作效率
2) 设置平衡阈值，默认是10%，值越低各节点越平衡，但消耗时间也更长

[root@slave-004 hadoop]# ./bin/start-balancer.sh -threshold 5

3) 设置balance的带宽，默认只有1M/s

<property>
 　　<name>dfs.balance.bandwidthPerSec</name>
 　　<value>1048576</value>
 　　<description>
 　　　　Specifies the maximum amount of bandwidth that each datanode
 　　　　can utilize for the balancing purpose in term of
 　　　　the number of bytes per second.
 　　</description>
 </property>

注意：
1. 必须确保slave的firewall已关闭;
2. 确保新的slave的ip已经添加到master及其他slaves的/etc/hosts中，反之也要将master及其他slave的ip添加到新的slave的/etc/hosts中

删除节点

1.集群配置
修改conf/hdfs-site.xml文件

<property>
 　　<name>dfs.hosts.exclude</name>
 　　<value>/data/soft/hadoop/conf/excludes</value>
 　　<description>Names a file that contains a list of hosts that are
 　　not permitted to connect to the namenode.  The full pathname of the
 　　file must be specified.  If the value is empty, no hosts are
 　　excluded.</description>
 </property>

2.确定要下架的机器
dfs.hosts.exclude定义的文件内容为,每个需要下线的机器，一行一个。这个将阻止他们去连接Namenode。如：

slave-003 slave-004

3.强制重新加载配置

[root@master  hadoop]# ./bin/hadoop dfsadmin  -refreshNodes

它会在后台进行Block块的移动

4.关闭节点
等待刚刚的操作结束后，需要下架的机器就可以安全的关闭了。

[root@master  hadoop]# ./bin/ hadoop dfsadmin -report

可以查看到现在集群上连接的节点

正在执行Decommission，会显示： Decommission Status : Decommission in progress 执行完毕后，会显示： Decommission Status : Decommissioned

5.再次编辑excludes文件
一旦完成了机器下架，它们就可以从excludes文件移除了
登录要下架的机器，会发现DataNode进程没有了，但是TaskTracker依然存在，需要手工处理一下

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：jar包加密的方法 java 对jar包加密

下一篇：自适应安全架构自适应构件

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯