HDFS和YARN集群新增节点

转载

怒放de每一天 2022-07-06 19:21:59 博主文章分类：大数据

静态新增

静态新增的方式，相当于我们最开始部署Hadoop集群规划一样，停止集群，新增一个DateNode数据节点，这种方法不适用于线上提供服务的场景。
例如现在集群有:

bigdata111（namenode）
bigdata112（datanode）
bigdata113（datanode）
bigdata114（新增datanode）
HDFS新增节点方式：

关闭现有的hdfs集群。
在bigdata111，bigdata112，bigdata113的hadoop的配置文件（slaves）里面添加bigdata114。
在bigdata114节点配置hostsname，hosts，然后进行hdfs的配置，可以使用scp命令从bigdata113节点里面拉去hdfs的配置过来。
对4个几点进行ssh免密登录的配置。
启动集群,启动命令：start-hdfs.sh 通过hadoop自带的hdfs的web页面查看datanode节点的数量。
例如现在集群有:
bigdata111（ResourceManager），bigdata112（NodeManager），bigdata113（NodeManager），bigdata114（新增NodeManager）
YARN新增节点方式：
关闭现有的yarn集群。
在bigdata111，bigdata112，bigdata113的hadoop的配置文件（slaves）里面添加bigdata114。
在bigdata114节点配置hostsname，hosts，然后进行yarn的配置，可以使用scp命令从bigdata113节点里面拉去yarn的配置过来。
对4个几点进行ssh免密登录的配置。
启动集群,启动命令：start-yarn.sh 通过hadoop自带的yarn的web页面查看NodeManager节点的数量。

动态新增

静态新增的方式，不需要关闭集群就可以直接添加，这种方法适用于线上提供服务的场景。
例如现在集群有:

bigdata111（namenode）
bigdata112（datanode）
bigdata113（datanode）
bigdata114（新增datanode）
HDFS新增节点方式：

不关闭现有的hdfs集群。
在bigdata111，bigdata112，bigdata113的hadoop的配置文件（slaves）里面添加bigdata114。
在bigdata114节点配置hostsname，hosts，然后进行hdfs的配置，可以使用scp命令从bigdata113节点里面拉去hdfs的配置过来。
对4个几点进行ssh免密登录的配置。
在bigdata114几点单独启动datanode，启动命令：hadoop-daemon.sh start datanode
刷新hdfs的nodes节点,命令：hdfs dfsadmin -refreshNodes
然后在web页面查看datanode是否添加进去。

例如现在集群有:
bigdata111（ResourceManager），bigdata112（NodeManager），bigdata113（NodeManager），bigdata114（新增NodeManager）
YARN新增节点方式：

不关闭现有的yarn集群。
在bigdata111，bigdata112，bigdata113的hadoop的配置文件（slaves）里面添加bigdata114。
在bigdata114节点配置hostsname，hosts，然后进行yarn的配置，可以使用scp命令从bigdata113节点里面拉去yarn的配置过来。
对4个几点进行ssh免密登录的配置。
在bigdata114几点单独启动nodemanager，启动命令：yarn-daemon.sh start nodemanager
刷新yarn的nodes节点,命令：yarn rmadmin -refreshNodes
然后在web页面查看nodemanager是否添加进去。

Hadoop HDFS 数据自动平衡脚本使用方法

在Hadoop中，包含一个start-balancer.sh脚本，通过运行这个工具，启动HDFS数据均衡服务。该工具可以做到热插拔，即无须重启计算机和 Hadoop 服务。Hadoop的bin目录下的start−balancer.sh脚本就是该任务的启动脚本。启动命令为：

bin/start-balancer.sh –threshold

影响Balancer的几个参数：
-threshold
默认设置：10，参数取值范围：0-100
参数含义：判断集群是否平衡的阈值。理论上，该参数设置的越小，整个集群就越平衡。
dfs.balance.bandwidthPerSec
默认设置：1048576（1M/S）
参数含义：Balancer运行时允许占用的带宽
示例如下：

#启动数据均衡不手动指定，默认阈值为 10%
$Hadoop_home/bin/start-balancer.sh
 
#启动数据均衡，指定阈值 5%
bin/start-balancer.sh –threshold 5
 
#停止数据均衡
$Hadoop_home/bin/stop-balancer.sh

在hdfs-site.xml文件中可以设置数据均衡占用的网络带宽限制
<property>
    <name>dfs.balance.bandwidthPerSec</name>
    <value>1048576</value>
    <description> Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second. </description>
</property>