目录

静态新增

静态新增的方式,相当于我们最开始部署Hadoop集群规划一样,停止集群,新增一个DateNode数据节点,这种方法不适用于线上提供服务的场景。
例如现在集群有:

bigdata111(namenode)
bigdata112(datanode)
bigdata113(datanode)
bigdata114(新增datanode)
HDFS新增节点方式:

关闭现有的hdfs集群。
在bigdata111,bigdata112,bigdata113的hadoop的配置文件(slaves)里面添加bigdata114。
在bigdata114节点配置hostsname,hosts,然后进行hdfs的配置,可以使用scp命令从bigdata113节点里面拉去hdfs的配置过来。
对4个几点进行ssh免密登录的配置。
启动集群,启动命令:​​​start-hdfs.sh​​​ 通过hadoop自带的hdfs的web页面查看datanode节点的数量。
例如现在集群有:
bigdata111(ResourceManager),bigdata112(NodeManager),bigdata113(NodeManager),bigdata114(新增NodeManager)
YARN新增节点方式:
关闭现有的yarn集群。
在bigdata111,bigdata112,bigdata113的hadoop的配置文件(slaves)里面添加bigdata114。
在bigdata114节点配置hostsname,hosts,然后进行yarn的配置,可以使用scp命令从bigdata113节点里面拉去yarn的配置过来。
对4个几点进行ssh免密登录的配置。
启动集群,启动命令:​​start-yarn.sh​​ 通过hadoop自带的yarn的web页面查看NodeManager节点的数量。

动态新增

静态新增的方式,不需要关闭集群就可以直接添加,这种方法适用于线上提供服务的场景。
例如现在集群有:

bigdata111(namenode)
bigdata112(datanode)
bigdata113(datanode)
bigdata114(新增datanode)
HDFS新增节点方式:

不关闭现有的hdfs集群。
在bigdata111,bigdata112,bigdata113的hadoop的配置文件(slaves)里面添加bigdata114。
在bigdata114节点配置hostsname,hosts,然后进行hdfs的配置,可以使用scp命令从bigdata113节点里面拉去hdfs的配置过来。
对4个几点进行ssh免密登录的配置。
在bigdata114几点单独启动datanode,启动命令:​​​hadoop-daemon.sh​​​ start datanode
刷新hdfs的nodes节点,命令:hdfs dfsadmin -refreshNodes
然后在web页面查看datanode是否添加进去。

例如现在集群有:
bigdata111(ResourceManager),bigdata112(NodeManager),bigdata113(NodeManager),bigdata114(新增NodeManager)
YARN新增节点方式:

不关闭现有的yarn集群。
在bigdata111,bigdata112,bigdata113的hadoop的配置文件(slaves)里面添加bigdata114。
在bigdata114节点配置hostsname,hosts,然后进行yarn的配置,可以使用scp命令从bigdata113节点里面拉去yarn的配置过来。
对4个几点进行ssh免密登录的配置。
在bigdata114几点单独启动nodemanager,启动命令:​​​yarn-daemon.sh​​​ start nodemanager
刷新yarn的nodes节点,命令:yarn rmadmin -refreshNodes
然后在web页面查看nodemanager是否添加进去。

Hadoop HDFS 数据自动平衡脚本使用方法

在Hadoop中,包含一个start-balancer.sh脚本,通过运行这个工具,启动HDFS数据均衡服务。该工具可以做到热插拔,即无须重启计算机和 Hadoop 服务。Hadoop的bin目录下的start−balancer.sh脚本就是该任务的启动脚本。启动命令为:

bin/start-balancer.sh –threshold

影响Balancer的几个参数:
-threshold
默认设置:10,参数取值范围:0-100
参数含义:判断集群是否平衡的阈值。理论上,该参数设置的越小,整个集群就越平衡。
dfs.balance.bandwidthPerSec
默认设置:1048576(1M/S)
参数含义:Balancer运行时允许占用的带宽
示例如下:

#启动数据均衡不手动指定,默认阈值为 10%
$Hadoop_home/bin/start-balancer.sh

#启动数据均衡,指定阈值 5%
bin/start-balancer.sh –threshold 5

#停止数据均衡
$Hadoop_home/bin/stop-balancer.sh

在hdfs-site.xml文件中可以设置数据均衡占用的网络带宽限制
<property>
<name>dfs.balance.bandwidthPerSec</name>
<value>1048576</value>
<description> Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second. </description>
</property>