故障场景一:HDFS集群一节点磁盘损坏

影响范围:数据冗余备份不影响业务

处置过程:说明:批处理CDH集群磁盘故障,不涉及重启服务器,直接写在磁盘修复即可。

  • 登陆CM,选择问题节点,在配置中先将有问题的磁盘从datanode配置datanode.data.dir 和dfs.namenode.name.dir参数中删除掉;从YARN配置中yarn.nodemanage.local-dirs 和 yarn.nodemanageer.log-dirs参数中删除掉
  • 重新加载datanode配置文件

CM中 【HDFS】-> 【实例】 选择磁盘损坏节点实例,【操作】 ->【刷新磁盘目录】

  • Yarn服务需要重启服务才能实现重读配置文件
  • umount掉有问题的磁盘,重新mount新磁盘(曙光机器需要重启服务器),将/etc/fstab /hadooop10记录注释掉
  • 磁盘更换(也可以尝试repair修复)
  • 在datanode配置datanode.data.dir 和dfs.namenode.name.dir参数中添加新磁盘;在YARN配置中yarn.nodemanage.local-dirs 和 yarn.nodemanageer.log-dirs参数中添加新磁盘。
  • 重读配置文件,执行第2步和第3步
  • 相应磁盘有目录穿件

结果验证:

查看新增加磁盘有datanode及yarn服务相关的目录

Datanode:/hadoop10/dfs/dn  /hadoop10/dfs/nn

Yarn:   /hadoop10/yarn/container-logs    /hadoop10/yarn/nn

通知业务进行应用服务检查,及业务验证。

 

故障场景二:datanode 块损坏

datanode 块损坏 /blockrecover/hello.txt:  Under replicated BP-794681415-192.168.17.20-1548403311677:blk_1073741874_1065. Target Replicas is 2 but found 1 live replica(s), 0 decommissioned replica(s), 0 decommissioning replica(s).

影响范围:数据冗余备份不影响业务

数据冗余备份不影响业务

处置过程:

  • 查询出所有损坏的块,并保存到文件中

        # hdfs fsck / | grep 'Under replicated' | awk -F':' '{print $1}' >> /tmp/all_under_replicated_files

  • 批量修复,即重新设置这些块副本数为3

# for hdfsfile in `cat /tmp/all_under_replicated_files`; do echo "Fixing $hdfsfile and setting replication 1:" ;  hadoop fs -setrep 3 $hdfsfile; done

故障场景三:节点宕机

#高可用场景,先拉起服务器启动服务检查业务即可。