故障场景一:HDFS集群一节点磁盘损坏
影响范围:数据冗余备份不影响业务
处置过程:说明:批处理CDH集群磁盘故障,不涉及重启服务器,直接写在磁盘修复即可。
- 登陆CM,选择问题节点,在配置中先将有问题的磁盘从datanode配置datanode.data.dir 和dfs.namenode.name.dir参数中删除掉;从YARN配置中yarn.nodemanage.local-dirs 和 yarn.nodemanageer.log-dirs参数中删除掉
- 重新加载datanode配置文件
CM中 【HDFS】-> 【实例】 选择磁盘损坏节点实例,【操作】 ->【刷新磁盘目录】
- Yarn服务需要重启服务才能实现重读配置文件
- umount掉有问题的磁盘,重新mount新磁盘(曙光机器需要重启服务器),将/etc/fstab /hadooop10记录注释掉
- 磁盘更换(也可以尝试repair修复)
- 在datanode配置datanode.data.dir 和dfs.namenode.name.dir参数中添加新磁盘;在YARN配置中yarn.nodemanage.local-dirs 和 yarn.nodemanageer.log-dirs参数中添加新磁盘。
- 重读配置文件,执行第2步和第3步
- 相应磁盘有目录穿件
结果验证:
查看新增加磁盘有datanode及yarn服务相关的目录
Datanode:/hadoop10/dfs/dn /hadoop10/dfs/nn
Yarn: /hadoop10/yarn/container-logs /hadoop10/yarn/nn
通知业务进行应用服务检查,及业务验证。
故障场景二:datanode 块损坏
datanode 块损坏 /blockrecover/hello.txt: Under replicated BP-794681415-192.168.17.20-1548403311677:blk_1073741874_1065. Target Replicas is 2 but found 1 live replica(s), 0 decommissioned replica(s), 0 decommissioning replica(s).
影响范围:数据冗余备份不影响业务
数据冗余备份不影响业务
处置过程:
- 查询出所有损坏的块,并保存到文件中
# hdfs fsck / | grep 'Under replicated' | awk -F':' '{print $1}' >> /tmp/all_under_replicated_files
- 批量修复,即重新设置这些块副本数为3
# for hdfsfile in `cat /tmp/all_under_replicated_files`; do echo "Fixing $hdfsfile and setting replication 1:" ; hadoop fs -setrep 3 $hdfsfile; done
故障场景三:节点宕机
#高可用场景,先拉起服务器启动服务检查业务即可。
















