大数据hadoop集群磁盘损坏处置流程分享（企业实战）

原创

任志远Ray 2021-07-17 21:15:18 博主文章分类：大数据 ©著作权

文章标签 hadoop 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者任志远Ray的原创作品，请联系作者获取转载授权，否则将追究法律责任

故障场景一：HDFS集群一节点磁盘损坏

影响范围：数据冗余备份不影响业务

处置过程：说明：批处理CDH集群磁盘故障，不涉及重启服务器，直接写在磁盘修复即可。

登陆CM，选择问题节点，在配置中先将有问题的磁盘从datanode配置datanode.data.dir 和dfs.namenode.name.dir参数中删除掉；从YARN配置中yarn.nodemanage.local-dirs 和 yarn.nodemanageer.log-dirs参数中删除掉
重新加载datanode配置文件

CM中【HDFS】-> 【实例】选择磁盘损坏节点实例，【操作】 ->【刷新磁盘目录】

Yarn服务需要重启服务才能实现重读配置文件
umount掉有问题的磁盘，重新mount新磁盘（曙光机器需要重启服务器），将/etc/fstab /hadooop10记录注释掉
磁盘更换（也可以尝试repair修复）
在datanode配置datanode.data.dir 和dfs.namenode.name.dir参数中添加新磁盘；在YARN配置中yarn.nodemanage.local-dirs 和 yarn.nodemanageer.log-dirs参数中添加新磁盘。
重读配置文件，执行第2步和第3步
相应磁盘有目录穿件

结果验证：

查看新增加磁盘有datanode及yarn服务相关的目录

Datanode：/hadoop10/dfs/dn /hadoop10/dfs/nn

Yarn: /hadoop10/yarn/container-logs /hadoop10/yarn/nn

通知业务进行应用服务检查，及业务验证。

故障场景二：datanode 块损坏

datanode 块损坏 /blockrecover/hello.txt: Under replicated BP-794681415-192.168.17.20-1548403311677:blk_1073741874_1065. Target Replicas is 2 but found 1 live replica(s), 0 decommissioned replica(s), 0 decommissioning replica(s).

影响范围：数据冗余备份不影响业务

数据冗余备份不影响业务

处置过程：