第129讲:Hadoop集群管理工具fsck实战详解学习笔记

是用检查hdfs具体文件、文件夹的健康状况的。

这个工具帮助我们检查hdfs中文件在datanode中缺失的块及过程或过少的replication复本的内容。

hadoop fsck PATH

会从给定路径循环遍历文件系统中的内容,但此时访问的是namenode,而不是datanode,对于检查过的文件都会打印点。

文件在namenode中是以块的形式存在的,所以获取的是namenode中具体block的元数据的信息,检查和实际集群的配置是否一致。

结果中的over-replicated blocks:复本数超出了指定的复本数。

hdfs在系统运行时会自动删除多余的复本。

under-replicated block:hdfs会自动为这些块创建新的复本。

mis-replicated block:违反了block replication旋转策略的块,如3个复本存在于一个机架上,就可以认定其错误,因为至少要分布在两个不同的机架。

corrupt bolck:损坏的块指所有复本都已损坏。

Missing replicas: 集群中没有任何复本的块。

corrupt bolck和Missing replicas是最需要关注的。这种情况下数据已丢失。默认情况下hdfs不会对这两种块进行任何操作。但我们可以执行一些操作如move,可以把受影响的文件移动到hdfs的根目录中的/lost+found中。

-delete  删除

检查结果中每一个块占用一行信息。

 

以上内容是王家林老师DT大数据梦工厂《Hadoop深入浅出实战经典》第129讲的学习笔记。
王家林:Spark、Flink、Docker、Android技术中国区布道师。Spark亚太研究院院长和首席专家,DT大数据梦工厂创始人,Android软硬整合源码级专家,英语发音魔术师,健身狂热爱好者。