datanode工作机制详解

原创

涤生手记 2021-08-27 15:49:35 ©著作权

文章标签 hadoop 大数据 DataNode hdfs 数据 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者涤生手记的原创作品，请联系作者获取转载授权，否则将追究法律责任

DATANODE 的工作机制

问题场景：

1 、集群容量不够，怎么扩容？

2 、如果有一些 datanode 宕机，该怎么办？

3 、 datanode 明明已启动，但是集群中的可用 datanode 列表中就是没有，怎么办？

1 概述

1、Datanode工作职责：

存储管理用户的文件块数据

定期向namenode汇报自身所持有的block信息（通过心跳信息上报）

（这点很重要，因为，当集群中发生某些block副本失效时，集群如何恢复block初始副本数量的问题）

<name>dfs.blockreport.intervalMsec</name>

<description>Determines block reporting interval in milliseconds.</description></property>

2、Datanode掉线判断时限参数

datanode进程死亡或者网络故障造成datanode无法与namenode通信，namenode不会立即把该节点判定为死亡，要经过一段时间，这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout，则超时时长的计算公式为：

timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval。

而默认的heartbeat.recheck.interval 大小为5分钟，dfs.heartbeat.interval默认为3秒。

需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的单位为毫秒，dfs.heartbeat.interval的单位为秒。所以，举个例子，如果heartbeat.recheck.interval设置为5000（毫秒），dfs.heartbeat.interval设置为3（秒，默认），则总的超时时间为40秒。

<name>heartbeat.recheck.interval</name>

<name>dfs.heartbeat.interval</name>

3.datanode工作机制