文章目录
- 1、HDFS写数据流程
- 1.1 剖析文件写入
- 1.2 网络拓扑-节点距离计算
- 1.3 机架感知(副本存储节点选择)
- 2、HDFS读数据流程
1、HDFS写数据流程
1.1 剖析文件写入
讲解:客户端将数据写入hdfs,底层是怎么操作的
客户端
1、客户端会先创建一个 Distributed FileSystem (分布式的文件系统),对上传文件按照文件块拆分后,一块一块上传
NameNode
2、检查上传的客户端是否有权限
- 每个上传的文件夹都有所属的用户和用户组,如果没有权限,直接拒绝,报没有权限异常
3、检查上传的客户端目录是否存在
4、没有问题,回复可以上传
客户端
5、请求返回第一个block的存储 DataNode 节点
NameNode
6、根据副本数,返回对应的DN节点,如hadoop102、hadoop103、hadoop104,表示使用这三个节点进行存储
- 副本节点的优先级后面会详细讲解
- a、本地节点
- b、其他机架一个节点
- c、其他机架的另一个节点
客户端
7、创建数据流(FSDataOutputStream),往外写数据
8、先选择第一个dn1,开始传输数据,dn1发给dn2,dn2发给dn3,当下游接收到数据后会返回确认收到数据的应答
- 传输单元64k的Packet(512b的chunk和4b的chunksum)
1.2 网络拓扑-节点距离计算
图例
- 从里到外
- n-0 到 n-0
- 表示在同一个节点
- n-0 到 n-1
- 表示在同一个机架
- d1-n0 到 d2-n0
- 表示在不同的机房
1.3 机架感知(副本存储节点选择)
- 第一个副本存在本地
- 距离最近速度最快
- 第二个副本在另一个机架的随机节点
- 保证可靠性
- 第三个副本在第二个副本所在机架的随机节点
- 速度最快
- 第三个副本是第二个副本传给他的
2、HDFS读数据流程
讲解:客户端下载hdfs数据,底层是怎么操作的
客户端
1、客户端会先创建一个 Distributed FileSystem (分布式的文件系统),请求下载文件
NameNode
2、检查下载的客户端是否有权限
- 每个下载的文件夹都有所属的用户和用户组,如果没有权限,直接拒绝,报没有权限异常
3、检查下载文件是否存在
4、没有问题,回复可以上传,返回目标文件的元数据
- 元数据如: block1在哪三台节点上,block2又在哪三台节点上
客户端
5、创建数据流(FSDataInputStream),请求下载数据
6、综合距离和节点负载均衡能力评估,下载数据
- 如:在一个最近的节点上下载block1,读取完毕后,又在另一个节点上下载block2