hadoop 优化流程 hadoop处理数据的流程

转载

云端小悟空 2023-07-24 09:28:54

文章标签 hadoop 优化流程 hadoop 大数据 hdfs 客户端 文章分类 Hadoop 大数据

文章目录

1、HDFS写数据流程

1.1 剖析文件写入
1.2 网络拓扑-节点距离计算
1.3 机架感知（副本存储节点选择）

2、HDFS读数据流程

1、HDFS写数据流程

1.1 剖析文件写入

讲解：客户端将数据写入hdfs，底层是怎么操作的

hadoop 优化流程 hadoop处理数据的流程_hadoop

客户端

1、客户端会先创建一个 Distributed FileSystem （分布式的文件系统），对上传文件按照文件块拆分后，一块一块上传

NameNode

2、检查上传的客户端是否有权限

每个上传的文件夹都有所属的用户和用户组，如果没有权限，直接拒绝，报没有权限异常

3、检查上传的客户端目录是否存在

4、没有问题，回复可以上传

客户端

5、请求返回第一个block的存储 DataNode 节点

NameNode

6、根据副本数，返回对应的DN节点，如hadoop102、hadoop103、hadoop104，表示使用这三个节点进行存储

副本节点的优先级后面会详细讲解

a、本地节点
b、其他机架一个节点
c、其他机架的另一个节点

客户端

7、创建数据流（FSDataOutputStream），往外写数据

8、先选择第一个dn1，开始传输数据，dn1发给dn2，dn2发给dn3，当下游接收到数据后会返回确认收到数据的应答

传输单元64k的Packet（512b的chunk和4b的chunksum）

1.2 网络拓扑-节点距离计算

图例

hadoop 优化流程 hadoop处理数据的流程_hadoop 优化流程_02

从里到外

n-0 到 n-0

表示在同一个节点

n-0 到 n-1

表示在同一个机架

d1-n0 到 d2-n0

表示在不同的机房

1.3 机架感知（副本存储节点选择）

第一个副本存在本地

距离最近速度最快

第二个副本在另一个机架的随机节点

保证可靠性

第三个副本在第二个副本所在机架的随机节点

速度最快

第三个副本是第二个副本传给他的

2、HDFS读数据流程

讲解：客户端下载hdfs数据，底层是怎么操作的

hadoop 优化流程 hadoop处理数据的流程_hadoop_03

客户端

1、客户端会先创建一个 Distributed FileSystem （分布式的文件系统），请求下载文件

NameNode

2、检查下载的客户端是否有权限

每个下载的文件夹都有所属的用户和用户组，如果没有权限，直接拒绝，报没有权限异常

3、检查下载文件是否存在

4、没有问题，回复可以上传，返回目标文件的元数据

元数据如： block1在哪三台节点上，block2又在哪三台节点上

客户端

5、创建数据流（FSDataInputStream），请求下载数据

6、综合距离和节点负载均衡能力评估，下载数据

如：在一个最近的节点上下载block1，读取完毕后，又在另一个节点上下载block2

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：架构是指包含等容器架构含义

下一篇：hadoop中etl清洗 hadoop es

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯