举例叙述典型的hadoop的功能模块 hadoop的主要功能模块包括

转载

flyingsmiling 2024-03-31 07:39:40

文章标签 举例叙述典型的hadoop的功能模块 Hadoop HDFS hadoop 文章分类 Hadoop 大数据

hadoop核心组件

1. hadoop包含的模块：

Hadoop common：提供一些通用的功能支持其他hadoop模块。
Hadoop Distributed File System：即分布式文件系统，简称HDFS。主要用来做数据存储，并提供对应用数据高吞吐量的访问。
Hadoop Yarn：用于作业调度和集群资源管理的框架。
Hadoop MapReduce：基于yarn的，能用来并行处理大数据集的计算框架。

2. HDFS：

HDFS是谷歌GFS的一个开源实现，具有扩展性，容错性，海量数据存储的特点：

扩展性，主要指很容易就可以在当前的集群上增加一台或者多台机器，扩展计算资源。
容错性，主要指其多副本的存储机制。HDFS将文件切分成固定大小的block(默认是128M)，并以多副本形式存储在多台机器上，当其中一台机器发生故障，仍然有其他副本供我们使用。但这个容错并不是绝对的，当所有节点都发生故障，文件就会丢失，不过这样的概率较小。
海量数据存储：多台机器构成了一个集群，相对单机能存储更多量的数据。这也是Hadoop解决的最主要问题之一。

数据切分，多副本，容错等机制都是Hadoop底层已经设计好的，对用户透明，用户不需要关系细节。只需要按照对单机文件的操作方式，就可以进行分布式文件的操作。如文件的上传，查看，下载等。

多副本存储示例：

举例叙述典型的hadoop的功能模块 hadoop的主要功能模块包括_HDFS

HDFS多副本存储示意图

以part-1为例进行说明，它被分成三个block，block_id分别是2，4，5，且副本系数为3。可以看到在DataNode上，2，4，5都各存储在了三个节点上，这样当其中一个节点故障时，仍然能够保证文件的可用。block_id存在的必要性在于，在用户需要对文件进行操作时，相应的block能够按顺序进行“组合”起来。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。