hadoop两大核心技术是什么 hadoop两个核心技术

转载

mob64ca13f8b166 2023-09-08 22:01:05

文章标签 hadoop两大核心技术是什么 hadoop api 复制文件 Hadoop HDFS 数据 文章分类 Hadoop 大数据

在大数据处理的诸多技术框架当中，Hadoop始终是不可忽视的一项，即使有了后来的诸多技术框架，诸如Spark、Storm等，但是Hadoop的核心基础架构，依然在实际开发当中得到重用。今天的大数据培训hadoop内容分享，我们主要来讲Hadoop核心架构。

Hadoop的核心，说白了，就是HDFS和MapReduce。HDFS为海量数据提供了存储，而MapReduce为海量数据提供了计算框架。

Hadoop核心架构

首先看看HDFS，典型的主从架构，用TCP/IP通信。

整个HDFS有三个重要角色：NameNode（名称节点）、DataNode（数据节点）和Client（客户机）。

NameNode：是Master节点（主节点），可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。

DataNode：是Slave节点（从节点），是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode。

Client：切分文件；访问HDFS；与NameNode交互，获得文件位置信息；与DataNode交互，读取和写入数据。

还有一个Block（块）的概念：Block是HDFS中的基本读写单元；HDFS中的文件都是被切割为block（块）进行存储的；这些块被复制到多个DataNode中；块的大小（通常为64MB）和复制的块数量在创建文件时由Client决定。

再来看MapReduce。

MapReduce其实是一种编程模型。这个模型的核心步骤主要分两部分：Map（映射）和Reduce（归约）。

当你向MapReduce框架提交一个计算作业时，它会首先把计算作业拆分成若干个Map任务，然后分配到不同的节点上去执行，每一个Map任务处理输入数据中的一部分，当Map任务完成后，它会生成一些中间文件，这些中间文件将会作为Reduce任务的输入数据。Reduce任务的主要目标就是把前面若干个Map的输出汇总到一起并输出。

关于大数据Hadoop核心架构，以上就是今天的讲解内容了。Hadoop在大数据当中，始终有着重大的影响力，所以学习大数据，仍然必学Hadoop。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。