hadoop与v的关系叙述hadoop1.x、hadoop2.x、hadoop3.x的区别

转载

月光倾城美 2023-07-24 10:51:30

文章标签 hadoop与v的关系 hadoop 大数据 HDFS Hadoop 文章分类 Hadoop 大数据

目前，hadoop官网提供的最新版本是2021年1月9日发布的3.2.2版本。本文主要讨论1.x、2.x和3.x的主要区别。
1.hadoop 1.x
（1）基本组件：
hdfs：数据存储
mapreduce：分析计算和资源调度
common：辅助工具
（2）HDFS存储机制

hadoop与v的关系叙述hadoop1.x、hadoop2.x、hadoop3.x的区别_hadoop与v的关系

（3）MapReduce工作机制：

hadoop与v的关系叙述hadoop1.x、hadoop2.x、hadoop3.x的区别_hadoop与v的关系_02

client，用来提交MapReduce作业。

jobtracker，用来协调作业的运行。

tasktracker，用来处理作业划分后的任务。

HDFS，用来在其它实体间共享作业文件。

（4）问题

hadoop与v的关系叙述hadoop1.x、hadoop2.x、hadoop3.x的区别_大数据_03

单NameNode设计带来诸多问题：单点故障、内存受限，制约集群扩展性和缺乏隔离机制等；此外，JobTracker兼顾资源管理和任务调度，负担过重，容易造成单点故障。

2.hadoop 2.x

（1）基本组件

hdfs：数据存储

mapreduce：分析计算

yarn：资源调度

common：辅助工具

（2）MapReduce工作机制

hadoop与v的关系叙述hadoop1.x、hadoop2.x、hadoop3.x的区别_HDFS_04

（3）Yarn资源调度机制

hadoop与v的关系叙述hadoop1.x、hadoop2.x、hadoop3.x的区别_大数据_05

ResourceManager主要作用：处理客户端请求；监控nodemanager；启动或监控ApplicationMaster；资源的分配和调度

NodeManager主要作用：管理单个节点上的资源；处理来自ResourceManager的命令；处理来自MRAppMaster的命令

ApplicationMaster的作用：负责数据的切分；为应用程序申请资源并分配给内部的任务；任务的监控与容错

Container：Yarn中资源的抽象，封装了多维度的资源，如CPU、磁盘、网络带宽等

（4）Hadoop HA

HDFS-HA（解决NameNode单点故障问题）：NameNode HA with QJM

hadoop与v的关系叙述hadoop1.x、hadoop2.x、hadoop3.x的区别_大数据_06

Yarn-HA（解决ResourceManager单点故障问题）：

hadoop与v的关系叙述hadoop1.x、hadoop2.x、hadoop3.x的区别_大数据_07

（5）联邦机制

单Active NN的架构使得HDFS在集群扩展性和性能上都有潜在的问题，当集群大到一定程度后，NN进程使用的内存可能会达到上百G，NN成为了性能的瓶颈。为了解决这个问题,Hadoop 2.x提供了HDFS Federation, 示意图如下：

hadoop与v的关系叙述hadoop1.x、hadoop2.x、hadoop3.x的区别_Hadoop_08

a.多个NN共用一个集群里的存储资源，每个NN都可以单独对外提供服务

b.每个NN都会定义一个存储池，有单独的id，每个DN都为所有存储池提供存储

c.DN会按照存储池id向其对应的NN汇报块信息，同时，DN会向所有NN汇报本地存储可用资源情况

d.如果需要在客户端方便的访问若干个NN上的资源，可以使用客户端挂载表，把不同的目录映射到不同的NN，但NN上必须存在相应的目录

3.hadoop 3.x

hadoop 3.x在2.x版本的基础上，做了如下变动：

（1）最低Java版本从7升级到8

（2）引入纠删码(Erasure Coding)

主要解决数据量大到一定程度磁盘空间存储能力不足的问题。

纠删码能勾在不到50%数据冗余的情况下提供和3副本相同的容错能力，因此，使用纠删码作为副本机制的改进是自然而然，也是未来的趋势.

（3）重写了Shell脚本

重写了Shell脚本，修改了之前版本长期存在的一些错误，并提供了一些新功能,在尽可能保证兼容性的前提下，一些新变化仍然可能导致之前的安装出现问题。

例如:

a.所有Hadoop Shell脚本子系统现在都会执行hadoop-env.sh这个脚本，它允许所有环节变量位于一个位置；

b.守护进程已通过*-daemon.sh选项从*-daemon.sh移动到了bin命令中，在Hadoop3中，我们可以简单的使用守护进程来启动、停止对应的Hadoop系统进程；

（4）引入了新的API依赖

Hadoop3.0引入了提供了hadoop-client-api 和hadoop-client-runtime依赖将下级依赖隐藏起来，一定程度上来解决依赖冲突的问题

（5）MapReduce任务的本地化优化

MapReduce引入了一个NativeMapOutputCollector的本地化(C/C++)实现，对于shuffle密集的任务，可能提高30%或者更高的性能

（6）支持超过两个NN

（7）许多服务的默认端口改变了

Hadoop3.x之前，多个Hadoop服务的默认端口位于Linux临时端口范围(63768~61000). 这意味着在启动时，由于与另一个应用程序冲突，服务有时无法绑定到端口.

在Hadoop3.x中，这些可能冲突的端口已移出临时范围，受影响的有NameNode ,

SecondaryNamenode , DataNode 和 KMS

（8）添加对Microsoft Azure Data Lake 和阿里云对象存储系统的支持

（9）DataNode内部实现Balancer

之前的DataNode Balancer只能实现DN之间的数据平衡，Hadoop3.x实现了内部的数据平衡。

（10）重做的后台和任务堆内存管理

已实现根据服务器自动配置堆内存，HADOOP_HEAPSIZE变量失效。简化MapTask 和ReduceTask的堆内存配置，现已不必同时在配置中和Java启动选项中指定堆内存大小，旧有配置不会受到影响。

（11）HDFS实现服务器级别的Federation分流

对于HDFS Federation，添加了一个对统一命名空间的RPC路由层。和原来的HDFS Federation没有变化，只是目前挂在管理不必在客户端完成，而是放在的服务器，从而简化了HDFS Federation访问。

（12）Yarn的时间线服务升级到V2

Yarn的时间线服务是MRJobHistory的升级版，提供了在Yarn上运行第三方程序的历史支持，该服务在Hadoop3.0升级为第二版

（13）容量调度器实现API级别的配置

现在容量调度器可以实现通过REST API来改变配置，从而让管理员可以实现调度器自动配置。

（14）Yarn实现更多种资源类型的管理

Yarn调度器现已可以通过配置实现用户自定义的资源管理。现在Yarn可以根据CPU和内存意外的资源管理其任务队列

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：formdata jquery 对象转为 jquery 类型转换

下一篇：java中一个类中含有重载 java类可以重复加载吗

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

hadoop与v的关系 叙述hadoop1.x、hadoop2.x、hadoop3.x的区别

hadoop与v的关系 叙述hadoop1.x、hadoop2.x、hadoop3.x的区别

51CTO博客

hadoop与v的关系叙述hadoop1.x、hadoop2.x、hadoop3.x的区别

hadoop与v的关系叙述hadoop1.x、hadoop2.x、hadoop3.x的区别