hadoop2.0 hadoop2.0增加了两大特性

转载

mob64ca13f50747 2023-08-07 21:32:29

1.了解对比Hadoop不同版本的特性，可以用图表的形式呈现。

答： Hadoop1.0:高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台、支持多种编程语言

Hadoop2.0新特性:1.提出HDFS Federation，它让多个NameNode分管不同的目录进而实现访问隔离和横向扩展，同时彻底解决了NameNode单点故障问题

2.引入了资源管理框架Yarn，将JobTracker中的资源管理和作业控制分开

3.Yarn作为Hadoop2.0中的资源管理系统，可为各类应用程序进行资源管理和调度，多种框架都可使用

Hadoop3.0新特性:1.jdk版本最低要求提高、

2.精简了内核，剔除了过期的API和实现，废弃hftp转由webhdfs替代

3.Classpath isolation防止不同版本jar包冲突

4.支持微软的Azure分布式文件系统和阿里的aliyun分布式文件系统

5.Hadoop守护进程和MapReduce任务的堆内存管理发生了一系列变化

6.支持随机container和分布式调度

7.S3Guard：S3A文件系统客户端的一致性和元数据缓存

8.Capacity Scheduler队列配置的基于API的配置

2.Hadoop生态的组成、每个组件的作用、组件之间的相互关系，以图例加文字描述呈现。

组件名	功能及作用
HDFS	分布式文件系统。存储是大数据技术的基础
Mapreduce	计算模型
Yarn	改善MapReduce的缺陷
Hive	数据仓库
Hbase	数据仓库
Pig	数据分析平台，侧重数据查询和分析，而不是对数据进行修改和删除等。需要把真正的查询转换成相应的MapReduce作业
Zookeeper	协调服务
Avro	基于二进制数据传输高性能的中间件。数据序列化系统，可以将数据结构或对象转化成便于存储或传输的格式，以节约数据存储空间和网络传输贷款。适用于远程或本地大批量数据交互。
Chukwa	数据收集系统，帮助hadoop用户清晰了解系统运行的状态，分析作业运行的状态及HDFS的文件存储状态