1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现。

答: Hadoop1.0:高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台、支持多种编程语言

 Hadoop2.0新特性:1.提出HDFS Federation,它让多个NameNode分管不同的目录进而实现访问隔离和横向扩展,同时彻底解决了NameNode单点故障问题

2.引入了资源管理框架Yarn,将JobTracker中的资源管理和作业控制分开

3.Yarn作为Hadoop2.0中的资源管理系统,可为各类应用程序进行资源管理和调度, 多种框架都可使用

 Hadoop3.0新特性:1.jdk版本最低要求提高、

2.精简了内核,剔除了过期的API和实现,废弃hftp转由webhdfs替代

3.Classpath isolation防止不同版本jar包冲突

4.支持微软的Azure分布式文件系统和阿里的aliyun分布式文件系统

5.Hadoop守护进程和MapReduce任务的堆内存管理发生了一系列变化

6.支持随机container和分布式调度

7.S3Guard:S3A文件系统客户端的一致性和元数据缓存

8.Capacity Scheduler队列配置的基于API的配置

 

2.Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。

 

组件名

功能及作用

HDFS

分布式文件系统。存储是大数据技术的基础

Mapreduce

计算模型

Yarn

改善MapReduce的缺陷

Hive

数据仓库

Hbase

数据仓库

Pig

数据分析平台,侧重数据查询和分析,而不是对数据进行修改和删除等。需要把真正的查询转换成相应的MapReduce作业

Zookeeper

协调服务

Avro

基于二进制数据传输高性能的中间件。数据序列化系统,可以将数据结构或对象转化成便于存储或传输的格式,以节约数据存储空间和网络传输贷款。适用于远程或本地大批量数据交互。

Chukwa

数据收集系统,帮助hadoop用户清晰了解系统运行的状态,分析作业运行的状态及HDFS的文件存储状态

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3.官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项

 答:1 创建Hadoop用户

2 安装java环境
3 设置SSH
4 修改配置文件修改/usr/local/hadoop/etc/hadoop/文件夹下的core-site.xmlhdfs-site.xml 文件
5 相关命令

注意事项:系统必须有java的环境;必须安装ssh