1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现。
答: Hadoop1.0:高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台、支持多种编程语言
Hadoop2.0新特性:1.提出HDFS Federation,它让多个NameNode分管不同的目录进而实现访问隔离和横向扩展,同时彻底解决了NameNode单点故障问题
2.引入了资源管理框架Yarn,将JobTracker中的资源管理和作业控制分开
3.Yarn作为Hadoop2.0中的资源管理系统,可为各类应用程序进行资源管理和调度, 多种框架都可使用
Hadoop3.0新特性:1.jdk版本最低要求提高、
2.精简了内核,剔除了过期的API和实现,废弃hftp转由webhdfs替代
3.Classpath isolation防止不同版本jar包冲突
4.支持微软的Azure分布式文件系统和阿里的aliyun分布式文件系统
5.Hadoop守护进程和MapReduce任务的堆内存管理发生了一系列变化
6.支持随机container和分布式调度
7.S3Guard:S3A文件系统客户端的一致性和元数据缓存
8.Capacity Scheduler队列配置的基于API的配置
2.Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。
组件名 | 功能及作用 |
HDFS | 分布式文件系统。存储是大数据技术的基础 |
Mapreduce | 计算模型 |
Yarn | 改善MapReduce的缺陷 |
Hive | 数据仓库 |
Hbase | 数据仓库 |
Pig | 数据分析平台,侧重数据查询和分析,而不是对数据进行修改和删除等。需要把真正的查询转换成相应的MapReduce作业 |
Zookeeper | 协调服务 |
Avro | 基于二进制数据传输高性能的中间件。数据序列化系统,可以将数据结构或对象转化成便于存储或传输的格式,以节约数据存储空间和网络传输贷款。适用于远程或本地大批量数据交互。 |
Chukwa | 数据收集系统,帮助hadoop用户清晰了解系统运行的状态,分析作业运行的状态及HDFS的文件存储状态 |
3.官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项
答:1 创建Hadoop用户
2 安装java环境
3 设置SSH
4 修改配置文件修改/usr/local/hadoop/etc/hadoop/
文件夹下的core-site.xml
和hdfs-site.xml
文件
5 相关命令
注意事项:系统必须有java的环境;必须安装ssh