Hadoop是大数据必学框架
1,概念
Hadoop是什么,这个框架解决什么问题,这个框架由什么组成,它有什么优势?
- Hadoop是 Apache开发的分布式系统基础架构
- 主要解决: 大数据场景下的的存储和计算
Hadoop 2.x的架构如图所示,核心就是HDFS、Yarn和MapReduce
Hadoop的优势:
- 高可靠
- 底层维护多个数据副本
- 高拓展
- 集群任务
- 能将失败的任务自动分配
- 高效
- 并行处理
- 高容错
- 方便拓展节点
其中每一个点都有很多门道,但目前只需了解就好。
Hadoop最初是由Doug Cutting开发,目前已有三大发行版本
- Apache
- 最基础的版本
- Cloudera
- 内部集成了很多大数据框架
- 简称CDH
- Hortonworks
- 文档较好
- 简称HDP
2,架构初识
Hadoop 2.x的核心就是HDFS、Yarn和MapReduce
HDFS
YARN
MapReduce
可分为两个阶段
- Map:多个Map并行处理数据,互不相干
- Reduce:将Map处理的数据进行汇总处理
简单来说,如图所示
最后,我们通过一下小问题来回顾一下
1. hadoop是_____________开发的______________基础架构
2. hadoop最初是由_____________开发的
3. hadoop 有_______大发行版本
4. hadoop主要解决什么问题?
5. hadoop的优势:___________、___________、___________、___________。(4高)
6. 请简述hadoop 2.x的架构
7. HDFS负责____________
8. HDFS的 nn 是___________,负责____________,重要程度:_______________
9. HDFS的 2nn 是___________,负责____________,重要程度:_______________
10. HDFS的 dn 是___________,负责____________,重要程度:_______________
11. YARN 负责____________
12. YARN 的ResourceManager(RM)负责 :1,处理____________,2,监控N___________,3,启动并监控A__________,4,分配_____________
13. YARN 的NodeManager(NM)负责 :1,管理__________的资源,2,处理R_________和 A_______的命令
14. YARN 的ApplicationMaster(AM)负责 任务的资源_________,监 _______
15. MapReduce 负责____________