Hadoop是大数据必学框架

1,概念

Hadoop是什么,这个框架解决什么问题,这个框架由什么组成,它有什么优势?

  • Hadoop是 Apache开发的分布式系统基础架构
  • 主要解决: 大数据场景下的的存储计算

Hadoop 2.x的架构如图所示,核心就是HDFS、Yarn和MapReduce

hadoop架构详解 hadoop框架结构图_hadoop

Hadoop的优势:

  • 高可靠
  • 底层维护多个数据副本
  • 高拓展
  • 集群任务
  • 能将失败的任务自动分配
  • 高效
  • 并行处理
  • 高容错
  • 方便拓展节点

其中每一个点都有很多门道,但目前只需了解就好。
Hadoop最初是由Doug Cutting开发,目前已有三大发行版本

  • Apache
  • 最基础的版本
  • Cloudera
  • 内部集成了很多大数据框架
  • 简称CDH
  • Hortonworks
  • 文档较好
  • 简称HDP

2,架构初识

Hadoop 2.x的核心就是HDFS、Yarn和MapReduce

HDFS

hadoop架构详解 hadoop框架结构图_Hadoop_02

YARN

hadoop架构详解 hadoop框架结构图_Hadoop_03

MapReduce

可分为两个阶段

  1. Map:多个Map并行处理数据,互不相干
  2. Reduce:将Map处理的数据进行汇总处理

简单来说,如图所示

hadoop架构详解 hadoop框架结构图_Hadoop_04




最后,我们通过一下小问题来回顾一下

1. hadoop是_____________开发的______________基础架构
2. hadoop最初是由_____________开发的
3. hadoop 有_______大发行版本
4. hadoop主要解决什么问题?
5. hadoop的优势:___________、___________、___________、___________。(4高)
6. 请简述hadoop 2.x的架构
7. HDFS负责____________
8. HDFS的 nn 是___________,负责____________,重要程度:_______________
9. HDFS的 2nn 是___________,负责____________,重要程度:_______________
10. HDFS的 dn 是___________,负责____________,重要程度:_______________
11. YARN 负责____________
12. YARN 的ResourceManager(RM)负责 :1,处理____________,2,监控N___________,3,启动并监控A__________,4,分配_____________
13. YARN 的NodeManager(NM)负责 :1,管理__________的资源,2,处理R_________和 A_______的命令
14. YARN 的ApplicationMaster(AM)负责 任务的资源_________,监 _______
15. MapReduce 负责____________