目录

Hadoop是什么?

Hadoop能做什么?

Hadoop的三大发行版本【Apache、Cloudera、Hortonworks】(了解)

Hadoop的三大版本官网(内含下载)

Hadoop有什么优势?

Hadoop有哪些组成?各版本有何区别?(重点知识)

Hadoop运行环境搭建(开发重点)

Hadoop是什么?

  1. Hadoop是一个由Apache基金会所开发的分布式系统基础架构
  2. 它从广义上说,通常指更广泛的概念——Hadoop生态圈

Hadoop能做什么?

  1. 主要解决海量数据的存储和海量数据的分析计算问题。

Hadoop的三大发行版本【Apache、Cloudera、Hortonworks】(了解)

  1. Apache 版本最原始(最基础)的版本,对于入门学习最好。(2006)
  2. Cloudera 内部集成了很多大数据框架,对应产品 CDH。(2008)
  3. Hortonworks 文档较好,对应产品 HDP。(2011)2018年被 Cloudera 公司收购,推出新的品牌 CDP

Hadoop的三大版本官网(内含下载)

Hadoop有什么优势?

  1. 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。【数据不仅在你的电脑有,你的U盘也有,有备份,数据丢失后可恢复】
  2. 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。【在不关闭集群的情况下,可以随时增加服务器(动态增加服务器)】
  3. 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。【一个任务,多台服务器共同完成,最后汇总】
  4. 高容错性:能够自动将失败的任务重新分配。【作业你不会做,但是你会找我,由我替你完成】

Hadoop有哪些组成?各版本有何区别?(重点知识)

  1. Hadoop 1.X:MapReduce(计算+资源调度)、HDFS(数据存储)、Common(辅助工具)【MapReduce同 时处理业务逻辑运算和资 源的调度,耦合性较大。】
  2. Hadoop 2.X:MapReduce(计算)、Yarn(资源调度)、HDFS(数据存储)、Common(辅助工具)【Yarn只负责资源的调 度,MapReduce 只负责运算。】
  3. Hadoop 3.X:与Hadoop2.X组成上没有变化。
  4. 简谈组成
  1. HDFS(Hadoop Distributed File System)是一个分布式文件系统。
  1. NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、 文件权限),以及每个文件的块列表块所在的DataNode等。
  2. DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和
  3. Secondary NameNode(2nn)每隔一段时间对NameNode元数据备份
  1. Yarn(Yet Another Resource Negotiator)另一种资源协调者,是Hadoop的资源管理器。
  2. MapReduce(MapReduce 将计算过程分为两个阶段:Map 和 Reduce
  1. Map 阶段并行处理输入数据
  2. Reduce 阶段对 Map 结果进行汇总

Hadoop运行环境搭建(开发重点)

  1. 入门建议安装的是 Linux 桌面标准版(不是最小系统版本)
  2. 准备 3 台客户机(关闭防火墙、静态 IP、主机名称)
  3. 安装 JDK
  4. 配置环境变量
  5. 安装 Hadoop
  6. 配置环境变量
  7. 配置集群
  8. 单点启动
  9. 配置 ssh
  10. 群起并测试集群
  11. 未完待续............