目录
Hadoop是什么?
Hadoop能做什么?
Hadoop的三大发行版本【Apache、Cloudera、Hortonworks】(了解)
Hadoop的三大版本官网(内含下载)
Hadoop有什么优势?
Hadoop有哪些组成?各版本有何区别?(重点知识)
Hadoop运行环境搭建(开发重点)
Hadoop是什么?
- Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
- 它从广义上说,通常指更广泛的概念——Hadoop生态圈。
Hadoop能做什么?
- 主要解决海量数据的存储和海量数据的分析计算问题。
Hadoop的三大发行版本【Apache、Cloudera、Hortonworks】(了解)
- Apache 版本最原始(最基础)的版本,对于入门学习最好。(2006)
- Cloudera 内部集成了很多大数据框架,对应产品 CDH。(2008)
- Hortonworks 文档较好,对应产品 HDP。(2011)2018年被 Cloudera 公司收购,推出新的品牌 CDP。
Hadoop的三大版本官网(内含下载)
Hadoop有什么优势?
- 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。【数据不仅在你的电脑有,你的U盘也有,有备份,数据丢失后可恢复】
- 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。【在不关闭集群的情况下,可以随时增加服务器(动态增加服务器)】
- 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。【一个任务,多台服务器共同完成,最后汇总】
- 高容错性:能够自动将失败的任务重新分配。【作业你不会做,但是你会找我,由我替你完成】
Hadoop有哪些组成?各版本有何区别?(重点知识)
- Hadoop 1.X:MapReduce(计算+资源调度)、HDFS(数据存储)、Common(辅助工具)【MapReduce同 时处理业务逻辑运算和资 源的调度,耦合性较大。】
- Hadoop 2.X:MapReduce(计算)、Yarn(资源调度)、HDFS(数据存储)、Common(辅助工具)【Yarn只负责资源的调 度,MapReduce 只负责运算。】
- Hadoop 3.X:与Hadoop2.X组成上没有变化。
- 简谈组成
- HDFS(Hadoop Distributed File System)是一个分布式文件系统。
- NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、 文件权限),以及每个文件的块列表和块所在的DataNode等。
- DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
- Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。
- Yarn(Yet Another Resource Negotiator)另一种资源协调者,是Hadoop的资源管理器。
- MapReduce(MapReduce 将计算过程分为两个阶段:Map 和 Reduce)
- Map 阶段并行处理输入数据
- Reduce 阶段对 Map 结果进行汇总
Hadoop运行环境搭建(开发重点)
- 入门建议安装的是 Linux 桌面标准版(不是最小系统版本)
- 准备 3 台客户机(关闭防火墙、静态 IP、主机名称)
- 安装 JDK
- 配置环境变量
- 安装 Hadoop
- 配置环境变量
- 配置集群
- 单点启动
- 配置 ssh
- 群起并测试集群
- 未完待续............