1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现

Apache hadoop 的2.0版本:hadoop通用模块,支持其他hadoop模块的通用工具集;Hadoop分布式文件系统,支持对应数据高吞吐量访问的分布式文件系统;用于作业调度和集群资源管理的Hadoop YANRN框架;Hadoop MapReduce,基于YARN的大数据并行处理系统。

Cloudera hadoop:Cloudera版本:层次更加清晰,且它提供了适用于各种操作系统的Hadoop安装包,可直接使用apt-get或者yum命令进行安装,更加省事。

Hortonworks:Hortonworks 的主打产品是Hortonworks Data Platform (HDP),也同样是100%开源的产品,HDP除了常见的项目外还包含了Ambari,一款开源的安装和管理系统。HCatalog,一个元数据管理系统,HCatalog现已集成到Facebook 开源的Hive中。Hortonworks的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsoft Windows平台上本地运行。

DKhadoop发行版:有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。DKhadoop将复杂的大数据集群配置简化至三种节点(主节点、管理节点、计算节点),极大的简化了集群的管理运维,增强了集群的高可用性、高可维护性、高稳定性。

cloudera发行版:CDH是Cloudera的hadoop发行版,完全开源,比Apache hadoop在兼容性,安全性,稳定性上有增强。Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个hadoop集群,并对集群的节点及服务进行实时监控。Cloudera Support即是对hadoop的技术支持。

hortonworks发行版:Hortonworks 的主打产品是Hortonworks Data Platform (HDP),也同样是100%开源的产品,其版本特点:HDP包括稳定版本的Apache Hadoop的所有关键组件;安装方便,HDP包括一个现代化的,直观的用户界面的安装和配置工具。

MAPR发行版:mapR有免费和商业两个版本,免费版本在功能上有所减少。mapR版本不再需要单独的namenode机器,元数据分散在集群中,也类似数据默认存储三份。也不再需要用NAS来协助namenode做元数据备份,提供了机器使用率。

华为hadoop发行版:华为的hadoop版本基于自研的Hadoop HA平台,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对hadoop的小修补,远不如mapR解决的彻底。

2.Hadoop生态的组成、每个组件的作用、组件之间的相互关系

hadoop FileSystem kerbos 过一段时间后 连不上 hadoop worker_Hadoop

Hadoop:Java编写的软件框架,以支持数据密集型分布式应用

ZooKeeper:高可靠性分布式协调系统

MapReduce:针对大数据的灵活的并行数据处理框架

HDFS:Hadoop分布式文件系统

Oozie:负责MapReduce作业调度

HBase:Key-value数据库

Hive:构建在MapRudece之上的数据仓库软件包

Pig:Pig是架构在Hadoop之上的高级数据处理层。Pig Latin语言为编程人员提供了更直观的定制数据流的方法。

3.官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。
http://www.apache.org/

→Projects

→Projects List

→Hadoop

 

步骤一:环境准备
在Hadoop安装与配置之前,需要准备的环境:虚拟机、Linux系统、配置JDK环境变量。
若以上还没准备,请参考以下文章:
1.VMware下载安装及CentOS7下载安装
2.Linux安装jdk1.8和配置环境变量
步骤二:下载
1.首先打开官网http://www.apache.org/,再在Downloads菜单栏在选择Distribution,跳转到https://downloads.apache.org/页面,
如下图所示,我们可以看到有很多种产品,点击我们需要的是Hadoop

 

点击hadoop–》core–》然后选择要下载的版本
我是下载的最新的稳定版本–》stable
然后点击hadoop-3.3.0.tar.gz进行下载

 

步骤三:上传并解压
1.在/usr/local/src/目录下为Hadoop创建个目录:mkdir hadoop
2.rz上传:linux与windows 通过SecureCRT进行文件传输方式
3.解压:tar -zxvf hadoop-3.3.0.tar.gz

4. 评估华为hadoop发行版本的特点与可用性。

https://support.huawei.com/enterprise/zh/cloud-computing/fusioninsight-hd-pid-21110924/

https://support.huawei.com/hedex/hdx.do?docid=EDOC1100094387&lang=zh&idPath=22658044%7C7919788%7C9856606%7C21110924

华为在硬件上具有天然的优势,在网络、虚拟化、PC等方面都有很强的硬件实力。华为的Hadoop版本基于自主研发的Hadoop HA平台,具有构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动进行Failover,无须人工干预,这也是对Hadoop功能不足的小修补,远不如MapR解决得彻底。华为在Hadoop社区中的Contributor和Committer也是国内最多的,算是国内技术实力较强的公司。