Hadoop主要版本

目前国内使用的不收费的Hadoop版本主要包括以下3个:

  • Apache hadoop
  • Cloudera的CDH
  • Hortonworks版本(Hortonworks Data Platform,简称“HDP”)

注: Apache hadoop,最原始的版本,所有发行版均基于这个版本进行改进制作而来,国内大多数都选择Cloudera的CDH版本

CDH

2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop 的商用解决方案,主要是包括支持,咨询服务,培训。2009年hadoop的创始人 Doug Cutting也任职于 Cloudera 公司。Cloudera产品主要为CDH,Cloudera Manager,Cloudera Support。CDH是Cloudera的hadoop发行版,完全开源,比Apache hadoop在兼容性,安全性,稳定性上有增强。Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个hadoop集群,并对集群的节点及服务进行实时监控。Cloudera Support即是对hadoop的技术支持。cloudera的标价为每年每个节点4000美元。 CDH和Apache版本主要区别如下:

  • CDH对Hadoop版本的划分非常清晰,只有两个系列的版本,分别是cdh3和cdh4,分别对应第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本则混乱得多;比Apache hadoop在兼容性,安全性,稳定性上有增强。
  • CDH3版本是基于Apache hadoop 0.20.2改进的,并融入了最新的patch,CDH4版本是基于Apache hadoop 2.X改进的,CDH总 是并应用了最新Bug修复或者Feature的Patch,并比Apache hadoop同功能版本提早发布,更新速度比Apache官方快。
  • 安全 CDH支持Kerberos安全认证,apache hadoop则使用简陋的用户名匹配认证
  • CDH文档清晰,很多采用Apache版本的用户都会阅读CDH提供的文档,包括安装文档、升级文档等。
  • CDH支持Yum/Apt包(RPM包),Tar包,Cloudera Manager三种方式安装,Apache hadoop只支持Tar包安装。
  • CDH目前最新版本CDH5。

注: CDH使用推荐的Yum/Apt包安装时,有以下几个好处:

  • 联网安装、升级,非常方便
  • 自动下载依赖软件包
  • Hadoop生态系统包自动匹配,不需要你寻找与当前Hadoop匹配的Hbase,Flume,Hive等软件,Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包,并保证兼容性。
  • 自动创建相关目录并软链到合适的地方(如conf和logs等目录);自动创建hdfs, mapred用户,hdfs用户是HDFS的最高权限用户,mapred用户则负责mapreduce执行过程中相关目录的权限。

HDP

2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建的公司。公司成立之初吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,这些工程师贡献了hadoop 80%的代码。。雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。Hortonworks 的主打产品是Hortonworks Data Platform (HDP),也同样是100%开源的产品,HDP除了常见的项目外还包含了Ambari,一款开源的安装和管理系统。HCatalog,一个元数据管理系统。 HDP版本特点是:

  • 集成和测试封装 – HDP包括稳定版本的Apache Hadoop的所有关键组件,集成和测试封装。
  • 安装方便– HDP包括一个现代化的,直观的用户界面的安装和配置工具。
  • 管理和监控服务 – HDP包括直观的仪表板,为监测集群和建立警示。
  • 数据集成服务 – HDP包括Talend大数据平台,领先的开源整合工具,轻松连接Hadoop集群,而无需编写Hadoop代码的数据系统集成工具。
  • 元数据服务 – HDP包括的Apache HCatalog,从而简化了Hadoop的应用程序之间和Hadoop和其他数据系统之间的数据共享。
  • 高可用性– HDP与成熟的高可用性解决方案的无缝集成。