目前Hadoop发行版非常多,有华为发行版、Intel发行版、Cloudera发行版(CDH)等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,完全是由Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布/销售。(http://www.apache.org/licenses/LICENSE-2.0)。

目前而言,绝大多数公司发行版是收费的,比如Intel发行版、华为发行版等,尽管这些发行版增加了很多开源版本没有的新feature,但绝大多数公司选择Hadoop版本时会将把是否收费作为重要指标,目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”)、Hortonworks版本(Hortonworks Data Platform,简称“HDP”),对于国内而言,绝大多数选择CDH版本,主要理由如下:

(1) CDH对Hadoop版本的划分非常清晰,只有两个系列的版本,分别是cdh3和cdh4,分别对应第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本则混乱得多;

(2) CDH文档清晰,很多采用Apache版本的用户都会阅读cdh提供的文档,包括安装文档、升级文档等。

CDH与Apache版本是怎么对应的?cdh3版本是基于apache  hadoop  0.20.2改进的,并融入了最新的patch,目前看来,最新的cdh3u6基本可以对应到apache hadoop最新版本(Hadoop 1.x),而cdh3u1~cdh3u5与apache hadoop版本对应的关系不明确,因为cdh总是打入一些最新的patch进去,并比apache hadoop同功能版本提早发布。总体上说,apache和cdh版本功能上是一致的。

HDP版本是比较新的版本,目前与apache基本同步,因为Hortonworks内部大部分员工都是apache代码贡献者,尤其是Hadoop 2.0的贡献者。

此外,cdh4和apache hadoop 2.x版本属于下一代Hadoop(Hadoop 2.0),目前处于beta版,尚未发布稳定版,且目前使用的公司非常少,大部分处于调研阶段。

基于以上考虑,如果线上使用,推荐cdh3最新版本,即cdh3u6(相当于apache hadoop最新稳定版),下载地址为:http://archive.cloudera.com/cdh/3/

具体各个项目下载地址如下:

Hadoop内核(HDFS和MapReduce):

http://archive.cloudera.com/cdh/3/hadoop-0.20.2-cdh3u6.tar.gz

HBase:

http://archive.cloudera.com/cdh/3/hbase-0.90.6-cdh3u6.tar.gz

hive:

http://archive.cloudera.com/cdh/3/hive-0.7.1-cdh3u6.tar.gz

mahout:

http://archive.cloudera.com/cdh/3/mahout-0.5-cdh3u6.tar.gz

pig:

http://archive.cloudera.com/cdh/3/pig-0.8.1-cdh3u6.tar.gz

sqoop:

http://archive.cloudera.com/cdh/3/sqoop-1.3.0-cdh3u6.tar.gz

zookeeper:

http://archive.cloudera.com/cdh/3/zookeeper-3.3.5-cdh3u6.tar.gz

flume:

http://archive.cloudera.com/cdh/3/flume-0.9.4-cdh3u6.tar.gz


作者:Dong