一、Hadoop的起源与发展

Hadoop是道格·卡丁(Doug Cutting)创建的。2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。

2006年2月被分离出来,成为一套完整独立的软件,起名为Hadoop

二、Hadoop1.0、2.0和3.0的区别

Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成,而Hadoop 2.0则包含一个支持NameNode横向扩展的HDFS,一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce。相比于Hadoop 1.0,Hadoop 2.0功能更加强大,且具有更好的扩展性、性能,并支持多种计算框架。Hadoop 3.0和Hadoop2.0的区别有对java版本要求较高、Hadoop2.0在容错方面需要通过复制来处理容错而Hadoop 3.0不需要、数据平衡使用的平衡器不同等等。

三、Hadoop不同公司的发行版本

Hadoop 主要有三大发行版本: Apache、Cloudera、Hortonwork。Apache版本最原始(最基础)的版本,对于入门学习最好。

Cloudera在大型互联网企业中用的较多。Hortonworks文档较好。