004

转载

mob604756fc3573 2021-10-23 10:27:00

文章标签 hadoop mapreduce hdfs cloudera apache 文章分类 代码人生

一、Hadoop的起源与发展

Hadoop是道格·卡丁（Doug Cutting）创建的。2003-2004年，Google公布了部分GFS和MapReduce思想的细节，受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。2005年，Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。

2006年2月被分离出来，成为一套完整独立的软件，起名为Hadoop

二、Hadoop1.0、2.0和3.0的区别

Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成，而Hadoop 2.0则包含一个支持NameNode横向扩展的HDFS，一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce。相比于Hadoop 1.0，Hadoop 2.0功能更加强大，且具有更好的扩展性、性能，并支持多种计算框架。Hadoop 3.0和Hadoop2.0的区别有对java版本要求较高、Hadoop2.0在容错方面需要通过复制来处理容错而Hadoop 3.0不需要、数据平衡使用的平衡器不同等等。

三、Hadoop不同公司的发行版本

Hadoop 主要有三大发行版本: Apache、Cloudera、Hortonwork。Apache版本最原始（最基础）的版本，对于入门学习最好。

Cloudera在大型互联网企业中用的较多。Hortonworks文档较好。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。