零基础学习大数据Hadoop需要什么准备？Hadoop如何发展起来的？

原创

a大数据 2019-06-17 11:13:41 ©著作权

文章标签 java 大数据大数据分析大数据处理数据挖掘 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者a大数据的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，是用Java语言开发的一个开源分布式计算平台，适合大数据的分布式存储和计算平台。今天加米谷大数据就来简单介绍一下Hadoop的简史，以及学习Hadoop前要做哪些准备。狭义上，Hadoop就是单独指代Hadoop这个软件；

广义上，Hadoop指代大数据的一个生态圈，包括很多其他的软件。

Hadoop的起源

1、2001年，Nutch问世。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题；

2、2003-2004年，Google发布论文：GFS、MapReduce，受此启发的Doug Cutting等人实现了NDFS（HDFS的前身）和MapReduce机制，使Nutch性能飙升；

GFS：Google的分布式文件系统Google File System

MapReduce：Google的MapReduce开源分布式并行计算框架

3、2005年，Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会；

4、2006年，Hadoop（HDFS+MapReduce）从Nutch中剥离成为独立项目。Doug Cutting加入Yahoo，领导Hadoop的开发。

.在入门学习大数据的过程当中有遇见学习，行业，缺乏系统学习路线，系统学习规划，欢迎你加入我的大数据学习交流裙：529867072 ，裙文件有我这几年整理的大数据学习手册，开发工具，PDF文档书籍，你可以自行下载。

Hadoop的发展简史

5、2006年，Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展；Yahoo建设了第一个Hadoop集群用于开发；4月，第一个Apache Hadoop发布；11月，Google发表了Bigtable论文，Hbase的创建的灵感来源；

BigTable：一个大型的分布式数据库

演变关系：

GFS—->HDFS

Google MapReduce—->Hadoop MapReduce

BigTable—->HBase

6、2007年，第一个Hadoop用户组会议召开，社区贡献开始急剧上升；同年，Facebook开始使用Hadoop，百度开始使用Hadoop做离线处理，中国移动开始研究使用Hadoop；

7、2008年，Hive、HBase问世，Hadoop成为Apache顶级项目。8月，第一个Hadoop商业化公司Cloudera成立。同年，淘宝开始使用Hadoop；

8、2009年-2012年，Hadoop不断发展。

2009年Cloudera推出CDH平台（首个Hadoop发行版），完全由开放源码软件组成。《Hadoop权威指南》初版出版（被誉为Hadoop圣经）；2010年，HBase、Hive( Facebook) 、Pig脱离Hadoop，均成为Apache顶级项目；Hadoop社区建立大量新组件（Crunch，Sqoop，Flume，Oozie等）来扩展Hadoop的使用场景和可用性；2011年，ZooKeeper 脱离Hadoop，成为Apache顶级项目；加米谷大数据培训机构，6月大数据开发0基础班、提高班，即将开课，预报名中... 2012年，Yarn成为Hadoop子项目；

9、2014年，Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎，并成为Apache基金会顶级项目。

Hadoop能干什么？

大数据存储：分布式存储

日志处理：擅长日志分析

ETL：数据抽取到oracle、mysql、DB2、mongdb及主流数据库

机器学习: 比如Apache Mahout项目

搜索引擎：Hadoop + lucene实现

数据挖掘：目前比较流行的广告推荐，个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。

学习Hadoop前的准备：

准备电脑（用于学习）：内存最少8G、CPU起码四核（cpu i5 系列）

支持平台：Linux(CentOS)（产品开发和运行的平台）