Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台。今天加米谷大数据就来简单介绍一下Hadoop的简史,以及学习Hadoop前要做哪些准备。 狭义上,Hadoop就是单独指代Hadoop这个软件;

广义上,Hadoop指代大数据的一个生态圈,包括很多其他的软件。

Hadoop的起源

1、2001年,Nutch问世。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题;

2、2003-2004年,Google发布论文:GFS、MapReduce,受此启发的Doug Cutting等人实现了NDFS(HDFS的前身)和MapReduce机制,使Nutch性能飙升;

GFS:Google的分布式文件系统Google File System

MapReduce:Google的MapReduce开源分布式并行计算框架

3、2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会;

4、2006年,Hadoop(HDFS+MapReduce)从Nutch中剥离成为独立项目。Doug Cutting加入Yahoo,领导Hadoop的开发。

.在入门学习大数据的过程当中有遇见学习,行业,缺乏系统学习路线,系统学习规划,欢迎你加入我的大数据学习交流裙:529867072 ,裙文件有我这几年整理的大数据学习手册,开发工具,PDF文档书籍,你可以自行下载。

Hadoop的发展简史

5、2006年,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展;Yahoo建设了第一个Hadoop集群用于开发;4月,第一个Apache Hadoop发布;11月,Google发表了Bigtable论文,Hbase的创建的灵感来源;

BigTable:一个大型的分布式数据库

演变关系:

GFS—->HDFS

Google MapReduce—->Hadoop MapReduce

BigTable—->HBase

6、2007年,第一个Hadoop用户组会议召开,社区贡献开始急剧上升;同年,Facebook开始使用Hadoop,百度开始使用Hadoop做离线处理,中国移动开始研究使用Hadoop;

7、2008年,Hive、HBase问世,Hadoop成为Apache顶级项目。8月,第一个Hadoop商业化公司Cloudera成立。同年,淘宝开始使用Hadoop;

8、2009年-2012年,Hadoop不断发展。

2009年Cloudera推出CDH平台(首个Hadoop发行版),完全由开放源码软件组成。《Hadoop权威指南》初版出版(被誉为Hadoop圣经);2010年,HBase、Hive( Facebook) 、Pig脱离Hadoop,均成为Apache顶级项目;Hadoop社区建立大量新组件(Crunch,Sqoop,Flume,Oozie等)来扩展Hadoop的使用场景和可用性;2011年,ZooKeeper 脱离Hadoop,成为Apache顶级项目;加米谷大数据培训机构,6月大数据开发0基础班、提高班,即将开课,预报名中... 2012年,Yarn成为Hadoop子项目;

9、2014年,Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎,并成为Apache基金会顶级项目。

Hadoop能干什么?

大数据存储:分布式存储

日志处理:擅长日志分析

ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库

机器学习: 比如Apache Mahout项目

搜索引擎:Hadoop + lucene实现

数据挖掘:目前比较流行的广告推荐,个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。

学习Hadoop前的准备:

准备电脑(用于学习):内存最少8G、CPU起码四核(cpu i5 系列)

支持平台:Linux(CentOS)(产品开发和运行的平台)

所需软件:以Linux为例

Java8.0,必须安装,建议选择Oracle公司发行的Java版本。 ssh 必须安装并且保证 sshd一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。 安装所需软件:以Linux为例

$ sudo yum install ssh

$ sudo yum install rsync

下载Hadoop的发行版并解压安装