一、大数据:

大数据包括巨大规模(Volume)、超高速度(Velocity)、类型可扩展(Variety)的数据,即3V,大数据包括三种类型的数据:

1)结构化数据:关系型数据

2)半结构化数据:XML数据

3)非结构化数据:Word文档、PDF文档、文本、媒体日志

 

二、hadoop:

hadoop是大数据的解决方案,是Apache下一个开源子项目,用Java实现的,是一种分布式系统基础架构。

hadoop的核心:

1)海量数据存储(HDFS)

2)海量数据分析(MapReduce)

3)资源管理调度(YARN)

hadoop特点:

1)扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。

2)成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

3)高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。

4)可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。

 

三、hadoop生态:

hadoop同类型产品 hadoop数据类型有哪些_hadoop同类型产品

 

1、HDFS(分布式文件系统)

特点:良好的扩展性,高容错性,适合PB级以上数据存储

应用场景:海量数据可靠存储、数据归档

2、Yarn(资源管理系统)

Yarn是Hadoop2.0新增的系统,负责集群的资源管理和调度,使得多种计算框架可以运行在一个集群中。

3、MapReduce(分布式计算框架)

4、Hive(基于MR的数据仓库)

Hive定义了一种类似SQL查询语言的HiveQL查询语言,除了不支持更新、索引和实物,几乎SQL的其他特征都能支持。

应用场景:日志分析、对维度数据分析、海量结构化数据离线分析

5、Pig(数据仓库)

Pig是构建在Hadoop之上的数据仓库,定义了一种类似于SQL的数据流语言–Pig Latin,Pig Latin可以完成排序、过滤、求和、关联等操作,可以支持自定义函数。

6、Mahout(数据挖掘库)

Mahout是基于Hadoop的机器学习和数据挖掘的分布式计算框架。它实现了三大算法:推荐、聚类、分类。

7、HBase(分布式数据库)

特点:高可靠性、高性能、面列项、良好的扩展性

8、Zookeeper(分布式协作服务)

Zookeeper解决分布式环境下数据管理问题:统一命名、状态同步、集群管理、配置同步

9、Sqoop(数据同步工具)

Sqoop是连接Hadoop与传统数据库之间的桥梁,它支持多种数据库,包括MySQL、DB2等;插拔式,用户可以根据需要支持新的数据库。

10、Flume(日志收集工具)

特点:分布式、高可靠性、高容错性、易于定制与扩展

11、Oozie(作业流调度系统)

 

四、hadoop版本介绍:

Hadoop 1.0:第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为Hadoop 1.x和0.21.X,0.22.x。

Hadoop 2.0:第二代Hadoop,为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题而提出的。提出了全新的资源管理框架YARN(Yet Another Resource Negotiator),它将JobTracker中的资源管理和作业控制功能分开,分别由组件ResourceManager和NodeManager实现,其中,ResourceManager负责所有应用程序的资源分配,而NodeManager仅负责管理一个应用程序。