hadoop同类型产品 hadoop数据类型有哪些

转载

ctaxnews 2023-05-29 20:34:05

文章标签 hadoop同类型产品 hadoop 数据 Hadoop 文章分类 Hadoop 大数据

一、大数据：

大数据包括巨大规模（Volume）、超高速度（Velocity）、类型可扩展（Variety）的数据，即3V，大数据包括三种类型的数据：

1）结构化数据：关系型数据

2）半结构化数据：XML数据

3）非结构化数据：Word文档、PDF文档、文本、媒体日志

二、hadoop：

hadoop是大数据的解决方案，是Apache下一个开源子项目，用Java实现的，是一种分布式系统基础架构。

hadoop的核心：

1）海量数据存储(HDFS)

2）海量数据分析（MapReduce）

3）资源管理调度（YARN）

hadoop特点：

1）扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据。

2）成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

3）高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。

4）可靠性（Reliable）：hadoop能自动地维护数据的多份副本，并且在任务失败后能自动地重新部署（redeploy）计算任务。

三、hadoop生态：

hadoop同类型产品 hadoop数据类型有哪些_hadoop同类型产品

1、HDFS（分布式文件系统）

特点：良好的扩展性，高容错性，适合PB级以上数据存储

应用场景：海量数据可靠存储、数据归档

2、Yarn（资源管理系统）

Yarn是Hadoop2.0新增的系统，负责集群的资源管理和调度，使得多种计算框架可以运行在一个集群中。

3、MapReduce（分布式计算框架）

4、Hive（基于MR的数据仓库）

Hive定义了一种类似SQL查询语言的HiveQL查询语言，除了不支持更新、索引和实物，几乎SQL的其他特征都能支持。

应用场景：日志分析、对维度数据分析、海量结构化数据离线分析

5、Pig（数据仓库）

Pig是构建在Hadoop之上的数据仓库，定义了一种类似于SQL的数据流语言–Pig Latin,Pig Latin可以完成排序、过滤、求和、关联等操作，可以支持自定义函数。

6、Mahout（数据挖掘库）

Mahout是基于Hadoop的机器学习和数据挖掘的分布式计算框架。它实现了三大算法：推荐、聚类、分类。

7、HBase（分布式数据库）

特点：高可靠性、高性能、面列项、良好的扩展性

8、Zookeeper（分布式协作服务）

Zookeeper解决分布式环境下数据管理问题：统一命名、状态同步、集群管理、配置同步

9、Sqoop（数据同步工具）

Sqoop是连接Hadoop与传统数据库之间的桥梁，它支持多种数据库，包括MySQL、DB2等；插拔式，用户可以根据需要支持新的数据库。

10、Flume（日志收集工具）

特点：分布式、高可靠性、高容错性、易于定制与扩展

11、Oozie（作业流调度系统）

四、hadoop版本介绍：

Hadoop 1.0：第一代Hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其中，HDFS由一个NameNode和多个DataNode组成，MapReduce由一个JobTracker和多个TaskTracker组成，对应Hadoop版本为Hadoop 1.x和0.21.X，0.22.x。

Hadoop 2.0：第二代Hadoop，为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题而提出的。提出了全新的资源管理框架YARN(Yet Another Resource Negotiator)，它将JobTracker中的资源管理和作业控制功能分开，分别由组件ResourceManager和NodeManager实现，其中，ResourceManager负责所有应用程序的资源分配，而NodeManager仅负责管理一个应用程序。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。