hadoop生态圈架构图 hadoop生态圈的构成

转载

mob64ca13f40f3d 2023-08-30 13:24:01

文章标签 hadoop生态圈架构图 hadoop 分布式大数据数据库 文章分类 Hadoop 大数据

本文目录

Hadoop概述

什么是Hadoop？

Hadoop生态圈

1、概述
2、HDFS
3、MapReduce
4、YARN
5、HBase
6、ZooKeeper
7、Hive
8、Pig
9、Sqoop
10、Flume
11、Oozie
12、Mahout

Hadoop概述

什么是Hadoop？

Hadoop是Apache基金会旗下的一个分布式系统基础架构。
主要包括分布式文件系统HDFS、分布式计算系统MapReduce和分布式资源管理系统YARN。

Hadoop生态圈

1、概述

狭义的Hadoop：是一个适合大数据分布式存储和分布式计算的平台，包括HDFS、MapReduce和YARN。

广义的Hadoop：指以Hadoop为基础的生态圈，是一个很庞大的体系，Hadoop只是其中最重要、最基础的一部分；生态圈中的每个子系统只负责解决某一个特定的问题域（甚至可能更窄），它并不是一个全能系统，而是多个小而精的系统。Hadoop生态圈的主要构成如下图：

hadoop生态圈架构图 hadoop生态圈的构成_数据库

2、HDFS

HDFS：是一个分布式文件系统。

3、MapReduce

MapReduce是一个分布式、并行处理的编程模型。

4、YARN

是一个分布式资源管理系统，主要负责整个系统的资源管理和调度。

5、HBase

HBase是一个建立在HDFS之上的面向列的数据库，用于快速读/写大量数据。HBase使用ZooKeeper进行管理，以确保所有组件都能正常运行。

6、ZooKeeper

ZooKeeper是分布式协调服务的框架。

7、Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，可以将SQL语句转换为MapReduce任务运行。
Hive的执行原理就是：将SQL语句翻译为MapReduce作业，并提交到Hadoop集群上运行。

8、Pig

Pig是一个用于并行计算的高级数据流语言和执行框架，有一套和SQL类似的执行语句，处理的对象时HDFS上的文件。Pig的数据处理语言采取数据流方式，一步一步地进行处理。

9、Sqoop

Sqoop是一个用于在关系数据库、数据仓库（Hive）和Hadoop之间转移数据的框架。可以借助Sqoop完成关系型数据库到HDFS、Hive、HBase等Hadoop生态圈中框架的数据导入导出操作，其底层也是通过MapReduce作业来实现的。

10、Flume

Flume是由Cloudera提供的一个分布式、高可靠、高可用的服务，是用于分布式的海量日志的高效收集、聚合、移动/传输系统的框架；Flume是一个基于流式数据的非常简单的（只需要一个配置文件）、灵活的、健壮的、容错的架构。

11、Oozie

Oozie是一个工作流调度引擎，在Oozie上可以执行MapReduce、Hive、Spark等不同类型的单一或者具有依赖性（后一个作业的执行依赖于前一个或者多个作业的成功执行）的作业。类似的在大数据中使用的工作流调度引擎还有Azkaban。

12、Mahout

Mahout是一个机器学习和数据挖掘库，它提供的MapReduce包含很多实现，包括聚类算法、回归测试、统计建模。

ps：制作不易，请留下你的小心心，望多多支持，后续更新中。。。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：javaxml源代码 java源代码大全

下一篇：架构师是吃青春饭的吗架构师累吗

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

hadoop生态圈架构图 hadoop生态圈的构成

hadoop生态圈架构图 hadoop生态圈的构成

本文目录

Hadoop概述

什么是Hadoop？

Hadoop生态圈

1、概述

2、HDFS

3、MapReduce

4、YARN

5、HBase

6、ZooKeeper

7、Hive

8、Pig

9、Sqoop

10、Flume

11、Oozie

12、Mahout

51CTO博客