从狭义上来说,Hadoop就是指Apache Hadoop项目所包含的软件。从广义上来说,Hadoop是指大数据的一个生态圈,包括很多其它的软件框架。

hadoop生态圈架构详解 hadoop生态圈是什么_大数据

HDFS是Hadoop体系中数据存储管理的基础,它是一个分布式文件系统。

       MapReduce是面向大型数据处理的并行计算模型和方法,仅适合离线数据处理。

       YARN就是通用资源管理系统,为上层应用提供统一资源管理调度。

       HBase是一个建立在HDFS之上,面向列的针对结构化和半结构化数据的可伸缩、高可靠、高性能、分布式的动态数据库。

       Hive是一种数据仓库技术,用于查询和管理存储在分布式环境下的大数据集,通常用于离线分析。

       Kafka是一种高吞吐量的分布式消息系统,它主要用于处理活跃的流式数据。

       Sqoop主要用于传统关系型数据库和Hadoop之间传输数据。

       Flume是开源的海量日志收集系统。

       Spark是开源的类MapReduce的通用并行计算框架,在内存中运行时速度很快。

       Storm是开源的一个分布式的、容错的实时处理系统,适合流处理和连续计算。

       Oozie是用于Hadoop 平台的一种工作流调度引擎,用于协调多个Hadoop作业的执行。

       Azkaban是开源的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。

       Mahout是一个开源的数据挖掘算法库。

       ZooKeeper是一个分布式数据管理和协调框架,能够保证分布式环境中数据的一致性,是Hadoop组件的一个监管系统。

                                                                                                            

                                                                                                                            王亚辉