从狭义上来说,Hadoop就是指Apache Hadoop项目所包含的软件。从广义上来说,Hadoop是指大数据的一个生态圈,包括很多其它的软件框架。
HDFS是Hadoop体系中数据存储管理的基础,它是一个分布式文件系统。
MapReduce是面向大型数据处理的并行计算模型和方法,仅适合离线数据处理。
YARN就是通用资源管理系统,为上层应用提供统一资源管理调度。
HBase是一个建立在HDFS之上,面向列的针对结构化和半结构化数据的可伸缩、高可靠、高性能、分布式的动态数据库。
Hive是一种数据仓库技术,用于查询和管理存储在分布式环境下的大数据集,通常用于离线分析。
Kafka是一种高吞吐量的分布式消息系统,它主要用于处理活跃的流式数据。
Sqoop主要用于传统关系型数据库和Hadoop之间传输数据。
Flume是开源的海量日志收集系统。
Spark是开源的类MapReduce的通用并行计算框架,在内存中运行时速度很快。
Storm是开源的一个分布式的、容错的实时处理系统,适合流处理和连续计算。
Oozie是用于Hadoop 平台的一种工作流调度引擎,用于协调多个Hadoop作业的执行。
Azkaban是开源的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。
Mahout是一个开源的数据挖掘算法库。
ZooKeeper是一个分布式数据管理和协调框架,能够保证分布式环境中数据的一致性,是Hadoop组件的一个监管系统。
王亚辉