Hadoop和Spark是复杂的框架,每个框架都实现了可以单独或一起工作的不同技术。因此,尝试使彼此平行可能会丢失更广泛的画面。

但是现实是,很多公司都在使用这两者,Hadoop用于维护和实施大数据分析,而.Spark用于ETL和SQL批处理操作,涉及的是大型数据集,物联网和ML分配。

Hadoop组件:


  • HDFS, 一种用于将大数据跨入分类体系结构中的各个节点的系统。
  • NameNode, 一个控制和运行DataNode的系统,读取集群中所有记录的元数据和完成的每一步。
  • DataNodes是在每台设备. 上运行的系统,用于存储实际数据,协助来自客户端的读写请求并维护数据块。
  • YARN, 该组件通过指定资源并通过Resource and Node Manager调度任务来执行所有处理动作。
  • MapReduce,一 个组件, 可在Hadoop集群. 上执行所有必要的计算和数据处理。

Spark组件:


  • Spark Core是用于大规模通信和已分配数据处理的组件,具有进行内存监视和故障改善,在集群上分配和控制作业的资格。
  • 用于处理实时流数据的流。
  • Spark SQL是将关系处理与可操作编程API结合在一起的元素。
  • GraphX组件 是用于图形和图形并行估计的API。
  • MLlib是用于实现机器学习过程的ML库。

这些框架是用于处理业务中大数据的两个最引人注目的传播系统。Hadoop通 常通过MapReduce范式用于磁盘密集型服务,而Spark则更易于管理, 但价格更高。两者都是Apache顶级服务,通常会同时使用,尽管在选择它们时必须了解它们的特殊性。