hadoop和spark的区别和联系 spark与hadoop的关系

转载

IT剑客之家 2023-08-07 07:56:37

文章标签 hadoop和spark的区别和联系 spark hadoop big data 大数据 文章分类 Hadoop 大数据

一. 什么是Spark

二. Hadoop与Spark历史

三. Hadoop与Spark框架对比

四. Spark内置模块

五. Spark特点

六. Spark运行模式

七. Spark安装地址

一. 什么是Spark

Hadoop主要解决，海量数据的存储和海量数据的分析计算。

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

二. Hadoop与Spark历史

Hadoop的Yarn框架比Spark框架诞生的晚，所以Spark自己也设计了一套资源调度框架。

hadoop和spark的区别和联系 spark与hadoop的关系_spark

hadoop和spark的区别和联系 spark与hadoop的关系_big data_02

三. Hadoop与Spark框架对比

hadoop和spark的区别和联系 spark与hadoop的关系_hadoop和spark的区别和联系_03

四. Spark内置模块

hadoop和spark的区别和联系 spark与hadoop的关系_大数据_04

Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。

Spark SQL：是Spark用来操作结构化数据的程序包。通过Spark SQL，我们可以使用 SQL或者Apache Hive版本的HQL来查询数据。Spark SQL支持多种数据源，比如Hive表、Parquet以及JSON等。

Spark Streaming：是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API，并且与Spark Core中的 RDD API高度对应。

Spark MLlib：提供常见的机器学习功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。

Spark GraphX：主要用于图形并行计算和图挖掘系统的组件。

集群管理器：Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理器（Cluster Manager）上运行，包括Hadoop YARN、Apache Mesos，以及Spark自带的一个简易调度器，叫作独立调度器。

Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务；阿里利用GraphX构建了大规模的图计算和图挖掘系统，实现了很多生产系统的推荐算法；腾讯Spark集群达到8000台的规模，是当前已知的世界上最大的Spark集群。