大数据 spark2和spark3区别 spark大数据方案

转载

lingyuli 2024-02-23 11:21:34

文章标签 大数据 spark2和spark3区别大数据Spark 数据 Hadoop spark 文章分类 Spark 大数据

Spark(一)

(一)Spark的优势:

Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台
大数据项目的MapReduce 引擎的使用将下降，由Apache Spark 取代
2015年6月,spark最大的集群来自于腾讯-8000个节点

(二)Spark为什么会流行:

原因(一):优秀的数据模型和计算抽象.

磁盘的IO以及数据的序列化.
它可以让用户的显示的中间数据结果集保存在内存中.
中间数据在内存中，运行数据快、操作数据的API丰富，开发速度快.

原因(二):完善的生态圈

Spark Core：实现了 Spark 的基本功能，包含RDD、任务调度、内存管理、错误恢复、与存储系统交互等模块。
Spark SQL：是 Spark 用来操作结构化数据的程序包。通过 Spark SQL，我们可以使用 SQL操作数据。
Spark Streaming：是 Spark 提供的对实时数据进行流式计算的组件。提供了用来操作数据流的 API。
SparkMLlib：提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。
GraphX(图计算)：GraphX是Spark中用于图计算的API，性能良好，拥有丰富的功能和运算符，能在海量数据上自如地运行复杂的图算法。
集群管理器：Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。
★注意:
尽管Spark相对于Hadoop而言具有较大优势，但Spark并不能完全替代Hadoop，Spark主要用于替代Hadoop中的MapReduce计算模型。存储依然可以使用HDFS，但是中间结果可以存放在内存中；调度可以使用Spark内置的，也可以使用更成熟的调度系统YARN等
实际上，Spark已经很好地融入了Hadoop生态圈，并成为其中的重要一员，它可以借助于YARN实现资源调度管理，借助于HDFS实现分布式存储。
此外，Hadoop可以使用廉价的、异构的机器来做分布式存储与计算，但是，Spark对硬件的要求稍高一些，对内存与CPU有一定的要求。

(三)Spark介绍:

Apache Spark是用于大规模数据处理的统一分析引擎
官网:
http://spark.apache.org
http://spark.apachecn.org

大数据 spark2和spark3区别 spark大数据方案_数据

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：图像分类模型的原理图像分类的作用

下一篇：java hashmap按存入顺序排 java中hashmap的用法

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

大数据 spark2和spark3区别 spark大数据方案

大数据 spark2和spark3区别 spark大数据方案

Spark(一)

(一)Spark的优势:

(二)Spark为什么会流行:

(三)Spark介绍:

51CTO博客