spark repartition一定会发生shuffle spark reduce

转载

mob64ca1407216b 2023-12-14 20:03:36

文章标签 基本概念 Spark 迭代 Hadoop Apache 文章分类 Spark 大数据

第一节、初识Spark

一、Spark简介

1.Spark官网： http://spark.apache.org/

官方介绍为：Apache Spark™ is a unified analytics engine for large-scale data processing.

2.对Spark的总结

Spark是Apache的开源项目（一种灵活的框架），专为大规模数据处理（批处理、流计算、交互式计算）而设计的快速计算引擎。

3.Spark对比MapReduce

(1)Mapreduce局限性：

①仅支持map和reduce操作，编程简单但是代码量大

②处理效率较低：Map中间结果会写入磁盘，多个MapReduce之间通过HDFS进行交换数据；Map和Reduce端均进行排序；任务调度和启用的开销较大。

③不适合迭代计算（例如对机器学习和图计算等），交互式处理（数据挖掘）和流处理等。

④编程不灵活。

(2)Spark的优势

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark支持批处理计算、迭代计算（复杂算法）、交互式计算（支持类SQL语句，能快速进行数据分析）和流式计算（对数据进行实时处理分析）。

二、Spark生态

1.总的来说：

spark repartition一定会发生shuffle spark reduce_Hadoop

2.Spark向下支持YARN、Mesos、Kubernetes等资源管理框架，可以从HDFS、HBase、Hive等数据源访问数据。

spark repartition一定会发生shuffle spark reduce_Hadoop_02

3.Spark向上支持SQL、Streaming、MLlib、GraphX等计算方式。

spark repartition一定会发生shuffle spark reduce_Spark_03

三、Spark特点

1.计算速度快

①内存计算，提供了Cache机制来支持反复迭代的计算，减少数据读取的IO开销

②DAG引擎，计算的中间结果不会存储在磁盘里

③使用多线程池来减少task开销，shuffle阶段避免了不必要的sort操作，减少磁盘IO操作

2.支持多种语言（java，scala、Python、R）

3.一个框架支持多种计算

4.运行环境多样

①集成于Hadoop，支持多种数据源（上面提到）

②可以和yarn集成，还可以运行在Mesos上（Yarn和Mesos是同级的）

③Spark也可以脱离Hadoop独立运行

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Java 前端js 循环map javascript循环结构

下一篇：qt 开源插件架构 qt插件化开发框架

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯