spark核心思想 spark的核心概念

关注 mob64ca13fba42b

spark核心思想 spark的核心概念

转载

mob64ca13fba42b 2024-03-03 22:30:13

文章标签 spark核心思想数据 spark Hadoop 文章分类 Spark 大数据

1. Spark是什么?

Spark是一个并行数据处理框架。它允许开发快速、统一的大数据应用程序，将批处理、流处理和交互分析结合起来。

2. RDD是什么?

Spark的主要核心抽象称为弹性分布式数据集。RDD是满足这些属性的分区数据的集合。不可变、分布式、延迟计算、可捕获是常见的RDD属性。

3. Immutable 是什么?

一旦创建并赋值，就不可能更改，这个属性称为不变性。Spark在默认情况下是不可变的，它不允许更新和修改。但可以转换成新的RDD。

4. Spark 内存计算？

将所有数据保存在内存中进行计算，而不是保存到磁盘中。因此Spark捕捉数据的速度比Hadoop快100倍。（可配置）

5. Spark engine 的职责?

Spark负责跨集群调度、分发和监视应用程序。

6. 常见的Spark生态系统？

Spark SQL
Spark streaming
机器学习算法的MLLib
GraphX用于图形计算

7. 分区是什么?

分区是数据的逻辑划分，这一思想源于Map-reduce (split)。专门为处理数据而派生的逻辑数据。小块数据也可以支持可伸缩性并加快处理速度。输入数据、中间数据和输出数据都是分区的RDD。

8. spark如何对数据进行分区?

Spark使用map-reduce API对数据进行分区。在输入格式中，我们可以创建多个分区。在默认情况下，HDFS块大小是分区大小(为了获得最佳性能)，但它“可以像Split那样更改分区大小”。

9. Spark如何存储数据?

Spark是一个处理引擎，没有存储引擎。它可以从任何存储引擎(如HDFS、S3和其他数据资源)检索数据。

10 .什么是SparkCore?

SparkCore是apache spark framework的一个基础引擎。内存管理、故障诊断、调度和监视作业以及与存储系统的交互是Spark的主要功能。

11. SparkSQL与HQL和SQL有何不同?

SparkSQL是sparkCore引擎上的一个特殊组件，它支持SQL和HiveQueryLanguage而不改变任何语法。可以连接SQL表和HQL表。

12. 我们什么时候使用SPARK STREAMING?

Spark流是一种实时处理流数据的API。Spark流从不同的资源收集流数据，如web服务器日志文件、社交媒体数据、股票市场数据或Hadoop生态系统，如Flume和Kafka。

13. Spark流API如何工作?

程序员在配置中设置一个特定的时间，在这个时间内有多少数据进入Spark，该数据作为批处理进行分离。
输入流(DStream)进入spark流，被框架分解成分批的小块，然后送入spark引擎进行处理。
Spark Streaming API将批量数据传递给核心引擎。核心引擎可以以流分批的形式生成最终结果。输出也采用batch的形式。

14. spark中的变换是什么?

Spark在RDDs上提供了两种特殊的操作，称为转换和操作。
转换遵循惰性操作并临时保存数据，直到调用该操作。
每个转换生成/返回新的RDD。
转换示例:Map、flatMap、groupByKey、reduceByKey、filter、co-group、join、sortByKey、Union、distinct、sample都是常见的spark转换。

15. Action作用是什么?

操作是RDD的操作，该值返回到spar驱动程序，
该程序启动在集群上执行的作业-lazy 的 trigger。
转换的输出是动作的输入。
reduce, collect, take采样，take, first, saveAsTextfile, saveAsSequenceFile, countByKey, foreach是Apache spark中常见的操作。

16. 什么是RDD lineage?

是一个重建丢失分区的RDD进程。
Spark不会在内存中复制数据，如果数据丢失，Rdd会使用lineage来重建丢失的数据。
每个RDD都记得如何从其他数据集构建RDD。

17.Spark中的Map和flatMap是什么?

是处理数据的特定行或行。
在FlatMap中，每个输入项都可以映射到多个输出项(因此函数应该返回一个Seq，而不是单个项)。最常用来返回数组元素。

18.什么是广播变量?

广播变量允许程序员在每台机器上保持一个缓存的只读变量，而不是将其副本与任务一起发送。
Spark支持两种类型的共享变量，称为广播变量(如Hadoop分布式缓存)和累加器(如Hadoop计数器)。
广播变量存储为数组缓冲区，它向工作节点发送只读值。

19. Accumulator是什么?

Spark accumulator类似于Hadoop计数器，可以计算事件的数量和作业期间发生的事情。
只有驱动程序可以读取累加器值。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：ACCESS 如何设置宏导入数据 access宏怎么用

下一篇：nginx mac安装 mac如何部署nginx

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册