写文章 Spark面试题(一) runzhliu 丁香园 大数据研发工程师 42 人 赞同了该文章这部分的关于 Spark面试题是我
一、什么是宽依赖,什么是窄依赖,哪些算子是宽依赖,哪些是窄依赖1、宽依赖:一个分区对应多个分区,这就表明有shuffle过程,父分区数据经过shuffle过程的hash分区器划分子rdd。例如:groupbykey   reducebykey   sortbykey等操作,shuffle可以理解为数据从原分区打乱重组到新分区2、窄依赖:一个分区对应一个分区,
转载 2023-08-11 17:17:03
136阅读
SortShuffle1 mapTask将map(聚合算子)或array(join算子)写入内存2 达到阀值发生溢写,溢写前根据key排序,分批写入磁盘,最终将所有临时文件合并成一个最终文件,并建立一份索引记录分区信息。一个mapTask最终形成一个文件。3 reduceTask拉取各个task中自己的分区数据去计算。和hadoop shuffle的区别1 MR没有所谓的DAG划分,一次MR任务就
转载 2023-07-17 22:41:34
85阅读
1.什么是sparkSpark 是一个用来实现快速而通用的集群计算的平台。2.Spark生态系统?spark core:spark 核心计算 spark sql: 对历史数据的交互式查询 spark streaming : 近实时计算 spark ml : 机器学习 spark graphx : 图计算3.常见的 分布式文件系统?hdfs fastdfs Tachyon TFS(淘宝用) GFS
转载 2024-01-11 13:20:06
113阅读
文章目录一、Spark 概念、模块1.相关概念:2.基本模块:二、Spark作业提交流程是怎么样的三、Spark on YARN两种方式的区别以及工作流程1.Yarn组件简介:2.Spark On Yarn的优势:3.Spark on yarn cluster 模式:4.Spark on yarn client 模式:5.这两种模式的区别:四、Spark内存管理1.堆内内存(On-heap Me
文章目录Spark核心——RDD概念特点创建方式RDD的分区依赖关系Spark的shuffle介绍Spark的 Partitioner 分区器都有哪些?Spark中的算子都有哪些RDD工作流?Spark运行模式(资源调度框架的使用,了解)?讲一下Spark 的运行架构一个spark程序的执行流程spark的stage是如何划分的Spark的 RDD容错机制。checkpoint 检查点机制?Sp
1、请讲述HDFS输入文件的具体步骤?1、Client向NameNode 提交需要上传文件的申请2、NameNode返回响应给Client,同意上传文件的请求3、Client向NameNode 申请子节点DataNode.4、NameNode 响应给Client它的子节点DataNode5、Client 向DataNode提交申请建立传输通道。6、DataNode 依次响应连接 (dn1,dn2,
转载 2023-08-08 02:15:29
87阅读
 Spark应用转换流程1、 spark应用提交后,经历了一系列的转换,最后成为task在每个节点上执行2、 RDD的Action算子触发Job的提交,生成RDD DAG3、 由DAGScheduler将RDD DAG转化为Stage DAG,每个Stage中产生相应的Task集合4、 TaskScheduler将任务分发到Executor执行5、
转载 2024-08-16 13:27:22
225阅读
1. kafka分区数如何设置?默认情况下 1 指定分区,按你指定的分区 2 未指定分区,但是指定了key,依据key的hashCode计算分区 3 未指定分区,且没有指定key,依据轮询算法计算分区2. kafka中消息传输一致中的最多一次、最少一次、恰好一次,是如何实现的?恰好一次:acks=-1 ,幂等机制 最多一次:acks=0 最少一次:acks=-1 or acks=13. Spark
转载 2024-02-17 09:35:04
93阅读
为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们开始spark+kafka:一般情况下面试的时候只要涉及到实时计算或者大批量计算,都会涉及到kafka和spark面试问题,两者一般是综合起来的的,因此我把他们放在一起进行总结,这一块的问题会比较多,将分不同纬度多次总结。 1)spark的执行流程?1.构建Spark Application的
转载 2023-10-20 22:13:54
71阅读
爬取数据后使用哪个数据库存储数据的,为什么?MongoDB 是使用比较多的数据库,这里以 MongoDB 为例,大家需要结合自己真实开发环境回答。原因:1.与关系型数据库相比,MongoDB 的优点如下。(1) 弱一致性(最终一致),更能保证用户的访问速度举例来说,在传统的关系型数据库中,一个 COUNT 类型的操作会锁定数据集,这样可以保证得到“当前”情况下的较精确值。这在某些情况下,例 如通过
很多人认为属于JQ的时代已经结束了!但是请不要忘记JQ自身还有一项非常牛的优势——兼容性!这是其它框架所不具备的!所以至少目前JQ还是有自己的用武之地的。在这里我将JQ的一些面试题进行了整理,希望对大家有所帮助!1、你为什么要使用jQuery?你觉得jquery有哪些好处?1、因为jQuery是轻量级的框架,大小不到30kb 2、它有强大的选择器,出色的DOM操作的封装 3、有可靠的事件处理机制(
转载 2023-07-15 18:13:59
54阅读
1、spark的有几种部署模式,每种模式特点?(☆☆☆☆☆) 1)本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类 local:只启动一个executor local[k]:启动 ...
转载 2021-10-26 23:39:00
115阅读
2评论
# Spark面试题解析及示例 ## 简介 Apache Spark是一个开源的分布式计算框架,用于高效处理大规模数据集的计算任务。它提供了简单易用的API,并支持多种编程语言,如Python、Java和Scala。在大数据处理和机器学习等领域,Spark已经成为非常受欢迎的工具。 本文将介绍一些常见的Spark面试题,并提供相应的代码示例。 ## 1. Spark的特点及优势 - **速度
原创 2023-07-23 08:42:49
82阅读
# Spark面试题解析与示例 Apache Spark是一种开源的分布式计算框架,提供了高速、强大的数据处理和分析能力。在Spark的使用过程中,我们可能会遇到一些常见的面试题。本文将以解析面试题的形式,介绍一些常见的Spark面试题,并提供相应的代码示例。 ## 1. 什么是Spark?为什么要使用SparkSpark是一种用于大规模数据处理的开源集群计算框架。与传统的MapRedu
原创 2023-08-01 15:40:06
84阅读
Spark Core面试篇01 随着Spark技术在企业中应用越来越广泛,Spark成为大数据开发必须掌握的技能。前期分享了很多关于Spark的学习视频和文章,为了进一步巩固和掌握Spark,在原有spark专刊基础上,新增《Spark面试2000题》专刊,题集包含基础概念、原理、编码开发、性能调优、运维、源代码以及Spark周边生态系统等。部分题集来源于互联网,由梅峰谷志愿者收集和整理,部分题
转载 2024-05-14 15:38:40
86阅读
引起shuffle的算子所谓shuffle就是指把数据打乱重新组合。指数据从map task输出到reduce task输入的这段过程。引起shuffle的算子有:repartition类的操作:repartition, coaleasce等ByKey类的操作:reduceByKey, groupByKey,  SortByKey等。相同的Key会到同一个节点上进行处理。join类的操作
转载 2023-05-18 15:17:12
273阅读
文章目录1.vue双向绑定的原理2.解释单向数据流和双向数据绑定3.如何去除url中的“#”(history模式和hash模式的区别)4.对MVC、MVVM的理解5.介绍虚拟DOM树6.vue生命周期(4个阶段,8个钩子函数)7.组件间通信8.vue-router路由实现9.v-if 和 v-show 的区别10.$route 和 $router 的区别11.vue组件data为什么必须是函数1
转载 2024-06-29 07:44:52
65阅读
作为一个后端开发人员,不只是要求开发人员需要掌握 Redis,也要求运维人员也要懂 Redis。由于 Redis 的运用广泛,我们也知道它的重要性,至此面试中经常被问到。在这 80道 Redis 面试题中,考察知识点包括基础、数据结构指令、高并发处理、持久化、集群、复制、Redis 应用等。如果你最近在准备面试或者在学习 Redis,我相信本次小编可以满足你的面试需要。也希望我花了半个月整理的这些
转载 2024-01-19 13:32:39
36阅读
Ajax是不能跨域操作的协议、域名、端口都相同才同域,否则都是跨域1、用jquery封装的ajax$.ajax({ cache :false, //是否在缓存中读取数据,默认为true type : "post", //请求类类型 url : "haha", //接口地址 datatype : 'json', //服务器返回的数据类型 success :
转载 2024-06-28 05:28:36
13阅读
  • 1
  • 2
  • 3
  • 4
  • 5