spark运行流程  1.Driver创建一个sparkContext2.sparkContext向资源管理器注册并申请启动executor,资源管理器启动executor3.executor向sparkContext申请task4.sparkContext将应用程序分发给executor5.sparkContext建成DAG图,DAGScheduler将DAG图解析成stag
转载 2023-08-07 20:23:57
90阅读
SortShuffle1 mapTask将map(聚合算子)或array(join算子)写入内存2 达到阀值发生溢写,溢写前根据key排序,分批写入磁盘,最终将所有临时文件合并成一个最终文件,并建立一份索引记录分区信息。一个mapTask最终形成一个文件。3 reduceTask拉取各个task中自己的分区数据去计算。和hadoop shuffle的区别1 MR没有所谓的DAG划分,一次MR任务就
转载 2023-07-17 22:41:34
85阅读
1. kafka分区数如何设置?默认情况下 1 指定分区,按你指定的分区 2 未指定分区,但是指定了key,依据key的hashCode计算分区 3 未指定分区,且没有指定key,依据轮询算法计算分区2. kafka中消息传输一致中的最多一次、最少一次、恰好一次,是如何实现的?恰好一次:acks=-1 ,幂等机制 最多一次:acks=0 最少一次:acks=-1 or acks=13. Spark
转载 2024-02-17 09:35:04
93阅读
 Spark应用转换流程1、 spark应用提交后,经历了一系列的转换,最后成为task在每个节点上执行2、 RDD的Action算子触发Job的提交,生成RDD DAG3、 由DAGScheduler将RDD DAG转化为Stage DAG,每个Stage中产生相应的Task集合4、 TaskScheduler将任务分发到Executor执行5、
转载 2024-08-16 13:27:22
225阅读
写文章 Spark面试题(一) runzhliu 丁香园 大数据研发工程师 42 人 赞同了该文章这部分的关于 Spark面试题是我
为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们开始spark+kafka:一般情况下面试的时候只要涉及到实时计算或者大批量计算,都会涉及到kafka和spark面试问题,两者一般是综合起来的的,因此我把他们放在一起进行总结,这一块的问题会比较多,将分不同纬度多次总结。 1)spark的执行流程?1.构建Spark Application的
转载 2023-10-20 22:13:54
71阅读
一、什么是宽依赖,什么是窄依赖,哪些算子是宽依赖,哪些是窄依赖1、宽依赖:一个分区对应多个分区,这就表明有shuffle过程,父分区数据经过shuffle过程的hash分区器划分子rdd。例如:groupbykey   reducebykey   sortbykey等操作,shuffle可以理解为数据从原分区打乱重组到新分区2、窄依赖:一个分区对应一个分区,
转载 2023-08-11 17:17:03
136阅读
Spring面试题总结一、Spring是什么?Spring是一个轻量级Java开发框架,目的是为了解决企业级应用开发的业务逻辑层和其他各层的耦合问题。解决企业级应用开发的复杂性,简化Java开发。二、Spring有哪些模块1.Spring Core框架的最基础部分,提供 IoC 容器,对 bean 进行管理,它主要的组件就是BeanFactory, 是工厂模式的实现。2.Spring Contex
转载 2024-04-12 14:24:32
50阅读
序言凡事预则立,不预则废。能读到这里的人,我相信都是这个世界上的“有心人”,还是那句老话:上天不负有心人!我相信你的每一步努力,都会收获意想不到的回报。Spring/Spring MVC1. 为什么要使用 spring?spring 提供 ioc 技术,容器会帮你管理依赖的对象,从而不需要自己创建和管理依赖对象了,更轻松的实现了程序的解耦。spring 提供了事务支持,使得事务操作变的更加方便。s
1、spark的有几种部署模式,每种模式特点?(☆☆☆☆☆) 1)本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类 local:只启动一个executor local[k]:启动 ...
转载 2021-10-26 23:39:00
115阅读
2评论
Spark Core面试篇01 随着Spark技术在企业中应用越来越广泛,Spark成为大数据开发必须掌握的技能。前期分享了很多关于Spark的学习视频和文章,为了进一步巩固和掌握Spark,在原有spark专刊基础上,新增《Spark面试2000题》专刊,题集包含基础概念、原理、编码开发、性能调优、运维、源代码以及Spark周边生态系统等。部分题集来源于互联网,由梅峰谷志愿者收集和整理,部分题
转载 2024-05-14 15:38:40
86阅读
# Spark面试题解析及示例 ## 简介 Apache Spark是一个开源的分布式计算框架,用于高效处理大规模数据集的计算任务。它提供了简单易用的API,并支持多种编程语言,如Python、Java和Scala。在大数据处理和机器学习等领域,Spark已经成为非常受欢迎的工具。 本文将介绍一些常见的Spark面试题,并提供相应的代码示例。 ## 1. Spark的特点及优势 - **速度
原创 2023-07-23 08:42:49
82阅读
# Spark面试题解析与示例 Apache Spark是一种开源的分布式计算框架,提供了高速、强大的数据处理和分析能力。在Spark的使用过程中,我们可能会遇到一些常见的面试题。本文将以解析面试题的形式,介绍一些常见的Spark面试题,并提供相应的代码示例。 ## 1. 什么是Spark?为什么要使用SparkSpark是一种用于大规模数据处理的开源集群计算框架。与传统的MapRedu
原创 2023-08-01 15:40:06
84阅读
引起shuffle的算子所谓shuffle就是指把数据打乱重新组合。指数据从map task输出到reduce task输入的这段过程。引起shuffle的算子有:repartition类的操作:repartition, coaleasce等ByKey类的操作:reduceByKey, groupByKey,  SortByKey等。相同的Key会到同一个节点上进行处理。join类的操作
转载 2023-05-18 15:17:12
273阅读
​​2021年大数据肌肉猿公众号奖励制度​​1. Spark 的运行流程? Spark运行流程具体运行流程如下:SparkContext 向资源管理器注册并向资源管理器申请运行 Executor资源管理器分配 Executor,然后资源管理器启动 ExecutorExecutor 发送心跳至资源管理器SparkContext 构建 DAG 有向无环图将 DAG 分解成 Stage(TaskSet)
原创 2021-12-15 10:38:47
329阅读
目录一、Java内存模型1. 我们开发人员编写的Java代码是怎么让电脑认识的2. 为什么说java是跨平台语言3. Jdk和Jre和JVM的区别4. 说一下 JVM由那些部分组成,运行流程是什么?5. 说一下 JVM 运行时数据区6. 详细的介绍下程序计数器?(重点理解)7. 详细介绍下Java虚拟机栈?(重点理解)8. 你能给我详细的介绍Java堆吗?(重点理解)9. 能不能解释一下本地
转载 1月前
0阅读
v-if 和 v-for哪个优先级更高?如果两个同时出现,应该怎么优化得到更好的性能v-for优先于v-if被解析(把你怎么知道的告诉面试官)// 源码中找答案:compiler/codegen/index.js > genElement() if(el.staticRoot && !e.staticProcessed){ return ... }else if(el
转载 2024-01-15 12:08:16
53阅读
目录MySQL数据库:1.char和vachar的区别:             2.varchar和text区别: 3.SQL注入:BUG4. 事务的四大特征ACID5.术语:提交事务,回滚事务(事务回滚)6.什么是索引?7.为什么使用索引?8.MySQL的锁9.什么是死锁?10.如何处理死锁?11.SQL的执行顺序
转载 2023-08-06 15:27:15
0阅读
21、Nginx怎么判断别IP不可访问?# 如果访问的ip地址为192.168.9.115,则返回403 if ($remote_addr = 192.168.9.115) { return 403; }22、怎么限制浏览器访问?## 不允许谷歌浏览器访问 如果是谷歌浏览器返回500 if ($http_user_agent ~ Chrome)
转载 2023-07-16 21:11:43
53阅读
ajax题目手写一个简易的 ajax跨域的常用实现方式手写一个简易的 ajaxAjax一般是通过XMLHttpRequest对象来是实现的let request =new XMLHttpRequest() //声明一个XMLHttpRequest对象常用的方法和属性XMLHttpRequest对象的setRequestHeader方法语法:request.setRequestHeader(key,
转载 2024-08-12 19:46:28
68阅读
  • 1
  • 2
  • 3
  • 4
  • 5