文章目录一、RDD二、driver、Executor相关三、spark存储四、数据倾斜五、宽窄依赖、Stage、Job、task六、Spark性能优化七、并发八、pyspark内置函数、常用算子九、常见OOM类型报错,及解决办法十、集群资源十一、查看应用问题 一、RDD1.spark中的RDD是什么,有哪些特性 答:RDD(Resilient Distributed Dataset)叫做分布式数
spark运行流程  1.Driver创建一个sparkContext2.sparkContext向资源管理器注册并申请启动executor,资源管理器启动executor3.executor向sparkContext申请task4.sparkContext将应用程序分发给executor5.sparkContext建成DAG图,DAGScheduler将DAG图解析成stag
转载 2023-08-07 20:23:57
90阅读
1.什么是sparkSpark 是一个用来实现快速而通用的集群计算的平台。2.Spark生态系统?spark core:spark 核心计算 spark sql: 对历史数据的交互式查询 spark streaming : 近实时计算 spark ml : 机器学习 spark graphx : 图计算3.常见的 分布式文件系统?hdfs fastdfs Tachyon TFS(淘宝用) GFS
转载 2024-01-11 13:20:06
113阅读
3、 数据统计:生成Hive用户评论数据:(15分)(1)在Hive创建一张表,用于存放清洗后的数据,表名为pinglun,(创建数据表SQL语句),创建成功导入数据截图:在hive中建表:create table pinglun (  id       string,  guid   &
转载 2024-07-19 15:32:43
34阅读
@[TOC](SPARK试题汇总)# 选择题 Scala中定义常量使用关键字         ? A. val B. var C. object D. final for(i<-1 to 4;j<-0 to 3 if(i\==j)) print(j)的输出是? A. 1234 B. 0123 C. 234 D. 123 scala中val x,y
转载 2023-12-24 10:54:21
310阅读
Spark试题Spark Troubleshooting
原创 2022-11-13 00:03:47
101阅读
SortShuffle1 mapTask将map(聚合算子)或array(join算子)写入内存2 达到阀值发生溢写,溢写前根据key排序,分批写入磁盘,最终将所有临时文件合并成一个最终文件,并建立一份索引记录分区信息。一个mapTask最终形成一个文件。3 reduceTask拉取各个task中自己的分区数据去计算。和hadoop shuffle的区别1 MR没有所谓的DAG划分,一次MR任务就
转载 2023-07-17 22:41:34
85阅读
1. kafka分区数如何设置?默认情况下 1 指定分区,按你指定的分区 2 未指定分区,但是指定了key,依据key的hashCode计算分区 3 未指定分区,且没有指定key,依据轮询算法计算分区2. kafka中消息传输一致中的最多一次、最少一次、恰好一次,是如何实现的?恰好一次:acks=-1 ,幂等机制 最多一次:acks=0 最少一次:acks=-1 or acks=13. Spark
转载 2024-02-17 09:35:04
93阅读
 Spark应用转换流程1、 spark应用提交后,经历了一系列的转换,最后成为task在每个节点上执行2、 RDD的Action算子触发Job的提交,生成RDD DAG3、 由DAGScheduler将RDD DAG转化为Stage DAG,每个Stage中产生相应的Task集合4、 TaskScheduler将任务分发到Executor执行5、
转载 2024-08-16 13:27:22
225阅读
写文章 Spark试题(一) runzhliu 丁香园 大数据研发工程师 42 人 赞同了该文章这部分的关于 Spark 的面试题是我
一、什么是宽依赖,什么是窄依赖,哪些算子是宽依赖,哪些是窄依赖1、宽依赖:一个分区对应多个分区,这就表明有shuffle过程,父分区数据经过shuffle过程的hash分区器划分子rdd。例如:groupbykey   reducebykey   sortbykey等操作,shuffle可以理解为数据从原分区打乱重组到新分区2、窄依赖:一个分区对应一个分区,
转载 2023-08-11 17:17:03
136阅读
为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们开始spark+kafka:一般情况下面试的时候只要涉及到实时计算或者大批量计算,都会涉及到kafka和spark的面试问题,两者一般是综合起来的的,因此我把他们放在一起进行总结,这一块的问题会比较多,将分不同纬度多次总结。 1)spark的执行流程?1.构建Spark Application的
转载 2023-10-20 22:13:54
71阅读
# Hadoop Spark 程序试题 在大数据领域,Hadoop和Spark是两个非常重要的开源分布式计算框架。本文将介绍Hadoop和Spark的基本概念,并提供一些例子来演示如何使用它们。 ## Hadoop Hadoop是一个用于处理大规模数据集的分布式计算框架。它由两个核心模块组成:Hadoop Distributed File System (HDFS)和MapReduce。
原创 2023-08-14 13:58:39
26阅读
RDDRDD概述RDD的创建RDD的操作transformationActionRDD分区RDD的持久化和checkpoint持久化check pointRDD的分区键值对RDD键值对RDD的创建RDD的数据读取本地文件系统数据读写分布式文件系统HDFS的数据读取json文件的数据读写综合案例 spark核心编程RDDRDD概述弹性分布式数据集,代表一个弹性的、不可变的、可分区、里面的元素可并行
Spark Core面试篇01 随着Spark技术在企业中应用越来越广泛,Spark成为大数据开发必须掌握的技能。前期分享了很多关于Spark的学习视频和文章,为了进一步巩固和掌握Spark,在原有spark专刊基础上,新增《Spark面试2000题》专刊,题集包含基础概念、原理、编码开发、性能调优、运维、源代码以及Spark周边生态系统等。部分题集来源于互联网,由梅峰谷志愿者收集和整理,部分题
转载 2024-05-14 15:38:40
86阅读
1、spark的有几种部署模式,每种模式特点?(☆☆☆☆☆) 1)本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类 local:只启动一个executor local[k]:启动 ...
转载 2021-10-26 23:39:00
115阅读
2评论
在进行Spark试题的复盘时,我们面临着如何将备份策略、恢复流程、灾难场景、工具链集成、验证方法和最佳实践合理地结合在一起。这一过程需要深入而细致的分析。以下是我对此的整理记录。 --- ### Spark试题描述 在大数据环境中,如何确保数据的可靠性和可恢复性是一个重要的课题。考试内容涵盖了备份策略、恢复流程、灾难场景、工具链集成等多个方面。各个部分的整合不仅要求对技术的理解,也需要对
原创 6月前
4阅读
# SPARK试题库简介及使用示例 ## 1. 引言 SPARK试题库是一个基于Python的试题生成工具,用于自动生成各类题目,包括选择题、填空题、简答题等。该工具可以根据用户的需求,自动生成符合指定要求的试题,并提供相应的答案。 本文将介绍SPARK试题库的使用方法,并提供一些示例代码进行说明。 ## 2. 安装 首先,我们需要安装SPARK库。可以通过以下命令使用pip进行安装:
原创 2023-11-25 03:33:33
87阅读
# Spark试题解析及示例 ## 简介 Apache Spark是一个开源的分布式计算框架,用于高效处理大规模数据集的计算任务。它提供了简单易用的API,并支持多种编程语言,如Python、Java和Scala。在大数据处理和机器学习等领域,Spark已经成为非常受欢迎的工具。 本文将介绍一些常见的Spark试题,并提供相应的代码示例。 ## 1. Spark的特点及优势 - **速度
原创 2023-07-23 08:42:49
82阅读
# Spark试题解析与示例 Apache Spark是一种开源的分布式计算框架,提供了高速、强大的数据处理和分析能力。在Spark的使用过程中,我们可能会遇到一些常见的面试题。本文将以解析面试题的形式,介绍一些常见的Spark试题,并提供相应的代码示例。 ## 1. 什么是Spark?为什么要使用SparkSpark是一种用于大规模数据处理的开源集群计算框架。与传统的MapRedu
原创 2023-08-01 15:40:06
84阅读
  • 1
  • 2
  • 3
  • 4
  • 5