hadoop spark面试题

hadoop spark面试题 spark面试题shuffle

1. kafka分区数如何设置？默认情况下 1 指定分区,按你指定的分区 2 未指定分区,但是指定了key,依据key的hashCode计算分区 3 未指定分区,且没有指定key,依据轮询算法计算分区2. kafka中消息传输一致中的最多一次、最少一次、恰好一次，是如何实现的？恰好一次:acks=-1 ,幂等机制最多一次:acks=0 最少一次:acks=-1 or acks=13. Spark

hadoop spark面试题

kafka

面试

数据

Hadoop

转载

编程艺术家

2024-02-17 09:35:04

93阅读

Spark hadoop面试题

spark面试问题1、spark中的RDD是什么，有哪些特性RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset：就是一个集合，用于存放数据的Distributed：分布式，可以并行在集群计算Resilient：表示弹性的弹性表示

Spark hadoop面试题

数据

spark

kafka

转载

mob6454cc7416d1

2024-09-29 16:49:02

47阅读

hadoop和spark面试题 hadoop面试题2020

1、请讲述HDFS输入文件的具体步骤？1、Client向NameNode 提交需要上传文件的申请2、NameNode返回响应给Client,同意上传文件的请求3、Client向NameNode 申请子节点DataNode.4、NameNode 响应给Client它的子节点DataNode5、Client 向DataNode提交申请建立传输通道。6、DataNode 依次响应连接（dn1，dn2，

hadoop和spark面试题

大数据

hadoop

java

HDFS

转载

mob64ca13fd9f8e

2023-08-08 02:15:29

87阅读

java spark 面试题 spark面试题2020

SortShuffle1 mapTask将map（聚合算子）或array（join算子）写入内存2 达到阀值发生溢写，溢写前根据key排序，分批写入磁盘，最终将所有临时文件合并成一个最终文件，并建立一份索引记录分区信息。一个mapTask最终形成一个文件。3 reduceTask拉取各个task中自己的分区数据去计算。和hadoop shuffle的区别1 MR没有所谓的DAG划分，一次MR任务就

java spark 面试题

spark

数据

缓存

转载

是大魔术师

2023-07-17 22:41:34

85阅读

spark大厂面试题 spark面试题案例

Spark应用转换流程1、 spark应用提交后，经历了一系列的转换，最后成为task在每个节点上执行2、 RDD的Action算子触发Job的提交，生成RDD DAG3、由DAGScheduler将RDD DAG转化为Stage DAG，每个Stage中产生相应的Task集合4、 TaskScheduler将任务分发到Executor执行5、

spark大厂面试题

Spark

大数据

数据

spark

转载

ghpsyn

2024-08-16 13:27:22

225阅读

spark 实时面试题 spark面试题案例

为了保证效率和质量，每篇文章发布6个知识点，由简单及难，我们开始spark+kafka：一般情况下面试的时候只要涉及到实时计算或者大批量计算，都会涉及到kafka和spark的面试问题，两者一般是综合起来的的，因此我把他们放在一起进行总结，这一块的问题会比较多，将分不同纬度多次总结。 1）spark的执行流程？1.构建Spark Application的

spark 实时面试题

面试

kafka

数据

spark

转载

陌陌香阁

2023-10-20 22:13:54

71阅读

spark面试题目 spark面试题2020

一、什么是宽依赖，什么是窄依赖，哪些算子是宽依赖，哪些是窄依赖1、宽依赖：一个分区对应多个分区，这就表明有shuffle过程，父分区数据经过shuffle过程的hash分区器划分子rdd。例如:groupbykey reducebykey sortbykey等操作，shuffle可以理解为数据从原分区打乱重组到新分区2、窄依赖：一个分区对应一个分区，

spark面试题目

spark

内存溢出

数据

转载

mob64ca13faa4e6

2023-08-11 17:17:03

136阅读

2020 spark 面试题 spark面试题案例

写文章 Spark面试题(一) runzhliu 丁香园大数据研发工程师 42 人赞同了该文章这部分的关于 Spark 的面试题是我

2020 spark 面试题

spark

数据

数据倾斜

Hadoop

转载

编程小天才

2月前

365阅读

hadoop mapreduce 面试题 hadoop面试题2020

目录36.HDFS文件能否直接删除或则修改？37.谈谈hdfs中的block、package、chunk？38.HDFS能否多线程写？39.读写过程，数据完整性如何保持？40.文件授权期限分为几个等级？41.谈谈hdfs中的Checksum？42.谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?43、什么样的计算不能用mr来提速？44.hadoop主要的端口有哪些？45.请简述Ha

hadoop

大数据

hdfs

HDFS

客户端

转载

梦断蓝桥魂

2023-07-12 11:21:25

70阅读

hadoop hbase面试题 hadoop的面试题

　　1．简要的描述一下如何安装一个apache开原版的hadoop，无需列出完整步骤。　　1.创建hadoop用户.　　2.setup修改IP.　　3.安装javaJdk，并且修改etc/profile文件，配置java的环境变量.　　4.修改host的文件域名　　5.安装SSH免密码通信。　　6.解压hadoop包.　　7配置conf文件下的hadoop-env.sh.core-site.sh

hadoop hbase面试题

面试

大数据

python

hadoop

转载

IT狼人9号

2023-08-18 20:44:13

56阅读

hadoop维护面试题 hadoop 面试题

1、 HDFS 中的 block 默认保存几份？默认保存3份2、HDFS 默认 BlockSize 是多大？默认64MB3、负责HDFS数据存储的是哪一部分？DataNode负责数据存储4、SecondaryNameNode的目的是什么？他的目的使帮助NameNode合并编辑日志，减少NameNode 启动时间5、文件大小设置，增大有什么影响？HDFS中的文件在物理上是分块存储（block），块的

hadoop维护面试题

hadoop

hdfs

大数据

面试

转载

岁月如歌甚好

2023-09-22 13:20:37

82阅读

hadoop hbase 面试题 hadoop的面试题

HadoopHadoop 中常问的就三块，第一：分布式存储(HDFS)；第二：分布式计算框架(MapReduce)；第三：资源调度框架(YARN)。1. 请说下 HDFS 读写流程 img HDFS 写流程：1.客户端发送上传请求，并通过RPC与NameNode建立通信。NameNode检查用户是否有上传权限，上传的文件在HDFS对应的目录下是否同名。如果其中任何一个不满足，就会直接报

hadoop hbase 面试题

hadoop

大数据

hdfs

分布式

转载

墨香四溢

2024-01-09 21:54:27

114阅读

Spark面试题

1、spark的有几种部署模式，每种模式特点？（☆☆☆☆☆） 1）本地模式 Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地，一般都是为了方便调试，本地模式分三类 local：只启动一个executor local[k]:启动 ...

Spark

spark

数据

持久化

应用程序

转载

mb5fd86cce321a9

2021-10-26 23:39:00

115阅读

2评论

spark sql 深度面试题 spark面试题案例

Spark Core面试篇01 随着Spark技术在企业中应用越来越广泛，Spark成为大数据开发必须掌握的技能。前期分享了很多关于Spark的学习视频和文章，为了进一步巩固和掌握Spark，在原有spark专刊基础上，新增《Spark面试2000题》专刊，题集包含基础概念、原理、编码开发、性能调优、运维、源代码以及Spark周边生态系统等。部分题集来源于互联网，由梅峰谷志愿者收集和整理，部分题

spark sql 深度面试题

spark

数据

zookeeper

转载

mob64ca1417736e

2024-05-14 15:38:40

86阅读

spark 面试题

# Spark面试题解析及示例 ## 简介 Apache Spark是一个开源的分布式计算框架，用于高效处理大规模数据集的计算任务。它提供了简单易用的API，并支持多种编程语言，如Python、Java和Scala。在大数据处理和机器学习等领域，Spark已经成为非常受欢迎的工具。本文将介绍一些常见的Spark面试题，并提供相应的代码示例。 ## 1. Spark的特点及优势 - **速度

spark

apache

示例代码

原创

mob649e81643021

2023-07-23 08:42:49

82阅读

spark面试题

# Spark面试题解析与示例 Apache Spark是一种开源的分布式计算框架，提供了高速、强大的数据处理和分析能力。在Spark的使用过程中，我们可能会遇到一些常见的面试题。本文将以解析面试题的形式，介绍一些常见的Spark面试题，并提供相应的代码示例。 ## 1. 什么是Spark？为什么要使用Spark？ Spark是一种用于大规模数据处理的开源集群计算框架。与传统的MapRedu

spark

apache

示例代码

原创

mob649e81553a70

2023-08-01 15:40:06

84阅读

hadoop精通面试题 hadoop常见面试题

一：三个面试题面试题一：有一个非常大的文件，一台机器处理不了，存储的是ip每行一个，统计一下出现次数最多的那个ip。如果是小文件1）创建io流对这个文件进行读取，将读取的内容放在map集合中（ip,次数）2）循环遍历map集合，取出value最大的值大文件情况map集合，list集合，数组，set集合——-都是在内存进行操作的，文件过大会造成内存溢出，根本无法处理。一台机器原始性能有限，根据摩尔定

hadoop精通面试题

数组

map集合

解决方案

转载

mob64ca1413c518

2024-05-30 09:22:31

137阅读

hadoop面试题

1、当前大数据技术的基础是由（ C）首先提出的。（单选题，本题2分）A：微软B：百度C：谷歌D：阿里巴巴 2、大数据的起源是（C）。（单选题，本题2分）A：金融B：电信C：互联网D：公共管理 3、根据不同的业务需求来建立数据模型，抽取最有意义的向量，决定选取哪种方法的数据分析角色人员是（C）。（单选题，本题2分）A：数据管理人员B：数据分析员C：研究科学家D：软件开发工程师 4、（D）反映

hadoop

原创

wx5b58976cc0a6f

2021-05-20 14:30:44

1027阅读

hadoop面试题

1.0简要描述如何安装配置apache的一个开源hadoop，只描述即可，无需列出具体步骤，列出具体步骤更好。答：第一题：1使用root账户登录2 修改IP3 修改host主机名4 配置SSH免密码登录5 关闭防火墙6 安装JDK6 解压hadoop安装包7 配置hadoop的核心文件 hadoop-env.sh，core-site.xml , mapred...

hadoop面试题

hadoop

数据

mapreduce

hive

转载

想你所想

2021-08-30 11:26:26

1349阅读

1点赞

hadoop hdfs hive面试题 hadoop面试题2020

hadoop 2022 面试题总结了目录概述需求：设计思路相关代码如下：实验效果：分析：小结：目录概述hadoop 学习资料需求：设计思路相关代码如下：实验效果：待完成分析：16、FileInputFormat切片机制 job提交流程源码详解 waitForCompletion() submit(); //建立连接： Connect();//创建提交job的代理 ///判断是本

hadoop hdfs hive面试题

hadoop

面试

mapreduce

ide

转载

棉花糖

5月前

9阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

hadoop spark面试题

hadoop spark面试题 spark面试题shuffle

Spark hadoop面试题

hadoop和spark面试题 hadoop面试题2020

java spark 面试题 spark面试题2020

spark大厂面试题 spark面试题案例

spark 实时面试题 spark面试题案例

spark面试题目 spark面试题2020

2020 spark 面试题 spark面试题案例

hadoop mapreduce 面试题 hadoop面试题2020

hadoop hbase面试题 hadoop的面试题

hadoop维护面试题 hadoop 面试题

hadoop hbase 面试题 hadoop的面试题

Spark面试题

spark sql 深度面试题 spark面试题案例

spark 面试题

spark面试题

hadoop精通面试题 hadoop常见面试题

hadoop面试题

hadoop面试题

hadoop hdfs hive面试题 hadoop面试题2020

hadoop海量面试题 hadoop运维面试题

hadoop高难度面试题 hadoop 面试题

hadoop精选面试题 hadoop运维面试题

spark 面试 spark面试题shuffle

spark教程入门到精通面试题 spark 面试题

史上最全的spark面试题 spark面试题shuffle

Hadoop Hive HBase面试题 hadoop常见面试题

hadoop的面试题大全 hadoop运维面试题

Spark面试题—Spark Troubleshooting

大数据面试题——Spark面试题（四）

51CTO博客

hadoop spark面试题

hadoop spark面试题 spark面试题shuffle

Spark hadoop面试题

hadoop和spark面试题 hadoop面试题2020

java spark 面试题 spark面试题2020

spark大厂面试题 spark面试题案例

spark 实时 面试题 spark面试题案例

spark面试题目 spark面试题2020

2020 spark 面试题 spark面试题案例

hadoop mapreduce 面试题 hadoop面试题2020

hadoop hbase面试题 hadoop的面试题

hadoop维护面试题 hadoop 面试题

hadoop hbase 面试题 hadoop的面试题

Spark面试题

spark sql 深度面试题 spark面试题案例

spark 面试题

spark面试题

hadoop精通面试题 hadoop常见面试题

hadoop面试题

hadoop面试题

hadoop hdfs hive面试题 hadoop面试题2020

hadoop海量面试题 hadoop运维面试题

hadoop高难度面试题 hadoop 面试题

hadoop精选面试题 hadoop运维面试题

spark 面试 spark面试题shuffle

spark教程入门到精通面试题 spark 面试题

史上最全的spark面试题 spark面试题shuffle

Hadoop Hive HBase面试题 hadoop常见面试题

hadoop的面试题大全 hadoop运维面试题

Spark面试题—Spark Troubleshooting

大数据面试题——Spark面试题（四）

spark 实时面试题 spark面试题案例