大数据SQL面试题本套SQL题的答案是由许多小伙伴共同贡献的,1+1的力量是远远大于2的,有不少题目都采用了非常巧妙的解法,也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样,答案更是精彩绝伦!注:以下参考答案都经过简单数据场景进行测试通过,但并未测试其他复杂情况。本文档的SQL主要使用Hive SQL。#一、行列转换描述:表中记录了各年份各部门的平均绩效考核成绩。 表名:t1 表结构:a
转载
2023-08-11 21:46:21
141阅读
持续更新大数据中的SQL题总结
原创
2022-09-12 23:49:11
237阅读
本套SQL题的答案是由许多小伙伴共同贡献的,1+1的力量是远远大于2的,有不少题目都采用了非常巧妙的解法,也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样,答案更是精彩绝伦!注:以下参考答案都经过简单数据场景进行测试通过,但并未测试其他复杂情况。本文档的SQL主要使用Hive SQL。因内容较多,带目录的PDF查看是比较方便的:最强最全面的大数据SQL经典面试题完整PDF版一、行列转换描
转载
2023-08-25 21:21:15
83阅读
文章目录前言一、考察SQL能力*初级*1. 表A只有一个字段ID,值为[1,2,2,3,3,3]。现要求查询出重复的id2.表A又两个字段ID和Create_Time,计算今天新增的ID表[不包含昨天的那一部分];3. 表A和表B都只有一个字段Account,如果account来自A则输出red,来自B则输出blue;4. 计算字符串'ABCABC' 中字符A的个数*高级*5. 表A有两个字段I
转载
2024-04-07 15:39:09
71阅读
1、Kafka 都有哪些特点?高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。可扩展性:kafka集群支持热扩展持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失容错性:允许集群中节点失败(若副本数量为n,则允许n
原创
精选
2022-09-11 18:11:43
1014阅读
Linux部分 ①列举你使用的常用指令? ②怎么查看服务是否开启?后面的参数都是什么意思? ③怎么查看服务器内存使用情况? ④日志查看指令? ⑤跨机房怎么传输文件? Hadoop部分 ①怎么搭建一个Hadoop集群? ②Hadoop的Shuffer机制? ③切片概念?文件256M时,几个切片? ④M
原创
2021-07-20 09:29:34
302阅读
转载自: https://tieba.baidu.com/p/5524551174?red_tag=2452717583(花时间思考一下吧!)公司A:1.讲讲你做的过的项目。 项目里有哪些 难点重点注意点呢?2.讲讲多线程吧, 要是你,你怎么实现一个线程池呢?3.讲一下Mapreduce或者hdfs的原理和机
转载
2023-05-11 12:39:27
80阅读
大数据面试题下列哪个程序通常与 NameNode 在一个节点启动?答案D A)SecondaryNameNode B)DataNode C)TaskTracker D)Jobtracker 解析:hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,...
原创
2021-07-08 14:34:11
323阅读
1、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文
转载
2023-07-11 09:31:12
376阅读
大数据面试题下列哪个程序通常与 NameNode 在一个节点启动?答案D A)SecondaryNameNode B)DataNode C)TaskTracker D)Jobtracker 解析:hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,...
原创
2022-01-28 14:23:01
289阅读
版本
时间
描述
V1.0
2020-12-18
创建
V1.2
2021-01-17
新增 spark 面试题
V1.3
2021-01-18
新增 kafka 面试题
V1.4
2021-01-20
新增 hbase 面试题
V1.5
2021-01-30
新增 flink 面试题
目录
Hadoo
原创
2021-07-28 06:42:57
623阅读
进入到eclipse界面第一步:file->new->java project->起名->finish第二步:进入到刚才建的工程里,右键src->new->package->起名->finish第三步:进入到刚才建的package里,右键name->new->class->起名(这里起名要注意,因为比赛时如果交java代码,这里的
转载
2023-12-29 14:15:01
76阅读
HDFS基础HDFS 中的block 默认保存几份?(A)A.3 份B.2 份C.1 份D.不确定HDFS 默认BlockSize 是(C)A. 2MB
原创
2022-12-28 15:18:41
381阅读
1、Spark中的HashShufle的有哪些不足? 1)shuffle产生海量的小文件在磁盘上,此时会产生大量耗时的、低效的IO操作; 2)容易导致内存不够用,由于内存需要保存海量的文件操作句柄和临时缓存信息
原创
2022-05-16 09:15:18
579阅读
1、请简述Zookeeper的选举机制 假设有五台服务器组成的zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的。假设这些服务器依序启动,来看看会发生什么。 (1)服务器1启动,此时只有它一台服务器启动了,它发出去的报没有任何响应,所以它的选举状态一直是LOOKING状态。
原创
2022-05-16 09:17:00
495阅读
1、Flume使用场景(☆☆☆☆☆) 线上数据一般主要是落地(存储到磁盘)或者通过socket传输给另外一个系统,这种情况下,你很难推动线上应用或服务去修改接口
原创
2022-05-16 09:17:42
655阅读
类型的分布式运算程序(mapreduce 只是其中的一种),比如mapreduce、stor...
原创
2022-12-28 15:19:22
220阅读
1、HBase的特点是什么?1)大:一个表可以有数十亿行,上百万列;2)无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增
原创
2022-05-16 09:17:25
1155阅读
1 Flink是如何支持批流一体的?本道面试题考察的其实就是一句话:Flink的开发者认为批处理是流处理的一种特殊情况。批处理是有限的流处理。Flink 使用一个引擎支持了DataSet API 和 DataStream API。2 Flink是如何做到高效的数据交换的?在一个Flink Job中,数据需要在不同的task中进行交换,整个数据交换是有 TaskManager 负责的,TaskMan
推荐
原创
2022-08-26 15:40:32
1652阅读
点赞
1 Flink Job的提交流程用户提交的Flink Job会被转化成一个DAG任务运行,分别是:StreamGraph、JobGraph、ExecutionGraph,Flink中JobManager与TaskManager,JobManager与Client的交互是基于Akka工具包的,是通过消息驱动。整个Flink Job的提交还包含着ActorSystem的创建,JobManager的启动
原创
精选
2022-08-27 09:30:19
575阅读
点赞