大数据面试题汇总**牛客网刷sql题**redisflumeflink(大部分知识点写过的帖子里都有)mr,java ,集群算法题kafka维度建模分为哪几种?SQL高频面试题hbasejvmmysqlsql递归hivejavahdfs数据治理 牛客网刷sql题
redis为什么快 首先,采用了多路复用io阻塞机制 然后,数据结构简单,操作节省时间 最后,运行在内存中,自然速度快 – 完全基于内
转载
2023-08-13 17:26:41
148阅读
什么是大数据?大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)
转载
2023-09-08 14:37:50
68阅读
算法部分1、给定一个大文件(即无法一次性加载到内存中,以下的大文件均为该定义),每行代表一个访问IP,统计出现次数最多的IP。
1)逐行读取数据,并将数据映射(如取模)到N个小文件中; 2)以IP为Key,频率为Value,分别统计每个小文件中每个IP出现的次数; 3)找出每个小文件中出现次数最多的IP; 4)对这N个小文件出现次数最多的IP进行排序,得到最终结果。2、在1的基础上,求出现次
2019已经到来,你是否在满意的公司?拿着理想的薪水?目前全国正处于招聘的高峰期,如果有面试题能提示一下,可以提前做个准备,也可以看出自己的不足之处,面试能拿到offer的机会就大的多,下面就是一些常见的大数据面试题,希望能够帮到大家:1.kafka集群的规模,消费速度是多少。答:一般中小型公司是10个节点,每秒20M左右。2.hdfs上传文件的流程。答:这里描述的 是一个256M的文件上传过程①
1、在 HBase 写数据的业务逻辑实现过程中、如下哪个接口或类是不需要涉及的?A、Put B、HTable C、HBaseAdmin D、PutList答案: C
2、在 MapReduce 的应用程序开发中、下列哪个 JAVA 类负责管理和运行一个计算任务?A、lob B、Context C、FileSystem D、Configuration答案: A
3、Fusionlnsig
原创
2021-07-02 10:13:50
970阅读
1、在 HBase 写数据的业务逻辑实现过程中、如下哪个接口或类是不需要涉及的?A、Put B、HTable C、HBaseAdmin D、PutList答案: C2、在 MapReduce 的应用程序开发中、下列哪个 JAVA 类负责管理和运行一个计算任务?A、lob B、Context C、FileSystem D、Configuration答案: A3、Fusionlnsight HD 中、Oozie 在提交作业前需要先上传本作业所依赖的配置文件和 jar 包到 HDFSA、..
原创
2022-01-19 10:53:56
295阅读
1 服务器的linux系统是什么版2 linux你做过那些优化3 在linux上部署过那些服务4 你怎样用nagios做的监控,监控什么?5 用cacti怎样对网络进行监控?以前公司的情况(问具体的数字)?6 你怎样查看日志?查什么内容?7 安装PHP之后,你做了那些优化?8 会用shell吗?都用shell做什么?9 你对apache做了那些优化?10 mysql你都修改了那些配置文件来进行优化
转载
精选
2012-12-22 10:26:09
1697阅读
点赞
文章目录1、MapReduce如何选择垃圾回收器?2、如何配置hdfs集群?3、如何搭建yarn集群?4、hdfs存储结构?5、hdfs的常见存储格式?6、hdfs小文件的危害以及如何处理?7、数据倾斜如何处理?8、Reduce Join 和Map join9、MR的压缩10、spark中repartition和coalesce的区别11、spark 四个byKey的区别12、flume如何监听
最新BAT10道面试题1、kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc32之间多一个字节的数据:attributes(保存一些相关属性,比如是否压缩、压缩格
原创
2021-02-26 14:04:24
175阅读
1、Kafka 都有哪些特点?高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。可扩展性:kafka集群支持热扩展持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失容错性:允许集群中节点失败(若副本数量为n,则允许n
原创
精选
2022-09-11 18:11:43
971阅读
大数据SQL面试题本套SQL题的答案是由许多小伙伴共同贡献的,1+1的力量是远远大于2的,有不少题目都采用了非常巧妙的解法,也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样,答案更是精彩绝伦!注:以下参考答案都经过简单数据场景进行测试通过,但并未测试其他复杂情况。本文档的SQL主要使用Hive SQL。#一、行列转换描述:表中记录了各年份各部门的平均绩效考核成绩。 表名:t1 表结构:a
转载
2023-08-11 21:46:21
127阅读
文章目录前言一、考察SQL能力*初级*1. 表A只有一个字段ID,值为[1,2,2,3,3,3]。现要求查询出重复的id2.表A又两个字段ID和Create_Time,计算今天新增的ID表[不包含昨天的那一部分];3. 表A和表B都只有一个字段Account,如果account来自A则输出red,来自B则输出blue;4. 计算字符串'ABCABC' 中字符A的个数*高级*5. 表A有两个字段I
1. 说出以下代码的打印结果:2. 说出以下代码的打印结果:3. `==` 和 `===` 有什么区别?
原创
2022-07-12 17:23:41
750阅读
点赞
1、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文
转载
2023-07-11 09:31:12
353阅读
大数据面试题下列哪个程序通常与 NameNode 在一个节点启动?答案D A)SecondaryNameNode B)DataNode C)TaskTracker D)Jobtracker 解析:hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,...
原创
2022-01-28 14:23:01
248阅读
类型的分布式运算程序(mapreduce 只是其中的一种),比如mapreduce、stor...
原创
2022-12-28 15:19:22
181阅读
1、HBase的特点是什么?1)大:一个表可以有数十亿行,上百万列;2)无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增
原创
2022-05-16 09:17:25
1079阅读
1 Flink是如何支持批流一体的?本道面试题考察的其实就是一句话:Flink的开发者认为批处理是流处理的一种特殊情况。批处理是有限的流处理。Flink 使用一个引擎支持了DataSet API 和 DataStream API。2 Flink是如何做到高效的数据交换的?在一个Flink Job中,数据需要在不同的task中进行交换,整个数据交换是有 TaskManager 负责的,TaskMan
推荐
原创
2022-08-26 15:40:32
1509阅读
点赞
1 Flink Job的提交流程用户提交的Flink Job会被转化成一个DAG任务运行,分别是:StreamGraph、JobGraph、ExecutionGraph,Flink中JobManager与TaskManager,JobManager与Client的交互是基于Akka工具包的,是通过消息驱动。整个Flink Job的提交还包含着ActorSystem的创建,JobManager的启动
原创
精选
2022-08-27 09:30:19
556阅读
点赞
版本
时间
描述
V1.0
2020-12-18
创建
V1.2
2021-01-17
新增 spark 面试题
V1.3
2021-01-18
新增 kafka 面试题
V1.4
2021-01-20
新增 hbase 面试题
V1.5
2021-01-30
新增 flink 面试题
目录
Hadoo
原创
2021-07-28 06:42:57
621阅读