大数据面试题汇总**牛客网刷sql题**redisflumeflink(大部分知识点写过的帖子里都有)mr,java ,集群算法题kafka维度建模分为哪几种?SQL高频面试题hbasejvmmysqlsql递归hivejavahdfs数据治理 牛客网刷sql题 redis为什么快 首先,采用了多路复用io阻塞机制 然后,数据结构简单,操作节省时间 最后,运行在内存中,自然速度快 – 完全基于内
前言 结合最近面试经历,整理了一些题目,希望对小伙伴们有帮助。内容1、Java2、Scala3、Spark4、Hive5、Hadoop6、Kafka7、Flink8、算法9、数据结构...
原创 2022-11-03 14:02:55
43阅读
算法部分1、给定一个大文件(即无法一次性加载到内存中,以下的大文件均为该定义),每行代表一个访问IP,统计出现次数最多的IP。 1)逐行读取数据,并将数据映射(如取模)到N个小文件中; 2)以IP为Key,频率为Value,分别统计每个小文件中每个IP出现的次数; 3)找出每个小文件中出现次数最多的IP; 4)对这N个小文件出现次数最多的IP进行排序,得到最终结果。2、在1的基础上,求出现次
转载 2024-05-13 17:55:44
145阅读
文章目录重要的面试题1: cpu的平均负载,和cpu的利用率有什么区别?2 :linux系统启动过程3: 什么是cc,危害是啥?怎么防御cc4:软链接和硬链接的区别:5:linode号6:raid磁盘阵列 0、1、5、6、10:是 1和0 的组合raid0 ---数据条带卷raid1 又叫镜像raidraid5最少需要3块磁盘。企业常用raid6:RAID6RAID10:先做镜像再作条带
转载 2024-03-12 20:59:15
80阅读
自我介绍 + 项目介绍数仓为什么要分层?数据仓库都分哪几层?简单介绍一下 Mapreduce 工作原理?Hdfs 的读数据流程了解吗?Hdfs 的写操作呢?zookeeper的选举过程Spark 为什么比 MapReduce 快?Spark 任务执行流程?Spark 用过的解决数据倾斜的方案说一下?Flink 的四大基石都有哪些?watermark 的作用是啥?如何保证数据不丢失?Flink 如何
面试流程和内容大致有以下几个:一、8月9日,友盟软件公司考试大概内容:1、网络部分:Tcp/ip基础知识,交换机的stp协议,vlan,三层交换,路由器的ospf路由协议,bgp协议等。2、unix系统:主要考试内容为hp-unix的基础知识,磁带机的备份等,我以linux作答。3、windows系统:活动目录的基本知识,组策略。4、数据库:主要考试了oracle,informix,sql数据库的
转载 2008-07-25 10:05:45
1780阅读
面试题是从网上罗列出来的,我这里也是简单的回答了一下,当然,对与错也是有待商榷的,有什么不对的地方联系我修改。 1.假如说,在HW的时候,控下来一台机器,但是只是一台云主机,没有连接内网,然后也没有云内网,请问怎么深入的对这台云主机进行利用?答:钓鱼,水坑。如果是钓鱼的话,可以替换服务器上用到的文件。水坑,这里已经是比较精准的水坑了,毕竟他们自己的网站应该会有内部的部分人员进行访问,比较直接的方式
原创 2023-05-22 23:57:42
1028阅读
文章目录前言一、考察SQL能力*初级*1. 表A只有一个字段ID,值为[1,2,2,3,3,3]。现要求查询出重复的id2.表A又两个字段ID和Create_Time,计算今天新增的ID表[不包含昨天的那一部分];3. 表A和表B都只有一个字段Account,如果account来自A则输出red,来自B则输出blue;4. 计算字符串'ABCABC' 中字符A的个数*高级*5. 表A有两个字段I
大数据SQL面试题本套SQL题的答案是由许多小伙伴共同贡献的,1+1的力量是远远大于2的,有不少题目都采用了非常巧妙的解法,也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样,答案更是精彩绝伦!注:以下参考答案都经过简单数据场景进行测试通过,但并未测试其他复杂情况。本文档的SQL主要使用Hive SQL。#一、行列转换描述:表中记录了各年份各部门的平均绩效考核成绩。 表名:t1 表结构:a
转载 2023-08-11 21:46:21
141阅读
什么是大数据大数据是一个大的数据集合,通过传统的计算技术无法进行处理。这些数据集的测试需要使用各种工具、技术和框架进行处理。大数据涉及数据创建
什么是大数据测试 大数据测试通常是指对采用大数据技术的系统或应用的测试大数据测试可以分为两个维度,一个维度是数据测试,另一个维度是大数据系统测试大数据应用产品测试数据测试: 主要关注数据的完整性、准确性和一致性等。大数据系统测试大数据应用产品测试: 这里的大数据
原创 2022-05-23 09:45:31
655阅读
1、​​Kafka​​ 都有哪些特点?高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。可扩展性:kafka集群支持热扩展持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失容错性:允许集群中节点失败(若副本数量为n,则允许n
原创 精选 2022-09-11 18:11:43
1014阅读
信息社会,数据无时无刻不与我们息息相关,在数据数据源到数据仓库,再到商业智能系统对数据进行挖掘,提取出对客户有价值的数据,所有的过程中都设计到数据的一致,数据严格按照逻辑计入到商业智能系统等等,都离不开大数据测试。这里我分享一些我个人在大数据测试领域的一点经验。测试步骤及要点:根据STTM 测试表名,列名,主键, 外键等数据类型定义删除目标表运行数据Load 程序,重新加载源数据到目标表源表及目
原创 2015-07-10 21:22:20
1007阅读
1点赞
面试中,你会被问到的问题将是:关于你,你的技能和经验的一般问题关于特定工作的具体问题 - 有时称为技术问题对于许多不同类型的工作,一般问题可以是相同的。以下是一些可以被问到的常见问题。1.你的技能您的面试官想知道您是否具备完成工作的技能,因此他们可能会问:你的优势和弱势是什么?你的同事和朋友会说你最好的品质是什么?我们为什么应该录用你?了解自己的优势,并提及与您正在接受面试的工作相
大数据是一个大的数据集合,通过传统的计算技术无法进行处理。这些数据集的测试需要使用各种工具、技术和框架进行处理。大数据涉及数据创建、存储、检索、分析,而且它在数量、多样性、速度方法都很出色。 什么是大数据? 大数据是一个大的数据集合,通过传统的计算技术无法进行处理。
原创 2021-07-20 15:25:57
999阅读
  版本 时间 描述 V1.0 2020-12-18 创建 V1.2 2021-01-17 新增 spark 面试题 V1.3 2021-01-18 新增  kafka  面试题 V1.4 2021-01-20 新增 hbase 面试题 V1.5 2021-01-30 新增  flink  面试题     目录   Hadoo
原创 2021-07-28 06:42:57
623阅读
Linux部分 ①列举你使用的常用指令? ②怎么查看服务是否开启?后面的参数都是什么意思? ③怎么查看服务器内存使用情况? ④日志查看指令? ⑤跨机房怎么传输文件? Hadoop部分 ①怎么搭建一个Hadoop集群? ②Hadoop的Shuffer机制? ③切片概念?文件256M时,几个切片? ④M
原创 2021-07-20 09:29:34
302阅读
转载自: https://tieba.baidu.com/p/5524551174?red_tag=2452717583(花时间思考一下吧!)公司A:1.讲讲你做的过的项目。 项目里有哪些 难点重点注意点呢?2.讲讲多线程吧, 要是你,你怎么实现一个线程池呢?3.讲一下Mapreduce或者hdfs的原理和机
转载 2023-05-11 12:39:27
80阅读
大数据面试题下列哪个程序通常与 NameNode 在一个节点启动?答案D A)SecondaryNameNode B)DataNode C)TaskTracker D)Jobtracker 解析:hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,...
原创 2021-07-08 14:34:11
323阅读
1、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文
转载 2023-07-11 09:31:12
376阅读
  • 1
  • 2
  • 3
  • 4
  • 5