Hadoophadoop中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。1. 请说下HDFS读写流程这个问题虽然见过无数次,面试官问过无数次,还是有不少面试者不能完整的说出来,所以请务必记住。并且很多问题都是从HDFS读写流程中引申出来的。HDFS写流程:Client客户端发送上传请求,通过RPC与NameNode建立通信,
1.Kafka中的ISR、AR代表什么?ISR:与leader保持同步的follower集合AR:分区的所有副本2.Kafka中的HW、LEO分别代表什么?LEO:每个副本的最后条消息的offsetHW:一个分区中所有副本最小的offset3.offset中是怎么体现消息顺序性的?每个分区内,每条消息都有一个offset,故只能保证分区内有序4.offset中的分区器、序列化器、拦截器是否了解?它
原创
2019-09-20 01:06:08
2732阅读
点赞
Kafka简介和机制 kafka ISR是什么 所有与leader副本保持一定程度同步的副本(包括Leader)集合 kafka HW是什么 高水位,消费者所能看到的最大的offset(消费位置),同时也是不同副本的同步的最小offset kafka LEO是什么 每个分区中多个副本都有的最大的of ...
转载
2021-09-03 17:38:00
80阅读
2评论
Kafka是现在流行的消息中间件,在大数据开发面试中被问到的可能性非常大,下面放出一些kafka面试中,经常可能被问到的kaf
原创
2019-06-07 07:40:03
21阅读
1 Kafka架构 生产者、Broker、消费者、ZK; 注意:Zookeeper中保存Broker id和消费者offsets等信息,但是没有生产者信息。 2 Kafka的机器数量 Kafka机器数量=2 *(峰值生产速度*副本数/100)+ 1 3 副本数设定 一般我们设置成2个或3个,很多企业 ...
转载
2021-07-22 17:19:00
217阅读
2评论
什么是kafka Kafka是分布式发布-订阅消息系统,它最初是由LinkedIn公司开发的,之后成为Apache项目的一部分,Kafka是一个分布式,可划分的,冗余备份的持久性的日志服务,它主要用于处理流式数据。 2 为什么要使用 kafka,为什么要使用消息队列 缓冲和削峰:上游数据时有突发流量 ...
转载
2021-07-28 13:56:00
95阅读
2评论
1. Kafka中有哪几个主要组件?主题:kafka主体是一堆或一组消息生产者:在kafka,生产者发布通信以及向kafka主题发布消息何达成一致
1、是什么确保了 Kafka 中服务器的负载平衡?2、消费者 API 的作用是什么?3、解释流 API 的作用?4、Kafka 为什么那么快?5、Kafka 系统
1、统计影音视频网站的常规指标,各种 TopN 指标统计视频观看数 Top10统计视频类别热度 Top10统计出视频观看数最高的 20 个视频的所属类别以及类别包含 Top20 视频的个数统计视频观看数 Top50 所关联视频的所属类别排序统计每个类别中的视频热度 Top10,以 Music 为例统计每个类别视频观看数 Top10统计上传视频最多的用户 Top10 以及他们上传的视频观看次数在前
hive 的使用,内外部表的区别,分区作用, UDF 和 Hive 优化(1)hive的使用:仓库,工具(2)内部表:加载数据到hive所在的hdfs目录,删除时,元数据文件都删除外部表:不加载数据到Hive所在的hdfs目录,删除时,只删除表结构(3)分区作用:防止数据倾斜(4)UDF函数:用户自定义的函数(主要解决格式,计算问题),需要继承UDF类 class TestUDFHive ext
# Hive面试题简介
在大数据领域,Hive 是一个构建在 Hadoop 之上的数据仓库,它提供了一个方便的 SQL 接口用于查询和分析大数据。
Hive 最初是由 Facebook 开发的,用于处理大规模的结构化数据。它被设计成类似于传统数据库的查询语言,使得开发人员可以使用 SQL 语句来查询和处理存储在 Hadoop 中的数据。
在 Hive 的发展过程中,出现了很多与 Hive 相
Hivehive 内部表和外部表的区别 hive 有索引吗 运维如何对hive进行调度 ORC、Parquet等列式存储的优点 数据建模用的哪些模型? 为什么要对数据仓库分层? 使用过Hive解析JSON串吗
原创
2021-06-12 00:10:20
930阅读
Hive面试题整理(一) 1、Hive表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆) 1)倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 (1)key分布不均匀; (2)业务 ...
转载
2021-08-22 20:31:00
44阅读
2评论
Hivehive 内部表和外部表的区别 hive 有索引吗 运维如何对hive进行调度 ORC、Parquet等列式存储的优点 数据建模用的哪些模型? 为什么要对数据仓库分层? 使用过Hive解析JSON串吗
原创
2021-06-12 00:10:03
948阅读
大数据最全面试题整理-hive篇导语基础问题:hive与传统数据库的区别hive的数据类型元数据保存方式内部表和外部表的区别分区表和分桶表的区别简述hive的存储格式hive如何将Hql转化为MapReducehive排序函数的区别UDF相关内容故障排查与调优数据倾斜与优化性能优化导语本专栏博文会整理日常工作与面试中最常用到的大数据相关组件与Java语言的架构、概念、知识点,方便大家进行查阅。 涉
近期在不同群里有小伙伴们提出了一些在面试和笔试中遇到的Hive SQL问题,Hive作为算法工程师的一项必备技能,在面试中也是极有可能被问到的,所以有备无患,本文将对这四道题进行详细的解析,还是有一定难度的,希望你看完本文能够有所收获。1、多列转多行第一道题目是这样的:假设现有一张Hive表,元数据格式为:字段:id stirngtim string数据格式如下:a,b,c,d 2:0
1、请说明什么是Apache Kafka? Apache Kafka是由Apache开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。
原创
2022-05-16 09:16:19
612阅读
1、Kafka都有哪些特点? 高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。
原创
2022-05-16 09:16:36
425阅读
1 kafka是什么Apache Kafka是一款分布式流处理框架,用于实时构建流处理应用。它有一个核心的
原创
2021-08-02 13:51:25
388阅读