hbase 判断题带解析 hbase题库

转载

ghpsyn 2024-03-14 18:57:27

文章标签 hbase 判断题带解析数据 spark 数据仓库 文章分类 Hbase 数据库

[1 56/177]问答题什么是hbase? (1分)

答案解析:一个分布式的、面向列的开源数据库，该技术来源于fay chang所写的google论文”Bigtable:-一个结构化数据的分布式存储系统”HBase在Hadoop之_上提供了类似于Bigtable的能力，HBase是Apache的Hadoop项目的子项目,HBase不同于一般的关系数据库，它是一一个适合于结构化数存储的数据库，另一个不同的是HBase是基于列而不是基于行

[1 57/177]问答题dataframe和Rdd的区别? (1分)

答案解析: Rdd的本质是一个分布式的集合，这个集合里面放置的是同一个类型的数据DataFrame本质是一一个分布式的二维表，表:表信息(表有哪些字段，这些字段什么类型) +表的数据

[1 58/177]问答题kafka组件? (1分)

答案解析: Topic :消息根据Topic进行归类Producer:发送消息者Consumer:消息接受者broker:每个kafka实例(server)Zookeeper:依赖集群保存meta信息。

[159/177]问答题项目开发流程? (1分)

答案解析:需求:数据的输入和数据的产出;
数据量、处理效率、可靠性、可维护性、简洁性数据建模架构设计:数据怎么进来，输出怎么展示，最最重要的是处理流出数据的架构;再次思考大数据系统和企业IT系统的交互最终确定选择、规范等;基于数据建模写基础服务代码正式编写第- -个模块
实现其它的模块，并完成测试和调试等;测试和验收

[161/177]问答题HBase跟hive有什么区别? (1

答案解析: Hive的定位是数据仓库，虽然也有增删改查，但其删改查对应的是整张表而不是单行数据，查询的延迟较高。其本质是更加方便的使.用mr的威力来进行离线分析的一个数据分析工HBase的定位是hadoop的数据库，是一个典型的Nosq|,所以HBase是用来在大量数据中进行低延迟的随机查询的。

[1 62/177]问答题spark序列化? (1分)

答案解析:

java serialization: spark默认使用java的objectoutputSream框架来序列化对象。可以对任何实现类java.io.Serialization的任何类进行序列化。用户也可以通过集成类是吸纳更紧密的序列化性能控制;
Kryo serialization: spark也可以使用Kryo库(version 2)来实现更快的对象序列化。Kryo比java序列化更快、数据格式更紧凑，但不支持所有的serialization类型。用户如果希望使用kryo来获取更好的性能，需要先去注册应用程序中会使用到的类。

[163/177]问答题kafka的消息包含那些? (1分)

答案解析: CRC32: 4个字节，消息的校验码。magic: 1字节，魔数标识，与消息格式有关，取值为0或1。
atributes: 1字节, 消息的属性。
timestamp:时间戳，其含义由attributes的第3位确定。
key length:消息key的长度。
key:消息的key。
value length:消息的value长度。
value:消息的内容

[1 64/177]问答题spark Streaming消费kafka数据有

两种方式: (1分)
答案解析: 1)receiver方式 (zk管理偏移量)
2)Kafka Direct方式(自己管理偏移量)

[1 65/177]问答题如何保证数据不丢失? ACK机制?

答案解析: Producer消息发送的应答机制ACK设置发送数据是否需要服务端的反馈,有四个值
0,1,1,All
0: producer不会等待broker发送ack
1:当leader接收到消息之后发送ack
-1:当所有的follower都同步消息成功后发送ack
AlI:等同于-1，现在基本使用all
request.required.acks=0

[1 66/177]问答题spark 1.0和spark 2.0的区别? (1

答案解析: Spark2.x 引入了很多优秀特性，性能. 上有较大提升，API更易用。在“编程统一”方面非常惊艳，实现了离线计算和流计算API的统一,实现了Sparksq|和HiveSql操作API的统一。
Spark 2.x基本.上是基于Spark 1.x进行了更多的功能和模块的扩展，及性能的提升。

[167/177]问答题什么是ETL (1分)

答案解析: ETL的英文全称是Extract-Transform-Load的缩写，用来描述将数据从来源迁移到目标的几个过程:

Extract,数据抽取，也就是把数据从数据源读出来。
2.Transform,数据转换，把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下，Transform也包含数据清洗，清洗掉噪音数据。
3.Load数据加载,把处理后的数据加载到目标处，比如数据仓库。

[1 68/177]问答题sparkStreaming特有的算子(1

答案解析: reducebykey
带状态updatestatebykey
窗口window
转换transform

[1 69/177]问答题Hive在HDFS.上的文件结构? (1

答案解析: (1) rcfile: Hive推出的一种专门]面向列的数据格式
(2) textfle: Hive默认格式，数据不做压缩,磁盘开销大，数据解析开销大
(3) squencefile: 二进制文件，将数据以
<key,value>形式序列化到文件中
(4) orcfile: 数据按行分块，每块按照列存储

[170/177]问答题RDD的属性? (1分)

答案解析:①- -组分片(Partition)
②一个/每个分区的计算函数
③RDD之间的依赖关系。
④一个Partitioner
⑤一个列表

[171/177]问答题flume的source,channel,sink分别

答案解析:
source有 avro、spooldir、 exec、syslog tcp、kafka、自定义
channel有memory、file、 jdbc
sink有kafka、hdfs、 hbase、 file、 avro、
logger、自定义等

[172/177]问答题HBase作用? (1分)

答案解析:存储大量结果集数据，并提供低延迟的随机查询。说的通俗一些，就是一个超级版的数据库，相比较与mysql、postgresq|和oracle、sqlserver等关系型数据库而言，能够存储的数据量更大(比关系型数据库大很多很多)，同时查询延迟相比较与其他hadoop产品(pig、 hive) 要低。

[173/177]问答题怎么保证数据全局有序? (1分)

答案解析: 1)保证生产有充、消费有序、存储有序
2)只能有一个生产者，一个partition, 一个
consumer
ps:但是这违背分布式系统初衷，因此这是一个伪命题

[174/177]问答题hive的排序? (1分)

答案解析: order by普通排序
sort by对每个reduce结果进行排序
distribute by设置分区
cluster by =distribute by+sort by只能升序

[175/177]问答题什么是热点问题?怎么解决? (1

答案解析:大量的client直接访问集群的一-个或极少数个节点(访问可能是读，写或者其他操作)解决方法加盐哈希反转时间戳反转

[176/177]问答题什么是数据仓库(1分)

答案解析:数据仓库，英文名称Data
Warehouse，简写为DW。数据仓库顾名思义,是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建，对多样的业务数据进行筛选与整合。它为企业提供一-定的BI (商业智能)能力，指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的输入方是各种各样的数据源，最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。

[177/177]问答题Kafka消息的分发策略? (1分)

答案解析: producer客户端负责消息的分发
1)producer和broker连接，kafka集群中任何一个broker都可以向producer提供metadata信息，这些metadata中包含partitions leader列表等信息
2)producer拿到metadata信息后和Topic下所有partiton leader保持socket连接
3)消息由producer直接通过socket发送到broker,follower向leader同步数据，所以producer生产的消息由producer客户端决定路由到哪一个partition

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：javascript可以插入html页面 javascript嵌入html

下一篇：java 调用可执行程序传入参数 java调用exe程序传值

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯