[1 56/177]问答题什么是hbase? (1分)

答案解析:一个分布式的、面向列的开源数据库,该技术来源于fay chang所写的google论文”Bigtable:-一个结构化数据的分布式存储系统”HBase在Hadoop之_上提供了类似于Bigtable的能力,HBase是Apache的Hadoop项目的子项目,HBase不同于一般的关系数据库,它是一一个适合于结构化数存储的数据库,另一个不同的是HBase是基于列而不是基于行

[1 57/177]问答题dataframe和Rdd的区别? (1分)

答案解析: Rdd的本质是一个分布式的集合,这个集合里面放置的是同一个类型的数据DataFrame本质是一一个分布式的二维表,表:表信息(表有哪些字段,这些字段什么类型) +表的数据

[1 58/177]问答题kafka组件? (1分)

答案解析: Topic :消息根据Topic进行归类Producer:发送消息者Consumer:消息接受者broker:每个kafka实例(server)Zookeeper:依赖集群保存meta信息。

[159/177]问答题项目开发流程? (1分)

答案解析:需求:数据的输入和数据的产出;
数据量、处理效率、可靠性、可维护性、简洁性数据建模架构设计:数据怎么进来,输出怎么展示,最最重要的是处理流出数据的架构;再次思考大数据系统和企业IT系统的交互最终确定选择、规范等;基于数据建模写基础服务代码正式编写第- -个模块
实现其它的模块,并完成测试和调试等;测试和验收

[161/177]问答题HBase跟hive有什么区别? (1

答案解析: Hive的定位是数据仓库,虽然也有增删改查,但其删改查对应的是整张表而不是单行数据,查询的延迟较高。其本质是更加方便的使.用mr的威力来进行离线分析的一个数据分析工HBase的定位是hadoop的数据库,是一个典型的Nosq|,所以HBase是用来在大量数据中进行低延迟的随机查询的。

[1 62/177]问答题spark序列化? (1分)

答案解析:

  1. java serialization: spark默认使用java的objectoutputSream框架来序列化对象。可以对任何实现类java.io.Serialization的任何类进行序列化。用户也可以通过集成类是吸纳更紧密的序列化性能控制;
  2. Kryo serialization: spark也可以使用Kryo库(version 2)来实现更快的对象序列化。Kryo比java序列化更快、数据格式更紧凑,但不支持所有的serialization类型。用户如果希望使用kryo来获取更好的性能,需要先去注册应用程序中会使用到的类。

[163/177]问答题kafka的消息包含那些? (1分)

答案解析: CRC32: 4个字节,消息的校验码。magic: 1字节,魔数标识,与消息格式有关,取值为0或1。
atributes: 1字节, 消息的属性。
timestamp:时间戳, 其含义由attributes的第3位确定。
key length:消息key的长度。
key:消息的key。
value length:消息的value长度。
value:消息的内容

[1 64/177]问答题spark Streaming消费kafka数据有

两种方式: (1分)
答案解析: 1)receiver方式 (zk管 理偏移量)
2)Kafka Direct方式(自 己管理偏移量)

[1 65/177]问答题如何保证数据不丢失? ACK机制?

答案解析: Producer消 息发送的应答机制ACK设置发送数据是否需要服务端的反馈,有四个值
0,1,1,All
0: producer不会等待broker发送ack
1:当leader接收到消息之后发送ack
-1:当所有的follower都同步消息成功后发送ack
AlI:等同于-1,现在基本使用all
request.required.acks=0

[1 66/177]问答题spark 1.0和spark 2.0的区别? (1

答案解析: Spark2.x 引入了很多优秀特性,性能. 上有较大提升,API更易用。在“编程统一”方面非常惊艳,实现了离线计算和流计算API的统一,实现了Sparksq|和HiveSql操作API的统一。
Spark 2.x基本.上是基于Spark 1.x进行了更多的功能和模块的扩展,及性能的提升。

[167/177]问答题什么是ETL (1分)

答案解析: ETL的英文全称是Extract-Transform-Load的缩写,用来描述将数据从来源迁移到目标的几个过程:

  1. Extract,数据抽取,也就是把数据从数据源读出来。
    2.Transform,数据转换,把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下,Transform也包含数据清洗,清洗掉噪音数据。
    3.Load数据加载,把处理后的数据加载到目标处,比如数据仓库。

[1 68/177]问答题sparkStreaming特有的算子(1

答案解析: reducebykey
带状态updatestatebykey
窗口window
转换transform

[1 69/177]问答题Hive在HDFS.上的文件结构? (1

答案解析: (1) rcfile: Hive推出的一种专门]面向列的数据格式
(2) textfle: Hive默认格式,数据不做压缩,磁盘开销大,数据解析开销大
(3) squencefile: 二进制文件,将数据以
<key,value>形式序列化到文件中
(4) orcfile: 数据按行分块,每块按照列存储

[170/177]问答题RDD的属性? (1分)

答案解析:①- -组分片(Partition)
②一个/每个分区的计算函数
③RDD之间的依赖关系。
④一个Partitioner
⑤一个列表

[171/177]问答题flume的source,channel,sink分别

答案解析:
source有 avro、spooldir、 exec、syslog tcp、kafka、 自定义
channel有memory、file、 jdbc
sink有kafka、hdfs、 hbase、 file、 avro、
logger、自定义等

[172/177]问答题HBase作用? (1分)

答案解析:存储大量结果集数据,并提供低延迟的随机查询。说的通俗一些,就是一个超级版的数据库,相比较与mysql、postgresq|和oracle、sqlserver等关系型数据库而言,能够存储的数据量更大(比关系型数据库大很多很多),同时查询延迟相比较与其他hadoop产品(pig、 hive) 要低。

[173/177]问答题怎么保证数据全局有序? (1分)

答案解析: 1)保证生产有充、 消费有序、存储有序
2)只能有一个生产者,一个partition, 一个
consumer
ps:但是这违背分布式系统初衷,因此这是一个伪命题

[174/177]问答题hive的排序? (1分)

答案解析: order by普通排序
sort by对每个reduce结果进行排序
distribute by设置分区
cluster by =distribute by+sort by只能升序

[175/177]问答题什么是热点问题?怎么解决? (1

答案解析:大量的client直 接访问集群的一-个或极少数个节点(访问可能是读,写或者其他操作)解决方法加盐哈希反转时间戳反转

[176/177]问答题什么是数据仓库(1分)

答案解析:数据仓库,英文名称Data
Warehouse,简写为DW。数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一-定的BI (商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。

[177/177]问答题Kafka消息的分发策略? (1分)

答案解析: producer客 户端负责消息的分发
1)producer和broker连接,kafka集 群中任何一个broker都可以向producer提供metadata信息,这些metadata中包含partitions leader列表等信息
2)producer拿到metadata信息后和Topic下所有partiton leader保持socket连接
3)消息由producer直接通过socket发送到broker,follower向leader同步数据,所以producer生产的消息由producer客户端决定路由到哪一个partition