文章目录
- Spark选择题
- 章鱼学院(Spark)
- 大数据期末题目汇总
- 选择题
- 填空题
- 判断题
- 简答题
Spark选择题
- Spark 的四大组件下面哪个不是 ( D )
A.Spark Streaming B Mlib
C Graphx D Spark R - 下面哪个端口不是 spark 自带服务的端口 ( C )
A.8080 B.4040 C.8090 D.18080 - spark 1.4 版本的最大变化 ( B )
A spark sql Release 版本 B 引入 Spark R
C DataFrame D 支持动态资源分配 - Spark Job 默认的调度模式 ( A )
A FIFO B FAIR
C 无 D 运行时指定 - 哪个不是本地模式运行的个条件 ( D )
A spark.localExecution.enabled=true B 显式指定本地运行
C finalStage 无父 Stage D partition 默认值 - 下面哪个不是 RDD 的特点 ( C )
A. 可分区 B 可序列化 C 可修改 D 可持久化 - 关于广播变量,下面哪个是错误的 ( D )
A 任何函数调用 B 是只读的 C 存储在各个节点 D 存储在磁盘或 HDFS - 关于累加器,下面哪个是错误的 ( D )
A 支持加法 B 支持数值类型
C 可并行 D 不支持自定义类型 - Spark 支持的分布式部署方式中哪个是错误的 ( D )
A standalone B spark on mesos
C spark on YARN D Spark on local - Stage 的 Task 的数量由什么决定 ( A )
A Partition B Job C Stage D TaskScheduler - 下面哪个操作是窄依赖 ( B )
A join B filter
C group D sort - 下面哪个操作肯定是宽依赖 ( C )
A map B flatMap
C reduceByKey D sample - spark 的 master 和 worker 通过什么方式进行通信的? ( D )
A http B nio C netty D Akka - 默认的存储级别 ( A )
A MEMORY_ONLY B MEMORY_ONLY_SER
C MEMORY_AND_DISK D MEMORY_AND_DISK_SER - spark.deploy.recoveryMode 不支持那种 ( D )
A.ZooKeeper B. FileSystem
D NONE D Hadoop - 下列哪个不是 RDD 的缓存方法 ( C )
A persist() B Cache() C Memory() - Task 运行在下来哪里个选项中 Executor 上的工作单元 ( C )
A Driver program B. spark master
C.worker node D Cluster manager - hive 的元数据存储在 derby 和 MySQL 中有什么区别 ( B )
A. 没区别 B. 多会话 C. 支持网络环境 D 数据库的区别 - DataFrame 和 RDD 最大的区别 ( B )
A. 科学统计支持 B. 多了 schema
C. 存储方式不一样 D. 外部数据源支持 - Master 的 ElectedLeader 事件后做了哪些操作 ( D )
A. 通知 driver B. 通知 worker
C. 注册 application D. 直接 ALIVE
章鱼学院(Spark)
Spark 是什么 () ? 正确答案:A,C,D
- A.Spark 是基于内存计算的框架
- B.Spark 是基于磁盘计算的框架
- C.Spark 是一种基于 RDD 计算框架
- D.Spark 是一种并行计算框架
spark 的数据,可以存储在哪些地方?正确答案:A,B,C,D
- A.HDFS
- B.Cassandra
- C.Hbase
- D.S3
大数据处理主要的三种场景为() 正确答案:A,B,C
- A. 批处理
- B. 交互处理
- C. 流式计算
- D. 事务处理
以下对 Spark Core 描述正确的有?正确答案:A,B,C,D
- A. 引入了 RDD
- B. 移动计算而非移动数据
- C. 使用线程池来减少 task 启动开销
- D. 使用 akka 作为通讯框架
以下对 Spark SQL 的描述正确的有?正确答案:A,B,C
- A.Spark SQL 运行开发人员之间处理 RDD
- B.Spark SQL 可以直接查询 hive 中的数据
- C.Spark SQL 运行开发人员之间使用 SQL 进行复制的数据分析
- D.Spark SQL 的性能上,和 Hive 类似。
以下哪些是 Spark 的组件?正确答案:A,B,C
- A.MLBase/MLlib
- B.GraphX
- C.Spark R
- D.Matlab
Spark 的运行模式有哪些?正确答案:A,B,C,D
- A.local
- B.Standalone
- C.on Yarn or on mesos
- D.on Cloud
spark 运行模式中,on yarn 这种模式,可以应用于生产环境中。 正确答案:A
- A. 正确
- B. 错误
spark 运行模式中,local 这种模式,可以应用于生产环境中。 正确答案:B
- A. 正确
- B. 错误
Spark 使用的资源管理器有哪些?正确答案:A,B,C,D
- A.Mesos
- B.standalone
- C.yarn
- D.cloud
spark 都有哪些组件? 正确答案:A,B,C,D
- A.Spark SQL
- B.Spark Streaming
- C.MLlib
- D.GraphX
Spark 是 2009 年诞生于伯克利大学 AMPLab 的基于内存计算框架 正确答案:A
- A. 正确
- B. 错误
下列对 spark 描述正确的有? 正确答案:A,B,C,D
- A.spark 是基于内存计算的
- B.spark 处理大量数据的一个快速通用的引擎
- C.spark 由 AMPlab 实验室开发
- D.spark 目前是 apache 的顶级项目
spark 是由 java 语言开发 正确答案:B
- A. 正确
- B. 错误
Spark 的容错机制是 ()。 正确答案:A,D
- A.checkpoint
- B.persist
- C.cache
- D.lineage
Spark 与 Hadoop 的区别 ()。 正确答案:A,C
- A.Spark 是基于内存计算框架,而 Hadoop 基于硬盘计算框架
- B.Spark 是基于硬盘计算框架,而 Hadoop 基于内存计算框架
- C.Spark 是一站式计算框架,而 Hadoop 只适合离线处理计算框架
- D.Spark 只适合离线处理计算框架,而 Hadoop 是一站式计算框架
spark 基本特点有哪些?正确答案:A,B,C,D
- A.Ease of use
- B.Generality
- C.Runs everywhere
- D.Speed
可以使用哪些语言来编写 spark 应用程序? 正确答案:A,B,C,D
- A.java
- B.scala
- C.python
- D.R
spark 和 hadoop 对比,说法正确的是? 正确答案:A,B,C
- A.Hadoop 中间结果会存储在磁盘上
- B.spark 中间结果会存储在内存中
- C.Spark 相对于 hadoop 提供了更多的操作
- D.Spark 已经完全取代 hadoop
Spark 常见组件描述错误的是 ()。 正确答案:B
- A.Spark Core:是以内存使用 RDD 的计算实现有向无环图的分布式并行计算框架
- B.Spark Streaming:是一个对实时数据流进行低吞吐量、高容错性处理的流式处理框架
- C.Spark SQL:是一个可以直接通过 sql 语句处理 RDD,来进行查询与计算
- D.Spark MLBase:是专注于机器学习方面
- E.Spark GraphX:是专注于图计算方面
- F.SparkR:是一种使用 R 语言开发,且能实现并行处理的计算框架
大数据期末题目汇总
选择题
- 下面哪个程序负责 HDFS 数据存储。 (C )
A. NameNode B.Jobtracker
C. Datanode D. secondaryNameNode
- HDFS 中的 block 默认保存几个备份。 ( A )
A. 3 份 B. 2 份
C. 1 份 D. 不确定
- HDFS1.0 默认 Block Size 大小是多少。 ( B )
A. 32MB B. 64MB
C. 128MB D. 256MB
- 下面哪个进程负责 MapReduce 任务调度。 ( B )
A. NameNode B. Jobtracker
C. TaskTracker D. secondaryNameNode
- Hadoop1.0 默认的调度器策略是哪个。 (A )
A. 先进先出调度器 B. 计算能力调度器
C. 公平调度器 D. 优先级调度器
- Client 端上传文件的时候下列哪项正确? ( B )
A. 数据经过 NameNode 传递给 DataNode
B. Client 端将文件切分为 Block,依次上传
C. Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作
D. 以上都不正确
- 在实验集群的 master 节点使用 jps 命令查看进程时,终端出现以下哪项能说明 Hadoop 主节点启动成功? ( D )
A. Namenode,Datanode, TaskTracker
B. Namenode,Datanode, secondaryNameNode
C. Namenode,Datanode, HMaster
D. Namenode,JobTracker, secondaryNameNode
- 若不针对 MapReduce 编程模型中的 key 和 value 值进行特别设置,下列哪一项是 MapReduce 不适宜的运算。 ( D )
A. Max B. Min
C. Count D. Average
- MapReduce 编程模型,键值对 <key, value> 的 key 必须实现哪个接口? ( A )
A.WritableComparable B. Comparable
C. Writable D. LongWritable
- 以下哪一项属于非结构化数据。(C)
A. 企业 ERP 数据 B. 财务系统数据
C. 视频监控数据 D. 日志数据
- HBase 数据库的 BlockCache 缓存的数据块中,哪一项不一定能提高效率。 (D )
A. –ROOT - 表 B. .META. 表
C. HFile index D. 普通的数据块
- HBase 是分布式列式存储系统,记录按什么集中存放。 (A )
A. 列族 B. 列
C. 行 D. 不确定
- HBase 的 Region 组成中,必须要有以下哪一项。 ( B )
A. StoreFile B. MemStore
C. HFile D. MetaStore
- 客户端首次查询 HBase 数据库时,首先需要从哪个表开始查找。 ( B )
A. .META. B. –ROOT-
C. 用户表 D. 信息表
15、设计分布式数据仓库 hive 的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。 ( A )
A. 分桶 B. 分区
C. 索引 D. 分表
填空题
- 大数据的特点:Volume (数据容量)、Variety (数据类型)、Viscosity (价值密度)、Velocity (速度)、Veracity (真实性)
- 大数据的性质:非结构性、不完备性、时效性、安全性、可靠性
- 大数据处理的全过程:数据采集与记录 --> 数据抽取、清洗、标记 --> 数据集成、转换、简约 --> 数据分析与建模 --> 数据解释
- 大数据的关键技术:流处理、并行化、摘要索引、可视化
- 科学研究范式:第一范式 (科学实验)、第二范式 (科学理论)、第三范式 (系统模拟)、第四范式 (数据密集型计算)
- CAP理论:Consistency (一致性)、Availability (可用性)、Partition Tolerance (分区容错性)。一个分布式系统不可能同时满足一致性、可用性、分区容错性三个系统需求,最多只能同时满足两个。
- HDFS 目标:兼容廉价的硬件设备、流数据读写、大数据集、简单的文件模型、强大的跨平台兼容性
- 流式数据的特征:实时性、易失性、突发性、无序性、无限性、准确性
- Storm 特征:编程简单、支持多语言、作业级容错、水平扩展、底层使用 Zero 消息队列,快
- 搜索引擎的工作过程:爬行 -> 抓取存储 -> 预处理 -> 排名
- 搜索引擎的评价指标:查全率、查准率、响应时间、覆盖范围、用户方便性
- 数据分析的目的:对杂乱无章的数据进行集中、萃取、提炼,进而找出所研究对象的内在规律,发现其价值。
- Hadoop 的三种安装模式:单机 伪分布式 完全分布式
- yarn 配置后的 web 监控的默认端口是 8088
- HDFS web 界面的默认端口为 50070
- 目前得到广泛应用的分布式文件系统主要包括 GFS 和 HDFS。
- HDFS 采用 “一次写入,多次读取” 的简单文件模型。
- HDFS 采用了 主从结构模型。
- Hase 3 个主要功能组件:库函数,Master 主服务器,Region 服务器
- MapReduce 模型的核心是 Map 函数和 Reduce 函数。
- YARN 的目标就是实现 “一个集群,多个框架”。
判断题
- Hadoop 支持数据的随机读写。(hbase 支持,hadoop 不支持) ( 错 )
- NameNode 负责管理元数据信息 metadata,client 端每次读写请求,它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。(内存中读取) ( 错 )
- MapReduce 的 input split 一定是一个 block。 (默认是) ( 错)
- MapReduce 适于 PB 级别以上的海量数据在线处理。 (离线) ( 错 )
- 链式 MapReduce 计算中,对任意一个 MapReduce 作业,Map 和 Reduce 阶段可以有无限个 Mapper,但 Reducer 只能有一个。 ( 对 )
- MapReduce 计算过程中,相同的 key 默认会被发送到同一个 reduce task 处理。( 对 )
- HBase 对于空(NULL)的列,不需要占用存储空间。 (没有则空不存储)( 对 )
- HBase 可以有列,可以没有列族(column family)。 (有列族) ( 错 )
简答题
- 简述大数据技术的特点。
Volume(大体量):即可从数百 TB 到数十数百 PB、甚至 EB 规模。
Variety(多样性):即大数据包括各种格式和形态的数据。
Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。
Veracity(准确性):即处理的结果要保证一定的准确性。
Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用带来巨大的商业价值。
- 启动 Hadoop 系统,当使用 bin/start-all.sh 命令启动时,请给出集群各进程启动顺序。
答:启动顺序:namenode –> datanode -> secondarynamenode -> resourcemanager -> nodemanager
- 简述 HBase 的主要技术特点。
(1)列式存储
(2)表数据是稀疏的多维映射表
(3)读写的严格一致性
(4)提供很高的数据读写速度
(5)良好的线性可扩展性
(6)提供海量数据
(7)数据会自动分片
(8)对于数据故障,hbase 是有自动的失效检测和恢复能力。
(9)提供了方便的与 HDFS 和 MAPREDUCE 集成的能力。
- 科学研究第一范式、第二范式、第三范式、第四范式。
第一范式 (科学实验)、第二范式 (科学理论)、第三范式 (系统模拟)、第四范式 (数据密集型计算)
第一范式:经验范式,以观察和实验为依据的研究。
第二范式:以建模和归纳为基础的理论学科和分析范式,又称为理论范式。
第三范式:以模拟复杂现象为基础的计算科学范式,又称为模拟范式。
第四范式:以数据考察为基础,联合理论、实验和模拟一体的数据密集计算的范式,数据被捕获或者由模拟器生成,利用软件处理,信息和知识存储在计算机中,科学家使用数据管理和统计学方法分析数据。 - 分布式系统的 CAP 理论。
CAP 一致性:所有节点在同一时间具有相同的数据。
可用性:保证每个请求的成功或失败都有相应。
分区容错性:系统中任意信息的丢失或失败不影响系统的继续运行。
CAP 定理:一个分布式系统不可能同时满足一致性、可用性、和分区容错性,最多只能同时满足两个系统需求。在考虑满足系统需求时,要根据实际需要来选择关注点,进而采用相应的策略。
CAP 选择:1. 放弃分区容错性。2. 放弃可用性。3. 放弃一致性。 - 函数式语言的概念及特点,Map 及 Reduce 过程的含义及功能,Hadoop 分布式平台特点。
函数式语言的概念和特点:函数式语言是一种典型的程序设计语言。特点是把问题求解过程表示成块结构,对调用块的调用者来说,每个块都有输入数据和经过加工处理后的输出数据。
Map 及 Reduce 过程的含义及功能:Map(映射)Reduce(化简)。Map 函数应用于集合中的所有成员,然后返回一个基于这个处理的结果集。Reduce 函数是从两个或更多个 Map 结果中,通过多个线程、进程或者独立系统并执行处理的结果集进行分类和归纳。一个 Map 函数用来把一组键值对映象成一组新的键值对,Reduce 函数用来对同一个键的值进行合并。
Hadoop 分布式平台特点:方便,健壮,可横向扩展,简单。