第一章 大数据概述

1.【单选题】大数据的4V特性不包括________。

A、数据量大

B、数据类型繁多

C、数据传输快

D、价值密度低

答案:C 

2 .【单选题】下列哪个不是大数据时代的新兴技术________。

A、Hadoop

B、Spark

C、HBase

D、SQL Server

答案:D 

  

3.【单选题】就数据的量级而言,1PB的数据是_______TB。

A、1024

B、1000

C、1024×1024

D、512

答案:A 

4 .【多选题】大数据对思维方式的影响包括________。

A、全样而非抽样

B、效率而非精确

C、片段而非全面

D、相关而非因果

答案:ABD 

  

5. 【多选题】云计算的典型服务模式是________。

A、基础设施即服务

B、计算即服务

C、平台即服务

D、软件即服务

答案:ACD     

6 .【多选题】云计算的关键技术包括________。

A、虚拟化

B、分布式存储

C、分布式计算

D、多租户

答案:ABCD 

  

7. 【多选题】按照服务对象划分,云计算包括________。

A、定向云

B、公有云

C、私有云

D、混合云

答案:BCD 

  

8 .【填空题】第三次信息化浪潮的标志是物联网、__云计算__________、大数据。

答案:云计算  

  

9 .【填空题】大数据的计算模式包括__批处理计算__________、流计算、图计算和查询分析计算。

答案: 批处理计算

第2章 大数据处理架构Hadoop

1. 【单选题】启动hadoop所有进程的命令是________。

A、start-all.sh

B、start-hdfs.sh

C、start-hadoop.sh

D、start-dfs.sh

答案:A 

  

2. 【单选题】以下对Hadoop的说法错误的是________。

A、Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算

B、Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性

C、Hadoop是基于Java语言开发的,只支持Java语言编程

D、Hadoop的核心是HDFS和MapReduce

答案:C 

  

3. 【单选题】以下哪个不是hadoop的特性________。

A、成本高

B、高可靠性

C、支持多种编程语言

D、高容错性

答案:A 

  

4. 【单选题】以下名词解释不正确的是________。

A、HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现

B、Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储

C、HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现

D、Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统

答案:C 

  

5.【单选题】Hadoop是________公司旗下的分布式计算平台。

A、Oracle

B、Google

C、Apache

D、Amazon

答案:C 

  

6. 【单选题】Hadoop项目结构中,________负责资源管理和调度。

A、YARN

B、HA

C、Hive

D、Storm

答案:A 

  

7.【单选题】下列选项中哪一门技术属于大数据平台________。

A、Tomcat

B、Hadoop

C、ASP.NET

D、Apache

答案:B 

  

8. 【单选题】下列不属于Hadoop生态的技术是________。

A、Hive

B、HDFS

C、HBase

D、SQL Server

答案:D 

  

9 .【单选题】Hadoop运行在________操作系统之上。

A、Windows

B、Linux

C、Unix

D、IOS

答案:B 

  

10. 【多选题】以下哪些组件是Hadoop的生态系统的组件________。

A、MapReduce

B、Oracle

C、HBase

D、HDFS

答案:ACD 

  

11. 【多选题】Hadoop的核心组件是________和________。

A、GFS

B、HDFS

C、Spark

D、MapReduce

答案:BD 

  

12. 【多选题】Hadoop的核心组件不包括________。

A、GFS

B、HDFS

C、BigTable

D、MapReduce

答案:AC 

  

13 .【多选题】Hadoop生态系统的优势包含________。

A、高扩展

B、低成本

C、开源工具成熟

D、大型关系数据库系统

答案:ABC 

14 .【多选题】下列________不属于Hadoop生态系统的优势。

A、高扩展

B、低成本

C、低容错性

D、大型关系数据库系统

答案:CD 

  

15. 【多选题】大数据技术方案为了简化并行分布式计算,采用________软件模块进行处理。

A、Java

B、Map

C、Reduce

D、SQL

答案:BC 

  

16.【多选题】以下________工具属于Hadoop生态系统的开源工具。

A、Hive

B、HBase

C、Mysql

D、Zookeeper

答案:ABD 

  

17. 【多选题】对Hadoop中JobTacker的工作角色,以下说法正确的是________。

A、作业调度

B、分配任务

C、监控CPU运行效率

D、监控任务执行进度

答案:ABD 

  

18. 【判断题】Hadoop是IBM公司开发的一款商用大数据软件。

答案:× 

  

19. 【判断题】Hadoop是基于Java语言开发的,具有很好的跨平台特性。

答案: 

  

20. 【判断题】Hadoop是跨平台的,安装Hadoop时没必要安装JDK。

答案:×

第3章 分布式文件系统HDFS

1 .【单选题】HDFS的命名空间不包含________。

A、字节

B、文件

C、目录

D、块

答案:A 

  

2. 【单选题】对HDFS通信协议的理解错误的是________。

A、名称节点和数据节点之间则使用数据节点协议进行交互

B、客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互

C、HDFS通信协议都是构建在IoT协议基础之上的

D、客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的

答案:C 

  

3. 【单选题】采用多副本冗余存储的优势不包含________。

A、保证数据可靠性

B、节约存储空间

C、加快数据传输速度

D、容易检查数据错误

答案:B 

  

4 .【单选题】

假设已经配置好环境变量,启动HDFS和关闭HDFS的命令分别是________。

A、start-hdfs.sh,stop-hdfs.sh

B、start-dfs.sh,stop-dfs.sh

C、start-dfs.sh,stop-hdfs.sh

D、start-hdfs.sh,stop-dfs.sh

答案:B 

  

5 .【单选题】分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫________,另一类存储具体数据叫 ________。 

A、名称节点,数据节点

B、从节点,主节点

C、数据节点,名称节点

D、名称节点,主节点

答案:A 

  

6.【单选题】下面关于分布式文件系统HDFS的描述正确的是________。

A、分布式文件系统HDFS是Google Bigtable的一种开源实现

B、分布式文件系统HDFS比较适合存储大量零碎的小文件

C、分布式文件系统HDFS是一种关系型数据库

D、分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现

答案:D 

  

7 .【单选题】查看HDFS系统版本的Shell命令,以下正确的是________。

A、hadoop -ver

B、hdfs version

C、dfsadmin version

D、hdfs -ver

答案:B 

  

8. 【单选题】查看HDFS系统运行状态的Shell命令,以下正确的是________。

A、hdfs dfsadmin -report

B、hadoop –report

C、dfsadmin -report

D、hdfs -report

答案:A 

  

9. 【单选题】HDFS的名称节点保存两个核心的数据结构是________。

A、FsImage和Edit.new

B、Map和EditLog

C、FsImage和EditLog

D、FsImage和HLog

答案:C 

  

10. 【单选题】HDFS中使用Shell命令对Hadoop进行操作时,________实现了创建目录的功能。

A、hadoop fs -mkdir /dir1

B、hadoop fs -ls /usr

C、hadoop fs -touchz /dir

D、hadoop fs -cat /usr

答案:A 

  

11 .【单选题】采用HDFS Java API进行程序设计时,创建FileSystem对象的语句是________。

A、FileSystem fs = new FileSystem( );

B、FileSystem fs = FileSystem.Create( );

C、FileSystem fs = FileSystem.getInstance();

D、FileSystem fs = FileSystem.get(uri, conf);

答案:D 

  

12. 【多选题】以下对名称节点理解正确的是________。

A、名称节点的数据保存在内存中

B、名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问

C、名称节点通常用来保存元数据

D、名称节点用来负责具体用户数据的存储

答案:ABC 

  

13 .【多选题】以下对数据节点理解正确的是________。

A、数据节点的数据保存在磁盘中

B、数据节点通常只有一个

C、数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作

D、数据节点用来存储具体的文件内容

答案:ACD 

  

14. 【多选题】HDFS只设置唯一一个名称节点带来的局限性包括________。

A、隔离问题

B、命名空间的限制

C、集群的可用性

D、性能的瓶颈

答案:ABCD 

  

15. 【多选题】以下HDFS相关的shell命令不正确的是________。

A、hadoop fs -ls <path>:显示<path>指定的文件的详细信息

B、hadoop dfs mkdir <path>:创建<path>指定的文件夹

C、hdfs dfs -rm <path>:删除路径<path>指定的文件

D、hadoop fs -copyFromLocal <path1> <path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中

答案:BD 

  

16. 【多选题】HDFS中的NameNode节点用于存放元数据,数据内容包含________。

A、文件与数据块的映射表

B、每个数据块的内容

C、数据块与数据节点的映射表

D、客户端硬件配置数据

答案:AC 

  

17. 【多选题】对HDFS内的文件进行操作,以下说法正确的是________。

A、HDFS提供了Shell的操作接口

B、不允许对文件进行列表查看

C、文件操作命令与Linux相似

D、采用Windows系统对文件进行操作

答案:AC 

  

18. 【多选题】HDFS与传统数据存储对比,主要特点包含________。

A、数据冗余,硬件容错

B、流式的数据访问

C、适合存储大量小文件

D、适合存储大量大文件

答案:ABD 

  

19. 【多选题】Hadoop存储系统HDFS的体系结构的设计目标包含________。

A、自动检测处理硬件错误

B、流式访问数据

C、转移计算,不移动数据位置

D、简单数据一致性模型

答案:ABCD 

  

20 .【多选题】HDFS的适用性和局限性,以下说法正确的是________。

A、适合数据批量读写、吞吐量高

B、不适合交互式应用,低延迟很难满足

C、适合一次写入多次读取、顺序读写

D、不支持多用户并发写相同文件

答案:ABCD 

  

21 .【多选题】HDFS中第二名称节点的作用是________。

A、名称节点的热备份

B、合并FsImage和EditLog文件

C、作为名称节点的检查点

D、提高集群的可用性

答案:BC 

  

22 .【填空题】HDFS的命名空间包括目录、文件和________。

答案:

   

23. 【判断题】用户可以通过”hadoop fs –put ”命令获取远端文件数据。

答案:× 

  

24. 【判断题】Hadoop存储系统HDFS的文件是分块存储,每个文件块默认大小为32MB。

答案:× 

  

25 .【判断题】HDFS系统为了容错保证数据块完整性,每一块数据都采用2份副本。

答案:×

第4章 MapReduce

1 .【单选题】下列说法错误的是________。

A、Map函数将输入的元素转换成<key,value>形式的键值对

B、Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写

C、不同的Map任务之间不能互相通信

D、MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave

答案:B   

2 .【单选题】在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式________。

A、<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>

B、<"hello",1,1>、<"hadoop",1>和<"world",1>

C、<"hello",<1,1>>、<"hadoop",1>和<"world",1>

D、<"hello",2>、<"hadoop",1>和<"world",1>

答案:A 

  

3. 【单选题】在词频统计中,对于文本行"hello hadoop hello world",经过WordCount的Reduce函数处理后的结果是________。

A、<"hello",<1,1>><"hadoop",1><"world",1>

B、<"hello",2><"hadoop",1><"world",1>

C、<"hello",1,1><"hadoop",1><"world",1>

D、<"hello",1><"hello",1><"hadoop",1><"world",1>

答案:B 

  

4 .【单选题】关于Hadoop MapReduce的叙述错误的是________。

A、MapReduce采用“分而治之”的思想

B、MapReduce的输入和输出都是键值对的形式

C、MapReduce将计算过程划分为Map任务和Reduce任务

D、MapReduce的设计理念是“数据向计算靠拢”

答案:D 

  

5. 【单选题】Hadoop MapReduce计算的流程是________。

A、Map任务—Shuffle—Reduce任务

B、Map任务—Reduce任务—Shuffle

C、Reduce任务—Map任务—Shuffle

D、Shuffle—Map任务—Reduce任务

答案:A 

  

6. 【单选题】编写MapReduce程序时,下列叙述错误的是______。

A、map函数所在的类必须继承Mapper类

B、map函数的输出就是reduce函数的输入

C、reduce函数的输出默认是有序的

D、在main函数中,启动MapReduce的方法是start()。

答案:D    

7 .【多选题】下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是________。

A、前者相比后者学习起来更难

B、前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好

C、前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型

D、前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好

答案:ABCD 

8 .【多选题】MapReduce体系结构主要由哪几个部分组成________。

A、TaskTracker

B、Task

C、JobTracker

D、Client

答案:ABCD 

  

9 .【多选题】对MapReduce的体系结构,以下说法正确的是________。

A、分布式编程架构

B、以数据为中心,更看重吞吐率

C、分而治之的思想

D、将一个任务分解成多个子任务

答案:ABCD 

  

10 .【多选题】MapReduce为了保证任务的正常执行,采用________等多种容错机制。

A、重复执行

B、重新开始整个任务

C、推测执行

D、直接丢弃执行效率低的作业

答案:AC 

  

11 .【多选题】关于MapReduce的shuffle过程,叙述正确的是________。

A、Shuffle分为Map任务端的Shuffle和Reduce任务段的Shuffle

B、Map任务的输出结果不是立即写入磁盘,而是首先写入缓存

C、并非所有场合都可以使用合并操作

D、每个Reduce任务真正开始之前,大部分时间都在从Map端领取所需的数据

答案:ABCD 

  

12. 【判断题】MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢”,因为,移动数据需要大量的网络传输开销。

答案:

  

13. 【判断题】两个键值对<"a",1>和<"a",1>,如果对其进行归并(merge),会得到<"a",2>,如果对其进行合并(combine),会得到<"a",<1,1>>。

答案:× 

  

14 .【判断题】MapReduce的Shuffle操作仅在Map任务中执行。

答案:× 

  

15 【判断题】

HDFS是分布式文件系统,其命名空间包括块、目录和文件。

答案:  

  

16. 【判断题】Map的主要工作是将多个任务的计算结果进行汇总。

答案:× 

  

17. 【判断题】在Hadoop中每个应用程序被表示成一个作业,每个作业又被分成多个任务,JobTracker的负责作业的分解、状态监控以及资源管理。

答案: