1
【单选题】
Mapreduce适用于( )
A、
任意应用程序
B、
任意可在windows servet2008上运行的程序
C、
可以串行处理的应用程序
D、
可以并行处理的应用程序
我的答案:D
2
【单选题】
PageRank是一个函数,它对Web中的每个网页赋予一个实数值,它的意图在于网页的PageRank越高,那么它就( )
A、
相关性越高
B、
越不重要
C、
相关性越低
D、
越重要
我的答案:D
3
【单选题】
在Bigtable中( )主要用来存储子表数据以及一些日志文件
A、
GFS
B、
Chubby
C、
SSTable
D、
MapReduce
我的答案:A
4
【单选题】
当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )
A、
分类
B、
聚类
C、
关联分析
D、
隐马尔可夫链
我的答案:B
5
【单选题】
( )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。
A、
数据清洗
B、
数据集成
C、
数据变换
D、
数据归约
我的答案:D
6
【单选题】
单机串行处理1G大小的URL数据需要10分钟,Hadoop平台并行处理只需要1分钟,那么加速比为()
A、
10
B、
20
C、
30
D、
40
我的答案:A
7
【多选题】
数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及( )等方面。
A、
挖掘频繁模式
B、
分类和预测
C、
聚类分析
D、
偏差分析
我的答案:ABCD
8
【多选题】
通过数据挖掘过程所推导出的关系和摘要经常被称为( )
A、
模型
B、
模式
C、
模范
D、
模具
我的答案:AB
9
【多选题】
数据挖掘的预测建模任务主要包括哪几大类问题?( )
A、
分类
B、
回归
C、
模式发现
D、
模式匹配
我的答案:AB
10
【多选题】
大数据分析处理在效果方面的评测方法为:()
A、
准确率
B、
召回率
C、
F值
D、
丢包率
我的答案:ABC
11
【多选题】
Hadoop 集群可以运行在()3个模式。
A、
单机模式
B、
伪分布式模式
C、
完全分布式模式
D、
脱机模式
我的答案:ABC
12
【多选题】
大数据处理的5V特点分别是()和Value。
A、
Volume
B、
Velocity
C、
Variety
D、
Veracity
我的答案:ABCD
13
【多选题】
数据中的知识发现由以下步骤迭代序列组成是数据清理、数据集成、数据选择和()。
A、
数据变换
B、
数据挖掘
C、
模式评估
D、
知识表示
我的答案:ABCD
14
【多选题】
哪些是大数据分析处理评测方法关于效率方面的量度?
A、
时间复杂度
B、
空间复杂度
C、
吞吐率
D、
加速比
我的答案:ABCD
15
【判断题】
数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
我的答案:√
16
【判断题】
每个map槽就是一个线程。
我的答案:×
17
【判断题】
聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。
我的答案:√
18
【判断题】
数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。
我的答案:√