Hadoop考试题目复习大纲

HDFS:Hadoop distribute File Sytem(hadoop文件分布式系统),它是一个文件系统用于通过统一的命名空间—目录树来定位文件

数据块副本折存放策略是什么?

1.副本放置策略
第一副本:放置在上传文件的DataNode上;如果是集群外提交,则随机挑选一台磁盘不太慢、CPU不太忙的节点上;
第二副本:放置在于第一个副本不同的机架的节点上;

第三副本:与第二个副本相同机架的不同节点上;

如果还有更多的副本:随机放在节点中;

简述HDFS的架构。

HDFS主要由四个部分组成,分别为Client,nameNode、DataNode、以及Secondary NameNode组成

4.简述核心组件NameNode和DataNode的作用。

NameNode的作用

1、 维护目录树,维护命名空间。
2、 负责确定指定的文件块到具体的Datanode结点的映射关系。(在客户端与Datanode之间共享数据)
3、管理Datanode结点的状态报告

DataNode的作用

1、 负责管理它所在结点上存储的数据的读写,及存储数据。

2、 向Namenode结点报告DataNode节点的状态。

3、 通过流水线复制实现三份数据副本。

常见的HDFS分布式文件系统的命令行行的命令有哪些?

hdfs dfs ls 路径  ls cat  put mpa help cp  safemode get/leave/enter











hdfs dfs -moveFormLocal /root/Linux/a.txt /hdfs/a.txt  (剪切)

**常见的操作HDFS分布式文件系统的JavaAPI有哪些**?

**FileSystem.get(url,configuration,user);//获取连接**
**CopyFromLocalFile();//上传文件到hdfs**
**CopyToLocal();//下载文件到本地**
**rename(path1,path2)//重新命名文件**
**delete(path1,true);//删除文件名**
**fs.listStatus(new Path());//用来判断文件的种类 是目录不是文件夹**

hdfs dfs -mkdir /wyh

    hdfs dfs -mkdir -p /wyh/dilireba/love  (多级创建)

1. 什么是数据 的完整性?

数据完整性是指数据库中数据在逻辑上的一致性、正确性、有效性和相容性

2. 常见的数据压缩格式 有哪些?对文件的压缩有哪些好处?

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FFinMIFY-1618988592267)(C:\Users\CourageAndLove\AppData\Roaming\Typora\typora-user-images\image-20210416111204506.png)]

好处: 减少存储的磁盘空间,降低IO,加快数据在磁盘和网络中的传输速度

Hadoop的序列化框架中常见的数据类型有哪些?

java数据类

Hadoop数据类型

Boolean

BooleanWritable

byte

ByteWritable

int

IntWritable,VIntWritable

float

FloatWritable

long

LongWritable

double

DoubleWritable

String

Text

map

MapWritable

array

ArrayWritable

null

NullWritable

什么是MapReduce的编程模型?

Hadoop MapReduce是一个软件框架,基于该框架能够容易的编写应用程序,这些应用程序能够运行由上千商用的机器组成的集群上,并以一种可靠的,具有容错能力的方式并行地处理TB级别的海量数据集。

MapReduce的思想是“分而治之”。 Maper负责分,Reducer负责结果汇总

简述MapReduce中JobTracker和TaskTracker的功能。

Jobtracker是主线程,它负责接收客户作业提交,调度任务到工作结点运行,并提供诸监控工作节点状态,及任务进度管理功能,一个MapReduce集群有一个jobtracker,一般运行在可靠的硬件上。

taskTracker是通过周期性的心跳通知jobtracker其当前的健康状态,每一次心跳包含了可用的map和reduce任务数目,占用的数目以及运行中的任务详细信息。Jobtracker利用一个线程池来同时处理心跳和客户请求。

使用MapReduce编程模型实现单词的词频统计。

简述MapReduce编程模型的编程思路

用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端)

Driver来进行提交,提交的是一个描述各种必要的信息的job对象。

简述MapReduce的应用 程序在集群上的运行过程。

  1. 执行的MapReduce的程序会被部署到集群中去,Master负责作业调度,worker负责执行执行Map和Reduce任务
  2. 选出执行Map任务的空闲机器,进行分片处理,然后进行map
    得到输出数据<key,value>
  3. 得到的结果写入本地map机器的缓存,满了之后写入磁盘,并被划分为R个分区,Master会记录R个分区的位置,通知R个Reduce任务的Worker来领取属于自己处理的那部分分区
  4. Reduce任务的Worker领取了属于自己处理的分区,而且是当领取所有属于自己的Map机器的分区数据之后,Reduce任务的Worker对所有键值对进
    排序,将具有相同的Key值的聚在一起,然后开始执行Reduce任务
    对每一个唯一的Key执行Reduce任务,结果输出到HDFS中
  5. 关于Hadoop的单机模型和伪分布式模式的说法正确的是:
    后者比前者增加了HDFS输入输出以及检查内存的使用情况
  1. HDFS默认的当前 的工作目录 是/user/$USER,fs.default.name的值需要 在哪个配置文件内说明: core-site.xml
  2. 配置Hadoop时,java_home包含在哪一个配置文件中: hadoop-env.sh
  3. 下列关于MapReduce说法不正确的是 MapReduce只能 用java语言编写

Hdfs基于流数据模式访问和处理超大文件的需求而开发的,具有高容错,高可靠性、高扩展性,高吞吐率特征,适合的读写任务是:一次写入,多次读入

HBase 依靠HDFS 存储底层数据

Hbase依赖MapReduce提供强大的计算能力

下面和HDFS类似的框架是GFS

大数据的特点不包括价值密度高,拥有巨大的数据量、多结构化数据,增长速度快

Doug Cutting 所创立 的项目的名称都受到其家人的启发,以下项目不是由他创立的是 Solr

由他创立 的项目有Hadoop,Nutch,Lucene

出现在datanode的Version文件格式但不出现 在namenode的Version文件格式中的是 StorageID

Client在HDFS上进行文件写入,namenode根据文件大小和配置情况返回部分datanode信息,谁负责将文件划分为多个Block,根据DataNode的地址信息按顺序写入到时每一个datanode块 Client

关于HDFS的文件写入,正确的是:默认将文件复制三份存放。

Hadoop fs中的-get和-put命令操作对象 是 文件和目录。

NameNode在启动时自动进入 安全模式,在安全模式阶段,说法错误的是:文件系统允许有修改

MapReduce 框架提供了一种 序列化键/值对的方法,支持这种序列化的类能够在Map和Reduce过程 中充当键和值,

以下错误的是Hadoop的基本Text并不实现WritableComparable接口

下列哪个程序负责HDFS的数据存储DataNode

Client端上传文件的时候下列哪项正确 Client端将文件分为Block,依次上传

下面说法正确的是:D

A block Size是不可以修改的

B 如果 NameNode意外终止,SecondaryNameNode会接替它使集群继续工作

C Hadooop是java开发的,所以mapReduce只支持java

D ClouderaCDH是不需要付费使用的

下面说法正确的是:Hadoop默认调度策略为FIFO

Hadoop集群需要哪些守护进程: dataNode taskTracker namenode

hadoop主要组成部分包括:HDFS MapReduce yarn

有个exam任务,打算采用linux crontab,每20分钟运行一次,下面哪项正确?

A、

*/20 * * * * exam

下列哪种类型的文件不是HDFS的元数据的存储格式? blk_0000003425

HDFS无法高效的存储大量小文件,想证它能处理好小文件,比较可行的改进策略不包括:

查看当前模式是否是安全模式

hdfs dfsadmin -safemode get

HDFS组成架构 NameNode,DataNode,client,Secondary NameNode

MapReduce技术特征总结 自动并行化,自动可靠处理,灵活扩展,高性能

关于HDFS安全模式说法正确的是HBase依靠HDFS存储底层数据

请问以下哪个组成是错误 的sbin/hdfs dfsadmin -report

下面哪个选项中的Daemon总是运行在同一台主机上?

DataNOde &Task Tracker

不Hadoop MapReduce框架 中,任何类型 需要实现Writable接口

Hadoop配置文件中,hadoop-site.xml显示覆盖hadoop-default.xml里的内容。在版本0.20中,hadoop-site.xml被分离成三个XML文件,不包括 conf-site.xml

HDFS集群中nameNode的职责不包括: 负责保存客户端上传的数据。

包括:1. 维护HDFS集群的目录树结构 2、响应所有的客户端的所有的读写数据请求

  1. 维护HDFS集群的所有数据块分布、副本数和负载均衡
  1. HDFS集群中的DataNode的描述不正确的是? C
    A DataNode之间都是独立的,相互之间会有通信
    B, 响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑
    C 一个DataNode上存储的数据可以有相同的
    D 存储客户端上传的数据的数据块

执行一个job(工作),如果这个job的输出路径已经存在,那么程序会?D

A、

覆盖这个输出路径

B、

创建一个新的输出路径

C、

抛出警告,但是能够继续执行

D、

抛出一个异常,然后退出

Hadoop中默认的心跳间隔是多少级?C

A. 1S

B 2S

C 3S

D 4S

储的数据可以有相同的

D 存储客户端上传的数据的数据块

执行一个job(工作),如果这个job的输出路径已经存在,那么程序会?D

A、

覆盖这个输出路径

B、

创建一个新的输出路径

C、

抛出警告,但是能够继续执行

D、

抛出一个异常,然后退出

Hadoop中默认的心跳间隔是多少级?C

A. 1S

B 2S

C 3S

D 4S