hadoop毕业设计 hadoop课程设计题目

转载

mob64ca13f7ab19 2023-09-02 17:56:40

文章标签 hadoop毕业设计 HDFS Hadoop 数据 文章分类 Hadoop 大数据

Hadoop考试题目复习大纲

HDFS:Hadoop distribute File Sytem(hadoop文件分布式系统),它是一个文件系统用于通过统一的命名空间—目录树来定位文件

数据块副本折存放策略是什么？

1.副本放置策略
第一副本：放置在上传文件的DataNode上;如果是集群外提交，则随机挑选一台磁盘不太慢、CPU不太忙的节点上;
第二副本：放置在于第一个副本不同的机架的节点上;

第三副本：与第二个副本相同机架的不同节点上;

如果还有更多的副本：随机放在节点中;

简述HDFS的架构。

HDFS主要由四个部分组成，分别为Client，nameNode、DataNode、以及Secondary NameNode组成

4.简述核心组件NameNode和DataNode的作用。

NameNode的作用

1、维护目录树，维护命名空间。
2、负责确定指定的文件块到具体的Datanode结点的映射关系。（在客户端与Datanode之间共享数据）
3、管理Datanode结点的状态报告

DataNode的作用

1、负责管理它所在结点上存储的数据的读写，及存储数据。

2、向Namenode结点报告DataNode节点的状态。

3、通过流水线复制实现三份数据副本。

常见的HDFS分布式文件系统的命令行行的命令有哪些？

hdfs dfs ls 路径  ls cat  put mpa help cp  safemode get/leave/enter











hdfs dfs -moveFormLocal /root/Linux/a.txt /hdfs/a.txt　　(剪切)

**常见的操作HDFS分布式文件系统的JavaAPI有哪些**？

**FileSystem.get(url,configuration,user);//获取连接**
**CopyFromLocalFile();//上传文件到hdfs**
**CopyToLocal();//下载文件到本地**
**rename(path1,path2)//重新命名文件**
**delete(path1,true);//删除文件名**
**fs.listStatus(new Path());//用来判断文件的种类 是目录不是文件夹**

hdfs dfs -mkdir /wyh

　　　　hdfs dfs -mkdir -p /wyh/dilireba/love　　(多级创建)

1. 什么是数据的完整性？

数据完整性是指数据库中数据在逻辑上的一致性、正确性、有效性和相容性

2. 常见的数据压缩格式有哪些？对文件的压缩有哪些好处？

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FFinMIFY-1618988592267)(C:\Users\CourageAndLove\AppData\Roaming\Typora\typora-user-images\image-20210416111204506.png)]

好处：减少存储的磁盘空间，降低IO,加快数据在磁盘和网络中的传输速度

Hadoop的序列化框架中常见的数据类型有哪些？

java数据类	Hadoop数据类型
Boolean	BooleanWritable
byte	ByteWritable
int	IntWritable,VIntWritable
float	FloatWritable
long	LongWritable
double	DoubleWritable
String	Text
map	MapWritable
array	ArrayWritable
null	NullWritable

什么是MapReduce的编程模型？

Hadoop MapReduce是一个软件框架，基于该框架能够容易的编写应用程序，这些应用程序能够运行由上千商用的机器组成的集群上，并以一种可靠的，具有容错能力的方式并行地处理TB级别的海量数据集。

MapReduce的思想是“分而治之”。 Maper负责分，Reducer负责结果汇总

简述MapReduce中JobTracker和TaskTracker的功能。

Jobtracker是主线程，它负责接收客户作业提交，调度任务到工作结点运行，并提供诸监控工作节点状态，及任务进度管理功能，一个MapReduce集群有一个jobtracker,一般运行在可靠的硬件上。

taskTracker是通过周期性的心跳通知jobtracker其当前的健康状态，每一次心跳包含了可用的map和reduce任务数目，占用的数目以及运行中的任务详细信息。Jobtracker利用一个线程池来同时处理心跳和客户请求。

使用MapReduce编程模型实现单词的词频统计。

简述MapReduce编程模型的编程思路

用户编写的程序分成三个部分：Mapper,Reducer,Driver(提交运行mr程序的客户端)

Driver来进行提交，提交的是一个描述各种必要的信息的job对象。

简述MapReduce的应用程序在集群上的运行过程。

执行的MapReduce的程序会被部署到集群中去，Master负责作业调度，worker负责执行执行Map和Reduce任务
选出执行Map任务的空闲机器，进行分片处理，然后进行map
得到输出数据<key，value>
得到的结果写入本地map机器的缓存，满了之后写入磁盘，并被划分为R个分区，Master会记录R个分区的位置，通知R个Reduce任务的Worker来领取属于自己处理的那部分分区
Reduce任务的Worker领取了属于自己处理的分区，而且是当领取所有属于自己的Map机器的分区数据之后，Reduce任务的Worker对所有键值对进
排序，将具有相同的Key值的聚在一起，然后开始执行Reduce任务
对每一个唯一的Key执行Reduce任务，结果输出到HDFS中
关于Hadoop的单机模型和伪分布式模式的说法正确的是：
后者比前者增加了HDFS输入输出以及检查内存的使用情况

HDFS默认的当前的工作目录是/user/$USER,fs.default.name的值需要在哪个配置文件内说明： core-site.xml
配置Hadoop时，java_home包含在哪一个配置文件中： hadoop-env.sh
下列关于MapReduce说法不正确的是 MapReduce只能用java语言编写

Hdfs基于流数据模式访问和处理超大文件的需求而开发的，具有高容错，高可靠性、高扩展性，高吞吐率特征，适合的读写任务是：一次写入，多次读入

HBase 依靠HDFS 存储底层数据

Hbase依赖MapReduce提供强大的计算能力

下面和HDFS类似的框架是GFS

大数据的特点不包括价值密度高，拥有巨大的数据量、多结构化数据，增长速度快

Doug Cutting 所创立的项目的名称都受到其家人的启发，以下项目不是由他创立的是 Solr

由他创立的项目有Hadoop,Nutch,Lucene

出现在datanode的Version文件格式但不出现在namenode的Version文件格式中的是 StorageID

Client在HDFS上进行文件写入，namenode根据文件大小和配置情况返回部分datanode信息，谁负责将文件划分为多个Block,根据DataNode的地址信息按顺序写入到时每一个datanode块 Client

关于HDFS的文件写入，正确的是：默认将文件复制三份存放。

Hadoop fs中的-get和-put命令操作对象是文件和目录。

NameNode在启动时自动进入安全模式，在安全模式阶段，说法错误的是：文件系统允许有修改

MapReduce 框架提供了一种序列化键/值对的方法，支持这种序列化的类能够在Map和Reduce过程中充当键和值，

以下错误的是Hadoop的基本Text并不实现WritableComparable接口

下列哪个程序负责HDFS的数据存储DataNode

Client端上传文件的时候下列哪项正确 Client端将文件分为Block,依次上传

下面说法正确的是：D

A block Size是不可以修改的

B 如果 NameNode意外终止，SecondaryNameNode会接替它使集群继续工作

C Hadooop是java开发的，所以mapReduce只支持java

D ClouderaCDH是不需要付费使用的

下面说法正确的是：Hadoop默认调度策略为FIFO

Hadoop集群需要哪些守护进程： dataNode taskTracker namenode

hadoop主要组成部分包括:HDFS MapReduce yarn

有个exam任务，打算采用linux crontab，每20分钟运行一次，下面哪项正确？

A、

*/20 * * * * exam

下列哪种类型的文件不是HDFS的元数据的存储格式？ blk_0000003425

HDFS无法高效的存储大量小文件，想证它能处理好小文件，比较可行的改进策略不包括：

查看当前模式是否是安全模式

hdfs dfsadmin -safemode get

HDFS组成架构 NameNode,DataNode,client,Secondary NameNode

MapReduce技术特征总结自动并行化，自动可靠处理，灵活扩展，高性能

关于HDFS安全模式说法正确的是HBase依靠HDFS存储底层数据

请问以下哪个组成是错误的sbin/hdfs dfsadmin -report

下面哪个选项中的Daemon总是运行在同一台主机上？

DataNOde &Task Tracker

不Hadoop MapReduce框架中，任何类型需要实现Writable接口

Hadoop配置文件中，hadoop-site.xml显示覆盖hadoop-default.xml里的内容。在版本0.20中，hadoop-site.xml被分离成三个XML文件，不包括 conf-site.xml

HDFS集群中nameNode的职责不包括：负责保存客户端上传的数据。

包括：1. 维护HDFS集群的目录树结构 2、响应所有的客户端的所有的读写数据请求

维护HDFS集群的所有数据块分布、副本数和负载均衡

HDFS集群中的DataNode的描述不正确的是？ C
A DataNode之间都是独立的，相互之间会有通信
B, 响应客户端的所有读写数据请求，为客户端的存储和读取数据提供支撑
C 一个DataNode上存储的数据可以有相同的
D 存储客户端上传的数据的数据块

执行一个job（工作），如果这个job的输出路径已经存在，那么程序会？D

A、

覆盖这个输出路径

B、

创建一个新的输出路径

C、

抛出警告，但是能够继续执行

D、

抛出一个异常，然后退出

Hadoop中默认的心跳间隔是多少级？C

A. 1S

B 2S

C 3S

D 4S

储的数据可以有相同的

D 存储客户端上传的数据的数据块

执行一个job（工作），如果这个job的输出路径已经存在，那么程序会？D

A、

覆盖这个输出路径

B、

创建一个新的输出路径

C、

抛出警告，但是能够继续执行

D、

抛出一个异常，然后退出

Hadoop中默认的心跳间隔是多少级？C

A. 1S

B 2S

C 3S

D 4S

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：MySQL8 初始化报错 mysql8.0初始化

下一篇：python 报错信息没有输出到日志文件 python无输出

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯