上节我们已经成功配置并启动了hadoop集群,1台namenode节点,2台datanode节点,接下来我们就利用hadoop大杀器,使用HDFS和Mapreduce

1、测试HDFS的功能

我们先上传一个文件到HDFS,先查看software目录

hadoop 大数据项目搭建 hadoop大数据处理实战_大数据

里面有我们之前配置java的jdk包,我们就上传这个文件,输入hadoop可以查看帮助信息,看到有fs

hadoop 大数据项目搭建 hadoop大数据处理实战_大数据_02

我们再输入hadoop fs,可以看到有很多命令可用,其中我们很关注的便是上传和下载功能,即下图中的-get和-put命令

hadoop 大数据项目搭建 hadoop大数据处理实战_mapreduce_03

HDFS的上传就是把文件从本地文件系统(Linux文件系统)上传到HDFS文件系统,我们用命令:

hadoop fs -put /software/jdk-8u181-linux-x64.tar.gz hdfs://master105:9000/jdk8

这条命令的意思是从software目录下把jdk文件上传到HDFS系统的根目录下并给文件重命名为jdk8。上传完之后我们便可以到HDFS文件系统进行查看是否刚才上传的文件上传成功了,我们刷新一下:http://master105:50070/explorer.html#/ 这个网址,便可以看到我们刚才上传的文件确实已经在HDFS系统当中了

hadoop 大数据项目搭建 hadoop大数据处理实战_hadoop_04

 既然可以上传,当然也可以下载,我们怎么下载呢,第一种方法是我们点击上图中Name这一列中jdk8的链接,会进入到如下图所示的页面,我们点击下面红色框中的“Download”链接,就会弹出下载提示框,我们下载即可。

hadoop 大数据项目搭建 hadoop大数据处理实战_hdfs_05

第二种下载方法便是用命令的方式,跟put类似,如下图所示,用命令:hadoop fs -get hdfs://master105:9000/jdk8 /jdk1.8,这条命令的意思是从hdfs文件系统的根目录下将jdk8文件下载到本地 / 文件夹下并且将名字命名为jdk1.8。我们再查看ls,已经发现jdk1.8这个文件了

hadoop 大数据项目搭建 hadoop大数据处理实战_hadoop 大数据项目搭建_06

我们执行解压 tar -zxvf jdk1.8,发现可以解压成功

hadoop 大数据项目搭建 hadoop大数据处理实战_hadoop_07

2、测试MR和YARN

我们使用Hadoop官方提供的事例程序进行测试,

hadoop dfs -mkdir /test #创建test目录

hadoop dfs -ls /      #查看根目录

hadoop 大数据项目搭建 hadoop大数据处理实战_mapreduce_08

我们建一个测试文件words,执行touch words,然后 vi words  输入几个单词

hadoop 大数据项目搭建 hadoop大数据处理实战_hadoop_09

执行 hadoop dfs -put words /test #将创建好的words文件上传到hdfs文件系统中的test目录下,刷新下列表,发现已经上传成功,这里Replication为3,表示副本数是3,我们有3台服务器做集群,BlockSize表示块大小是128M,块大小在Hadoop1.x版本中默认是64M,在Hadoop2.x版本中默认是128M,因为我上节配置是默认的,所以这里就是128M。

hadoop 大数据项目搭建 hadoop大数据处理实战_hdfs_10

我们可以查看下刚才上传的jdk文件,这个文件超过了128M,所以被分成了2个块

hadoop 大数据项目搭建 hadoop大数据处理实战_hadoop 大数据项目搭建_11

 

接下来我们利用hadoop2.7.3的示例,运行mapreduce

执行:hadoop jar /software/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /test/words /test/output
我们输出结果到 /test/output,看下图我们看到job已经执行成功,

hadoop 大数据项目搭建 hadoop大数据处理实战_hadoop 大数据项目搭建_12

我们打开http://master105:18088/cluster/apps/FINISHED,也可以看到执行情况,FinalStatus是SUCCEEDED

hadoop 大数据项目搭建 hadoop大数据处理实战_hadoop_13

我们再刷新下我们刚才设置的test目录 http://master105:50070/explorer.html#/test/,这里已经生成output目录

hadoop 大数据项目搭建 hadoop大数据处理实战_hdfs_14

我们点击output目录,里面有2个文件,其中_SUCCESS表示执行成功,part-r-00000是我们这次MR计算的执行结果文件

hadoop 大数据项目搭建 hadoop大数据处理实战_hadoop_15

我们点击part-r-00000,把它下载下来,用记事本打开,可以看到计算结果

hadoop 大数据项目搭建 hadoop大数据处理实战_hadoop 大数据项目搭建_16

以上的操作我们没有遇到问题,如果在操作中我们出现了问题,我们可以通过查看logs文件,logs文件所在的目录是在hadoop-2.7.3下logs

hadoop 大数据项目搭建 hadoop大数据处理实战_大数据_17

执行查看日志 more hadoop-root-namenode-master105.log

hadoop 大数据项目搭建 hadoop大数据处理实战_大数据_18

到此我们已经使用了hadoop的HDFS文件系统,也使用了MR计算

总结
        感谢能看到这里的朋友😉

        本次的分享就到这里,猫头鹰数据致力于为大家分享技术干货😎

        如果以上过程中出现了任何的纰漏错误,烦请大佬们指正😅

        受益的朋友或对技术感兴趣的伙伴记得点赞关注支持一波🙏