hadoop 大数据项目搭建 hadoop大数据处理实战

转载

mob6454cc6bf0b7 2023-10-03 11:41:30

文章标签 hadoop 大数据项目搭建 hadoop hdfs mapreduce 大数据 文章分类 Hadoop 大数据

上节我们已经成功配置并启动了hadoop集群，1台namenode节点，2台datanode节点，接下来我们就利用hadoop大杀器，使用HDFS和Mapreduce

1、测试HDFS的功能

我们先上传一个文件到HDFS，先查看software目录

hadoop 大数据项目搭建 hadoop大数据处理实战_大数据

里面有我们之前配置java的jdk包，我们就上传这个文件，输入hadoop可以查看帮助信息，看到有fs

hadoop 大数据项目搭建 hadoop大数据处理实战_大数据_02

我们再输入hadoop fs，可以看到有很多命令可用，其中我们很关注的便是上传和下载功能，即下图中的-get和-put命令

hadoop 大数据项目搭建 hadoop大数据处理实战_mapreduce_03

HDFS的上传就是把文件从本地文件系统（Linux文件系统）上传到HDFS文件系统，我们用命令：

hadoop fs -put /software/jdk-8u181-linux-x64.tar.gz hdfs://master105:9000/jdk8

这条命令的意思是从software目录下把jdk文件上传到HDFS系统的根目录下并给文件重命名为jdk8。上传完之后我们便可以到HDFS文件系统进行查看是否刚才上传的文件上传成功了，我们刷新一下：http://master105:50070/explorer.html#/ 这个网址，便可以看到我们刚才上传的文件确实已经在HDFS系统当中了

hadoop 大数据项目搭建 hadoop大数据处理实战_hadoop_04

既然可以上传，当然也可以下载，我们怎么下载呢，第一种方法是我们点击上图中Name这一列中jdk8的链接，会进入到如下图所示的页面，我们点击下面红色框中的“Download”链接，就会弹出下载提示框，我们下载即可。

hadoop 大数据项目搭建 hadoop大数据处理实战_hdfs_05

第二种下载方法便是用命令的方式，跟put类似，如下图所示，用命令：hadoop fs -get hdfs://master105:9000/jdk8 /jdk1.8，这条命令的意思是从hdfs文件系统的根目录下将jdk8文件下载到本地 / 文件夹下并且将名字命名为jdk1.8。我们再查看ls，已经发现jdk1.8这个文件了

hadoop 大数据项目搭建 hadoop大数据处理实战_hadoop 大数据项目搭建_06

我们执行解压 tar -zxvf jdk1.8,发现可以解压成功

hadoop 大数据项目搭建 hadoop大数据处理实战_hadoop_07

2、测试MR和YARN

我们使用Hadoop官方提供的事例程序进行测试，

hadoop dfs -mkdir /test #创建test目录

hadoop dfs -ls / #查看根目录

hadoop 大数据项目搭建 hadoop大数据处理实战_mapreduce_08

我们建一个测试文件words，执行touch words，然后 vi words 输入几个单词

hadoop 大数据项目搭建 hadoop大数据处理实战_hadoop_09

执行 hadoop dfs -put words /test #将创建好的words文件上传到hdfs文件系统中的test目录下，刷新下列表，发现已经上传成功，这里Replication为3，表示副本数是3，我们有3台服务器做集群，BlockSize表示块大小是128M，块大小在Hadoop1.x版本中默认是64M，在Hadoop2.x版本中默认是128M，因为我上节配置是默认的，所以这里就是128M。

hadoop 大数据项目搭建 hadoop大数据处理实战_hdfs_10

我们可以查看下刚才上传的jdk文件，这个文件超过了128M，所以被分成了2个块

hadoop 大数据项目搭建 hadoop大数据处理实战_hadoop 大数据项目搭建_11

接下来我们利用hadoop2.7.3的示例，运行mapreduce

执行：hadoop jar /software/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /test/words /test/output
我们输出结果到 /test/output，看下图我们看到job已经执行成功，

hadoop 大数据项目搭建 hadoop大数据处理实战_hadoop 大数据项目搭建_12