第一步、JDK、Hadoop下载安装

hadoop怎么解压zip文件并上传到新的目录下_xml


1、根据下载的JDK、Hadoop压缩包选择合适解压工具

.zip格式

解压:unzip 文件名.zip

压缩:zip 文件名.zip 目录名

.tar格式

压缩:tar cvf 文件名.tar 文件名

解压:tar xvf 文件名.tar

.tar.gz格式

解压:tar zxvf 文件名.tar.gz

压缩:tar zcvf 文件名.tar.gz 文件名

.tar.bz2格式

解压:tar jxvf 文件名.tar.bz2

压缩:tar jcvf 文件名.tar.bz2 目录名

.bz2格式

解压:bzip2 -d 文件名.bz2

压缩: bzip2 -z 文件名

2、JDK、Hadoop环境变量配置

hadoop怎么解压zip文件并上传到新的目录下_文件名_02


要使配置的环境变量生效还得执行 source /etc/profile命令3、验证环境变量配置情况

hadoop怎么解压zip文件并上传到新的目录下_xml_03

第二步、配置好环境变量后需要配置

hadoop伪分布式需要配置的东西只要有

hadoop怎么解压zip文件并上传到新的目录下_hadoop_04


以上这些配置文件中以.env结尾的配置文件只需要配置JDK的安装目录。

其他的配置文件这里只配置简单可以运行的,其他的配置参数参考官网

hadoop.env

hadoop怎么解压zip文件并上传到新的目录下_xml_05

core-site.xml

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://hadoop101:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/hadoop/app/hadoop/tmp</value>
        </property>
</configuration>

hdfs-site.xml

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
                <description>HDFS 的数据块的副本存储个数, 默认是3</description>
        </property>
        <property>
          <name>dfs.http.address</name>
          <value>0.0.0.0:50070</value>
        </property>
</configuration>

mapred-site.xml

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
</configuration>

yarn-site.xml

<property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
                <description>YARN 集群为 MapReduce 程序提供的 shuffle 服务</description>
        </property>

第三步、格式化NameNode

hadoop怎么解压zip文件并上传到新的目录下_文件名_06


启动namenode、datanode

hadoop怎么解压zip文件并上传到新的目录下_hadoop_07


查看namenode、datanode是否启动

hadoop怎么解压zip文件并上传到新的目录下_xml_08

访问hdfs的WebUI查看是否启动

http://ip地址:50070

hadoop怎么解压zip文件并上传到新的目录下_xml_09


通过dfs命令创建目录和上传文件

hadoop怎么解压zip文件并上传到新的目录下_文件名_10


hadoop怎么解压zip文件并上传到新的目录下_文件名_11

上传本地文件

hadoop怎么解压zip文件并上传到新的目录下_文件名_12


hadoop怎么解压zip文件并上传到新的目录下_xml_13

hadoop怎么解压zip文件并上传到新的目录下_xml_14

启动Yarn并运行MR
配置yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
                <description>YARN 集群为 MapReduce 程序提供的 shuffle 服务</description>
        </property>
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>hadoop101</value>
        </property>
</configuration>

配置mapred-site.xml


mapreduce.framework.name
yarn

启动yarn中resourcemanager和nodemanager,启动之前要确保namenode和datanode都已经启动

hadoop怎么解压zip文件并上传到新的目录下_hadoop_15


运行MR

hadoop怎么解压zip文件并上传到新的目录下_文件名_16


查看运行的结果

hadoop怎么解压zip文件并上传到新的目录下_文件名_17

总结:伪分布式搭建过程中遇见的问题

问题一、hdfs的WebUI不能访问,也就是访问http://ip:50070不能访问的原因:

一般是因为操作系统防火墙没有关闭或者hosts文件没有设置正确

查看防火墙是否关闭的命令:

systemctl status firewalld --查看防火墙状态

systemctl stop firewalld --关闭防火墙

systemctl disable firewalld --关闭防火墙开机启动

设置系统hosts

vi /etc/hosts

hadoop怎么解压zip文件并上传到新的目录下_hadoop_18

问题二、运行MR时出现0/03/01 21:21:27 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032的问题

原因是因为没有开启yarn中的resourcemanager和nodemanager,jps查看是否开启,没有开启则运行
 /sbin/hdfs-daemon.sh start resourcemanager
 /sbin/hdfs-daemon.sh start nodemanager

然后在jps查看进程是否正常开启