hadoop入门知乎最详细的hadoop入门教程

转载

mob64ca1419e0cc 2024-01-09 22:08:39

文章标签 hadoop入门知乎 hadoop hdfs 大数据 Hadoop 文章分类 Hadoop 大数据

一、Hadoop运行环境搭建

1.1 IP和主机名配置

1.2 centos最小化安装需要的配置：

1.3 修改主机名和hosts文件

1.4 Hadoop102安装JDK

1.5 Hadoop102安装Hadoop

在hadoop102安装Hadoop

2.5 Hadoop目录结构

3.1 本地运行模式（官方WordCount）

3.2 完全分布式运行模式（开发重点）

3.2.1 虚拟机准备

3.2.2 编写集群分发脚本xsync

3.2.3 SSH无密登录配置

3.2.4 集群配置

3.2.5 群起集群

配置历史服务器

3.2.7 配置日志的聚集

3.2.8 集群启动/停止方式总结

3.2.9 编写Hadoop集群常用脚本

一、Hadoop运行环境搭建

先安装好VMware15并且创建一台虚拟机，这里使用的是CentOS-7.5-x86-1804

1.1 IP和主机名配置

1）点击vmware的“编辑” =>虚拟网络编辑器(N)...

hadoop入门知乎最详细的hadoop入门教程_Hadoop

2) 点击“VMnet8"后点击”更改设置“

hadoop入门知乎最详细的hadoop入门教程_hadoop_02

3) 而后再次点击VMnet8,修改子网IP地址为：192.168.10.0（IP可以任意取值只要不为192.168.1.0即可）

hadoop入门知乎最详细的hadoop入门教程_hadoop入门知乎_03

4) 修改完成后，点击NAT设置，将网关的地址修改与子网IP在同一网段。这里网关IP设置为192.168.10.2 ；随后点击确定=>确定

hadoop入门知乎最详细的hadoop入门教程_Hadoop_04

5) 配置主机的IP，网络设置内找到“VMnet8",=>点击属性=>双击Internet协议版本4（TCP/IPv4）对默认网关及DNS服务器进行修改。

hadoop入门知乎最详细的hadoop入门教程_hdfs_05

hadoop入门知乎最详细的hadoop入门教程_大数据_06

1.2 centos最小化安装需要的配置：

1）hadoop100虚拟机配置要求如下（本文Linux系统全部以CentOS-7.5-x86-1804为例）

（1）使用yum安装需要虚拟机可以正常上网，yum安装前可以先测试下虚拟机联网情况

[root@hadoop100 ~]# ping www.baidu.com
 PING www.baidu.com (14.215.177.39) 56(84) bytes of data.
 64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=1 ttl=128 time=8.60 ms
 64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=2 ttl=128 time=7.72 ms

（2）安装epel-release
注：Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包，适用于RHEL、CentOS和Scientific Linux。相当于是一个软件仓库，大多数rpm包在官方 repository 中是找不到的）

[root@hadoop100 ~]# yum install -y epel-release

（1）使用yum安装需要虚拟机可以正常上网，yum安装前可以先测试下虚拟机联网情况

[root@hadoop100 ~]# ping www.baidu.com
PING www.baidu.com (14.215.177.39) 56(84) bytes of data.
64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=1 ttl=128 time=8.60 ms
64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=2 ttl=128 time=7.72 ms

（2）安装epel-release

注：Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包，适用于RHEL、CentOS和Scientific Linux。相当于是一个软件仓库，大多数rpm包在官方 repository 中是找不到的）

[root@hadoop100 ~]# yum install -y epel-release

安装工具包

net-tool：工具包集合，包含ifconfig等命令
                         [root@hadoop100 ~]# yum install -y net-tools 
                 vim：编辑器
                         [root@hadoop100 ~]# yum install -y vim

2）关闭防火墙，关闭防火墙开机自启

[root@hadoop100 ~]# systemctl stop firewalld
 [root@hadoop100 ~]# systemctl disable firewalld.service

3）创建atguigu用户，并修改jason用户的密码

[root@hadoop100 ~]# useradd jason
 [root@hadoop100 ~]# passwd jason

4）配置atguigu用户具有root权限，方便后期加sudo执行root权限的命令

[root@hadoop100 ~]# vim /etc/sudoers
 修改/etc/sudoers文件，在%wheel这行下面添加一行，如下所示：
 ## Allow root to run any commands anywhere
 root    ALL=(ALL)     ALL## Allows people in group wheel to run all commands
 %wheel  ALL=(ALL)       ALL
 atguigu   ALL=(ALL)     NOPASSWD:ALL

注意：atguigu这一行不要直接放到root行下面，因为所有用户都属于wheel组，你先配置了atguigu具有免密功能，但是程序执行到%wheel行时，该功能又被覆盖回需要密码。所以atguigu要放到%wheel这行下面。
5）在/opt目录下创建文件夹，并修改所属主和所属组

（1）在/opt目录下创建module、software文件夹
 [root@hadoop100 ~]# mkdir /opt/module
 [root@hadoop100 ~]# mkdir /opt/software
 （2）修改module、software文件夹的所有者和所属组均为jason用户 
 [root@hadoop100 ~]# chown jason:jason /opt/module 
 [root@hadoop100 ~]# chown jason:jason /opt/software
 （3）查看module、software文件夹的所有者和所属组
 [root@hadoop100 ~]# cd /opt/
 [root@hadoop100 opt]# ll

总用量 12

drwxr-xr-x. 2 jason jason 4096 5月  28 17:18 module
 drwxr-xr-x. 2 root    root    4096 9月   7 2017 rh
 drwxr-xr-x. 2 jason jason 4096 5月  28 17:18 software

6）卸载虚拟机自带的JDK
注意：如果你的虚拟机是最小化安装不需要执行这一步。
[root@hadoop100 ~]# rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
rpm -qa：查询所安装的所有rpm软件包
grep -i：忽略大小写
xargs -n1：表示每次只传递一个参数
rpm -e –nodeps：强制卸载软件
7）重启虚拟机

[root@hadoop100 
 vim /etc/sysconfig/network-scripts/ifcfg-ens33

注意黑体字部分：

hadoop入门知乎最详细的hadoop入门教程_Hadoop_07

1.3 修改主机名和hosts文件

1)修改主机名称

[ root@hadoop100 ~] # vim /etc/hostname
 hadoop100
 2)配置Linux克隆机主机名称映射hosts文件，打开/etc/hosts
 | [root@hadoop100 ~]# vim /etc/hosts
 添加如下内容：
 192.168.10.100 hadoop100
 192.168.10.101 hadoop101
 192.168.10.102 hadoop102
 192.168.10.103 hadoop103
 192.168.10.104 hadoop104
 192.168.10.105 hadoop105
 192.168.10.106 hadoop106
 192.168.10.107 hadoop107
 192.168.10.108 hadoop108
 3)重启克隆机hadoop100 
 [ root@hadoop100 ~] # reboot

4)修改windows的主机映射文件(hosts 文件)

hadoop入门知乎最详细的hadoop入门教程_hdfs_08

(1)如果操作系统是window7, 可以直接修改
(a)进入C:\Windows\System32)drivers\etc路径e
(b)打开hosts文件并添加如下内容，然后保存e

192.168.10.100 hadoop100
 192.168.10.101 hadoop101
 192.168.10.102 hadoop102
 192.168.10.103 hadoop103
 192.168.10.104 hadoop104
 192.168.10.105 hadoop105
 192.168.10.106 hadoop106
 192.168.10.107 hadoop107
 192.168.10.108 hadoop108

(2)如果操作系统是window10,先拷贝出来，修改保存以后，再覆盖即可
        (a)进入C:\Windows\System32\drivers\etc路径
        (b)拷贝hosts文件到桌面
        (c)打开桌面hosts文件并添加如下内容

192.168.10.100 hadoop100
 192.168.10.101 hadoop101
 192.168.10.102 hadoop102
 192.168.10.103 hadoop103
 192.168.10.104 hadoop104
 192.168.10.105 hadoop105
 192.168.10.106 hadoop106
 192.168.10.107 hadoop107
 192.168.10.108 hadoop108

(d)将桌面hosts文件覆盖C:\Windows\System32\drivers\etc 路径hosts文件

这样便可以使用主机名称代替IP 地址

hadoop入门知乎最详细的hadoop入门教程_大数据_09

hadoop入门知乎最详细的hadoop入门教程_hdfs_10

选择“创建完整克隆”

hadoop入门知乎最详细的hadoop入门教程_hdfs_11

多克隆三台虚拟机

hadoop入门知乎最详细的hadoop入门教程_hadoop入门知乎_12

克隆完毕后使用以下命令将hostname修改为对应的主机名 ; IPADDR修改为对应网址

[ root@hadoop100 ~]# vim /etc/sysconfig/network- scripts/ifcfg- ens33
 [ root@hadoop100 ~]# vim /etc/hostname

三台虚拟机都修改完毕后，我们可以查看ifconfig，已经网络是连同ping

1.4 Hadoop102安装JDK

hadoop入门知乎最详细的hadoop入门教程_Hadoop_13

将jdk安装包上传到/opt/software

然后对jdk进行解压到/opt/module文件夹下：tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

配置jdk环境变量，传统是将路径配置放在/etc/profile下面，在这里我们采用自己创建配置文件的方式：

[jason@hadoop102 jdk1.8.0_212]$ cd /etc/profile.d
[jason@hadoop102 profile.d]$ sudo vim my_env.sh        添加下面内容：
   #JAVA_HOME
 export JAVA_HOME=/opt/module/jdk1.8.0_212
 export PATH=$PATH:$JAVA_HOME/bin重新加载：[jason@hadoop102 profile.d]$ source /etc/profile
验证是否成功：[jason@hadoop102 profile.d]$ java

1.5 Hadoop102安装Hadoop

hadoop入门知乎最详细的hadoop入门教程_大数据_14

在hadoop102安装Hadoop

Hadoop下载地址：https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/

1）用XShell文件传输工具将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面

hadoop入门知乎最详细的hadoop入门教程_hadoop入门知乎_15

2）进入到Hadoop安装包路径下

$hadoop入门知乎最详细的hadoop入门教程_hadoop入门知乎_16$

2.5 Hadoop目录结构

1）查看Hadoop目录结构

hadoop入门知乎最详细的hadoop入门教程_Hadoop_17

2）重要目录

（1）bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本

（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件

（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）

（4）sbin目录：存放启动或停止Hadoop相关服务的脚本

（5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

三、 Hadoop运行模式

1）Hadoop官方网站：Apache Hadoop

2）Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。

本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。
伪分布式模式：也是单机运行，但是具备Hadoop集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。

完全分布式模式：多台服务器组成分布式环境。生产环境使用。

3.1 本地运行模式（官方WordCount）

1）创建在hadoop-3.1.3文件下面创建一个wcinput文件夹

[jason@hadoop102 hadoop-3.1.3]$ mkdir wcinput

2）在wcinput文件下创建一个word.txt文件

[jason@hadoop102 hadoop-3.1.3]$ cd wcinput

3）编辑word.txt文件

[jason@hadoop102 wcinput]$ vim word.txt

在文件中输入如下内容

hadoop yarn
hadoop mapreduce
jason
jason

保存退出：:wq

4）回到Hadoop目录/opt/module/hadoop-3.1.3

5）执行程序

[jason@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput

6）查看结果

[jason@hadoop102 hadoop-3.1.3]$ cat wcoutput/part-r-00000

看到如下结果：

jason 2
hadoop 2
mapreduce 1
yarn 1

3.2 完全分布式运行模式（开发重点）

分析：

1）准备3台客户机（关闭防火墙、静态IP、主机名称）

2）安装JDK

3）配置环境变量

4）安装Hadoop

5）配置环境变量

6）配置集群

7）单点启动

8）配置ssh

9）群起并测试集群

3.2.1 虚拟机准备

详见2.1、2.2两节。

3.2.2 编写集群分发脚本xsync

1）scp（secure copy）安全拷贝

（1）scp定义

scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）

（2）基本语法

scp -r $pdir/$fname $user@$host:$pdir/$fname

命令递归要拷贝的文件路径/名称目的地用户@主机:目的地路径/名称

（3）案例实操

前提：在hadoop102、hadoop103、hadoop104都已经创建好的/opt/module、 /opt/software两个目录，并且已经把这两个目录修改为jason:jason

[jason@hadoop102 ~]$ sudo chown jason:jason -R /opt/module

（a）在hadoop102上，将hadoop102中/opt/module/jdk1.8.0_212目录拷贝到hadoop103上。

[jason@hadoop102

（b）在hadoop103上，将hadoop102中/opt/module/hadoop-3.1.3目录拷贝到hadoop103上。

[jason@hadoop103

（c）在hadoop103上操作，将hadoop102中/opt/module目录下所有目录拷贝到hadoop104上。

[jason@hadoop103

2）rsync远程同步工具

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。

（1）基本语法

rsync -av $pdir/$fname $user@$host:$pdir/$fname

命令选项参数要拷贝的文件路径/名称目的地用户@主机:目的地路径/名称

选项参数说明

选项	功能
-a	归档拷贝
-v	显示复制过程

3.2.3 SSH无密登录配置

1）配置ssh

（1）基本语法

ssh另一台电脑的IP地址

（2）ssh连接时出现Host key verification failed的解决方法

[jason@hadoop102 ~]$ ssh hadoop103

如果出现如下内容

Are you sure you want to continue connecting (yes/no)?

输入yes，并回车

（3）退回到hadoop102

[jason@hadoop103 ~]$ exit

2）无密钥配置

（1）免密登录原理

hadoop入门知乎最详细的hadoop入门教程_大数据_18

（2）生成公钥和私钥

[jason@hadoop102 .ssh]$ pwd

/home/jason/.ssh

[jason@hadoop102 .ssh]$ ssh-keygen -t rsa

然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

（3）将公钥拷贝到要免密登录的目标机器上

[jason@hadoop102 .ssh]$ ssh-copy-id hadoop102

[jason@hadoop102 .ssh]$ ssh-copy-id hadoop103

[jason@hadoop102 .ssh]$ ssh-copy-id hadoop104

注意：

还需要在hadoop103上采用jason账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。

还需要在hadoop104上采用jason账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。

还需要在hadoop102上采用root账号，配置一下无密登录到hadoop102、hadoop103、hadoop104；

3）.ssh文件夹下（~/.ssh）的文件功能解释

known_hosts	记录ssh访问过计算机的公钥（public key）
id_rsa	生成的私钥
id_rsa.pub	生成的公钥
authorized_keys	存放授权过的无密登录服务器公钥

3.2.4 集群配置

1）集群部署规划

注意：

NameNode和SecondaryNameNode不要安装在同一台服务器
ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。

	hadoop102	hadoop103	hadoop104
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

2）配置文件说明

Hadoop配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。

（1）默认配置文件：

要获取的默认文件	文件存放在Hadoop的jar包中的位置
[core-default.xml]	hadoop-common-3.1.3.jar/core-default.xml
[hdfs-default.xml]	hadoop-hdfs-3.1.3.jar/hdfs-default.xml
[yarn-default.xml]	hadoop-yarn-common-3.1.3.jar/yarn-default.xml
[mapred-default.xml]	hadoop-mapreduce-client-core-3.1.3.jar/mapred-default.xml

（2）自定义配置文件：

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上，用户可以根据项目需求重新进行修改配置。

3）配置集群

（1）核心配置文件

配置core-site.xml

[jason@hadoop102 ~]$ cd $HADOOP_HOME/etc/hadoop
[jason@hadoop102 hadoop]$ vim core-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>


<configuration>

    <!-- 指定NameNode的地址 -->

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://hadoop102:8020</value>

    </property>

    <!-- 指定hadoop数据的存储目录 -->

    <property>

        <name>hadoop.tmp.dir</name>

        <value>/opt/module/hadoop-3.1.3/data</value>

    </property>


    <!-- 配置HDFS网页登录使用的静态用户为jason -->

    <property>

        <name>hadoop.http.staticuser.user</name>

        <value>jason</value>

    </property>

</configuration>

（2）HDFS配置文件

配置hdfs-site.xml

[jason@hadoop102 hadoop]$ vim hdfs-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>



<configuration>

<!-- nn web端访问地址-->

<property>

        <name>dfs.namenode.http-address</name>

        <value>hadoop102:9870</value>

    </property>

<!-- 2nn web端访问地址-->

    <property>

        <name>dfs.namenode.secondary.http-address</name>

        <value>hadoop104:9868</value>

    </property>

</configuration>

（3）YARN配置文件

配置yarn-site.xml

[jason@hadoop102 hadoop]$ vim yarn-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>



<configuration>

    <!-- 指定MR走shuffle -->

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>



    <!-- 指定ResourceManager的地址-->

    <property>

        <name>yarn.resourcemanager.hostname</name>

        <value>hadoop103</value>

    </property>



    <!-- 环境变量的继承 -->

    <property>

        <name>yarn.nodemanager.env-whitelist</name>

        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>

    </property>

</configuration>

（4）MapReduce配置文件

配置mapred-site.xml

[jason@hadoop102 hadoop]$ vim mapred-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>



<configuration>

<!-- 指定MapReduce程序运行在Yarn上 -->

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

</configuration>

4）在集群上分发配置好的Hadoop配置文件

[jason@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/
5）去103和104上查看文件分发情况
[jason@hadoop103 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
[jason@hadoop104 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

3.2.5 群起集群

1）配置workers

[jason@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers
在该文件中增加如下内容：
hadoop102
hadoop103
hadoop104

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

同步所有节点配置文件

[jason@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc

2）启动集群

（1）如果集群是第一次启动，需要在hadoop102节点格式化NameNode（注意：格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。）

[jason@hadoop102 hadoop-3.1.3]$ hdfs namenode -format

（2）启动HDFS

[jason@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh

可以使用jps查看hdfs是否配置正确：

hadoop入门知乎最详细的hadoop入门教程_hadoop_19

（3）在配置了ResourceManager的节点（hadoop103）启动YARN

[jason@hadoop103
（4）Web端查看HDFS的NameNode
（a）浏览器中输入：http://hadoop102:9870
（b）查看HDFS上存储的数据信息
（5）Web端查看YARN的ResourceManager
（a）浏览器中输入：http://hadoop103:8088
（b）查看YARN上运行的Job信息
3）集群基本测试
（1）上传文件到集群
• 上传小文件
[jason@hadoop102 ~]$ hadoop fs -mkdir /input
[jason@hadoop102 ~]$ hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input
• 上传大文件
[jason@hadoop102 ~]$ hadoop fs -put  /opt/software/jdk-8u212-linux-x64.tar.gz  /
（2）上传文件后查看文件存放在什么位置
• 查看HDFS文件存储路径
[jason@hadoop102 subdir0]$ pwd
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1436128598-192.168.10.102-1610603650062/current/finalized/subdir0/subdir0
• 查看HDFS在磁盘存储文件内容
[jason@hadoop102 subdir0]$ cat blk_1073741825
hadoop yarn
hadoop mapreduce
jason
jason
（3）拼接
-rw-rw-r--. 1 jason jason 134217728 5月  23 16:01 blk_1073741836
-rw-rw-r--. 1 jason jason   1048583 5月  23 16:01 blk_1073741836_1012.meta
-rw-rw-r--. 1 jason jason  63439959 5月  23 16:01 blk_1073741837
-rw-rw-r--. 1 jason jason    495635 5月  23 16:01 blk_1073741837_1013.meta
[jason@hadoop102 subdir0]$ cat blk_1073741836>>tmp.tar.gz
[jason@hadoop102 subdir0]$ cat blk_1073741837>>tmp.tar.gz
[jason@hadoop102 subdir0]$ tar -zxvf tmp.tar.gz
（4）下载
[jason@hadoop104 software]$ hadoop fs -get /jdk-8u212-linux-x64.tar.gz ./
（5）执行wordcount程序
[jason@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

新手指南：集群崩溃处理方式，请记住，1杀进程，2删除所有data与log，3重启，4格式化

1.停掉所有进程

[jason@hadoop102 hadoop-3.1.3]$ sbin/stop-dfs.sh
2.删除集群多有data与logs文件夹
[jason@hadoop102 hadoop-3.1.3]$ rm -rf dada/ logs/
[jason@hadoop103 hadoop-3.1.3]$ rm -rf dada/ logs/
[jason@hadoop104 hadoop-3.1.3]$ rm -rf dada/ logs/
3.格式化
[jason@hadoop102 hadoop-3.1.3]$ hdfs namenode -format
4.启动集群
[jason@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh

配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：

1）配置mapred-site.xml

[jason@hadoop102 hadoop]$ vim mapred-site.xml

在该文件里面增加如下配置。

<!-- 历史服务器端地址 -->
<property>

    <name>mapreduce.jobhistory.address</name>

    <value>hadoop102:10020</value>

</property>

<!-- 历史服务器web端地址 -->
<property>

    <name>mapreduce.jobhistory.webapp.address</name>

    <value>hadoop102:19888</value>

</property>

2）分发配置
[jason@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml
3）在hadoop102启动历史服务器
[jason@hadoop102 hadoop]$ mapred --daemon start historyserver
4）查看历史服务器是否启动
[jason@hadoop102 hadoop]$ jps
5）查看JobHistory
http://hadoop102:19888/jobhistory

3.2.7 配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。

hadoop入门知乎最详细的hadoop入门教程_hdfs_20

日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryServer。

开启日志聚集功能具体步骤如下：

1）配置yarn-site.xml
[jason@hadoop102 hadoop]$ vim yarn-site.xml
在该文件里面增加如下配置。
<!-- 开启日志聚集功能 -->
<property>
enable</name>
true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>  
    <name>yarn.log.server.url</name>  
19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
604800</value>
</property>
2）分发配置
[jason@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml
3）关闭NodeManager 、ResourceManager和HistoryServer
[jason@hadoop103 hadoop-3.1.3]$ sbin/stop-yarn.sh
[jason@hadoop103 hadoop-3.1.3]$ mapred --daemon stop historyserver
4）启动NodeManager 、ResourceManage和HistoryServer
[jason@hadoop103 ~]$ start-yarn.sh
[jason@hadoop102 ~]$ mapred --daemon start historyserver
5）删除HDFS上已经存在的输出文件
[jason@hadoop102 ~]$ hadoop fs -rm -r /output
6）执行WordCount程序
[jason@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

7）查看日志

（1）历史服务器地址

http://hadoop102:19888/jobhistory

（2）历史任务列表

hadoop入门知乎最详细的hadoop入门教程_hadoop入门知乎_21

（3）查看任务运行日志

hadoop入门知乎最详细的hadoop入门教程_hadoop入门知乎_22

（4）运行日志详情

hadoop入门知乎最详细的hadoop入门教程_Hadoop_23

3.2.8 集群启动/停止方式总结

1）各个模块分开启动/停止（配置ssh是前提）常用

（1）整体启动/停止HDFS

start-dfs.sh/stop-dfs.sh

（2）整体启动/停止YARN

start-yarn.sh/stop-yarn.sh

2）各个服务组件逐一启动/停止

（1）分别启动/停止HDFS组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode
（2）启动/停止YARN
yarn --daemon start/stop  resourcemanager/nodemanager

3.2.9 编写Hadoop集群常用脚本

1）Hadoop集群启停脚本（包含HDFS，Yarn，Historyserver）：myhadoop.sh

[jason@hadoop102 ~]$ cd /home/jason/bin
[jason@hadoop102 bin]$ vim myhadoop.sh

输入如下内容

#!/bin/bash



if [ $# -lt 1 ]

then

    echo "No Args Input..."

    exit ;

fi



case $1 in

"start")

        echo " =================== 启动 hadoop集群 ==================="



        echo " --------------- 启动 hdfs ---------------"

        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"

        echo " --------------- 启动 yarn ---------------"

        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"

        echo " --------------- 启动 historyserver ---------------"

        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"

;;

"stop")

        echo " =================== 关闭 hadoop集群 ==================="



        echo " --------------- 关闭 historyserver ---------------"

        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"

        echo " --------------- 关闭 yarn ---------------"

        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"

        echo " --------------- 关闭 hdfs ---------------"

        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"

;;

*)

    echo "Input Args Error..."

;;

esac

保存后退出，然后赋予脚本执行权限

[jason@hadoop102 bin]$ chmod +x myhadoop.sh

2）查看三台服务器Java进程脚本：jpsall

[jason@hadoop102 ~]$ cd /home/jason/bin

[jason@hadoop102 bin]$ vim jpsall

输入如下内容

#!/bin/bash



for host in hadoop102 hadoop103 hadoop104

do

        echo =============== $host ===============

        ssh $host jps

done

保存后退出，然后赋予脚本执行权限

[jason@hadoop102 bin]$ chmod +x jpsall
3）分发/home/jason/bin目录，保证自定义脚本在三台机器上都可以使用
[jason@hadoop102 ~]$ xsync /home/jason/bin/

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：HadoopSPARK hadoopspark搭建截图

下一篇：主成分分析法机器学习主成分分析法原理

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯