yarn 界面怎么查看

转载

编程小天才 2024-10-12 11:02:20

文章标签 yarn 界面怎么查看 java spark hadoop 大数据 文章分类 Yarn 大数据

搭建Hadoop3.3.5和Spark3.3.2 on Yarn集群模式，使用jdk17

搭建Hadoop3.3.5和Spark3.3.2 on Yarn集群模式

1. 创建一台虚拟机
2. 安装jdk17

（1）下载jdk17
（2）安装jdk17
（3）配置环境变量

3. 虚拟机之间互信

（1）克隆虚拟机
（2）修改每台虚拟机的hostname
（3）每台虚拟机生成私钥和公钥
（4）创建公用公钥（免密登录）
（5）关闭防火墙
（6）配置hosts文件
（7）机器之间相互通信

4. 安装hadoop

（1）下载hadoop3.3.5
（2）上传hadoop3.3.5到虚拟机
（3）配置core-site.xml
（4）配置hadoop-env.sh
（5）配置hdfs-site.xml
（6）配置mapred-site.xml
（7）配置workers
（8）配置yarn-site.xml
（9）创建localdir
（10）配置hadoop环境变量

5. 启动hadoop

（1）格式化 NameNode
（2）启动hadoop
（3）查看进程
（4）查看 web 界面

6. 安装Spark 使用Spark on Yarn集群模式

（1）下载Spark3.3.2
（2）上传Spark3.3.2到虚拟机
（3）配置spark-defaults.conf
（4）配置workers
（5）配置spark-env.sh
（6）配置Spark环境变量

7. 启动Spark

（1）在hdfs环境中创建出日志存放位置
（2）启动spark
（3）web访问
（4）使用spark计算圆周率
（5）查看运行结果

搭建Hadoop3.3.5和Spark3.3.2 on Yarn集群模式

准备四台虚拟机或者物理机，我使用虚拟机，需要使用80G外存

我先准备一台虚拟机，配置完成后克隆出剩下的三台，这样可以解决配置时间

1. 创建一台虚拟机

这里我使用的是Centos8.5，虚拟机外存20G，内存4G，我安装的是带桌面版的

阿里Centos8.5下载地址

yarn 界面怎么查看_大数据

使用VMware安装一台虚拟机

安装过程中设置install source

yarn 界面怎么查看_大数据_02

http://mirrors.aliyun.com/centos/8-stream/BaseOS/x86_64/os/

yarn 界面怎么查看_yarn 界面怎么查看_03

2. 安装jdk17

（1）下载jdk17

jdk17下载地址

yarn 界面怎么查看_yarn 界面怎么查看_04

我下载的是rmp的这个

（2）安装jdk17

我把所有的软件都安装在了 /opt 下面

创建一个文件夹 /java17

把安装包上传到该文件夹

yarn 界面怎么查看_yarn 界面怎么查看_05

在这里解压

rpm -ivh 软件包名字

yarn 界面怎么查看_spark_06

（3）配置环境变量

进入**/usr/lib/jvm/jdk-17-oracle-x64**，可以看到刚才的java就安装在这里了

yarn 界面怎么查看_yarn 界面怎么查看_07

打开**/etc/proflie**文件，添加如下代码来配置环境变量

export JAVA_HOME=/usr/lib/jvm/jdk-17-oracle-x64
export PATH=$PATH:$JAVA_HOME/bin;
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar;
export set JAVA_OPTS="--add-opens java.base/java.lang=ALL-UNNAMED"

yarn 界面怎么查看_spark_08

之后输入下面的命令，让配置生效

source /etc/profile

yarn 界面怎么查看_spark_09

输入$Java_HOME出现路径，说明配置成功

3. 虚拟机之间互信

（1）克隆虚拟机

现在完成了一台虚拟机的配置，把这台虚拟机再克隆三份

yarn 界面怎么查看_大数据_10

点击克隆

yarn 界面怎么查看_大数据_11

点下一步

yarn 界面怎么查看_spark_12

yarn 界面怎么查看_大数据_13

选择位置

yarn 界面怎么查看_yarn 界面怎么查看_14

yarn 界面怎么查看_大数据_15

创建完成一台，接下来继续创建

yarn 界面怎么查看_java_16

最终的效果

yarn 界面怎么查看_大数据_17

（2）修改每台虚拟机的hostname

一主三从

登陆时选择root用户登录

改完后四台主机的hostname分别为：master vice1 vice2 vice3 vice4

（3）每台虚拟机生成私钥和公钥

在 **/**目录下输入命令

ssh-keygen -t rsa

yarn 界面怎么查看_java_18

出现如图所示的情况时，按下回车

yarn 界面怎么查看_spark_19

继续按下回车

yarn 界面怎么查看_yarn 界面怎么查看_20

再按下回车

一共按下三次回车

yarn 界面怎么查看_yarn 界面怎么查看_21

创建成功，之后可以在**/**目录下看到一个 .ssh 的隐藏文件

yarn 界面怎么查看_spark_22

（4）创建公用公钥（免密登录）

把**.pub**文件打开，复制出里面的内容，把内容复制到一个临时的txt中，我复制到了windows桌面的一个文件里

yarn 界面怎么查看_yarn 界面怎么查看_23

yarn 界面怎么查看_大数据_24

之后把每台虚拟机的 .pub 文件中的内容都复制到这个临时的txt中

yarn 界面怎么查看_spark_25

此时我们有了四台虚拟机的公钥把这个txt临时文件改名为 authorized_keys

yarn 界面怎么查看_spark_26

之后把这个文件放到每台虚拟机的 /.ssh目录下

yarn 界面怎么查看_java_27

（5）关闭防火墙

关闭防火墙，每台虚拟机都需要关闭

systemctl stop firewalld 
systemctl disable firewalld

yarn 界面怎么查看_大数据_28

（6）配置hosts文件

获取每台虚拟机的ip，写入每台虚拟机的hosts文件

hosts文件路径是 /etc/hosts

yarn 界面怎么查看_yarn 界面怎么查看_29

修改内容

yarn 界面怎么查看_java_30

192.168.186.148 master 
192.168.186.149 vice1 
192.168.186.150 vice2 
192.168.186.151 vice3

这4个分别对应四台虚拟机的hostname和ip地址

使用ifconfig可以查看IP地址

yarn 界面怎么查看_java_31

每台虚拟机都需要完成hosts的配置

（7）机器之间相互通信

在每台虚拟机上，分别与其他虚拟机进行通信

输入命令

ssh master/vice

与master通讯就输入 ssh master

第一次通信会出现让你输入yes的情况，如果要输入密码，那么就是产生公钥和私钥环节出错，重新进行产生公钥和私钥

yarn 界面怎么查看_hadoop_32

输入yes

yarn 界面怎么查看_hadoop_33

此时就通信成功了，之后输入exit退出，再试一次，看看需不需要输入yes或者密码

yarn 界面怎么查看_yarn 界面怎么查看_34

此时直接进来了，说明互信成功，接下来退出去，与其他虚拟机互信，自己与自己也互信一次如果出现以下问题，说明hosts文件没有配置或者配置错误

yarn 界面怎么查看_spark_35

4. 安装hadoop

（1）下载hadoop3.3.5

hadoop3.3.5下载地址

yarn 界面怎么查看_hadoop_36

下载完成后上传到虚拟机

（2）上传hadoop3.3.5到虚拟机

把安装包上传到 /opt 目录下

yarn 界面怎么查看_spark_37

解压

tar -xvzf 安装包

yarn 界面怎么查看_java_38

解压完成

yarn 界面怎么查看_java_39

（3）配置core-site.xml

进入 /opt/hadoop-3.3.5/etc/hadoop 目录

yarn 界面怎么查看_java_40

打开 core-site.xml ，加入如下内容

<configuration>
	<property>
	  <name>fs.defaultFS</name>
	  <value>hdfs://master:9000</value>
	</property>
	 
	<property>
	  <name>hadoop.tmp.dir</name>
	  <value>/opt/hadoop-3.3.5/tmp</value>
	</property>
	
	<property>
	    <name>hadoop.http.staticuser.user</name>
	    <value>root</value>
	</property>
</configuration>

（4）配置hadoop-env.sh

yarn 界面怎么查看_spark_41

配置JAVA_HOME

yarn 界面怎么查看_spark_42

export JAVA_HOME=/usr/lib/jvm/jdk-17-oracle-x64

设置java虚拟机启动参数

yarn 界面怎么查看_大数据_43

export HADOOP_OPTS="--add-opens java.base/java.lang=ALL-UNNAMED"

（5）配置hdfs-site.xml

yarn 界面怎么查看_大数据_44

添加如下代码

<configuration>

	<property>
	   <name>dfs.namenode.http-address</name>
	   <value>master:9870</value>
	</property>
	
	<property>
	    <name>dfs.namenode.secondary.http-address</name>
	    <value>master:50090</value>
	</property>
	
	<property>
	  <name>dfs.replication</name>
	  <value>3</value>
	</property>
 
</configuration>

（6）配置mapred-site.xml

yarn 界面怎么查看_spark_45

<configuration>
	<property>
	  <name>mapreduce.framework.name</name>
	  <value>yarn</value>
	</property>
	<property>
	  <name>mapreduce.jobhistory.address</name>
	  <value>master:10020</value>
	</property>
	<property>
	  <name>mapreduce.jobhistory.webapp.address</name>
	  <value>master:19888</value>
	</property>

</configuration>

（7）配置workers

yarn 界面怎么查看_hadoop_46

yarn 界面怎么查看_大数据_47

（8）配置yarn-site.xml

yarn 界面怎么查看_hadoop_48

<configuration>

<property>
  <name>yarn.nodemanager.local-dirs</name>
  <value>/opt/localdir</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>master</value>
</property>

</configuration>

（9）创建localdir

在 /opt 目录下创建localdir

yarn 界面怎么查看_hadoop_49

（10）配置hadoop环境变量

在 /etc/profile 文件中加入如下代码

export HADOOP_HOME=/opt/hadoop-3.3.5
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

启用配置

source /etc/profile

至此，一台虚拟机配置完毕，接下来配置其他虚拟器

5. 启动hadoop

现在，四台虚拟机已经都安装了hadoop，并且环境变量已经配置成功，下面就是启动hadoop了

确保四台机子都已经打开

（1）格式化 NameNode

在主节点master机器上运行如下命令

hdfs namenode -format

yarn 界面怎么查看_yarn 界面怎么查看_50

（2）启动hadoop

start-all.sh

出现报错

yarn 界面怎么查看_yarn 界面怎么查看_51

解决方法：在每个虚拟机的 /etc/profile 文件中加入如下代码

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

启用配置

source /etc/profile

之后再次运行start-all.sh

yarn 界面怎么查看_hadoop_52

启动成功

（3）查看进程

使用 jps 命令

主节点查看

yarn 界面怎么查看_java_53

从节点查看

yarn 界面怎么查看_hadoop_54

出现上述两个图片中的进程，表示hadoop启动成功

（4）查看 web 界面

在浏览器输入ip

http://主节点IP地址:9870/

yarn 界面怎么查看_yarn 界面怎么查看_55

成功进入

yarn 界面怎么查看_大数据_56

可以看到活着的结点有3个

关闭hadoop，在master节点输入下面的命令

stop-all.sh

yarn 界面怎么查看_yarn 界面怎么查看_57

6. 安装Spark 使用Spark on Yarn集群模式

（1）下载Spark3.3.2

https://www.apache.org/dyn/closer.lua/spark/spark-3.3.2/spark-3.3.2-bin-without-hadoop.tgz

下载的是没有自带hadoop的版本

yarn 界面怎么查看_hadoop_58

（2）上传Spark3.3.2到虚拟机

yarn 界面怎么查看_yarn 界面怎么查看_59

解压

tar -xzvf spark-3.3.2-bin-without-hadoop.tgz

yarn 界面怎么查看_java_60

给文件夹改个名字，改为spark

yarn 界面怎么查看_yarn 界面怎么查看_61

（3）配置spark-defaults.conf

进入 /opt/spark/conf 目录下

yarn 界面怎么查看_yarn 界面怎么查看_62

把spark-defaults.conf.template文件的.template删除

yarn 界面怎么查看_大数据_63

修改其内容

spark.master spark://master:7077
spark.eventLog.enabled true
spark.eventLog.dir hdfs://master:8020/spark-eventlog
spark.serializer org.apache.spark.serializer.KryoSerializer
spark.driver.memory 5g
spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three" --add-opens java.base/java.lang=ALL-UNNAMED
spark.driver.extraJavaOptions --add-opens java.base/java.lang=ALL-UNNAMED

yarn 界面怎么查看_spark_64

（4）配置workers

创建workers文件，并修改内容

yarn 界面怎么查看_java_65

yarn 界面怎么查看_hadoop_66

或者把.template文件修改

yarn 界面怎么查看_java_67

（5）配置spark-env.sh

把spark-env.sh.template文件的.template删除

yarn 界面怎么查看_spark_68

修改其内容

export JAVA_HOME=/usr/lib/jvm/jdk-17-oracle-x64
export HADOOP_CONF_DIR=/opt/hadoop-3.3.5/etc/hadoop
export SPARK_DIST_CLASSPATH=$(/opt/hadoop-3.3.5/bin/hadoop classpath)

yarn 界面怎么查看_java_69

（6）配置Spark环境变量

在 /etc/profile 文件中加入如下代码

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

yarn 界面怎么查看_hadoop_70

启用配置

source /etc/profile

至此，一台虚拟机的spark配置完毕，接下来配置其他虚拟器，过程与该虚拟机配置过程一致

7. 启动Spark

现在，四台虚拟机已经都安装了Spark，并且环境变量已经配置成功，下面就是启动Spark了

确保四台机子都已经打开

（1）在hdfs环境中创建出日志存放位置

先启动hadoop，start-all.sh

进入浏览器界面，访问hadoop的web页面，点击utilities

yarn 界面怎么查看_大数据_71

创建文件夹 /spark-eventlog

yarn 界面怎么查看_spark_72

yarn 界面怎么查看_spark_73

点击create

yarn 界面怎么查看_大数据_74

创建成功

（2）启动spark

进入 /opt/spark/sbin 目录下

输入如下命令启动

./start-all.sh

yarn 界面怎么查看_大数据_75

如果出现 permission deny或者权限不足，需要把对应虚拟机的spark文件夹加权限

（3）web访问

访问网址

http://主节点IP地址:8080/

yarn 界面怎么查看_yarn 界面怎么查看_76

（4）使用spark计算圆周率

在主节点上输入一下命令

spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi /opt/spark/examples/jars/spark-examples_2.12-3.3.2.jar 100

这个 /opt/spark/examples/jars/spark-examples_2.12-3.3.2.jar 是spark路径下的一个jar包，是官方提供的样例

yarn 界面怎么查看_spark_77

100表示运行100次

下面是运行过程

yarn 界面怎么查看_hadoop_78

运行出现问题

yarn 界面怎么查看_java_79

修改 /opt/spark/conf/spark-defaults.conf文件

yarn 界面怎么查看_hadoop_80

spark.master spark://master:7077
spark.eventLog.enabled true
spark.eventLog.dir hdfs://master:9000/spark-eventlog
spark.serializer org.apache.spark.serializer.KryoSerializer
spark.driver.memory 5g
spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three" --add-opens java.base/java.lang=ALL-UNNAMED
spark.driver.extraJavaOptions --add-opens java.base/java.lang=ALL-UNNAMED

其他的虚拟机也要修改

接下来关闭spark，再启动

关闭使用 ./stop-all.sh, 注意要在spark的sbin目录下

yarn 界面怎么查看_java_81