Hadoop运行环境搭建

重来3遍是正常的,这篇针对的是怎么也无法修改为目标ip地址的情况。

1.安装VMware,文章末尾有链接,没什么需要注意的,也可以跟着视频安装

2.CentOS ,文章末尾有链接,从这里开始跟着视频,涉及到输入密码的统一设置为一个密码000000。

3.VMware的配置

1.打开虚拟网络编辑器:

hadoop上安装spark hadoop安装视频_hadoop


2.按照绿色标记的顺序,点击。

hadoop上安装spark hadoop安装视频_hdfs_02


3.更改子网,打开NAT设置

hadoop上安装spark hadoop安装视频_ip地址_03


4.更改网关

hadoop上安装spark hadoop安装视频_ip地址_04


5.最后确定关闭即可。

4.win10配置

1.找到设配器的设置(联想电脑)

hadoop上安装spark hadoop安装视频_ip地址_05


2.设置Vmnet8

hadoop上安装spark hadoop安装视频_hadoop_06


3.点击确定后退出。

5.修改模板机hadoop100的ip地址

1.按照视频中的方法修改之后,我的网络就断了,一直会有这个错误:

未知的名称或服务,ping不通。

hadoop上安装spark hadoop安装视频_hadoop_07


2.于是我重新建了一次模板机hadoop100,并且这一次不设置ip,而是记住这个分配给Hadoop100的ip,理由是至少可以ping得通,不会断网。后续再做调整。(挂机就可以保证ip不变)

(1)查看我们的ip:ifconfig

hadoop上安装spark hadoop安装视频_ip地址_08


(2)可以ping通,ctrl+C退出

hadoop上安装spark hadoop安装视频_hdfs_09


3.修改主机名称

hadoop上安装spark hadoop安装视频_hdfs_10

hadoop上安装spark hadoop安装视频_hdfs_11


4.由于没有设置ip为静态,先不设置主机映射,后面再设置,然后重启。

hadoop上安装spark hadoop安装视频_hadoop_12

6.安装Xshell和Xftp,(末尾有链接)

1.记住刚刚Hadoop100的ip地址,登录Xshell,我上面(5.2.1)的是192.168.10.133

hadoop上安装spark hadoop安装视频_hdfs_13


2.用户身份验证

hadoop上安装spark hadoop安装视频_hdfs_14


3.更改外观颜色

hadoop上安装spark hadoop安装视频_ip地址_15


4.在Xshell上登录hadoop100,双击。

hadoop上安装spark hadoop安装视频_hdfs_16

7.配置模板机hadoop100

1.查看当前地址

2.ping 百度,检查网络是否连通

3.EPEL的全称叫 Extra Packages for Enterprise Linux 。EPEL是由 Fedora 社区打造,为 RHEL 及衍生发行版如 CentOS、Scientific Linux 等提供高质量软件包的项目。装上了 EPEL之后,就相当于添加了一个第三方源。

hadoop上安装spark hadoop安装视频_ip地址_17


4.安装工具包集合,包含ifconfig等命令

hadoop上安装spark hadoop安装视频_ip地址_18

5.安装编辑器

hadoop上安装spark hadoop安装视频_ip地址_19


6.关闭防火墙,关闭防火墙开机自启。

hadoop上安装spark hadoop安装视频_ip地址_20


7.创建自己的一个用户,也就是相比于root来说是一个平民用户,这里我创建的是 baga29 ,密码还是000000。

hadoop上安装spark hadoop安装视频_hadoop_21


8.配置baga29用户

(1)具有root权限,方便后期加上sudo 执行root权限的命令(补全键 :Tab)

hadoop上安装spark hadoop安装视频_ip地址_22


打开这个文件后,修改成如下形式,顺序不能改变。(vim 按i开始输入,Esc键退出当前模式后 按:wq!保存并强制退出):

hadoop上安装spark hadoop安装视频_hdfs_23


(2)检查是否配置成功

hadoop上安装spark hadoop安装视频_hadoop上安装spark_24

hadoop上安装spark hadoop安装视频_ip地址_25


hadoop上安装spark hadoop安装视频_ip地址_26


这里会提示权限不够,这时候只要加上sudo就可以了,意思就是说以后只要遇到我们的用户baga29权限不够,就可以在命令起那面加上sudo

hadoop上安装spark hadoop安装视频_hadoop上安装spark_27


(3)在/opt/中使用sudo命令创建两个文件夹

hadoop上安装spark hadoop安装视频_hdfs_28


(4)将这两个文件的用户组与用户都改为baga29

hadoop上安装spark hadoop安装视频_hadoop上安装spark_29


9.卸载虚拟机自带的JDK,并重启

hadoop上安装spark hadoop安装视频_hadoop_30


然后输入reboot。

8.克隆三台虚拟机,也就是我们的目标一个主机hadoop102,两个从机hadoop103,hadoop104

这里我们从102开始配,101去创造营了。

1.将hadoop100关机

hadoop上安装spark hadoop安装视频_ip地址_31


2.克隆示例

hadoop上安装spark hadoop安装视频_hadoop_32


看到这一页时,点击完整克隆

hadoop上安装spark hadoop安装视频_hadoop上安装spark_33


这一页名称改为hadoop102,位置可以自己更改,后面的更改为hadoop103,hadoop104。

hadoop上安装spark hadoop安装视频_hdfs_34


3.重复2,得到3台虚拟机

hadoop上安装spark hadoop安装视频_hdfs_35


4.改主机的名称hostname,参照5.3

5.※※※这里很重要,接下来模板机就不再使用了,真正的主角出现了,记住我们hadoop102,hadoop103,hadoop104一开始的ip地址,并且只能挂机不能关机,为了确保ip地址不变化

下面分别查看三个虚拟机的ip地址~

hadoop102——192.168.10.134

hadoop上安装spark hadoop安装视频_hdfs_36


hadoop103——192.168.10.130

hadoop上安装spark hadoop安装视频_hadoop上安装spark_37


hadoop104——192.168.131

hadoop上安装spark hadoop安装视频_hadoop_38

9.更改主机映射地址,在Xshell上连接上这三台虚拟机

1.在hadoop102上改一下文件/etc/hosts,该操作在103,104上也要进行

hadoop上安装spark hadoop安装视频_hadoop_39


hadoop上安装spark hadoop安装视频_hdfs_40


2.更改C:\Windows\System32\drivers\etc\hosts文件(win10系统)

(1)先将hosts复制到桌面上

hadoop上安装spark hadoop安装视频_hdfs_41


(2)添加内容如下

hadoop上安装spark hadoop安装视频_ip地址_42


3.将这个文件覆盖原文件

4.在Xshell上登陆这三个虚拟机

和刚刚不同的是,这里的名称不用再写具体的ip,而是使用 hadoop10X(X=1,2,3)就可以

hadoop上安装spark hadoop安装视频_ip地址_43

hadoop上安装spark hadoop安装视频_ip地址_44

10.安装jdk和hadoop

1.先操作hadoop102

hadoop上安装spark hadoop安装视频_hadoop上安装spark_45


2.将hadoop和jdk传送到/opt/software/文件夹中,文章末尾有链接

hadoop上安装spark hadoop安装视频_hadoop_46


3.将这两个文件解压到/opt/module/文件夹中

hadoop上安装spark hadoop安装视频_hdfs_47

hadoop上安装spark hadoop安装视频_hdfs_48


4.查看文件夹/opt/module/

hadoop上安装spark hadoop安装视频_hdfs_49


5.切换到自己的用户baga29,并且配置jdk环境

记住下面的这个pwd得到的红色框框,记为小狗。

hadoop上安装spark hadoop安装视频_hdfs_50


修改my_env.sh文件,将下面的红色框框填入小狗,其他地方一致填入。

hadoop上安装spark hadoop安装视频_hadoop上安装spark_51


6.骚一下,使我们刚刚配置的环境生效,并检验jdk是否安装成功。

hadoop上安装spark hadoop安装视频_hdfs_52


7.安装hadoop

记下面的红色框框为小猫

hadoop上安装spark hadoop安装视频_ip地址_53


修改vim /etc/profile.d/my_env.sh文件,下面的红色框框内填入小猫

hadoop上安装spark hadoop安装视频_hdfs_54


8.骚一下,使我们刚刚配置的环境生效,并检验hadoop是否安装成功。

hadoop上安装spark hadoop安装视频_ip地址_55

11.xsync集群分发脚本

1.创建xsync脚本

hadoop上安装spark hadoop安装视频_ip地址_56


2.修改xsync文件,按照如下填入即可。

fi
for host in hadoop102 hadoop103 hadoop104  
do
 echo ==================== $host ====================
 #3. 遍历所有目录,挨个发送
 for file in $@
 do
 #4. 判断文件是否存在
 if [ -e $file ]
 then
 #5. 获取父目录
 pdir=$(cd -P $(dirname $file); pwd)
 #6. 获取当前文件的名称
 fname=$(basename $file)
 ssh $host "mkdir -p $pdir"
 rsync -av $pdir/$fname $host:$pdir
 else
 echo $file does not exists!
 fi
 done
done

3.使xsync生效,并且将相关文件分发到各个虚拟机中

1.生效,环境配置文件

hadoop上安装spark hadoop安装视频_hdfs_57


2.将module里面的文件分发给集群

hadoop上安装spark hadoop安装视频_ip地址_58


3.去hadoop103,hadoop104里面骚一下,是环境生效,并检测是否安装成功。(10.6和10.8)

12.配置SSH,使得集群内实现无密码访问彼此

1.输入以下命令,3次回车

hadoop上安装spark hadoop安装视频_hadoop上安装spark_59


2.hadoop102连接hadoop103

hadoop上安装spark hadoop安装视频_hadoop_60


3.使用2,将命令改为: ssh-copy-id hadoop104 借以连接上hadoop104。

4.分别切换到hadoop103,hadoop104,并把用户切到baga29,重复1,2,3。使得集群两两相连。

13.集群配置

集群规划如下

hadoop上安装spark hadoop安装视频_hdfs_61


1.配置 core-site.xml 文件,修改如下(需要注意hadoop 数据的存储目录 要设置为你自己的,一般是hadoop版本不同)。

hadoop上安装spark hadoop安装视频_hadoop_62

<configuration>
        <!-- 指定 NameNode 的地址 -->
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://hadoop102:8020</value>
        </property>
        <!-- 指定 hadoop 数据的存储目录 -->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/module/hadoop-3.2.2/data</value>
        </property>
        <!-- 配置 HDFS 网页登录使用的静态用户为 baga29 -->
        <property>
                <name>hadoop.http.staticuser.user</name>
                <value>baga29</value>
        </property>
</configuration>

2.配置 hdfs-site.xml 文件

hadoop上安装spark hadoop安装视频_hdfs_63

<configuration>
        <!-- nn web 端访问地址-->
        <property>
                <name>dfs.namenode.http-address</name>
                <value>hadoop102:9870</value>
        </property>
        <!-- 2nn web 端访问地址-->
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>hadoop104:9868</value>
        </property>
</configuration>

3.配置 yarn-site.xml 文件

hadoop上安装spark hadoop安装视频_hadoop_64


yarn.application.classpath 这个里面的内容 是运行:hadoop classpath 的返回结果

<configuration>
        <!-- 指定 MR 走 shuffle -->
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <!-- 指定 ResourceManager 的地址-->
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>hadoop103</value>
        </property>
        <property>
        <name>yarn.application.classpath</name>
        <value>/opt/module/hadoop-3.2.2/etc/hadoop:/opt/module/hadoop-3.2.2/share/hadoop/common/lib/*:/opt/module/hadoop-3.2.2/share/hadoop/common/*:/opt/module/hadoop-3.2.2/share/hadoop/hdfs:/opt/module/hadoop-3.2.2/share/hadoop/hdfs/lib/*:/opt/module/hadoop-3.2.2/share/hadoop/hdfs/*:/opt/module/hadoop-3.2.2/share/hadoop/mapreduce/lib/*:/opt/module/hadoop-3.2.2/share/hadoop/mapreduce/*:/opt/module/hadoop-3.2.2/share/hadoop/yarn:/opt/module/hadoop-3.2.2/share/hadoop/yarn/lib/*:/opt/module/hadoop-3.2.2/share/hadoop/yarn/*</value>
</property>
</configuration>

4.配置 mapred-site.xml 文件

hadoop上安装spark hadoop安装视频_ip地址_65

<configuration>
        <!-- 指定 MapReduce 程序运行在 Yarn 上 -->
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
</configuration>

5.将hadoop配置分发给集群,并在103,104检查是否分发成功

hadoop上安装spark hadoop安装视频_hdfs_66


hadoop上安装spark hadoop安装视频_hadoop_67


在103的查看,104也是如此

hadoop上安装spark hadoop安装视频_hadoop_68


hadoop上安装spark hadoop安装视频_hadoop_69


6.修改works文件,并分发到集群中

hadoop上安装spark hadoop安装视频_hadoop_70


不能有空格,也不能换行

hadoop上安装spark hadoop安装视频_hdfs_71


将该文件分发集群中,并检查(方式如前)

hadoop上安装spark hadoop安装视频_hdfs_72

14.启动集群

1.在hadoop102中

(1)这一步只进行一次,因为是第一次启动的原因,有点注册账号的意味。

hadoop上安装spark hadoop安装视频_hdfs_73


(2)启动dfs

hadoop上安装spark hadoop安装视频_hadoop上安装spark_74


2.在hadoop103中,启动yarn

hadoop上安装spark hadoop安装视频_hadoop上安装spark_75


3.查看各个虚拟机的节点,发现和规划的一样

hadoop上安装spark hadoop安装视频_hdfs_76


hadoop上安装spark hadoop安装视频_ip地址_77


hadoop上安装spark hadoop安装视频_hadoop上安装spark_78


4.Web端查看HDFS的Namenode

hadoop上安装spark hadoop安装视频_hadoop上安装spark_79


4.Web端查看YARN的ResourceManager

hadoop上安装spark hadoop安装视频_hadoop_80

15.集群的基本测试

1.上传文件

(1)创建a.txt

hadoop上安装spark hadoop安装视频_ip地址_81


(2)往a.txt写入文本

hadoop上安装spark hadoop安装视频_hdfs_82


(3)在Web端建立一个文件夹 /wcinput,并将本地的a.txt上传到Web端的 /wcinput文件夹中

hadoop上安装spark hadoop安装视频_hdfs_83


(4)查看Browsing HDFS

hadoop上安装spark hadoop安装视频_hadoop_84


hadoop上安装spark hadoop安装视频_hadoop_85


2.运行WordCount词频统计分布式程序

在hadoop102上运行

hadoop上安装spark hadoop安装视频_ip地址_86


查看两个Web端

hadoop上安装spark hadoop安装视频_hadoop_87


hadoop上安装spark hadoop安装视频_hadoop_88


hadoop上安装spark hadoop安装视频_hadoop上安装spark_89

———————————————— 相关资源链接——————————————
链接:
VMware:
https://pan.baidu.com/s/15FI9O59jyEr2PeLNsy-Jkg 提取码:2933
CentOS:
链接:https://pan.baidu.com/s/1C1F55BSosLnZsXT71Ch7Pg
提取码:2933
Xshell:
链接:https://pan.baidu.com/s/1d1mFoG443VPZEys5S1q-nA
提取码:2933
Xftps:
链接:https://pan.baidu.com/s/1-VmTLYWPXWrXAcRqdm3_0w
提取码:2933
hadoop3.2.2:
链接:https://pan.baidu.com/s/1OcBObicpIQ988aXK4ZMLQg
提取码:2933
jdk8u:
链接:https://pan.baidu.com/s/1R17LhdtaasyUOUP15EYm4g
提取码:2933