目录
一、进行Hadoop单机/伪分布式配置
二、进行Hadoop完全分布式安装
其中遇到的坑————————————————————————————————————————
一、进行Hadoop单机/伪分布式配置
Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0(2.7.1)/Ubuntu14.04(16.04)_厦大数据库实验室博客 (xmu.edu.cn)
文章写的很好,但版本太老,亲测ubuntu18.04+hadoop3.3 按照上述步骤也可以完成安装,jdk版本应该选8以上的。
(如果没有安装好vmware与虚拟机,可参考下条连接进行安装)
二、进行Hadoop完全分布式安装
1.安装完成虚拟机后配置使其可以实现虚拟机和win系统之间相互复制粘贴
sudo apt install open-vm-tools
sudo install open-vm-tools-desktop
并进行重启
2. 安装vim 因为vi编辑器会出现问题
sudo apt install vim
其中遇到的坑————————————————————————————————————————
1.最好完全按照步骤创建hadoop用户,以及主机名称
2.配置静态ip时,节点ip地址要参考自己vmware虚拟网卡
的网段(如192.168.100这三个数),可能不一样
3.配置一些文件时可能没有保存的权限,可以用命令sudo su转换成超级用户,保存完成后exit退出超级用户。
4.下张图片的第二行 master可以修改为别的名字,否则,从机向主机scp传输文件或远程登陆时,用hadoop@master或ssh master可能找不到地址,不会报错,但传输或远程不成功。(此时也可以将hadoop@master修改为hadoop@192.168.100.100 即master的ip地址 ssh 192.168.100.100)
5.配置环境变量时 修改.bashrc 一定要按照格式,别打错,要是出现应用后所有命令不能使用的情况下 可以试着输入下面命令来解决
export PATH=/sbin:/bin:/usr/sbin:/usr/bin:/usr/local/bin
6.验证hadoop是否添加好环境变量可以在任意文件夹下输入 Hadoop version 查看版本
7.配置核心组件core-site.xml时记得修改为自己master的ip地址
8..配置hadoop-env.sh等添加jdk的安装目录时,不用刻意找相同位置,因为hadoop版本不同。
9.启动集群有很多命令可以自行百度学习,通过浏览器访问UI 集群信息图时,50070端口修改为9870(hadoop3.2.1版本之后修改了端口),8080端口修改为18088(自行修改后的)
10.问题:使用start-all.sh启动整个集群后,jps查看每个节点的进程时,发现slave1和slave2只有jps。
解决方案:修改文件workers(hadoop3.x版本特有)
需要把所有数据节点的主机名写入该文件,可以保留localhost,让master节点同时充当名称节点和数据节点,或者也可以删掉localhost这行,让master节点仅作为名称节点使用。
方法:sudo vim /usr/local/hadoop/etc/hadoop/workers
第一行添加slave1,第二行添加slave2
10.Hadoop集群活跃节点为0或1解决方案,
问题:使用start-all.sh启动整个集群。jps查看每个节点该启动的进程都启动了,可以访问master:50070页面,但是其中的Live Nodes项显示为0
解决方案:sudo vim /etc/hosts
在master下打开hosts文件,将前两行屏蔽:
11.hadoop 多次格式化format namenode 导致节点不能启动