虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤

转载

新新人类 2023-09-25 22:01:55

文章标签 虚拟机上怎么安装hadoop hadoop 云计算 hdfs bash 文章分类 Hadoop 大数据

云计算 - 1 - 三虚拟机Hadoop的安装和配置

目标
1、配置三台虚拟机的JDK和网络环境
2、修改并添加主机名
3、下载并解压hadoop
4、修改环境变量
5、修改hadoop配置文件
6、建立3个节点免密连接
7、启动hadoop
遇到的问题

目标

配置Hadoop云计算平台，包括NameNode和DataNode的设置。
测试Hadoop平台的运行情况。

1、配置三台虚拟机的JDK和网络环境

1.1 首先三台虚拟机的javac均能通过

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_虚拟机上怎么安装hadoop

安装Java的教程可参考：Linux 使用yum安装Java1.2 修改各虚拟机的地址使其不同：

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_hdfs_02

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_bash_03

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_hdfs_04

2、修改并添加主机名

在主节点进行，后面会复制给另外两个节点。

使用vim /etc/hosts打开hosts文件，在其中添加各个主机名和地址。

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_bash_05

3、下载并解压hadoop

3.1 下载方式：
1、wegt 获取 tar 包：

wget http://mirrors.hust.edu.cn/apache/hadoop/core/stable/hadoop-2.7.1.tar.gz

2、百度网盘
链接：https://pan.baidu.com/s/1D2JeQsTb-ty4KDVWzaGKLg 提取码：98ud

3.2 解压
使用 tar 命令解压，注意修改 hadoop-xxx 后的版本号与自己的相同。

tar -zxvf hadoop-2.7.1.tar.gz

得到：

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_云计算_06

4、修改环境变量

使用vim ~/.bashrc（也有的修改vim /etc/profile），进入配置文件并添加：

export HADOOP_ HOME=/home/lucky/hadoop/hadoop-2.6.0
export HADOOP_ CONFIG_HOME= $HADOOP_ HOME/etc/hadoop
export PATH=$PATH: $HADOOP_HOME/bin
export PATH=$PATH: $HADOOP_HOME/sbin

注意修改路径和版本号与自己的一致。

5、修改hadoop配置文件

进入 hadoop 路径下的 etc 文件夹，修改以下几个文件。

5.1 配置 core-site.xml

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_bash_07

5.2 配置 hdfs-site.xml

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_云计算_08

5.3 配置 mapred-site.xml

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_云计算_09

5.4 配置 hadoop-env.sh

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_bash_10

5.5 配置 slaves

DataNode-1
DataNode-2

6、建立3个节点免密连接

6.1 修改节点名称

登陆每个节点，修改名字如hosts中配置的那样：

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_bash_11

在主节点：vi /etc/hostname，修改为 NameNode-1

登录节点1：

ssh 192.168.203.130
vi /etc/hostname

修改内容为：DataNode-1
然后exit退出。

登录节点2：

ssh 192.168.203.131
vi /etc/hostname

修改内容为：DataNode-2
然后exit退出。

6.2 将文件复制给两个datanode
将 hosts 及 bashrc 文件同步到 datanode1，datanode2 节点：

scp /etc/hosts/ root@10.10.12.112:/etc/hosts
scp /etc/hosts/ root@10.10.12.113:/etc/hosts
scp ~/.bashrc root@datanode1:~/.bashrc
scp ~/.bashrc root@datanode2:~/.bashrc

6.3 生成访问密钥，实现无密码访问
按照下述操作，生成访问秘钥 ssh-keygen -t rsa，3台机器共享秘钥，可以无密码访问。

## 在主机生成密钥
ssh-keygen -t rsa (just input three enters)

## 在节点1生成密钥，发给主机
ssh DataNode-1
ssh-keygen -t rsa (just input three enters)
scp /root/.ssh/id_rsa.pub root@NameNode-1:/root/.ssh/id_rsa.pub.DataNode-1


## 在节点2生成密钥，发给主机
ssh DataNode-2
ssh-keygen -t rsa (just input three enters)
scp /root/.ssh/id_rsa.pub root@NameNode-1:/root/.ssh/id_rsa.pub.DataNode-2

## 回到主机，整合三个密钥，再发给两个节点。
ssh NameNode-1
cd /root/.ssh
cat id_rsa.pub >> authorized_keys
cat id_rsa.pub.DataNode-1 >> authorized_keys
cat id_rsa.pub.DataNode-2 >> authorized_keys
chmod 644 authorized_keys
scp ~/.ssh/authorized_keys root@DataNode-1:/root/.ssh/authorized_keys
scp ~/.ssh/authorized_keys root@DataNode-2:/root/.ssh/authorized_keys

6.4 测试链接
这里要关闭各个虚拟机的防火墙，否则可能会无法成功。
service iptables stop 然后分别使用

ssh DataNode-1
ssh DataNode-2
ssh NameNode-1

测试是否可以成功无密码访问。

7、启动hadoop

7.1 复制文件到节点
将主机配置好的 hadoop 和 jdk 发给另外两个节点。

scp -r /home/hadoop/ root@DataNode-1:/home/hadoop
scp -r /home/hadoop/ root@Datanode-2:/home/hadoop
scp -r /home/jdk/ root@DataNode-1:/home/jdk
scp -r /home/jdk/ root@DataNode-2:/home/jdk

7.2 格式化工作空间

使用cd $HADOOP_HOME cd bin进入bin目录下，然后使用hdfs namenode –format格式化工作空间。

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_云计算_12

7.3 启动 hadoop

使用start-all.sh启动程序

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_hadoop_13

7.4 测试

查看 jps、hdfs dfsadmin -report 命令查看结果。

hdfs dfsadmin -report

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_云计算_14

jps

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_bash_15

还可以使用:

hadoop fs -put aaa.txt /aaa.txt
hadoop fs -ls /

put文件进去并查看。

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_bash_16

遇到的问题

刚开始时 DataNode 运行不起来，如下图所示：

虚拟机上怎么安装hadoop 虚拟机安装hadoop3步骤_bash_17

后来查询相关资料得知，这是因为namenode和datanode的clusterID不一致导致的datanode无法启动，产生的原因是多次hdfs namenode -format，而每一次format都会产生新的clusterID，而datanode还保持原来的clusterID，导致二者不匹配。

解决的办法即是把datanode节点中的clusterID换成新的就好了，或者把namenode和datanode中上一次format的文件都给删除，重新format，二者的clusterID就又同步了。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。