目录
一、部署环境安装说明
二、Hadoop安装
1、设置SSH免密登录
安装SUDO
安装SSH
然后修改权限:
接着需要启用RSA认证,启动公钥私钥配对认证方式vim /etc/ssh/sshd_config 如果提示权限不足在命令前加上sudo 修改ssh配置:
重启SSH
2.配置环境变量
3.配置Hadoop相关文件
hadoop-env.sh配置
hdfs-site.xml配置
4、创建相关文件夹
5、验证
一、部署环境安装说明
部署环境 Docker+Ubuntu18+jdk8
二、Hadoop安装
1.Hadoop下载
如果你要在自己的Linux系统中安装,那么还是需要下载的。我们可以选择以下两种方式之一下载:
- 先下载到Windows,然后从Windows中将文件传入到虚拟机中。
- 在Linux的终端下输入
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/stable/hadoop-3.3.1.tar.gz
2.解压Hadoop安装包
将目录转换到下载Hadoop的目录中,查看安装情况
解压Hadoop
的压缩包到/usr/local
目录下
tar -zxvf hadoop-3.3.1.tar.gz -C/usr/local
名字过于复杂,不便于调用, 切换到/usr/local
目录下修改Hadoop文件夹的名字:
mv Hadoop-3.3.1/ hadoop
三、配置Hadoop安装环境
1、设置SSH免密登录
首先下载SSH,先更新软件包
sudo apt-get update
安装SUDO
sudo apt-get install sudo
安装SSH
sudo apt-get install openssh-server
# 或
sudo apt install openssh-server
设置免密
ssh-keygen -t rsa -P ''
生成无密码密钥对,询问保存路径直接输入回车,生成密钥对:id_rsa和id_rsa.pub
,默认存储在~/.ssh
目录下。 接下来:把id_rsa.pub
追加到授权的key
里面去。
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
然后修改权限:
chmod 600 ~/.ssh/authorized_keys
接着需要启用RSA认证,启动公钥私钥配对认证方式
vim /etc/ssh/sshd_config
如果提示权限不足在命令前加上sudo
修改ssh配置:
PubkeyAuthentication yes # 启用公钥私钥配对认证方式
AuthorizedKeysFile %h/.ssh/authorized_keys # 公钥文件路径
重启SSH
service ssh restart
2.配置环境变量
首先我们配置好Hadoop的环境变量,避免每次执行Hadoop命令的时候,都要输入一长串路径。
编辑环境变量
sudo vim /etc/profile
在文件后面加上两行。
加完后,点击【Esc】,输入【:wq】保存并退出。
使环境变量生效
source /etc/profile
然后执行
hadoop version
看到以下提示 ,说明环境变量配置正确啦!
3.配置Hadoop相关文件
总共需要配置三个文件,分别是:
- hadoop-env.sh
- core-site.xml
- hdfs-site.xml
这三个文件位于$HADOOP_HOME/etc/profile目录下。$HADOOP_HOME指Hadoop的安装位置,按照此教程的话,该位置为/usr/local/Hadoop。执行
cd /usr/local/hadoop/etc/hadoop
或者
cd $HADOOP_HOME/etc/hadoop
切换到这三个文件的路径下。(上面两句命令意思相同,选其一即可)
切换到该目录下,然后进行环境配置。
hadoop-env.sh配置
hadoop-env.sh文件主要是配置JDK的位置。
如果忘记了JDK的位置,可以执行
echo $JAVA_HOME
就可以看到
接下来正式进行文件配置。执行
vim hadoop-env.sh
在文件首行插入如下代码:
export JAVA_HOME=/usr/lib/jdk
/usr/lib/jdk
是jdk存放的路径。如果你把jdk安装在其它位置,记得把/usr/lib/jdk
替换为相应的路径。
core-site.xml配置
在相同的目录下,执行
vim core-site.xml
在该文件末尾的configuration标签中,插入如下代码:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/data/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
</configuration>
在上面的配置中,我们做了两项配置:
1、指定HDFS的URI是hdfs://localhost:9000。
2、设定Hadoop的临时文件存放在Linux文件系统中的/data/hadoop/tmp目录下。
hdfs-site.xml配置
在相同目录下,执行
vim hdfs-site.xml
在该文件末尾的configuration标签中,插入如下代码:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/data/hadoop/hdfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/data/hadoop/hdfs/data</value>
</property>
</configuration>
小tips:
1、replication指的是副本数量,我们现在是单节点,所以是1.
2、dfs.namenode.name.dir指定namenode节点存放数据的位置。
3、dfs.datanode.data.dir指定datanode节点存放数据的位置。
4、创建相关文件夹
在刚刚的配置文件中,配置了一些文件夹路径,但是还没创建它,现在来创建一下。
在/data/hadoop/目录下建立这些目录,执行以下代码:
mkdir /data
mkdir /data/hadoop
mkdir /data/hadoop/tmp
mkdir /data/hadoop/hdfs
mkdir /data/hadoop/hdfs/data
mkdir /data/hadoop/hdfs/name
全部执行完且成功后,文件夹情况如图:
5、验证
现在,配置工作已经基本完成,接下来进行一些验证工作。主要三步:
- 格式化HDFS文件
- 启动hadoop
- 验证hadoop
1.格式化
在使用Hadoop之前我们需要格式化一些hadoop的基本信息。 使用如下命令:
hadoop namenode -format
出现如下界面代表成功:
2.启动Hadoop
接下来我们启动Hadoop:
start-dfs.sh
此时界面会出现几行EEROR:
这是因为root用户现在还不能启动hadoop,我们来设置一下就可以了。执行
cd $HADOOP_HOME/sbin
在start-dfs.sh,stop-dfs.sh两个文件顶部添加以下参数
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
如下图所示:
再次执行start-dfs.sh
输入命令 jps
验证,出现如下界面代表启动成功:
之后如果你是图形化界面,可以在你虚拟机的图形化界面中打开火狐浏览器输入:http://localhost:9870/ 或者在windows机器上输入http://虚拟机ip地址:9870/ 也可以访问 hadoop的管理页面
好了到了这一步Hadoop就安装完成了。