配置Hadoop集群客户端
|
|
|
|
|
|
|
|
|
Markdown在线编辑器
:http://www.mdeditor.com
在Hadoop和Spark集群搭建好了之后,如果我们需要向集群中发送、获取文件,或者执行MapReduce、Spark作业,通常是搭建一个外围的、集群的客户端,在这个客户端上进行操作。而不是直接在集群的NameNode或者DataNode上进行。此时,集群和客户端的结构如下图(简化图,没有考虑NameNode的高可用),本文将介绍如何快速搭建一个集群客户端(有时也叫gateway)。
Hadoop集群和客户端结构
在网络配置方面,可以遵循集群仅开放内网访问,而客户端开放外网访问,所有对集群的访问和管理,均通过客户端来完成。
客户端机器-相关配置如下
Step1.配置hosts
- 在这篇文章中,客户端的主机名是
dc1
(DataClient1的缩写,192.168.0.150),Hadoop集群中的NameNode主机名hadoop01
(192.168.0.34)。首先配置hosts
让两台机器相互“认识”一下。 - 修改
hadoop01
的hosts
:#vim /etc/hosts
添加:192.168.0.150 dc1
- 修改
dc1
的hosts
:#vim /etc/hosts
添加:192.168.0.34 hadoop01
- 当数据中心的
服务器
很多时,配置hosts可能不够方便,此时可以部署一台DNS(Domain Name Service)服务器,用于解析主机名。
Step2.配置ssh免密登录
- Linux下实现免密码登录-🔗
Step3.复制~/.bashrc文件(环境变量配置文件)
- 接下来,还要配置一下
$HADOOP_HOME
、$JAVA_HOME
等环境变量,实际就是拷贝一下~/.bashrc
文件#scp -P 60034 ~/.bashrc dc1:~/.bashrc
Step4.安装java和hadoop
- 安装java和hadoop的操作很简单,只需要将
hadoop01
上的Hadoop和Java文件夹复制到dc1
就可以了。#scp -P 60034 -r $HADOOP_HOME dc1:$HADOOP_HOME
#scp -P 60034 -r $JAVA_HOME dc1:$JAVA_HOME
- 此时,可能会疑惑,这样不是就和
安装和配置Hadoop集群节点
一样了,好像又往集群中添加了一台机器一样。 - 这里最大的不同是:不需要运行hadoop进程(DataNode、NameNode、ResourceManager、NodeManager等),既不需要执行
start-dfs.sh/start-yarn.sh
。同时,也没有修改$HADOOP_CONF_DIR/slaves
文件,因此并没有加入集群。而只是作为集群的客户端
使用。 - 因为我们上面是将整个
$HADOOP_HOME
拷贝到了dc1
,其中包含了所有的配置文件,因此,也无需配置。
Step5.验证安装
因为我在Hadoop集群上已经放有一些测试文件,通过命令行界面,对文件进行一下获取和发送,可以验证客户端与集群工作良好。
- 1.从集群下载文件到客户端
#hdfs dfs -get /user/root/tmp/file1.txt ~/tmp
- 2.在客户端重命名后上传到集群
#mv ~/tmp/file1.txt ~/tmp/file1_2.txt
#hdfs dfs -put ~tmp/file1_2.txt /user/root/tmp
至此,一个简单的Hadoop集群客户端就搭建好了。除了在客户端上执行HDFS的文件操作以外,还可以运行Hive,Hive本身就是一个客户端的工具。同时,也可以运行Spark的Driver程序,它是Spark集群的客户端。而Spark集群中的Worker通常是和HDFS的DataNode部署在同一台服务器上,以提升数据访问效率。