hadoop 客户端jar

转载

mob64ca14154457 2024-09-13 21:21:08

文章标签 hadoop 客户端jar hadoop linux 大数据客户端 文章分类 Hadoop 大数据

配置Hadoop集群客户端

`版本`	`更新内容`	`备注`
`v1.0`	`创建文档`	`2020-10-11`
`v1.1`	`新增词根相关`	`2021-01-06`

Markdown在线编辑器：http://www.mdeditor.com

在Hadoop和Spark集群搭建好了之后，如果我们需要向集群中发送、获取文件，或者执行MapReduce、Spark作业，通常是搭建一个外围的、集群的客户端，在这个客户端上进行操作。而不是直接在集群的NameNode或者DataNode上进行。此时，集群和客户端的结构如下图（简化图，没有考虑NameNode的高可用），本文将介绍如何快速搭建一个集群客户端（有时也叫gateway）。

hadoop 客户端jar_客户端

Hadoop集群和客户端结构

在网络配置方面，可以遵循集群仅开放内网访问，而客户端开放外网访问，所有对集群的访问和管理，均通过客户端来完成。

客户端机器-相关配置如下

Step1.配置hosts

在这篇文章中，客户端的主机名是dc1（DataClient1的缩写，192.168.0.150），Hadoop集群中的NameNode主机名hadoop01（192.168.0.34）。首先配置hosts让两台机器相互“认识”一下。
修改hadoop01的hosts：
#vim /etc/hosts 添加：192.168.0.150 dc1
修改dc1的hosts：
#vim /etc/hosts 添加：192.168.0.34 hadoop01
当数据中心的服务器很多时，配置hosts可能不够方便，此时可以部署一台DNS（Domain Name Service）服务器，用于解析主机名。

Step2.配置ssh免密登录

Linux下实现免密码登录-🔗

Step3.复制~/.bashrc文件（环境变量配置文件）

接下来，还要配置一下$HADOOP_HOME、$JAVA_HOME等环境变量，实际就是拷贝一下~/.bashrc文件
#scp -P 60034 ~/.bashrc dc1:~/.bashrc

Step4.安装java和hadoop

安装java和hadoop的操作很简单，只需要将hadoop01上的Hadoop和Java文件夹复制到dc1就可以了。
#scp -P 60034 -r $HADOOP_HOME dc1:$HADOOP_HOME#scp -P 60034 -r $JAVA_HOME dc1:$JAVA_HOME
此时，可能会疑惑，这样不是就和安装和配置Hadoop集群节点一样了，好像又往集群中添加了一台机器一样。
这里最大的不同是：不需要运行hadoop进程（DataNode、NameNode、ResourceManager、NodeManager等），既不需要执行start-dfs.sh/start-yarn.sh。同时，也没有修改$HADOOP_CONF_DIR/slaves文件，因此并没有加入集群。而只是作为集群的客户端使用。
因为我们上面是将整个$HADOOP_HOME拷贝到了dc1，其中包含了所有的配置文件，因此，也无需配置。

Step5.验证安装

因为我在Hadoop集群上已经放有一些测试文件，通过命令行界面，对文件进行一下获取和发送，可以验证客户端与集群工作良好。

1.从集群下载文件到客户端
#hdfs dfs -get /user/root/tmp/file1.txt ~/tmp
2.在客户端重命名后上传到集群
#mv ~/tmp/file1.txt ~/tmp/file1_2.txt#hdfs dfs -put ~tmp/file1_2.txt /user/root/tmp

至此，一个简单的Hadoop集群客户端就搭建好了。除了在客户端上执行HDFS的文件操作以外，还可以运行Hive，Hive本身就是一个客户端的工具。同时，也可以运行Spark的Driver程序，它是Spark集群的客户端。而Spark集群中的Worker通常是和HDFS的DataNode部署在同一台服务器上，以提升数据访问效率。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。