手把手教你搭建Hadoop生态系统伪分布式集群

原创

wx5e46005fc4d21 2022-03-07 11:02:17 ©著作权

文章标签 hadoop zookeeper hive 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者wx5e46005fc4d21的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hello，我是 Alex 007，一个热爱计算机编程和硬件设计的小白，为啥是007呢？因为叫 Alex 的人太多了，再加上每天007的生活，Alex 007就诞生了。

手把手教你搭建Hadoop生态系统伪分布式集群

这篇博客呢，我会详细介绍怎么搭建Hadoop生态系统，包括JDK、Zookeeper、Hadoop、HBase、MySQL、Hive、Scala、Spark、Sqoop的安装。

一、准备工作

版本信息：

手把手教你搭建Hadoop生态系统伪分布式集群_hive

更新升级软件包

yum update
yum upgrade

设置防火墙

关闭防火墙：

systemctl stop firewalld

查看状态：

systemctl status firewalld

注意：当环境重置之后，防火墙会自动开启，可以使用如下命令禁止开机自启：

systemctl disable firewalld

设置防火墙

设置主机名：

hostnamectl set-hostname bigdata

二、JDK安装

有些平台已经默认安装了JDK，可以使用默认的，也可以重新安装，如果重新安装需要将原有的JDK卸载。

JDK卸载：

which java（查看JDK的安装路径）
rm -rf JDK地址（卸载JDK）
vim /etc/profile（删除Java环境变量）

首先在根目录下建立工作路径/usr/java：

mkdir -p /usr/java

进入创建的java工作路径

cd /usr/java

从Windows本地将下载好的java安装包上传到服务器

jdk文件需要从Oracle官网上下载，如果下载太慢的话也可以从我这里下载：jdk-8u171-linux-x64.tar.gz。

scp jdk-8u171-linux-x64.tar.gz root@47.96.237.42:/usr/java

解压jdk安装包

tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/java/

删除安装包

rm -rf /usr/java/jdk-8u171-linux-x64.tar.gz

配置环境变量

vim /etc/profile

文件最后添加如下内容：

export JAVA_HOME=/usr/java/jdk1.8.0_171
export CLASSPATH=$JAVA_HOME/lib/
export PATH=$PATH:$JAVA_HOME/bin
export PATH JAVA_HOME CLASSPATH

手把手教你搭建Hadoop生态系统伪分布式集群_zookeeper_02

激活环境变量

source /etc/profile

查看java版本

java -version

出现版本信息：

手把手教你搭建Hadoop生态系统伪分布式集群_zookeeper_03

三、ZooKeeper安装

在集群的管理中Zookeeper负责分布式系统的协调工作，不仅适用于Hadoop集群，在其他的集群中也常被用到。

Zookeeper主要解决处理分布式应用的同步和“部分失败”问题（比如某个关链节点宕机了），使集群更加稳定地工作。

创建zookeeper的工作路径

mkdir -p /usr/zookeeper
cd /usr/zookeeper

下载zookeeper

wget http://archive.apache.org/dist/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gz

如果下载太慢的话可以用我提供的链接：zookeeper-3.4.10.tar.gz，下载到Windows本地然后上传到服务器。

解压到/usr/zookeeper

tar -zxvf /usr/zookeeper/zookeeper-3.4.10.tar.gz -C /usr/zookeeper

删除软件包

rm -rf /usr/zookeeper/zookeeper-3.4.10.tar.gz

创建配置中所需的zkdata和zkdatalog两个文件夹

cd /usr/zookeeper/zookeeper-3.4.10
mkdir zkdata_1 zkdata_2 zkdata_3
mkdir zkdatalog_1 zkdatalog_2 zkdatalog_3

配置文件zoo.cfg

将zoo_sample.cfg文件拷贝一份命名为zoo.cfg，Zookeeper 在启动时会找这个文件作为默认配置文件。

cd /usr/zookeeper/zookeeper-3.4.10/conf/
cp zoo_sample.cfg zoo1.cfg
cp zoo_sample.cfg zoo2.cfg
cp zoo_sample.cfg zoo3.cfg

zoo1.cfg内容如下：

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/usr/zookeeper/zookeeper-3.4.10/zkdata_1
clientPort=2181
dataLogDir=/usr/zookeeper/zookeeper-3.4.10/zkdatalog_1
server.1=localhost:2887:3887
server.2=localhost:2888:3888
server.3=localhost:2889:3889

zoo2.cfg内容如下：

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/usr/zookeeper/zookeeper-3.4.10/zkdata_2
clientPort=2182
dataLogDir=/usr/zookeeper/zookeeper-3.4.10/zkdatalog_2
server.1=localhost:2887:3887
server.2=localhost:2888:3888
server.3=localhost:2889:3889

zoo3.cfg内容如下：

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/usr/zookeeper/zookeeper-3.4.10/zkdata_3
clientPort=2183
dataLogDir=/usr/zookeeper/zookeeper-3.4.10/zkdatalog_3
server.1=localhost:2887:3887
server.2=localhost:2888:3888
server.3=localhost:2889:3889

创建文件myid

echo "1" > /usr/zookeeper/zookeeper-3.4.10/zkdata_1/myid
echo "2" > /usr/zookeeper/zookeeper-3.4.10/zkdata_2/myid
echo "3" > /usr/zookeeper/zookeeper-3.4.10/zkdata_3/myid

配置zookeeper环境变量

vim /etc/profile

添加如下内容：

export ZOOKEEPER_HOME=/usr/zookeeper/zookeeper-3.4.10
PATH=$PATH:$ZOOKEEPER_HOME/bin

手把手教你搭建Hadoop生态系统伪分布式集群_hadoop_04

激活环境变量

source /etc/profile

启动ZooKeeper集群

开启服务：

/usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh start zoo1.cfg
/usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh start zoo2.cfg
/usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh start zoo3.cfg

查看是否启动成功：

[root@Alex ~]# jps
14496 Jps
13282 QuorumPeerMain
13255 QuorumPeerMain
13323 QuorumPeerMain

查看状态：

[root@Alex ~]# /usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh status zoo1.cfg
ZooKeeper JMX enabled by default
Using config: /usr/zookeeper/zookeeper-3.4.10/bin/../conf/zoo1.cfg
Mode: follower
[root@Alex ~]# /usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh status zoo2.cfg
ZooKeeper JMX enabled by default
Using config: /usr/zookeeper/zookeeper-3.4.10/bin/../conf/zoo2.cfg
Mode: leader
[root@Alex ~]# /usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh status zoo3.cfg
ZooKeeper JMX enabled by default
Using config: /usr/zookeeper/zookeeper-3.4.10/bin/../conf/zoo3.cfg
Mode: follower

通过上面状态查询结果可见，一个节点是Leader，其余的结点是Follower，至此，zookeeper安装成功。

四、Hadoop安装

Hadoop是个分布式的架构，它将海量数据处理工作分配到集群中的多个机器上运行。

创建hadoop的工作路径

mkdir -p /usr/hadoop
cd /usr/hadoop

下载hadoop

wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

如果下载太慢的话可以用我提供的链接：hadoop-2.7.3.tar.gz，下载到Windows本地然后上传到服务器。

解压到/usr/hadoop

tar -zxvf hadoop-2.7.3.tar.gz -C /usr/hadoop/

删除软件包

rm -rf /usr/hadoop/hadoop-2.7.3.tar.gz

配置环境变量

vim /etc/profile

添加如下内容：

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

激活环境变量

source /etc/profile

hadoop 安装测试

到此为止，Hadoop 的安装就完成了，可以测试一下，直接在命令行输入：

hadoop version

手把手教你搭建Hadoop生态系统伪分布式集群_hive_05

配置Hadoop组件

hadoop的各个组件的都是使用XML进行配置。

主要配置要点就是设定 hadoop 运行过程中存放的临时目录、元数据存放位置、mapreduce 所采用的框架等。具体的配置文件存在 hadoop 安装目录下的 etc 目录里的 hadoop 文件夹中。

手把手教你搭建Hadoop生态系统伪分布式集群_zookeeper_06

8.1 hadoop-env.sh环境配置文件

cd $HADOOP_HOME/etc/hadoop
vim hadoop-env.sh

添加如下内容：

export JAVA_HOME=/usr/java/jdk1.8.0_171

手把手教你搭建Hadoop生态系统伪分布式集群_hive_07

8.2. core-site.xml文件

这个文件用于设定 hadoop 运行过程中临时文件存放的路径及 hdfs 通信方式。

vim core-site.xml

添加如下内容：

<property>
  <name>hadoop.proxyuser.root.groups</name>
  <value>*</value>
</property>
<property>
  <name>hadoop.proxyuser.root.hosts</name>
  <value>*</value>
</property>
<property>
  <name>fs.default.name</name>
   <value>hdfs://bigdata:9000</value>
</property>
<property>
  <name>hadoop.tmp.dir</name>
   <value>/usr/hadoop/hadoop-2.7.3/hdfs/tmp</value>
<description>A base for other temporary directories.</description>
</property>
<property>
  <name>io.file.buffer.size</name>
   <value>131072</value>
</property>
<property>
  <name>fs.checkpoint.period</name>
   <value>60</value>
</property>
<property>
  <name>fs.checkpoint.size</name>
   <value>67108864</value>
</property>

手把手教你搭建Hadoop生态系统伪分布式集群_zookeeper_08

8.3. hdfs-site.xml文件

这个文件用于设定 hdfs 运行时存放的 name 空间元数据和 data 数据块路径。

vim hdfs-site.xml

添加如下内容：

<property>
 <name>dfs.replication</name>
   <value>1</value>
 </property>
 <property>
   <name>dfs.namenode.name.dir</name>
   <value>file:/usr/hadoop/hadoop-2.7.3/hdfs/name</value>
   <final>true</final>
</property>
 <property>
   <name>dfs.datanode.data.dir</name>
   <value>file:/usr/hadoop/hadoop-2.7.3/hdfs/data</value>
   <final>true</final>
 </property>
 <property>
  <name>dfs.namenode.secondary.http-address</name>
   <value>bigdata:9001</value>
 </property>
 <property>
   <name>dfs.webhdfs.enabled</name>
   <value>true</value>
 </property>
 <property>
   <name>dfs.permissions</name>
   <value>false</value>
 </property>

手把手教你搭建Hadoop生态系统伪分布式集群_hive_09

8.4. yarn-site.xml文件

这个文件设置了 yarn 资源管理相关信息。

vim yarn-site.xml

添加如下内容：

<!-- 指定ResourceManager的地址-->
<property>
 <name>yarn.resourcemanager.address</name>
   <value>bigdata:18040</value>
 </property>
 <property>
   <name>yarn.resourcemanager.scheduler.address</name>
   <value>bigdata:18030</value>
 </property>
 <property>
   <name>yarn.resourcemanager.webapp.address</name>
   <value>bigdata:18088</value>
 </property>
 <property>
   <name>yarn.resourcemanager.resource-tracker.address</name>
   <value>bigdata:18025</value>
 </property>
 <property>
  <name>yarn.resourcemanager.admin.address</name>
  <value>bigdata:18141</value>
 </property>
<!-- 指定reducer获取数据的方式-->
 <property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
 </property>
 <property>
  <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
  <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

手把手教你搭建Hadoop生态系统伪分布式集群_zookeeper_10

8.5. mapred-site.xml文件

hadoop是没有这个文件的，需要将mapred-site.xml.template样本文件复制为mapred-site.xml，对其进行编辑：

cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

添加如下内容：

<property>
<!--指定Mapreduce运行在yarn上-->
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>

手把手教你搭建Hadoop生态系统伪分布式集群_zookeeper_11

hadoop名称节点初始化

hadoop namenode -format

在格式化过程中，对本地磁盘使用配置文件设定的路径创建名称节点、临时文件存放目录等进行创建。也就是基本上构建了一个 hdfs 的存储框架。

当没报错并出现“Exiting with status 0”的时候，表明格式化成功。

手把手教你搭建Hadoop生态系统伪分布式集群_zookeeper_12

开启hadoop

cd /usr/hadoop/hadoop-2.7.3/
sbin/start-all.sh

查看是否启动成功：

[root@Alex hadoop-2.7.3]# jps
15552 NameNode
16129 Jps
13282 QuorumPeerMain
15670 DataNode
15174 ResourceManager
13255 QuorumPeerMain
13323 QuorumPeerMain
16029 NodeManager
15822 SecondaryNameNode

多出来5个进程：NameNode、DataNode、ResourceManager、NodeManager、SecondaryNameNode。

Hadoop分为HDFS和MapReduce，HDFS为数据提供了存储，MapReduce为数据提供了计算。
NameNode主要负责管理元信息，如文件名，目录结构，属性，数据块存储位置等等
DataNode负责数据块的具体存取
SecondaryNameNode是NameNode的辅助工具，有两个作用，一是镜像备份，二是日志与镜像的定期合并，注意：它并不是NameNode的备份
ResourceManager负责集群中所有算力的统一管理和分配
NodeManager是每台机器上的代理，负责容器管理，并监控它们的资源使用情况，以及向ResourceManager提供资源使用报告

启动进程服务后，就可以使用 hadoop 两个关键的分布式存储和分布式计算的服务了。

如果想关闭掉某个 hadoop 进程，可以使用进程管理里的 kill 命令。如果关闭所有 hadoop 进程服务，使用 sbin 目录里的 stop-all.sh 脚本，如下：

sbin/stop-all.sh

五、HBase安装

HBase是一个开源的非关系型分布式数据库（NoSQL），它参考了谷歌的BigTable建模，实现的编程语言为 Java。它是Apache软件基金会的Hadoop项目的一部分，运行于HDFS文件系统之上，为 Hadoop 提供类似于BigTable 规模的服务。因此，它可以对稀疏文件提供极高的容错率。

创建hbase的工作路径

mkdir -p /usr/hbase
cd /usr/hbase

下载hbase

wget https://archive.apache.org/dist/hbase/1.2.4/hbase-1.2.4-bin.tar.gz

如果下载太慢的话可以用我提供的链接：hbase-1.2.4-bin.tar.gz，下载到Windows本地然后上传到服务器。

解压到/usr/hbase

tar -zxvf hbase-1.2.4-bin.tar.gz -C /usr/hbase

删除软件包

rm -rf /usr/hbase/hbase-1.2.4-bin.tar.gz

配置hbase-env.sh

cd /usr/hbase/hbase-1.2.4/conf
vim hbase-env.sh

添加如下内容：

export HBASE_MANAGES_ZK=false
export JAVA_HOME=/usr/java/jdk1.8.0_171
export HBASE_CLASSPATH=/usr/hadoop/hadoop-2.7.3/etc/hadoop

一个分布式运行的Hbase依赖一个zookeeper集群，所有的节点和客户端都必须能够访问zookeeper。

默认的情况下Hbase会管理一个zookeep集群，即Hbase默认自带一个zookeep集群，这个集群会随着Hbase的启动而启动，而在实际的商业项目中通常自己管理一个zookeeper集群更便于优化配置提高集群工作效率，但需要配置Hbase。需要修改conf/hbase-env.sh里面的HBASE_MANAGES_ZK 来切换。

这个值默认是true的，作用是让Hbase启动的时候同时也启动zookeeper.在本实验中，我们采用独立运行zookeeper集群的方式，故将其属性值改为false。

配置hbase-site.xml

<property>
　　<name>hbase.rootdir</name>
　　<value>hdfs://bigdata:9000/hbase</value>
</property>
<property>
　　<name>hbase.cluster.distributed</name>
　　<value>true</value>
</property>
<property>
　　<name>hbase.bigdata</name>
　　<value>hdfs://bigdata:6000</value>
</property>
<property>
　　<name>hbase.zookeeper.property.dataDir</name>
　　<value>/usr/zookeeper/zookeeper-3.4.10</value>
</property>

hadoop配置文件拷入

cp /usr/hadoop/hadoop-2.7.3/etc/hadoop/hdfs-site.xml /usr/hbase/hbase-1.2.4/conf
cp /usr/hadoop/hadoop-2.7.3/etc/hadoop/core-site.xml /usr/hbase/hbase-1.2.4/conf

配置环境变量

vim /etc/profile

添加如下内容：

export HBASE_HOME=/usr/hbase/hbase-1.2.4
export PATH=$PATH:$HBASE_HOME/bin

激活环境变量

source /etc/profile

启动HBase

bin/start-hbase.sh

查看是否启动成功：

jps

手把手教你搭建Hadoop生态系统伪分布式集群_hive_13

六、MySQL安装

创建mysql的工作路径

mkdir /usr/mysql
cd /usr/mysql/

下载mysql

wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm

安装mysql

yum -y localinstall mysql57-community-release-el7-8.noarch.rpm
yum -y install mysql-community-server

启动mysql服务

重载所有修改过的配置文件：

systemctl daemon-reload

开启服务：

systemctl start mysqld

开机自启：

systemctl enable mysqld

登录mysql

安装完毕后，MySQL会在/var/log/mysqld.log这个文件中会自动生成一个随机的密码，获取得这个随机密码，以用于登录MySQL数据库。

获取初密码：

grep "temporary password" /var/log/mysqld.log

登陆MySQL：

mysql -uroot -p

设置MySQL密码安全策略

设置密码强度为低级：

set global validate_password_policy=0;

密码强度分级如下：
0为low级别，只检查长度；
1为medium级别（默认），符合长度为8，且必须含有数字，大小写，特殊字符;
2为strong级别，密码难度更大一些，需要包括字典文件。
密码长度最低长为4，当设置长度为1、2、3时，其长度依然为4。

设置密码长度：

set global validate_password_length=4;

修改本地密码：

alter user 'root'@'localhost' identified by '123456';

退出：

\q

设置远程登录

以新密码登陆MySQL：

mysql -uroot -p123456

创建用户：

create user 'root'@'%' identified by '123456';

允许远程连接：

grant all privileges on *.* to 'root'@'%' with grant option;

添加mysql用户：

grant all on *.* to hadoop@'%' identified by 'hadoop';
grant all on *.* to hadoop@'localhost' identified by 'hadoop';
grant all on *.* to hadoop@'master' identified by 'hadoop';

刷新权限：

flush privileges;

创建数据库：

create database hive_1;

退出：

\q

七、Hive安装

创建hive的工作路径

mkdir -p /usr/hive
cd /usr/hive

下载hive

wget https://archive.apache.org/dist/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz

如果下载太慢的话可以用我提供的链接：apache-hive-2.1.1-bin.tar.gz，下载到Windows本地然后上传到服务器。

解压到/usr/hive

tar -zxvf apache-hive-2.1.1-bin.tar.gz -C /usr/hive/

删除软件包

rm -rf apache-hive-2.1.1-bin.tar.gz

配置环境变量

vim /etc/profile

添加如下内容：

export HIVE_HOME=/usr/hive/apache-hive-2.1.1-bin
export PATH=$PATH:$HIVE_HOME/bin

激活环境变量

source /etc/profile

安装MariaDB

yum install mariadb-server -y

配置hive

vim /usr/hive/apache-hive-2.1.1-bin/conf/hive-site.xml

文件内容如下：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
        <property>
                <name>hive.metastore.local</name>
                <value>true</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionURL</name>
                <value>jdbc:mysql://bigdata:3306/hive_1?characterEncoding=UTF-8&useSSL=true&verifyServerCertificate=false</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionDriverName</name>
                <value>com.mysql.jdbc.Driver</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionUserName</name>
                <value>hadoop</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionPassword</name>
                <value>hadoop</value>
        </property>
</configuration>

创建mysql-connector的工作路径

mkdir -p /usr/mysql-connector
cd /usr/mysql-connector

下载mysql-connector

wget https://cdn.mysql.com//archives/mysql-connector-java-5.1/mysql-connector-java-5.1.46.tar.gz

解压到/usr/mysql-connector

tar -xzvf mysql-connector-java-5.1.46.tar.gz

删除软件包

rm -rf mysql-connector-java-5.1.46.tar.gz

将mysql的java connector复制到依赖库中

cp mysql-connector-java-5.1.46-bin.jar /usr/hive/apache-hive-2.1.1-bin/lib/

初始化hive元数据库

schematool -dbType mysql -initSchema

启动并验证Hive

hive

手把手教你搭建Hadoop生态系统伪分布式集群_hadoop_14

输入以下HQL语句:

show databases;
create database hadoop_data;
show databases;

hive> show databases;
OK
default
Time taken: 0.023 seconds, Fetched: 1 row(s)
hive> create database hadoop_data;
OK
Time taken: 0.191 seconds
hive> show databases;
OK
default
hadoop_data
Time taken: 0.039 seconds, Fetched: 2 row(s)

退出：

quit;

八、Scala安装

创建scala的工作路径

mkdir -p /usr/scala
cd /usr/scala

下载scala

wget https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz

如果下载太慢的话可以用我提供的链接：scala-2.11.12.tgz，下载到Windows本地然后上传到服务器。

解压到/usr/scala

tar -zxvf scala-2.11.12.tgz -C /usr/scala

删除软件包

rm -rf /usr/hbase/hbase-1.2.4-bin.tar.gz

配置环境变量

export SCALA_HOME=/usr/scala/scala-2.11.12
export PATH=$SCALA_HOME/bin:$PATH

激活环境变量

source /etc/profile

检验是否安装成功

[root@Alex ~]# scala -version
Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

九、Spark安装

Spark是一个新兴的大数据处理的引擎，是分布式大数据处理的高层次抽象。

提供了除map和reduce之外更多的运算符，这些操作是通过一个称作弹性分布式数据集的分布式数据框架进行的，主要使用内存存储，用于快速处理。

创建spark的工作路径

mkdir -p /usr/spark
cd /usr/spark

下载spark

wget https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

如果下载太慢的话可以用我提供的链接：spark-2.4.0-bin-hadoop2.7.tgz，下载到Windows本地然后上传到服务器。

解压到/usr/spark

tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz -C /usr/spark

删除软件包

rm -rf /usr/spark/spark-2.4.0-bin-hadoop2.7.tgz

复制conf下spark-env.sh文件

cd spark-2.4.0-bin-hadoop2.7/conf
cp spark-env.sh.template spark-env.sh

添加以下内容：

export SPARK_MASTER_IP=master
export SCALA_HOME=/usr/scala/scala-2.11.12
export SPARK_WORKER_MEMORY=8g
export JAVA_HOME=/usr/java/jdk1.8.0_171
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export HADOOP_CONF_DIR=/usr/hadoop/hadoop-2.7.3/etc/hadoop

配置spark环境变量

vim /etc/profile

添加以下内容：

export SPARK_HOME=/usr/spark/spark-2.4.0-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH

激活环境变量

source /etc/profile

开启spark环境

/usr/spark/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh

查看是否启动成功

十、Sqoop安装

Sqoop是一个命令行界面应用程序，用于在关系数据库和Hadoop之间传输数据。

创建sqoop的工作路径

mkdir -p /usr/sqoop
cd /usr/sqoop

下载sqoop

wget http://mirror.bit.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

如果下载太慢的话可以用我提供的链接：sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz，下载到Windows本地然后上传到服务器。

解压到/usr/sqoop

tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

删除软件包

rm -rf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

配置环境变量

vim /etc/profile

添加如下内容：

export SQOOP_HOME=/usr/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0                                                                                         export PATH=$PATH:$SQOOP_HOME/bin

激活环境变量

source /etc/profile

配置MySQL连接器

cp /usr/mysql-connector/mysql-connector-java-5.1.46/mysql-connector-java-5.1.46-bin.jar /usr/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/lib/

配置Sqoop

cp /usr/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/conf/sqoop-env-template.sh /usr/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/conf/sqoop-env.sh
vim /usr/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/conf/sqoop-env.sh

更改以下内容：

#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/usr/hadoop/hadoop-2.7.3

#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/usr/hadoop/hadoop-2.7.3

#set the path to where bin/hbase is available
#export HBASE_HOME=

#Set the path to where bin/hive is available
export HIVE_HOME=/usr/hive/apache-hive-2.1.1-bin