Hello,我是 Alex 007,一个热爱计算机编程和硬件设计的小白,为啥是007呢?因为叫 Alex 的人太多了,再加上每天007的生活,Alex 007就诞生了。



手把手教你搭建Hadoop生态系统伪分布式集群



这篇博客呢,我会详细介绍怎么搭建Hadoop生态系统,包括JDK、Zookeeper、Hadoop、HBase、MySQL、Hive、Scala、Spark、Sqoop的安装。


一、准备工作


版本信息:

手把手教你搭建Hadoop生态系统伪分布式集群_hive


更新升级软件包

yum update
yum upgrade

设置防火墙

关闭防火墙:

systemctl stop firewalld

查看状态:

systemctl status firewalld

注意:当环境重置之后,防火墙会自动开启,可以使用如下命令禁止开机自启:

systemctl disable firewalld

设置防火墙

设置主机名:

hostnamectl set-hostname bigdata

二、JDK安装

有些平台已经默认安装了JDK,可以使用默认的,也可以重新安装,如果重新安装需要将原有的JDK卸载。


JDK卸载:


  1. which java(查看JDK的安装路径)
  2. rm -rf JDK地址(卸载JDK)
  3. vim /etc/profile(删除Java环境变量)


  1. 首先在根目录下建立工作路径/usr/java:
mkdir -p /usr/java
  1. 进入创建的java工作路径
cd /usr/java
  1. 从Windows本地将下载好的java安装包上传到服务器

jdk文件需要从​​Oracle官网​​​上下载,如果下载太慢的话也可以从我这里下载:​​jdk-8u171-linux-x64.tar.gz​​。

scp jdk-8u171-linux-x64.tar.gz root@47.96.237.42:/usr/java
  1. 解压jdk安装包
tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/java/
  1. 删除安装包
rm -rf /usr/java/jdk-8u171-linux-x64.tar.gz
  1. 配置环境变量
vim /etc/profile

文件最后添加如下内容:

export JAVA_HOME=/usr/java/jdk1.8.0_171
export CLASSPATH=$JAVA_HOME/lib/
export PATH=$PATH:$JAVA_HOME/bin
export PATH JAVA_HOME CLASSPATH

手把手教你搭建Hadoop生态系统伪分布式集群_zookeeper_02

  1. 激活环境变量
source /etc/profile
  1. 查看java版本
java -version

出现版本信息:

手把手教你搭建Hadoop生态系统伪分布式集群_zookeeper_03

三、ZooKeeper安装

在集群的管理中Zookeeper负责分布式系统的协调工作,不仅适用于Hadoop集群,在其他的集群中也常被用到。

Zookeeper主要解决处理分布式应用的同步和“部分失败”问题(比如某个关链节点宕机了),使集群更加稳定地工作。

  1. 创建zookeeper的工作路径
mkdir -p /usr/zookeeper
cd /usr/zookeeper
  1. 下载zookeeper
wget http://archive.apache.org/dist/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gz

如果下载太慢的话可以用我提供的链接:​​zookeeper-3.4.10.tar.gz​​,下载到Windows本地然后上传到服务器。

  1. 解压到/usr/zookeeper
tar -zxvf /usr/zookeeper/zookeeper-3.4.10.tar.gz -C /usr/zookeeper
  1. 删除软件包
rm -rf /usr/zookeeper/zookeeper-3.4.10.tar.gz
  1. 创建配置中所需的zkdata和zkdatalog两个文件夹
cd /usr/zookeeper/zookeeper-3.4.10
mkdir zkdata_1 zkdata_2 zkdata_3
mkdir zkdatalog_1 zkdatalog_2 zkdatalog_3
  1. 配置文件zoo.cfg

将zoo_sample.cfg文件拷贝一份命名为zoo.cfg,Zookeeper 在启动时会找这个文件作为默认配置文件。

cd /usr/zookeeper/zookeeper-3.4.10/conf/
cp zoo_sample.cfg zoo1.cfg
cp zoo_sample.cfg zoo2.cfg
cp zoo_sample.cfg zoo3.cfg

zoo1.cfg内容如下:

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/usr/zookeeper/zookeeper-3.4.10/zkdata_1
clientPort=2181
dataLogDir=/usr/zookeeper/zookeeper-3.4.10/zkdatalog_1
server.1=localhost:2887:3887
server.2=localhost:2888:3888
server.3=localhost:2889:3889

zoo2.cfg内容如下:

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/usr/zookeeper/zookeeper-3.4.10/zkdata_2
clientPort=2182
dataLogDir=/usr/zookeeper/zookeeper-3.4.10/zkdatalog_2
server.1=localhost:2887:3887
server.2=localhost:2888:3888
server.3=localhost:2889:3889

zoo3.cfg内容如下:

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/usr/zookeeper/zookeeper-3.4.10/zkdata_3
clientPort=2183
dataLogDir=/usr/zookeeper/zookeeper-3.4.10/zkdatalog_3
server.1=localhost:2887:3887
server.2=localhost:2888:3888
server.3=localhost:2889:3889
  1. 创建文件myid
echo "1" > /usr/zookeeper/zookeeper-3.4.10/zkdata_1/myid
echo "2" > /usr/zookeeper/zookeeper-3.4.10/zkdata_2/myid
echo "3" > /usr/zookeeper/zookeeper-3.4.10/zkdata_3/myid
  1. 配置zookeeper环境变量
vim /etc/profile

添加如下内容:

export ZOOKEEPER_HOME=/usr/zookeeper/zookeeper-3.4.10
PATH=$PATH:$ZOOKEEPER_HOME/bin

手把手教你搭建Hadoop生态系统伪分布式集群_hadoop_04

  1. 激活环境变量
source /etc/profile
  1. 启动ZooKeeper集群

开启服务:

/usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh start zoo1.cfg
/usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh start zoo2.cfg
/usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh start zoo3.cfg

查看是否启动成功:

[root@Alex ~]# jps
14496 Jps
13282 QuorumPeerMain
13255 QuorumPeerMain
13323 QuorumPeerMain

查看状态:

[root@Alex ~]# /usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh status zoo1.cfg
ZooKeeper JMX enabled by default
Using config: /usr/zookeeper/zookeeper-3.4.10/bin/../conf/zoo1.cfg
Mode: follower
[root@Alex ~]# /usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh status zoo2.cfg
ZooKeeper JMX enabled by default
Using config: /usr/zookeeper/zookeeper-3.4.10/bin/../conf/zoo2.cfg
Mode: leader
[root@Alex ~]# /usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh status zoo3.cfg
ZooKeeper JMX enabled by default
Using config: /usr/zookeeper/zookeeper-3.4.10/bin/../conf/zoo3.cfg
Mode: follower

通过上面状态查询结果可见,一个节点是Leader,其余的结点是Follower,至此,zookeeper安装成功。

四、Hadoop安装

Hadoop是个分布式的架构,它将海量数据处理工作分配到集群中的多个机器上运行。

  1. 创建hadoop的工作路径
mkdir -p /usr/hadoop
cd /usr/hadoop
  1. 下载hadoop
wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

如果下载太慢的话可以用我提供的链接:​​hadoop-2.7.3.tar.gz​​,下载到Windows本地然后上传到服务器。

  1. 解压到/usr/hadoop
tar -zxvf hadoop-2.7.3.tar.gz -C /usr/hadoop/
  1. 删除软件包
rm -rf /usr/hadoop/hadoop-2.7.3.tar.gz
  1. 配置环境变量
vim /etc/profile

添加如下内容:

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
  1. 激活环境变量
source /etc/profile
  1. hadoop 安装测试

到此为止,Hadoop 的安装就完成了,可以测试一下,直接在命令行输入:

hadoop version

手把手教你搭建Hadoop生态系统伪分布式集群_hive_05

  1. 配置Hadoop组件

hadoop的各个组件的都是使用XML进行配置。

主要配置要点就是设定 hadoop 运行过程中存放的临时目录、元数据存放位置、mapreduce 所采用的框架等。具体的配置文件存在 hadoop 安装目录下的 etc 目录里的 hadoop 文件夹中。

手把手教你搭建Hadoop生态系统伪分布式集群_zookeeper_06

8.1 hadoop-env.sh环境配置文件

cd $HADOOP_HOME/etc/hadoop
vim hadoop-env.sh

添加如下内容:

export JAVA_HOME=/usr/java/jdk1.8.0_171

手把手教你搭建Hadoop生态系统伪分布式集群_hive_07

8.2. core-site.xml文件

这个文件用于设定 hadoop 运行过程中临时文件存放的路径及 hdfs 通信方式。

vim core-site.xml

添加如下内容:

<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://bigdata:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/hadoop-2.7.3/hdfs/tmp</value>
<description>A base for other temporary directories.</description>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>fs.checkpoint.period</name>
<value>60</value>
</property>
<property>
<name>fs.checkpoint.size</name>
<value>67108864</value>
</property>

手把手教你搭建Hadoop生态系统伪分布式集群_zookeeper_08

8.3. hdfs-site.xml文件

这个文件用于设定 hdfs 运行时存放的 name 空间元数据和 data 数据块路径。

vim hdfs-site.xml

添加如下内容:

<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/hadoop/hadoop-2.7.3/hdfs/name</value>
<final>true</final>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/hadoop/hadoop-2.7.3/hdfs/data</value>
<final>true</final>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>bigdata:9001</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

手把手教你搭建Hadoop生态系统伪分布式集群_hive_09

8.4. yarn-site.xml文件

这个文件设置了 yarn 资源管理相关信息。

vim yarn-site.xml

添加如下内容:

<!-- 指定ResourceManager的地址-->
<property>
<name>yarn.resourcemanager.address</name>
<value>bigdata:18040</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>bigdata:18030</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>bigdata:18088</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>bigdata:18025</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>bigdata:18141</value>
</property>
<!-- 指定reducer获取数据的方式-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

手把手教你搭建Hadoop生态系统伪分布式集群_zookeeper_10

8.5. mapred-site.xml文件

hadoop是没有这个文件的,需要将mapred-site.xml.template样本文件复制为mapred-site.xml,对其进行编辑:

cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

添加如下内容:

<property>
<!--指定Mapreduce运行在yarn上-->
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

手把手教你搭建Hadoop生态系统伪分布式集群_zookeeper_11

  1. hadoop名称节点初始化
hadoop namenode -format

在格式化过程中,对本地磁盘使用配置文件设定的路径创建名称节点、临时文件存放目录等进行创建。也就是基本上构建了一个 hdfs 的存储框架。

当没报错并出现“Exiting with status 0”的时候,表明格式化成功。

手把手教你搭建Hadoop生态系统伪分布式集群_zookeeper_12

  1. 开启hadoop
cd /usr/hadoop/hadoop-2.7.3/
sbin/start-all.sh
  1. 查看是否启动成功:
[root@Alex hadoop-2.7.3]# jps
15552 NameNode
16129 Jps
13282 QuorumPeerMain
15670 DataNode
15174 ResourceManager
13255 QuorumPeerMain
13323 QuorumPeerMain
16029 NodeManager
15822 SecondaryNameNode

多出来5个进程:​​NameNode​​​、​​DataNode​​​、​​ResourceManager​​​、​​NodeManager​​​、​​SecondaryNameNode​​。


Hadoop分为HDFS和MapReduce,HDFS为数据提供了存储,MapReduce为数据提供了计算。

NameNode主要负责管理元信息,如文件名,目录结构,属性,数据块存储位置等等

DataNode负责数据块的具体存取

SecondaryNameNode是NameNode的辅助工具,有两个作用,一是镜像备份,二是日志与镜像的定期合并,注意:它并不是NameNode的备份

ResourceManager负责集群中所有算力的统一管理和分配

NodeManager是每台机器上的代理,负责容器管理,并监控它们的资源使用情况,以及向ResourceManager提供资源使用报告


启动进程服务后,就可以使用 hadoop 两个关键的分布式存储和分布式计算的服务了。

如果想关闭掉某个 hadoop 进程,可以使用进程管理里的 kill 命令。如果关闭所有 hadoop 进程服务,使用 sbin 目录里的 stop-all.sh 脚本,如下:

sbin/stop-all.sh

五、HBase安装

HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务。因此,它可以对稀疏文件提供极高的容错率。

  1. 创建hbase的工作路径
mkdir -p /usr/hbase
cd /usr/hbase
  1. 下载hbase
wget https://archive.apache.org/dist/hbase/1.2.4/hbase-1.2.4-bin.tar.gz

如果下载太慢的话可以用我提供的链接:​​hbase-1.2.4-bin.tar.gz​​,下载到Windows本地然后上传到服务器。

  1. 解压到/usr/hbase
tar -zxvf hbase-1.2.4-bin.tar.gz -C /usr/hbase
  1. 删除软件包
rm -rf /usr/hbase/hbase-1.2.4-bin.tar.gz
  1. 配置hbase-env.sh
cd /usr/hbase/hbase-1.2.4/conf
vim hbase-env.sh

添加如下内容:

export HBASE_MANAGES_ZK=false
export JAVA_HOME=/usr/java/jdk1.8.0_171
export HBASE_CLASSPATH=/usr/hadoop/hadoop-2.7.3/etc/hadoop

一个分布式运行的Hbase依赖一个zookeeper集群,所有的节点和客户端都必须能够访问zookeeper。

默认的情况下Hbase会管理一个zookeep集群,即Hbase默认自带一个zookeep集群,这个集群会随着Hbase的启动而启动,而在实际的商业项目中通常自己管理一个zookeeper集群更便于优化配置提高集群工作效率,但需要配置Hbase。需要修改conf/hbase-env.sh里面的HBASE_MANAGES_ZK 来切换。

这个值默认是true的,作用是让Hbase启动的时候同时也启动zookeeper.在本实验中,我们采用独立运行zookeeper集群的方式,故将其属性值改为false。

  1. 配置hbase-site.xml
<property>
  <name>hbase.rootdir</name>
  <value>hdfs://bigdata:9000/hbase</value>
</property>
<property>
  <name>hbase.cluster.distributed</name>
  <value>true</value>
</property>
<property>
  <name>hbase.bigdata</name>
  <value>hdfs://bigdata:6000</value>
</property>
<property>
  <name>hbase.zookeeper.property.dataDir</name>
  <value>/usr/zookeeper/zookeeper-3.4.10</value>
</property>
  1. hadoop配置文件拷入
cp /usr/hadoop/hadoop-2.7.3/etc/hadoop/hdfs-site.xml /usr/hbase/hbase-1.2.4/conf
cp /usr/hadoop/hadoop-2.7.3/etc/hadoop/core-site.xml /usr/hbase/hbase-1.2.4/conf
  1. 配置环境变量
vim /etc/profile

添加如下内容:

export HBASE_HOME=/usr/hbase/hbase-1.2.4
export PATH=$PATH:$HBASE_HOME/bin
  1. 激活环境变量
source /etc/profile
  1. 启动HBase
bin/start-hbase.sh
  1. 查看是否启动成功:
jps

手把手教你搭建Hadoop生态系统伪分布式集群_hive_13

六、MySQL安装

  1. 创建mysql的工作路径
mkdir /usr/mysql
cd /usr/mysql/
  1. 下载mysql
wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm
  1. 安装mysql
yum -y localinstall mysql57-community-release-el7-8.noarch.rpm
yum -y install mysql-community-server
  1. 启动mysql服务

重载所有修改过的配置文件:

systemctl daemon-reload

开启服务:

systemctl start mysqld

开机自启:

systemctl enable mysqld
  1. 登录mysql

安装完毕后,MySQL会在/var/log/mysqld.log这个文件中会自动生成一个随机的密码,获取得这个随机密码,以用于登录MySQL数据库

获取初密码:

grep "temporary password" /var/log/mysqld.log

登陆MySQL:

mysql -uroot -p
  1. 设置MySQL密码安全策略

设置密码强度为低级:

set global validate_password_policy=0;


密码强度分级如下:
0为low级别,只检查长度;
1为medium级别(默认),符合长度为8,且必须含有数字,大小写,特殊字符;
2为strong级别,密码难度更大一些,需要包括字典文件。
密码长度最低长为4,当设置长度为1、2、3时,其长度依然为4。


设置密码长度:

set global validate_password_length=4;

修改本地密码:

alter user 'root'@'localhost' identified by '123456';

退出:

\q
  1. 设置远程登录

以新密码登陆MySQL:

mysql -uroot -p123456

创建用户:

create user 'root'@'%' identified by '123456';

允许远程连接:

grant all privileges on *.* to 'root'@'%' with grant option;

添加mysql用户:

grant all on *.* to hadoop@'%' identified by 'hadoop';
grant all on *.* to hadoop@'localhost' identified by 'hadoop';
grant all on *.* to hadoop@'master' identified by 'hadoop';

刷新权限:

flush privileges;

创建数据库

create database hive_1;

退出:

\q

七、Hive安装

  1. 创建hive的工作路径
mkdir -p /usr/hive
cd /usr/hive
  1. 下载hive
wget https://archive.apache.org/dist/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz

如果下载太慢的话可以用我提供的链接:​​apache-hive-2.1.1-bin.tar.gz​​,下载到Windows本地然后上传到服务器。

  1. 解压到/usr/hive
tar -zxvf apache-hive-2.1.1-bin.tar.gz -C /usr/hive/
  1. 删除软件包
rm -rf apache-hive-2.1.1-bin.tar.gz
  1. 配置环境变量
vim /etc/profile

添加如下内容:

export HIVE_HOME=/usr/hive/apache-hive-2.1.1-bin
export PATH=$PATH:$HIVE_HOME/bin
  1. 激活环境变量
source /etc/profile
  1. 安装MariaDB
yum install mariadb-server -y
  1. 配置hive
vim /usr/hive/apache-hive-2.1.1-bin/conf/hive-site.xml

文件内容如下:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>hive.metastore.local</name>
<value>true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://bigdata:3306/hive_1?characterEncoding=UTF-8&useSSL=true&verifyServerCertificate=false</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hadoop</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>hadoop</value>
</property>
</configuration>
  1. 创建mysql-connector的工作路径
mkdir -p /usr/mysql-connector
cd /usr/mysql-connector
  1. 下载mysql-connector
wget https://cdn.mysql.com//archives/mysql-connector-java-5.1/mysql-connector-java-5.1.46.tar.gz
  1. 解压到/usr/mysql-connector
tar -xzvf mysql-connector-java-5.1.46.tar.gz
  1. 删除软件包
rm -rf mysql-connector-java-5.1.46.tar.gz
  1. 将mysql的java connector复制到依赖库中
cp mysql-connector-java-5.1.46-bin.jar /usr/hive/apache-hive-2.1.1-bin/lib/
  1. 初始化hive元数据库
schematool -dbType mysql -initSchema
  1. 启动并验证Hive
hive

手把手教你搭建Hadoop生态系统伪分布式集群_hadoop_14

输入以下HQL语句:

show databases;
create database hadoop_data;
show databases;
hive> show databases;
OK
default
Time taken: 0.023 seconds, Fetched: 1 row(s)
hive> create database hadoop_data;
OK
Time taken: 0.191 seconds
hive> show databases;
OK
default
hadoop_data
Time taken: 0.039 seconds, Fetched: 2 row(s)

退出:

quit;

八、Scala安装

  1. 创建scala的工作路径
mkdir -p /usr/scala
cd /usr/scala
  1. 下载scala
wget https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz

如果下载太慢的话可以用我提供的链接:​​scala-2.11.12.tgz​​,下载到Windows本地然后上传到服务器。

  1. 解压到/usr/scala
tar -zxvf scala-2.11.12.tgz -C /usr/scala
  1. 删除软件包
rm -rf /usr/hbase/hbase-1.2.4-bin.tar.gz
  1. 配置环境变量
export SCALA_HOME=/usr/scala/scala-2.11.12
export PATH=$SCALA_HOME/bin:$PATH
  1. 激活环境变量
source /etc/profile
  1. 检验是否安装成功
[root@Alex ~]# scala -version
Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

九、Spark安装

Spark是一个新兴的大数据处理的引擎,是分布式大数据处理的高层次抽象。

提供了除map和reduce之外更多的运算符,这些操作是通过一个称作弹性分布式数据集的分布式数据框架进行的,主要使用内存存储,用于快速处理。

  1. 创建spark的工作路径
mkdir -p /usr/spark
cd /usr/spark
  1. 下载spark
wget https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

如果下载太慢的话可以用我提供的链接:​​spark-2.4.0-bin-hadoop2.7.tgz​​,下载到Windows本地然后上传到服务器。

  1. 解压到/usr/spark
tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz -C /usr/spark
  1. 删除软件包
rm -rf /usr/spark/spark-2.4.0-bin-hadoop2.7.tgz
  1. 复制conf下spark-env.sh文件
cd spark-2.4.0-bin-hadoop2.7/conf
cp spark-env.sh.template spark-env.sh

添加以下内容:

export SPARK_MASTER_IP=master
export SCALA_HOME=/usr/scala/scala-2.11.12
export SPARK_WORKER_MEMORY=8g
export JAVA_HOME=/usr/java/jdk1.8.0_171
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export HADOOP_CONF_DIR=/usr/hadoop/hadoop-2.7.3/etc/hadoop
  1. 配置spark环境变量
vim /etc/profile

添加以下内容:

export SPARK_HOME=/usr/spark/spark-2.4.0-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH
  1. 激活环境变量
source /etc/profile
  1. 开启spark环境
/usr/spark/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh
  1. 查看是否启动成功
    手把手教你搭建Hadoop生态系统伪分布式集群_hadoop_15

十、Sqoop安装

Sqoop是一个命令行界面应用程序,用于在关系数据库和Hadoop之间传输数据。

  1. 创建sqoop的工作路径
mkdir -p /usr/sqoop
cd /usr/sqoop
  1. 下载sqoop
wget http://mirror.bit.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

如果下载太慢的话可以用我提供的链接:​​sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz​​,下载到Windows本地然后上传到服务器。

  1. 解压到/usr/sqoop
tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
  1. 删除软件包
rm -rf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
  1. 配置环境变量
vim /etc/profile

添加如下内容:

export SQOOP_HOME=/usr/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0                                                                                         export PATH=$PATH:$SQOOP_HOME/bin
  1. 激活环境变量
source /etc/profile
  1. 配置MySQL连接器
cp /usr/mysql-connector/mysql-connector-java-5.1.46/mysql-connector-java-5.1.46-bin.jar /usr/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/lib/
  1. 配置Sqoop
cp /usr/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/conf/sqoop-env-template.sh /usr/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/conf/sqoop-env.sh
vim /usr/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/conf/sqoop-env.sh

更改以下内容:

#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/usr/hadoop/hadoop-2.7.3

#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/usr/hadoop/hadoop-2.7.3

#set the path to where bin/hbase is available
#export HBASE_HOME=

#Set the path to where bin/hive is available
export HIVE_HOME=/usr/hive/apache-hive-2.1.1-bin
  1. 启动并验证Sqoop
sqoop help

正确情况,如图所示:

手把手教你搭建Hadoop生态系统伪分布式集群_hive_16



好了,到此为止吧,再往下要吐血了。
肝了三天,老铁们支持一下,给个三连吧。