目录
3.java -jdk的安装
4.Hadoop以及单机配置的安装
5.Hadoop伪分布式的配置
6.Hadoop集群的配置(这里建议将后面的工具安装完成后,再配置此步骤,否则会非常痛苦)
7.Hbase及其单机模式的安装
HBase单机模式配置
8.Hive的安装
9.Scala的安装
10.sbt的安装
11.Spark的安装
在此篇文章中,将会按以下顺序配置大数据平台的相关工具:
1.VMware
2.Ubuntu
3.Java -jdk
4.Hadoop
5.Hadoop伪分布式
6.Hadoop集群(这里建议将后面的工具安装完成后,再配置此步骤,否则会非常痛苦)
7.Hbase
8.Hive
9.Scala
10.sbt
11.Spark
你可以选择前往官网下载安装包文件,或在本篇末尾找到为您提供的下载方式。
本篇安装从第3部分开始,如需要VMware和Ubuntu的安装过程请跳转到此篇文章。
3.java -jdk的安装
方法一:
使用下面的命令在当前目录位置下安装jdk:
sudo apt install openjdk-8-jdk
java -version #使用此命令查看java版本,如返回版本信息,则安装成功
方法二:(此版本java与sbt版本冲突)
3-1.进入JDK压缩包所在位置(这里默认放在桌面),打开终端,将其解压缩到/usr/lib/jvm目录下:
cd /usr/lib
sudo mkdir jvm #在/usr/lib目录下新建一个jvm文件夹存放JDK文件
3-2.在桌面打开终端:
sudo tar -zxvf ./jdk-18_linux-x64_bin.tar.gz -C /usr/lib/jvm #把JDK压缩包解压到/usr/lib/jvm目录中
3-3.设置环境变量:
cd ~
vim ~/.bashrc
用vim编辑器打开后,在开头添加如下内容:
export JAVA_HOME=/usr/lib/jvm/jdk-18.0.1.1
export JRE_HOME={JAVA_HOME}/lib:{JAVA_HOME}/bin:$PATH
保存.bashrc文件并退出vim编辑器。执行下面的命令让.bashrc文件立即生效:
source ~/.bashrc
3-4.使用如下命令,查看JAVA版本,如正常显示则安装成功:
java -version
4.Hadoop以及单机配置的安装
4-1.进入Hadoop压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中:
sudo tar -zxvf ./hadoop-3.3.2.tar.gz -C /usr/local #将压缩包解压到/usr/local/目录中
4-2.进入到/usr/local/目录,将解压后的文件夹更名为hadoop,并修改权限:
cd /usr/local #进入目录
sudo mv ./hadoop-3.3.2 ./hadoop #重命名文件夹
sudo chown -R hadoop ./hadoop #修改文件夹权限
4-3.查看Hadoop是否可用,若可用则会显示Hadoop版本信息:
cd /usr/local/hadoop
./bin/hadoop version
Hadoop默认模式即为单机(非分布式)模式,无需其他配置即可运行。
5.Hadoop伪分布式的配置
5-1.修改core-site.xml配置文件,文件位置(/usr/local/hadoop/etc/hadoop)
将
替换为
hadoop.tmp.dir
file:/usr/local/hadoop/tmp
Abase for other temporary directories.
fs.defaultFS
hdfs://localhost:9000
5-2.修改hdfs-site.xml配置文件,文件位置(/usr/local/hadoop/etc/hadoop)
将
替换为
hadoop.tmp.dir
dfs.replication
1
dfs.namenode.name.dir
file:/usr/local/hadoop/tmp/dfs/name
dfs.datanode.data.dir
file:/usr/local/hadoop/tmp/dfs/data
5-3.执行NameNode格式化:
cd /usr/local/hadoop
.bin/hdfs namenode -format
格式化成功则提示“successfully formatted”
5-4.启动NameNode和DataNode守护进程:
cd /usr/local/hadoop
./sbin/start-dfs.sh
5-5.查看是否启动成功:
jps
若启动成功则返回“NameNode”“DataNode”和“SecondaryNameNode”几个进程名字。
启动成功后,可访问Web界面http://localhost:9870查看NameNode和DataNode信息,并可在线查看HDFS中的文件。
5-6.关闭Hadoop的命令:
./sbin/stop-dfs.sh
6.Hadoop集群的配置(这里建议将后面的工具安装完成后,再配置此步骤,否则会非常痛苦)
在配置之前,请提前在两台虚拟机上安装完成JAVA、Hadoop等。
或者也可以选择直接克隆一台出来。
6-1.将虚拟机网络设置为桥接模式:
6-2.手动设置ubuntu的ip地址,并修改ubuntu的主机名hostname:
本次ip设置为10.50.141.10与10.50.141.11,需要注意的是设置的ip要与主机ip在同一子网下。
sudo vim /etc/hostname #修改主机名
6-3.修改/etc/hosts文件,配置主机和ip地址之间的映射关系:
6-4.重启后,互ping,查看是否配置成功:
6-5.SSH无密码登录slave节点:
6-6.配置PATH环境变量:
接下来开始正式配置集群/分布式模式,需要修改“/usr/local/hadoop/etc/hadoop”目录下的配置文件,这里仅设置正常启动所必须的设置项,包括workers 、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml共5个文件。
6-7.在/usr/local/hadoop/etc/hadoop目录下,修改workers文件:
6-8.在/usr/local/hadoop/etc/hadoop目录下,修改core-site.xml文件:
6-9.在/usr/local/hadoop/etc/hadoop目录下,修改hdfs-site.xml文件:
6-10.在/usr/local/hadoop/etc/hadoop目录下,修改mapred-site.xml文件:
6-11.在/usr/local/hadoop/etc/hadoop目录下,修改yarn-site.xml文件:
6-12.删除master节点的hadoop日志文件,再将整个hadoop压缩复制,传送到slave节点:
6-13.在slave节点上,将其解压到/usr/local/目录中并修改权限:
6-14.在master节点上,格式化名称节点并启动Hadoop:
6-15.在master节点上,关闭Hadoop:
7.Hbase及其单机模式的安装
7-1.进入Hbase压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中:
sudo tar -zxvf ./hbase-2.4.12-bin.tar.gz -C /usr/local
7-2.将解压的文件夹重命名为hbase,并赋予权限:
cd /usr/local
sudo mv ./hbase-2.4.12 ./hbase #更改文件夹名字
sudo chown -R hadoop ./hbase #赋予权限
7-3.配置环境变量(vim ~/.bashrc):
在PATH中追加如下内容:
:/usr/local/hbase/bin
使用此命令,使环境变量文件立即生效:
source ~/.bashrc
7-4.查看HBase版本,确定HBase安装是否成功:
/usr/local/hbase/bin/hbase version
HBase单机模式配置
7-5.修改hbase-env.sh配置文件(文件位置/usr/local/hbase/conf/hbase-env.sh)
在文件中添加如下内容,原文件已有此配置,可删除语句前的“#”开启,或直接添加下面的内容
export JAVA_HOME=/usr/lib/jvm/jdk-8-openjdk-amd64
export HBASE_MANAGES_ZK=ture
7-6.修改hbase-site.xml配置文件(文件位置/usr/local/hbase/conf/hbase-env.sh)
在此文件中指定HBase数据的储存位置,在文件中添加如下内容
hbase.rootdir file:///usr/local/hbase/hbase-tmp
7-7.测试运行HBase
切换至HBase安装目录/usr/local/hbase,并启动HBase:
cd /usr/local/hbase
bin/start-hbase.sh #启动hbase
bin/hbase shell #打开hbase shell
bin/stop-hbase.sh #停止hbase运行
若终端的提示符变为“hbase:001:0>”则为安装成功.
8.Hive的安装
9.Scala的安装
9-1.进入Scala压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中:
sudo tar -zxvf ./scala3-3.1.2.tar.gz -C /usr/local #将压缩包解压到/usr/local/目录中
9-2.进入到/usr/local/目录,将解压后的文件夹更名为scala,并修改权限:
cd /usr/local #进入目录
sudo mv ./scala3-3.1.2 ./scala #重命名文件夹
sudo chown -R hadoop ./scala #修改文件夹权限
9-3.启动scala交互执行环境:
cd /usr/local/scala
./bin/scala
此时命令提示符显示为“scala>”即为安装成功。
退出scala交互,执行如下命令:
:quit #注意quit前的“:”
10.sbt的安装
10-1.进入Sbt压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中,并修改权限:
sudo unzip -n sbt-1.6.2.zip -d /usr/local #将压缩包解压到/usr/local/目录中
sudo chown -R hadoop /usr/local/sbt #hadoop为用户名
10-2.将bin目录下的sbt-launch.jar复制到sbt的安装目录下:
cd /usr/local/sbt
cp ./bin/sbt-launch.jar ./
10-3.在安装目录下使用vim命令创建一个Shell脚本文件,用于启动sbt:
vim /usr/local/sbt/sbt
文件内容如下:(-XX:MaxPermSize=256M此选项在JDK 8中已弃用,并由该-XX:MetaspaceSize选项取代。)
#!/bin/bash
SBT_OPTS=“-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MetaspaceSize=256M”
java $SBT_OPTS -jar `dirname @"
10-4.为Shell文件增加可执行权限:
chmod u+x /usr/local/sbt/sbt
10-5.执行Shell文件,启动sbt:(这里不使用./sbt sbt-version)
./sbt sbtVersion
11.Spark的安装
11-1.进入Spark压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中:
sudo tar -zxvf ./spark-3.2.1-bin-hadoop3.2.tgz -C /usr/local #将压缩包解压到/usr/local/目录中
11-2.进入/usr/local/目录,重命名解压后的文件夹,并修改权限:
cd /usr/local #进入目录
sudo mv ./spark-3.2.1-bin-hadoop3.2 ./spark #重命名文件夹
sudo chown -R hadoop ./spark #修改文件夹权限
11-3.修改Spark配置文件spark-env.sh:
cd /usr/local/spark/conf #进入spark的conf目录,修改配置文件
cp ./spark-env.sh.template ./spark-env.sh #将配置文件spark-env.sh.template复制后并命名为spark-env.sh
编辑spark-env.sh文件(vim ./spark-env.sh),在第一行添加下面内容:
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
11-4.通过运行自带的实例,检验是否安装成功:
cd /usr/local/spark
bin/run-example SparkPi 2>&1 | grep "Pi is" #运行自带的实例
若返回“Pi”的值,则安装成功。
11-5.启动spark-shell命令:
cd /usr/local/spark
bin/spark-shell
11-6.退出spark-shell命令:
:quit