Linux 查看 spark 版本 linux打开spark

转载

mob64ca13f9e726 2024-06-13 16:21:23

文章标签 Linux 查看 spark 版本 hive spark 上传 文章分类 Spark 大数据

开发环境总体版本信息如下：

1、linux：centos 6.8，安装过程参见

2、java版本：jdk-8u172-linux-x64.tar.gz

3、hadoop版本：hadoop-3.1.0.tar.gz

4、scala版本：scala-2.12.6.tgz

5、python版本：Python-3.6.5.tgz

6、spark版本：spark-2.3.0-bin-hadoop2.7.tgz

7、zookeeper版本：zookeeper-3.4.10.tar.gz

8、hive版本：

9、kafka版本：

10、服务器集群：192.168.0.110(master)，192.168.0.111(slave1)，192.168.0.112(slave2)

一、java的安装

1、上传jdk安装包到/usr/local/lib目录下，并解压缩

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本

2、把解压的文件夹复制到另外两台机子

Linux 查看 spark 版本 linux打开spark_spark_02

3、三台服务器分别修改bigdata用户的环境变量

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_03

Linux 查看 spark 版本 linux打开spark_spark_04

4、使配置生效并验证

Linux 查看 spark 版本 linux打开spark_上传_05

二、hadoop的安装

1、bigdata用户家目录下创建目录bigdata，上传hadoop安装包并解压

Linux 查看 spark 版本 linux打开spark_上传_06

2、进入hadoop配置文件目录，修改hadoop配置

Linux 查看 spark 版本 linux打开spark_spark_07

3、修改core-site.xml，添加红色方框的内容

Linux 查看 spark 版本 linux打开spark_hive_08

4、修改hdfs-site.xml，并创建对应的目录

Linux 查看 spark 版本 linux打开spark_spark_09

Linux 查看 spark 版本 linux打开spark_spark_10

5、修改yarn-site.xml

Linux 查看 spark 版本 linux打开spark_spark_11

6、修改workers（老版本为slaves）

Linux 查看 spark 版本 linux打开spark_hive_12

7、修改hadoop-env.sh，增加JAVA_HOME

Linux 查看 spark 版本 linux打开spark_上传_13

8、把master上配置好的hadoop分发到每一个slave上

Linux 查看 spark 版本 linux打开spark_hive_14

9、只需在master上bigdata用户下配置环境变量

Linux 查看 spark 版本 linux打开spark_hive_15

10、使环境变量生效并检查

Linux 查看 spark 版本 linux打开spark_上传_16

11、首次运行hdfs，需要先格式化hdfs【 hdfs namenode -format 】，然后启动hdfs【start-dfs.sh】

Linux 查看 spark 版本 linux打开spark_hive_17

12、可访问http://192.168.0.110:9870【192.168.0.110为master的ip地址，老版本hadoop的端口为50070】看下是否部署成功；如需停止hdfs，使用【stop-dfs.sh】

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_18

13、也可输入名jps，查看是否有以下进程

Linux 查看 spark 版本 linux打开spark_上传_19

14、启动yarn【start-yarn.sh】

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_20

15、访问http://192.168.0.110:8088/cluster，查看yarn是否正常工作，停止yarn使用【stop-yarn.sh】

Linux 查看 spark 版本 linux打开spark_上传_21

16、也可输入名jps，查看是否有以下进程

Linux 查看 spark 版本 linux打开spark_上传_22

综上，hadoop集群安装完毕！

三、scala的安装

1、切换到root用户下，下载scala并上传到/usr/local/lib目录下，然后解压

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_23

2、把解压后的文件分发到slave1和slave2

scp -r scala-2.12.6 root@slave1:/usr/local/lib

scp -r scala-2.12.6 root@slave2:/usr/local/lib

3、分别在三台服务器上修改bigdata用户的环境变量

Linux 查看 spark 版本 linux打开spark_上传_24

4、验证环境变量是否生效

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_25

5、运行scala命令验证是否安装成功，并按ctrl+z退出

Linux 查看 spark 版本 linux打开spark_spark_26

四、python的安装

1、在集群上运行pyspark，需要先安装zlib和gcc相关的软件包

Linux 查看 spark 版本 linux打开spark_hive_27

yum -y install gcc*

2、下载python安装包，并上传，然后解压

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_28

3、进入/usr/local/lib/，修改Modules/Setup.dist【老版本是Setup】，找到红色一行，并把注释去掉

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_29

Linux 查看 spark 版本 linux打开spark_hive_30

4、执行./configure

5、make

6、make install

7、查看系统原有python版本，并重命名

Linux 查看 spark 版本 linux打开spark_上传_31

8、修改/usr/bin/yum

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_32

9、重新建立python的软连接

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_33

7、执行python命令，检查是否安装好

Linux 查看 spark 版本 linux打开spark_上传_34

五、spark的安装

1、下载并上传spark安装文件到bigdata用户家目录下的bigdata目录下，然后解压

Linux 查看 spark 版本 linux打开spark_spark_35

2、配置slaves

Linux 查看 spark 版本 linux打开spark_hive_36

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_37

3、配置spark-env.sh

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_38

Linux 查看 spark 版本 linux打开spark_上传_39

4、把配置好的spark分发slave1和slave2上面

scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave1:~/bigdata

scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave2:~/bigdata

5、在master上配置环境变量

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_40

source ~/.bash_profile

6、启动spark

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_41

7、确认spark已经启动【jps命令，或者访问http://192.168.0.110:8080】

Linux 查看 spark 版本 linux打开spark_上传_42

Linux 查看 spark 版本 linux打开spark_spark_43

8、测试spark代码【ctrl+z退出】

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_44

六、zookeeper的安装

1、下载并上传zookeeper文件，然后解压

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_45

2、修改配置文件

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_46

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_47

3、创建配置文件配置的目录

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_48

4、将配置好的zookeeper分发到slave1和slave2

Linux 查看 spark 版本 linux打开spark_hive_49

5、分别在3台服务器的~/bigdata/zookeeper/data目录中新增文件myid并修改

Linux 查看 spark 版本 linux打开spark_上传_50

master上myid的内容为：0

slave1上myid的内容为：1

slave2上myid的内容为：2

6、分别到3台服务器中启动节点zk服务

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_51

7、查看每一个服务器上的zk的状态

Linux 查看 spark 版本 linux打开spark_上传_52

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_53

七、hive的安装

1、安装mysql

安装：yum install -y mysql-server

启动：service mysqld start

修改root用户密码：mysqladmin -u root password 'root'

创建数据库hive并授权：

Linux 查看 spark 版本 linux打开spark_spark_54

2、下载并上传hive安装包，然后解压

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_55

3、进入配置目录【/home/bigdata/bigdata/apache-hive-2.3.3-bin/conf】，修改配置文件hive-site.xml

Linux 查看 spark 版本 linux打开spark_上传_56

Linux 查看 spark 版本 linux打开spark_spark_57

4、编辑hive-env.sh

Linux 查看 spark 版本 linux打开spark_hive_58

Linux 查看 spark 版本 linux打开spark_上传_59

5、下载mysql的jdbc驱动mysql-connector-java-5.1.44-bin.jar，上传/home/bigdata/bigdata/apache-hive-2.3.3-bin/lib

Linux 查看 spark 版本 linux打开spark_spark_60

6、配置master的环境变量

Linux 查看 spark 版本 linux打开spark_上传_61

source ~/.bash_profile

7、创建hive-site.xml里面配置的目录并授权

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_62

8、指定hive数据库类型并初始化

Linux 查看 spark 版本 linux打开spark_hive_63

9、验证hive的mysql数据库是否安装成功【hive数据库下面是否有表】

Linux 查看 spark 版本 linux打开spark_spark_64

10、运行hive前首先要确保meta store服务已经启动：先创建hive运行日志目录logs，再运行HIVE

Linux 查看 spark 版本 linux打开spark_spark_65

验证：

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_66

运行HIVE

Linux 查看 spark 版本 linux打开spark_hive_67

八、kafka的安装

1、下载kafka并上传，然后解压

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_68

2、创建日志目录，修改配置文件

mkdir /home/bigdata/bigdata/kafka-logs-new

Linux 查看 spark 版本 linux打开spark_spark_69

Linux 查看 spark 版本 linux打开spark_hive_70

Linux 查看 spark 版本 linux打开spark_hive_71

3、将kafka分发到slave1 和 slave2

Linux 查看 spark 版本 linux打开spark_hive_72

4、分别修改slave1和slave2上面的server.properties文件

slave1：broker.id=1

slave2：broker.id=2

5、分别在三台服务器上启动broker server

Linux 查看 spark 版本 linux打开spark_hive_73

nohup bin/kafka-server-start.sh config/server.properties>~/bigdata/kafka_2.12-1.1.0/logs/server.log 2>&1 &

6、在master上创建topic

Linux 查看 spark 版本 linux打开spark_spark_74

7、查看topic

Linux 查看 spark 版本 linux打开spark_spark_75

8、启动producer发送消息

Linux 查看 spark 版本 linux打开spark_spark_76

9、启动consumer消费消息

Linux 查看 spark 版本 linux打开spark_hive_77

10、效果如下

Linux 查看 spark 版本 linux打开spark_hive_78

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Linuxmongodb创建数据库 linux创建数据库实例

下一篇：debian11 部署kvm debian kit

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

Linux 查看 spark 版本 linux打开spark

Linux 查看 spark 版本 linux打开spark

51CTO博客