spark单价版安装 spark如何安装

转载

mob6454cc6a01b7 2024-07-23 21:19:08

文章标签 spark单价版安装 spark SPARK spark集群 文章分类 Spark 大数据

1、spark概述

1、什么是spark

基于内存的计算引擎，它的计算速度非常快。但是spark仅仅只涉及到数据的计算，没有涉及到数据的存储。

2、为什么学习spark

比mapreduce计算速度快很多。

3、spark特点

1、速度快

比mapreduce在内存中快100x，在磁盘中快10x

1、由于mapreduce每次job的中间结果数据都会落地到磁盘中，而spark每次中间结果数据可以不落地（可以保存在内存中）
2、mapreduce任务对应都会产生一些map任务和reduce任务，这些任务都会以进程的方式运行在集群中，针对于spark任务，它是以线程的方式运行在spark集群中。

2、易用性

可以快速写一个spark应用程序采用4中语言（java/scala/Python/R）

3、通用性

可以使用sparkSql /sparkStreaming/Mlib/Graphx

4、兼容性

可以把spark程序提交到不同的平台中运行（standalone/yarn/mesos）

2、spark集群安装部署

1、下载spark安装包
2、规划安装目录
3、解压安装包到指定安装目录
4、重明名安装目录
5、修改配置文件

1、vi spark-env.sh (mv spark-env.sh.template spark-env.sh)

配置java环境变量

export JAVA_HOME=/export/servers/jdk

配置master的地址

export SPARK_MASTER_HOST=node1

配置master的端口

export SPARK_MASTER_PORT=7077

2、vi slaves (mv slaves.template slaves)

添加worker节点

node2
node3

6、添加spark环境变量

vi /etc/profile

export SPARK_HOME=/export/servers/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

scp -r spark root@node2:/export/servers
scp -r spark root@node3:/export/servers
scp /etc/profile root@node2:/etc
scp /etc/profile root@node3:/etc

8、让所有spark环境变量生效

在所有节点执行

source /etc/profile

3、spark集群启动和停止

启动spark集群

在主节点上执行脚本

$SPARK_HOME/sbin/start-all.sh

停止spark集群

在主节点上执行脚本

$SPARK_HOME/sbin/stop-all.sh

4、spark集群web管理界面

spark web管理界面

访问地址：http://master的地址:8080

5、基于zookeeper的sparkHA高可用部署

1、修改配置文件 vi spark-env.sh

1、注释掉手动指定的master地址

export SPARK_MASTER_HOST=node1

2、添加配置参数 SPARK_DAEMON_JAVA_OPTS

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER  -Dspark.deploy.zookeeper.url=hdp-node-01:2181,hdp-node-02:2181,hdp-node-03:2181  -Dspark.deploy.zookeeper.dir=/spark"

2、启动zk集群
3、启动sparkHA

可以在任意一台机器上启动脚本(它会在当前机器中产生一个Master进程) 前提条件：配置所有机器两两之间对应的ssh免登录

start-all.sh

可以在其他机器上单独启动master进程

start-master.sh

6、spark角色介绍

1、Driver

就是运行客户端main方法，构建SparkContext对象

2、Application

包含driver代码，还有当前这个任务计算所有需要的资源

3、Master

它是集群中老大，负责资源的分配和任务的调度

4、ClusterManager

spark应用程序可以获取的外部资源

Standalone

spark自带的集群模式，资源的分配和任务调度由Master

Yarn

资源的分配和任务调度由ResourceManager

Mesos

是apache开源的一个资源调度框架。

5、Worker Node

集群中的小弟，负责任务计算的节点
Standalone: 通过slaves文件指定的节点
spark on yarn: yarn中的NodeManager节点

6、executor

它是一个进程，它会在worker节点上启动

7、task

是以线程的方式运行在executor进程中

7、初识spark程序

1、普通模式提交任务（已经知道活着的master地址）

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://node1:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
examples/jars/spark-examples_2.11-2.0.2.jar \
10

2、高可用模式提交任务（并不知道哪一个master是活着的master）

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://node1:7077,node2:7077,node3:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
examples/jars/spark-examples_2.11-2.0.2.jar \
10

8、spark-shell使用

1、spark-shell --master local[N] 读取本地数据文件，实现单词计数

--master local[N]

指定master的地址为本地单机版模式，N是一个正整数，（local[2]）表示本地采用2个线程来运行任务

它会产生一个SparkSubmit进程

sc.textFile("file:///root/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

sc.textFile("file:///root/words.txt").flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey((x,y)=>x+y).collect

2、spark-shell --master local[N] 读取HDFS上数据文件，实现单词计数

spark整合HDFS

vi spark-env.sh

export HADOOP_CONF_DIR=/export/servers/hadoop/etc/hadoop

sc.textFile("/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

3、spark-shell --master 指定master为spark集群中活着的master，读取HDFS上数据文件，实现单词计数

spark-shell --master spark://node1:7077 --executor-memory 1g --total-executor-cores 2

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：k8s设置request详解 k8s sessionaffinity

下一篇：mysql执行查询超过30秒之后报错 mysql执行时间超时怎么办

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

spark单价版安装 spark如何安装

spark单价版安装 spark如何安装

1、spark概述

2、spark集群安装部署

3、spark集群启动和停止

4、spark集群web管理界面

5、基于zookeeper的sparkHA高可用部署

6、spark角色介绍

7、初识spark程序

8、spark-shell使用

51CTO博客