适合做spark分析的数据集推荐

转载

Aceryt 2024-09-13 21:51:13

文章标签 适合做spark分析的数据集推荐 spark 大数据分布式 SPARK 文章分类 Spark 大数据

spark的主要特点概括

1.运行模式多样，可运行于独立的集群模式，Hadoop，Amazon EC2等云环境中，并且可以访问HDFS，Cassandra，HBase，HIve等多种数据源

2.运行速度快，使用DAG执行引擎以支持循环数据流与内存计算

3.通用性，spark提供了完整而强大的技术栈

4.容易使用，支持使用Scala，Java，python和r语言进行编程

Mapreduce

MR主要分成map和reduce两个阶段，核心思想就是分而治之，mapreduce主要负责拆分，即把复杂的任务分解成若干个小任务进行处理，reduce阶段是将mapper阶段得到的结果进行汇总

spark对比mapreduce

适合做spark分析的数据集推荐_SPARK

spark和Hadoop区别

适合做spark分析的数据集推荐_spark_02

spark运行架构特点

1.每个application都有自己专属的Executor进程，并且该进程在application运行期间一直驻留，executor进程以多线程的方式运行Task

2.Spark运行过程与资源管理无关，子要能够获取Executor进程并保持通信即可

3.Task采用了数据本地性和推测执行等优化机制，实现“计算向数据靠拢”

核心RDD特点

1.高效的容错性

现有容错机制：数据复制或者记录日志RDD具有天生的容错性：血缘关系，重新计算丢失分区，无需回滚系统，重算过程在不同节点之间并行，只记录粗粒度的操作

2.中间结果持久化到内存，数据在内存中的多个RDD操作直接按进行传递，避免了不必要的读写磁盘开销

3.存放的数据可以是JAVA对象，避免了不必要的对象序列化和反序列化

RDD运行过程

1.创建RDD对象

2.SparkContext负责计算RDD之间的依赖关系，构建DAG

3.DAGScheduler负责把DAG图分解成多个Stage，每个Stage中包含了多个Task，每个Task会被TaskScheduler分发给各个WorkerNode上的Executor去执行

RDD的宽窄依赖

窄依赖是指父RDD的一个分区最多被子RDD的一个分区所用。例如map()、filter()、union()等操作都会产生窄依赖

适合做spark分析的数据集推荐_大数据_03

宽依赖是指，父RDD的一个分区被子RDD的多个分区所用。例如groupByKey()、reduceByKey()、sortByKey()等操作都会产生宽依赖

适合做spark分析的数据集推荐_大数据_04

注意！！！

1. 对于join算子，两种依赖都可能产生！

2.在数据容错方面，窄依赖要优于宽依赖。当子RDD的某一个分区的数据丢失时，若是窄依赖，只需重算和该分区对应的父RDD分区即可，而宽依赖则可能需要重算父RDD的所有分区。

spark的部署与安装

上传并解压安装spark安装包

tar -zxvf / export/ software/ spark-3.0.3-bin-hadoop2.7.tgz

设置环境变量

vim /etc/profile

export SPARK_HOME=/usr/local/soft/spark-3.0.3

export PATH=$PATH:${SPARK_HOME}/bin

export PATH=$PATH:${SPARK_HOME}/sbin

适合做spark分析的数据集推荐_大数据_05

source /etc/profile使环境变量生效

修改配置文件.

cd spark/ conf/

先备份文件cp spark env.sh.template spark env.sh

cp slaves. template slaves

vim spark-env.sh

适合做spark分析的数据集推荐_spark_06

加一些环境变量:

修改spark- env.sh文件，加以下内容:

export SCALA_HOME=/usr/local/soft/scala-2.12.12

export JAVA_HOME=/usr/local/soft/jdk1.8.0_202

export SPARK_MASTER_IP=master

export SPARK_WOKER_CORES=2

export SPARK_WOKER_MEMORY=2g

export HADOOP_CONF_DIR=/usr/local/soft/hadoop-3.1.3/etc/hadoop

#export SPARK_MASTER_WEBUI_PORT=8080

#export SPARK_MASTER_PORT=7070

适合做spark分析的数据集推荐_spark_07

修改从节点ip

适合做spark分析的数据集推荐_SPARK_08

分发文件

scp -r /usr/local/soft/spark-3.0.3/ slave1:/usr/local/soft/

scp -r /usr/local/soft/spark-3.0.3/ slave2:/usr/local/soft/

分别在slave1 slave2上设置环境变量

vim /etc/profile

#SPARK

export SPARK_HOME=/usr/local/soft/spark-3.0.3

export PATH=$PATH:${SPARK_HOME}/binexport PATH=$PATH:${SPARK_HOME}/sbin

适合做spark分析的数据集推荐_分布式_09

source /etc/profile使环境变量生效

启动集群：spark目录下：./start-all.sh

适合做spark分析的数据集推荐_分布式_10

查看节点：

Master:

适合做spark分析的数据集推荐_分布式_11

Slave1：

适合做spark分析的数据集推荐_SPARK_12

Slave2:

适合做spark分析的数据集推荐_适合做spark分析的数据集推荐_13

在主节点master上出现Master 在s1上出现Worker在s2上出现Worker

Spark-shell

适合做spark分析的数据集推荐_大数据_14

Scala安装

scala是spark编程常用语言之一

网站搜索Scala下载安装

适合做spark分析的数据集推荐_分布式_15

适合做spark分析的数据集推荐_spark_16

适合做spark分析的数据集推荐_spark_17

适合做spark分析的数据集推荐_适合做spark分析的数据集推荐_18

scala部署安装

上传并解压安装scala安装包

tar -zxvf scala-2.2.12.12.tgz

适合做spark分析的数据集推荐_大数据_19

设置环境变量

vim /etc/profile

#SCALA

export SCALA_HOME=/usr/local/soft/scala-2.12.12

export PATH=$PATH:${SCALA_HOME}/bin

适合做spark分析的数据集推荐_SPARK_20

source /etc/profile使环境变量生效

验证scala 启动成功

适合做spark分析的数据集推荐_大数据_21

scala启动成功

适合做spark分析的数据集推荐_分布式_22

Scala的特点

1.Scala具备强大的并发性，支持函数式编程，可以更好地支持分布式系统
2. Scala语法简洁，能提供优雅的API
3.Scala兼容Java，运行速度快，且能融合到Hadoop生态圈中

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java stream某个字段值等于

下一篇：element 点击新增新增一行

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

适合做spark分析的数据集推荐

适合做spark分析的数据集推荐

51CTO博客