关于Spark编程的实验总结

转载

mob64ca140c75c7 2024-09-06 14:46:13

文章标签 关于Spark编程的实验总结 big data hadoop spark 序列化 文章分类 Spark 大数据

SparkStreaming编程指南学习

SparkStreaming编程指南

文章目录

SparkStreaming编程指南学习
1:SparkStreaming编程指南
1：概述
2:基本概念

2.1：DStream，DataSet以及DataFrame
2.2：rdd算子介绍
2.3：checkpoint检查点

1：checkpoint存储的数据
2：checkpoint配置
3：使用
4：checkpoint和广播变量

3：sparkStreaming开发

3.1：maven依赖引入
3.2初始化StreamingContext
3.3：DStream 常见操作

1：窗口函数操作
2：join操作
3：Dstream的算子

3.4：持久化

4：部署启动

4.1：yarn的demo

5：日志监控
6：调优

6.1:并行度

1:数据接收并行度
2：数据处理并行度

6.2：序列化

1：RDD缓存级别
2：序列化类

1：java序列化
2：kryo序列化

6.3：接收处理限速
6.4：内存资源调优

1:SparkStreaming编程指南

1：概述

Spark Streaming 是 Spark Core API 的扩展，它支持弹性的，高吞吐的，容错的实时数据流的处理

关于Spark编程的实验总结_hadoop

2:基本概念

2.1：DStream，DataSet以及DataFrame

DataSet：是一个由特定域的对象组成的强类型集合，可通过功能或关系操作并行转换其中的对象。每个Dataset还有一个非类型视图，即由多个列组成的DataSet，称为DataFrame。

DataFrame：是一个由多个列组成的结构化的分布式数据集合，等同于关系数据库中的一张表。DataFrame是Spark SQL中的最基本的概念，可以通过多种方式创建，例如结构化的数据集、Hive表、外部数据库或者是RDD。

DStream：被表示为一系列连续的 RDDs，每个 RDD 包含来自一定的时间间隔的数据。

关于Spark编程的实验总结_关于Spark编程的实验总结_02

1：DStream 构建

1：文件流：可实现监控目录文件
	streamingContext.fileStream[KeyClass, ValueClass, InputFormatClass](dataDirectory)
	streamingContext.textFileStream(dataDirectory="hdfs://namenode:8040/logs/")
2：集成kafka,flume等

SparkStreaming集成kafka0.10及高版本

2：DStream的算子操作

map(func)	    每个元素传递给函数func来返回新的DStream 
flatMap(func)	每个输入项可以映射到0个或多个输出项。
filter(func)	通过符合func返回true 的源DStream的记录来返回新的DStream 
repartition(numPartitions)	通过创建更多或更少的分区来更改此DStream中的并行度
reduceByKey(func, [numTasks])	返回一个新的（K，V）对的DStream，其中使用给定的reduce函数聚合每个键的值。
								注意：默认情况下，此操作使用Spark的默认并行任务数（本地模式为2，而在集群模式下，
								此数量由config属性确定spark.default.parallelism）进行分组。您可以传递一个可选numTasks参数来设置不同数量的任务。
transform(func)	通过对源DStream的每个RDD应用RDD-to-RDD函数来返回新的DStream。这可用于在DStream上执行任意的RDD操作，transform该功能非常强大，

3:Dstream的输出算子操作

print（）	在运行流应用程序的驱动程序节点上，打印DStream中每批数据的前十个元素。这对于开发和调试很有用。
saveAsTextFiles（prefix, [suffix]）		将此DStream的内容另存为文本文件。基于产生在每批间隔的文件名的前缀和后缀：“prefix-TIME_IN_MS [.suffix]”。
saveAsObjectFiles（prefix, [suffix]）	将此DStream的内容保存为SequenceFiles序列化Java对象的内容。基于产生在每批间隔的文件名的前缀和 后缀：“前缀TIME_IN_MS [.suffix]”。
saveAsHadoopFiles（prefix, [suffix]）	将此DStream的内容另存为Hadoop文件。基于产生在每批间隔的文件名的前缀和后缀：“prefix-TIME_IN_MS [.suffix]”。
foreachRDD（func）	最通用的输出运算符，将函数func应用于从流生成的每个RDD。此功能应将每个RDD中的数据推送到外部系统，例如将RDD保存到文件或通过网络将其写入数据库。请注意，函数func是在运行流应用程序的驱动程序进程中执行的，并且通常在其中具有RDD操作，这将强制计算流RDD。

2.2：rdd算子介绍

rdd算子介绍

2.3：checkpoint检查点

1：checkpoint存储的数据

checkpoint 有两种类型的数据。

Metadata checkpointing - 将定义 streaming 计算的信息保存到容错存储（如 HDFS）中。这用于从运行 streaming 应用程序的 driver 的节点的故障中恢复（稍后详细讨论）。
元数据包括:
	Configuration - 用于创建流应用程序的配置。
	DStream operations - 定义 streaming 应用程序的 DStream 操作集。
	Incomplete batches - 批量的job 排队但尚未完成。
Data checkpointing - 将生成的 RDD 保存到可靠的存储。这在一些将多个批次之间的数据进行组合的 状态 变换中是必需的。
在这种转换中，生成的 RDD 依赖于先前批次的 RDD，这导致依赖链的长度随时间而增加。
为了避免恢复时间的这种无限增加（与依赖关系链成比例），有状态转换的中间 RDD 会定期 checkpoint 到可靠的存储（例如 HDFS）以切断依赖关系链。

2：checkpoint配置

可以通过在保存 checkpoint 信息的容错，可靠的文件系统（例如，HDFS，S3等）中设置目录来启用 checkpoint。

3：使用

实战demo

RD0.foreachRDD((VoidFunction<JavaRDD<ConsumerRecord<String, byte[]>>>) consumerRecordJavaRDD -> {
                String checkPoint = "" + System.currentTimeMillis();
                HasOffsetRanges hasOffsetRanges = (HasOffsetRanges) (consumerRecordJavaRDD.rdd());
                StringBuilder sb = new StringBuilder();
                for (OffsetRange of : hasOffsetRanges.offsetRanges()) {
                    sb.append(of.topic() + "-" + of.partition() + "=" + of.fromOffset() + "\n");
                }
                localCheckPoint.saveCheckPoint(checkPoint, sb.toString());
});

1：基本用法：保存

streamingContext.checkpoint(checkpointDirectory) 
dstream.checkpoint(checkpointInterval)。通常，DStream的5-10个滑动间隔的检查点间隔是一个不错的尝试。

2：如果要使应用程序从 driver 故障中恢复，您应该重写 streaming 应用程序以具有以下行为。

当程序第一次启动时，它将创建一个新的 StreamingContext，设置所有流，然后调用 start()。
当程序在失败后重新启动时，它将从 checkpoint 目录中的 checkpoint 数据重新创建一个 StreamingContext。

3：getOrCreate
如果checkpointDirectory存在，则将根据检查点数据重新创建上下文。如果该目录不存在（即第一次运行），则将contextFactory调用该函数来创建新上下文并设置DStreams

val context = StreamingContext.getOrCreate(checkpointDirectory, functionToCreateContext _)

4：checkpoint和广播变量

无法从Spark Streaming中的检查点恢复累加器和广播变量。如果启用检查点并同时使用“ 累加器”或“ 广播”变量，则必须为“ 累加器”和“ 广播”变量创建延迟实例化的单例实例，以便在驱动程序发生故障重新启动后可以重新实例化它们

3：sparkStreaming开发

3.1：maven依赖引入

1：sparkStreaming依赖

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.11</artifactId>
    <version>2.2.0</version>
</dependency>

2：结合其他数据源的依赖
针对从 Spark Streaming Core API 中不存在的数据源中获取数据，如 Kafka，Flume，Kinesis，你必须添加相应的坐标 spark-streaming-xyz_2.11 到依赖中。例如，有一些常见的依赖如下。

Source（数据源）											Artifact（maven坐标）
Kafka								   				 spark-streaming-kafka-0-8_2.11
Flume	            	                             spark-streaming-flume_2.11
Kinesis	
spark-streaming-kinesis-asl_2.11 [Amazon Software License]

3.2初始化StreamingContext

一个 StreamingContext 对象必须要被创建出来，它是所有的 Spark Streaming 功能的主入口点。
sparkstreaming初始化可以很sparkconf和SparkContext两种进行初始化

方式1：sparkconf
val conf = new SparkConf().setAppName(appName).setMaster(master)
val ssc = new StreamingContext(conf, Seconds(1))
方式2：SparkContext
val sc = SparkContext(master, appName)
val ssc = StreamingContext(sc, 1)

2：参数解释

appName： 参数是展示在集群 UI 界面上的应用程序的名称
master：该streaming程序的部署模式Spark, Mesos or YARN
在实践中，当在集群上运行时，你不会想在应用程序中硬编码 master，而是 使用 spark-submit 来启动应用程序，并且接受该参数。然而，对于本地测试和单元测试，你可以传递 “local[*]” 来运行 Spark Streaming 进程
batch interval：根据您的应用程序和可用的集群资源的等待时间要求进行设置

3.3：DStream 常见操作

1：窗口函数操作

任何窗口操作都需要指定两个参数。
窗口长度 - 窗口的持续时间
滑动间隔 -执行窗口操作的间隔。
这两个参数必须是源DStream的批处理间隔的倍数。

window（windowLength，slideInterval）		返回基于源DStream的窗口批处理计算的新DStream。
countByWindow（windowLength，slideInterval）	返回流中元素的滑动窗口计数。
reduceByWindow（func，windowLength，slideInterval）		返回一个新的单元素流，该流是通过使用func在滑动间隔内聚合流中的元素而创建的。该函数应该是关联的和可交换的，以便可以并行正确地计算它。
reduceByKeyAndWindow（func，windowLength，slideInterval，[ numTasks ]）	在（K，V）对的DStream上调用时，返回新的（K，V）对的DStream，其中使用给定的reduce函数func 在滑动窗口中的批处理上汇总每个键的值。注意：默认情况下，此操作使用Spark的默认并行任务数（本地模式为2，而在集群模式下，此数量由config属性确定spark.default.parallelism）进行分组。您可以传递一个可选 numTasks参数来设置不同数量的任务。
reduceByKeyAndWindow（func，invFunc，windowLength， slideInterval，[ numTasks ]）	
上面一种更有效的版本，reduceByKeyAndWindow()其中，使用前一个窗口的减少值递增地计算每个窗口的减少值。这是通过减少进入滑动窗口的新数据并“逆向减少”离开窗口的旧数据来完成的。一个示例是在窗口滑动时“增加”和“减少”键的计数。但是，它仅适用于“可逆归约函数”，即具有对应的“逆归约”函数（作为参数invFunc）的归约函数。像in中一样reduceByKeyAndWindow，reduce任务的数量可以通过可选参数配置。请注意，必须启用检查点才能使用此操作。
countByValueAndWindow（windowLength， slideInterval，[ numTasks ]）	在（K，V）对的DStream上调用时，返回新的（K，Long）对的DStream，其中每个键的值是其在滑动窗口内的频率。像in中一样 reduceByKeyAndWindow，reduce任务的数量可以通过可选参数配置。

2：join操作

包括leftOuterJoin，rightOuterJoin，fullOuterJoin

3：Dstream的算子

参见1.2.1Dstream

3.4：持久化

RDD持久化
Dstream持久化
与RDD不同，DStream的默认持久性级别将数据序列化在内存中

4：部署启动

配置选项

4.1：yarn的demo

bin/spark-submit还将从中读取配置选项conf/spark-defaults.conf，也可以将配置写在该文件

$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    --driver-memory 4g \
    --executor-memory 2g \
    --executor-cores 1 \
    --queue thequeue \
    examples/jars/spark-examples*.jar \
    10

1：添加依赖jar

--jars my-other-jar.jar,my-other-other-jar.jar \
    my-main-jar.jar \
    app_arg1 app_arg2

2：动态加载sparkconf属性

--conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps"

3：指定app名字

--name "My app"

4：加载配置文件
–files filename

5：日志监控

运行日志：http://:4040
日志也会存储在hdfs的datanode的数据目录下：hadoop/data*/nm/application_ID/
程序大量报错可能会使磁盘写满，程序报错，datanode故障，需要及时清理日志重启程序。

6：调优

调优指南

6.1:并行度

1:数据接收并行度

1：集成替他： task num=批处理间隔/块间隔spark.streaming.blockInterval
2：集成kafka: task num=kafka分区数

2：数据处理并行度

如果在计算的任何阶段使用的并行任务数量不够高，则群集资源可能无法得到充分利用。例如，对于像reduceByKey 和这样的分布式归约操作reduceByKeyAndWindow，并行任务的默认数量由spark.default.parallelism 属性控制。您可以将并行性级别作为参数传递（请参见 PairDStreamFunctions 文档），或将spark.default.parallelism 配置属性设置为更改默认值。

6.2：序列化

1：RDD缓存级别

2：序列化类

包括java序列化和kryo序列化

1：java序列化

2：kryo序列化

kryo介绍用Kryo序列化都可以减少CPU和内存的开销，比java序列化快10倍以上
1：使用，不注册也可以使用

指定序列化方式：	conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
注册自定义类：	conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))

spark.kryo.classesToRegister	false	如果您使用Kryo序列化，请提供一个逗号分隔的自定义类名称列表，以向Kryo注册。有关更多详细信息，请参见调整指南。
spark.kryo.referenceTracking	treu	使用Kryo序列化数据时是否跟踪对同一对象的引用，如果对象图具有循环，则这是必需的；如果它们包含同一对象的多个副本，则对于提高效率很有用。如果您不是这种情况，可以禁用它以提高性能。
spark.kryo.registrationRequired	false	是否要求向Kryo注册。如果设置为“ true”，则如果未注册的类被序列化，Kryo将引发异常。如果设置为false（默认值），Kryo将与每个对象一起写入未注册的类名称。编写类名称可能会导致大量的性能开销，因此启用此选项可以严格执行以下操作：用户没有从注册中省略类。
spark.kryo.registrator			false	如果您使用Kryo序列化，请提供一个用逗号分隔的类列表，用于向Kryo注册您的自定义类。如果您需要以自定义方式注册类（例如，指定自定义字段序列化程序），则此属性很有用。否则spark.kryo.classesToRegister比较简单。应该将其设置为extends类 。有关更多详细信息，请参见调整指南。 KryoRegistrator
spark.kryo.unsafe				false	是否使用不安全的Kryo串行器。使用基于不安全的IO可以大大提高速度。
spark.kryoserializer.buffer.max	64m	除非另有说明，否则Kryo序列化缓冲区的最大允许大小（以MiB为单位）。它必须大于您尝试序列化的任何对象，并且必须小于2048m。如果在Kryo中收到“超出缓冲区限制”异常，请增加此值。
spark.kryoserializer.buffer		64k	除非另有说明，否则Kryo序列化缓冲区的初始大小，以KiB为单位。请注意，每个工作线程上每个内核将有一个缓冲区。spark.kryoserializer.buffer.max如果需要，此缓冲区将增长

6.3：接收处理限速

SparkConf配置spark.streaming.receiver.maxRate
spark.streaming.kafka.maxRatePerPartition：每个分区最大拉取的条数

6.4：内存资源调优

内存消耗：Web UI中的“ Storage”页面
资源调优

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：storm查看supervisor状态

下一篇：properties 特殊字符

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯