spark 时间类型处理 spark实时

转载

mob6454cc6c40c9 2023-10-21 21:40:45

文章标签 spark 时间类型处理 spark 大数据分布式数据 文章分类 Spark 大数据

SparkStreaming是什么？

SparkStirng称为准实时（秒，分钟），微批次（时间）数据处理框架

简单的体会

创建环境对象

val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Streaming")
val ssc: StreamingContext = new StreamingContext(sparkConf, Seconds(3))

StreamingContext中第一个参数代表环境的配置，第二个参数表示 批处理的周期 （采集周期）

spark 时间类型处理 spark实时_spark 时间类型处理

这里进行的wordCount的Demo，输入数据的时候利用空格隔开

他不能使用ssc.stop()直接关闭，运行程序直接结束，我们还怎么传数据？

所以我们启动采集器，加上等待采集器的执行这里我们利用netcat工具（使用方法，在netcat文件夹下，启动cmd程序，输入指令）

然后同时运行我们的程序

spark 时间类型处理 spark实时_数据_02

可以看到当我们输入单词的时候，控制台每隔3秒就会输出统计的信息，但是这个信息并不会累计，这就叫无状态数据操作

无状态数据操作

只对当前的采集周期内的数据进行处理

有状态数据操作

spark 时间类型处理 spark实时_大数据_03

注意的是：

在使用有状态数据操作是，使用checkpoint保存数据，因为我需要存储数据，存哪里？存内存中？如果数据流很多很大，不久内存就会溢出，所以得用checkpoint

transform操作

没有transform的操作

spark 时间类型处理 spark实时_spark_04

transform后的操作

spark 时间类型处理 spark实时_spark_05

其实就是Dstream转换为RDD进行操作，那和Dstream有什么区别？

他们其实就是执行位置，因为每一个执行周期都会形成一个RDD，而transform后，就可以在每一个执行周期都能够进行自己的转换。最外层的Driver端只会执行一次。

窗口操作（WindowOperations）

怎么理解？

假定我的采集周期为3s，但是我并不想立刻处理，我等3个采集周期后才进行处理，这个就涉及到了窗口函数的范围了（图中蓝色的框）。处理完以后，我是不是得“滑动”到下一个地方再进行采集？

spark 时间类型处理 spark实时_数据_06

这个窗口的滑动，会导致数据发生一个曲线的改变

（hello，1）=>（hello，3）=>（hello，2）=>（hello，0）。。。。。

窗口函数的范围应该是 采集周期 的 整数倍

spark 时间类型处理 spark实时_大数据_07

但是问题是他会有一个重复的数据，这个时候我们调整一下“步长”，也就是窗口下一次滑动的距离，当“步长”大于或者等于窗口函数范围的时候，就不会有重复数据。（大于的时候会造成数据的丢失）

spark 时间类型处理 spark实时_spark_08

优雅的关闭

什么时候关闭，当逻辑发生改变，业务发生改变的时候。
如果我们直接关闭，还有一些数据没有处理完成，就不太好了
流式任务需要 7*24 小时执行，但是有时涉及到升级代码需要主动停止程序，但是分
布式程序，没办法做到一个个进程去杀死，所有配置优雅的关闭就显得至关重要了。

这个时候我们可以使用外部系统来控制内部程序关闭

spark 时间类型处理 spark实时_大数据_09

spark 时间类型处理 spark实时_spark 时间类型处理_10

这里获取了文件系统也就是HDFS，然后再文件系统中，取得一个路径，就是stopSpark，判断是否存在，如果存在，我们再判断是否是存在状态，我们可以再进行关闭。

数据恢复

因为我们把程序停止了，再启动的时候，数据需要恢复过来

spark 时间类型处理 spark实时_大数据_11

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：MPAndroidChart zoom滑动和OnChartValueSelectedListener滑动冲突滑动是什么意思啊

下一篇：kubernetes 配置 hosts kubernetes 配置中心

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯