Exactly Once:

1、能够处理且只被处理一次

2、能够输出且只被输入一次

数据会积累到一定的程度,才会写到磁盘或内存,所以在还没积累到一定程度的时候,数据有可能丢失几条.但是和Kafka结合就不会.


SparkContext:

1.获取数据

2.产生作业


WAL 很少失败,因为是存在HDFS上的,HDFS天然具有副本机制

基于Spark Streaming 天然的会Task重试和Stage重试


Spark Streaming事物处理流程图:

wKiom1cu2AuA3DEoAADf-MGQVDU478.png

wKioL1cu2OmQcqngAACq4gBxS3s291.png



wKiom1cu2BHxEkyjAABlq7V2KOA368.png

备注:

这是我的Spark版本定制班学习笔记

更多私密内容,请关注微信公众号:DT_Spark

如果您对大数据Spark感兴趣,可以免费听由王家林老师每天晚上20:00开设的Spark永久免费公开课,地址YY房间号:68917580