Flink提供了Exactly once特性,是依赖于带有barrier的分布式快照+可部分重发的数据源功能实现的。而分布式快照中,就保存了operator的状态信息。  Flink的失败恢复依赖于 检查点机制 + 可部分重发的数据源。   检查点机制机制:checkpoint定期触发,产生快照,快照中记录了:当前检查点开始时数据源(例如Kafka)中消息的offset。记            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-28 19:55:23
                            
                                34阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            认识Flink流处理在自然环境中,数据的产生原本就是流式的。无论是来自 Web 服务器的事件数据,证券交易所的交易数据,还是来自工厂车间机器上的传感器数据,其数据都是流式的。但是当你分析数据时,可以围绕 有界流(bounded)或 无界流(unbounded)两种模型来组织处理数据,当然,选择不同的模型,程序的执行和处理方式也都会不同。批处理是有界数据流处理的范例。在这种模式下,你可以选择在计算结            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-07 09:21:50
                            
                                120阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flink反压利用了网络传输和动态限流。Flink的任务的组成由流和算子组成,那么流中的数据在算子之间转换的时候,会放入分布式的阻塞队列中。当消费者的阻塞队列满的时候,则会降低生产者的处理速度。如上图所示,当Task C 的数据处理速度发生异常的时候,Receive Buffer会呈现出队列满的情况,Task B发送端就会感知到这一点,因为发不过去了吗。然后把数据的发送速度降低,以此类推,整个反压            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-10 15:54:44
                            
                                341阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flink 提供了专门的 Kafka 连接器,向 Kafka topic 中读取或者写入数据。Flink Kafka Consumer 集成了 Flink 的 Checkpoint 机制,可提供 exactly-once 的处理语义。为此,Flink 并不完全依赖于跟踪 Kafka 消费组的偏移量, ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-07-22 15:16:00
                            
                                1004阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            Flinkkafkasource&sink源码解析吴鹏Flink中文社区摘要:本文基于Flink1.9.0和Kafka2.3版本,对FlinkKafkasource和sink端的源码进行解析,主要内容分为以下两部分:1.Flink-kafka-source源码解析*流程概述*非checkpoint模式offset的提交*checkpoint模式下offset的提交*指定offset消费2.            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-02-06 09:59:12
                            
                                353阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Flinkkafkasource&sink源码解析吴鹏Flink中文社区摘要:本文基于Flink1.9.0和Kafka2.3版本,对FlinkKafkasource和sink端的源码进行解析,主要内容分为以下两部分:1.Flink-kafka-source源码解析*流程概述*非checkpoint模式offset的提交*checkpoint模式下offset的提交*指定offset消费2.            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-02-06 21:40:24
                            
                                419阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Flinkkafkasource&sink源码解析吴鹏Flink中文社区摘要:本文基于Flink1.9.0和Kafka2.3版本,对FlinkKafkasource和sink端的源码进行解析,主要内容分为以下两部分:1.Flink-kafka-source源码解析*流程概述*非checkpoint模式offset的提交*checkpoint模式下offset的提交*指定offset消费2.            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-02-06 09:58:54
                            
                                214阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            下面将分析这两个流程是如何衔接起来的。 这里最重要的就是 userFunction.run(ctx);,这个 userFunction 就是在上面初始化的时候传入的 FlinkKafkaConsumer 对象,也就是说这里实际调用了 FlinkKafkaConsumer 中的 …            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2022-05-23 21:19:10
                            
                                283阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章目录01 引言02 Kafka-Connector 源码分析2.1 项目结构2.2 工厂(源码解读入口)2.2.1 KafkaDynamicTableFactory2.2.2 UpsertKafkaDynamicTableFactory2.2.3 KafkaTableSourceSinkFactory2.3 序列化和反序列化工厂2.3.1 DeserializationFormatFactory2.3.1.2.1 JsonRowDataDeserializationSchema2.3.2 Seriali            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-04-20 15:06:05
                            
                                4614阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录记录一次流处理引擎选择的过程1、Spark Streaming2、Kafka Streaming3、Flink最后 记录一次流处理引擎选择的过程先描述下项目需求,要处理的消息来源为RabbitMQ的队列A,队列A的数据是10万个点位(物联网采集点)数据每秒一次推送产生的,现在的需求是:要新增一些虚拟计算点位,点位建立规则是已有物理点位的计算表达式,比如V001为P001+2*P002。每个计            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-11 16:58:28
                            
                                118阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            本文是《Flink的sink实战》系列的第二篇,《Flink的sink实战之一:初探》对sink有了基本的了解,本章来体验将数据sink到kafka的操作;版本和环境准备本次实战的环境和版本如下:JDK:1.8.0_211Flink:1.9.2Maven:3.6.0操作系统:macOS Catalina 10.15.3 (MacBook Pro 13-inch, 2018)IDEA:2018.3.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-21 11:25:15
                            
                                83阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目的最近会不定期抽空整理flink的相关知识,整理的逻辑大纲就是下面自己画的学习框架图。如果有大佬发现下面知识框架有问题也欢迎指出。因为FlinkKafkaConsumer 是flink自己对kafka的数据读取进行管理的中间件,与kafka自带的进度管理方式稍有不同,而kafka又是flink最常用的resource和sink之一。这里对FlinkKafkaConsumer的管理机制进行学习记录            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-23 11:46:31
                            
                                81阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flume 概述Flume 是 Hadoop 生态圈子中的一个重要组件,在上一课时中提过,它是一个分布式的、高可靠的、高可用的日志采集工具。Flume 具有基于流式数据的简单灵活的架构,同时兼具高可靠性、高可用机制和故障转移机制。当我们使用 Flume 收集数据的速度超过下游的写入速度时,Flume 会自动做调整,使得数据的采集和推送能够平稳进行。Flume 支持多路径采集、多管道数据接入和多管道            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-26 04:51:44
                            
                                57阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一,背景公司需要用到flink和kafka来处理大数据,对于一个没有接触过这两个东西的40岁程序员,决定自学一下,用了两天的时间终于实现了flink和kafka的对接,目标就是要向kafka输入 "时间戳,温度,设备ID",然后在flink里面按照时间戳分组,再按照设备ID计算的在一个时间段内的温度平均值。 二,运行环境window 10, kafka 2.1.1, flink 1.7.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-01 15:52:11
                            
                                308阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flink学习-DataStream-KafkaConnector摘要本文主要介绍Flink1.9中的DataStream之KafkaConnector,大部分内容翻译、整理自官网。以后有实际demo会更新。可参考kafka-connector如果关注Table API & SQL中的KafkaConnector,请参考Flink学习3-API介绍-SQL1 Maven依赖FlinkKaf            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-19 02:42:02
                            
                                40阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Kafka 数据管道是流计算系统中最常用的数据源(Source)和数据目的(Sink)。用户可以把流数据导入到 Kafka 的某个 Topic 中,通过 Flink 算子进行处理后,输出到相同或不同 Kafka 示例的另一个 Topic。Kafka 支持同一个 Topic 多分区读写,数据可以从多个分区读入,也可以写入到多个分区,以提供更            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-03 18:49:04
                            
                                285阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Flink的Checkpoint和savepoint的区别和作用一、Flink的checkpointflink的checkpoint是异步的、分布式的、轻量级的,将同一时间点的task/operator的状态数据全局统一快照处理,包括用户自定义的keyed state和operator state 当未来程序出现问题,可以基于保存的快照容错。checkpoint的原理A:flink会在输入的数据集            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-20 10:38:34
                            
                                78阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言之前有文章 《Flink 写入数据到 Kafka 写过 Flink 将处理后的数据后发到 Kafka 消息队列中去,当然我们常用的消息队列可不止这一种,还有 RocketMQ、RabbitMQ 等,刚好 Flink 也支持将数据写入到 RabbitMQ,所以今天我们就来写篇文章讲讲如何将 Flink 处理后的数据写入到 RabbitMQ。前提准备安装 RabbitMQ这里我直接用 doc            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-22 08:34:07
                            
                                90阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录1. CDC简介1.1. 什么是CDC1.2. CDC的种类1.3. Flink-CDC2. 基于DataStream方式的FlinkCDC应用2.1. 导入依赖2.2. 编写代码2.2.1. 主类-从业务库中获取数据并写入到kafka中2.2.2. 自定义反序列化器2.2.3. 各方法参数详解3. FlinkSQL方式的应用1. CDC简介1.1. 什么是CDC Change Da            
                
         
            
            
            
            Flink对接KafKa消费分词统计Demo1. 环境准备环境需要:KafKa_2.12(1.0.0以上)Java_1.8(java 8/11)Flink1.1 KafKa通过Apache KafKa官网下载KafKa,目前版本最新为KafKa_2.12-2.60,KafKa安装包内已包含Zookeeper下载完成后在本地解压可以看到文件夹KafKa_2.12-2.60       KafKa目录            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-27 16:31:15
                            
                                267阅读
                            
                                                                             
                 
                
                                
                    