目录对flink checkpoint的理解与实现背景什么是flink checkpoint链接我的一些理解checkpoint实现流程checkpoint存储checkpoint实现checkpoint和savepoint的区别AB Test 对flink checkpoint的理解与实现背景由于我们公司的实时架构主要是kafka -> spark/storm -> kafka -            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-19 18:45:31
                            
                                130阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            println(dataBaseList, tableList)
 val debeziumProps = new Properties()
 debeziumProps.setProperty(“debezium.snapshot.mode”,“never”)
 val mysqlSource = MySqlSource.builderString .hostname(sourceFormat.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-22 16:22:52
                            
                                160阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            这篇文章是开始的时候写了篇随笔,更深入的cdc的使用和源码分析请参考:深入解读flink sql cdc的使用以及源码分析 文章目录CDC简介CanalCanalJson反序列化源码解析 CDC简介CDC,Change Data Capture,变更数据获取的简称,使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游,供下游使用。这些变更可以包括INSERT,DELETE,UPDAT            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-17 20:33:25
                            
                                223阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flink SQL 一般按照窗口统计,统计的指标值用状态存储,窗口关闭之后,数据输出到sink表,就很少会用到这些数据。由于统计的粒度非常的细,Flink SQL 任务中的状态就会非常大,导致 HDFS 上面的存储占用过大。Flink SQL 中支持状态空闲时间的设置,如果某个 Key 的状态在一定 时间没有被更新, Flink 会自动清理该状态。
    1.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-06 21:27:45
                            
                                41阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前言:主要讲解了技术原理,入门与生产实践,主要功能:全增量一体化数据集成、实时数据入库入仓、最详细的教程。Flink CDC 是Apache Flink的一个重要组件,主要使用了CDC技术从各种数据库中获取变更流并接入到Flink中,Apache Flink作为一款非常优秀的流处理引擎,其SQL API又提供了强大的流式计算能力,因此结合Flink CDC能带来非常广阔的应用场景。例如,Flink            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-05 20:31:18
                            
                                594阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录简介种类基于日志的 CDC 方案介绍flink作为etl工具应用场景开源地址最新flink cdc官方文档分享流程图1.X痛点目前支持开发方式开发测试大致流程使用mysql开启binlog代码 简介CDC是Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-06 11:24:31
                            
                                381阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            CDC 的全称是 Change Data Capture ,在广义的概念上,只要是能捕获数据变更的技术,我们都可以称之为 CDC 。目前通常描述的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。CDC 技术的应用场景非常广泛:数据同步:用于备份,容灾;数据分发:一个数据源分发给多个下游系统;数据采集:面向数据仓库 / 数据湖的 ETL 数据集成,是非常重要的数据源。CDC            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-07 15:43:32
                            
                                310阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、背景介绍        在 OLTP 系统中,为了解决单表数据量大的问题,通常采用分库分表的方式将单个大表进行拆分以提高系统的吞吐量。但是为了方便数据分析,通常需要将分库分表拆分出的表在同步到数据仓库、数据湖时,再合并成一个大表。       &            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-03 15:24:26
                            
                                224阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            图文详解CDC技术,看这一篇就够了!Flink CDC Connectors 是 Apache Flink 的一组源端(Source)连接器,通过捕获变更数据(Change Data Capture)从不同数据库中采集数据。项目早期通过集成 Debezium 引擎来采集数据,支持 全量 + 增量 的模式,保证所有数据的一致性。但因为集成了 Debe            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-10 00:20:00
                            
                                398阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录前言:1、springboot引入依赖:2、yml配置文件3、创建SQL server CDC变更数据监听器4、反序列化数据,转为变更JSON对象5、CDC 数据实体类6、自定义ApplicationContextUtil7、自定义sink 交由spring管理,处理变更数据前言:        我的场景是从SQL Server数据库获取指定表的增量数据            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-19 16:09:03
                            
                                489阅读
                            
                                                                                    
                                1评论
                            
                                                 
                 
                
                             
         
            
            
            
            Flink MySQL CDC:全面了解基于Flink的MySQL Change Data Capture
## 引言
在现代数据架构中,实时数据处理变得越来越重要。而随着大数据和流式处理的兴起,数据的变化捕获和实时分析成为了关键的挑战。MySQL作为最受欢迎的关系型数据库之一,需要一种有效的方式来捕获其数据的变化,并将这些变化实时传递给流处理引擎。这就是MySQL Change Data C            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-09-01 13:15:43
                            
                                213阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录一、CDC 简介 ?二、Flink CDC 案例实操三、Flink-CDC 2.0四、核心原理分析 一、CDC 简介 ?什么是 CDC ?CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。CDC 的种类CDC            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-03 12:42:36
                            
                                731阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            ## Flink CDC MySQL 实现步骤
### 流程概述
Flink CDC(Change Data Capture)是一种数据同步技术,它可以捕捉数据库的变化,并将这些变化作为流数据进行处理和分析。本文将指导你如何使用 Flink CDC 将 MySQL 数据库的变化实时同步到 Flink 流处理引擎中。
以下是实现 Flink CDC MySQL 的步骤概览:
| 步骤 | 描            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-08-02 06:52:51
                            
                                497阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # MySQL Flink CDC
## 介绍
MySQL是一个广泛使用的关系型数据库管理系统,而Flink是一个开源的流处理框架。Change Data Capture(CDC)是一种用于捕获数据库更改并将其传递到其他系统的技术。本文将介绍如何使用Flink的CDC功能来捕获MySQL数据库的更改。
## 环境设置
在开始之前,我们需要设置一些环境。
- 安装Java Developm            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-08-16 10:26:35
                            
                                222阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            案例:实现文章的访问量统计使用Flink Postgres CDC 进行数据输入,在 Flink SQL CLI 中进行逻辑加工,整个过程使用 SQL ,无需代码。将结果通过JDBC方式输出到MySQL。1 数据库表准备postgres数据库环境配置参考文章:Flink PostgreSQL CDC配置和常见问题-- postgresql
-- 文章记录表
CREATE TABLE t_artic            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-16 11:07:57
                            
                                50阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            首先sqlserver版本:要求sqlserver版本为14及以上,也就是SQL Server 2017 版。sqlserver开启cdc,具体细节可以百度,有一点要注意,必须启动SQL Server 代理服务。如果需要断点续传,需要设置ck,由于我们这边设备有限。使用的是RocksDBStateBackend,把数据保存到本地了。如果有大数据环境,建议使用FsStateBackend(            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-04 16:29:35
                            
                                552阅读
                            
                                                                                    
                                1评论
                            
                                                 
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言与DataStream同样,官方在Flink SQL上也提供了很多连接器,今天来学习总结一下JDBC连接器环境准备如果使用编码,需要引入两个依赖包,Flink提供的jdbc连接器依赖和和对应的mysql驱动包,以下为1.12.0 提供的jdbc连接器依赖<dependency>
  <groupId>org.apache.flink</groupId>            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-11 19:55:54
                            
                                191阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章目录一、CDC 简介1. 什么是CDC2. CDC的种类3. Flink-CDC二、Flink CDC 案例实操1. DataStream 方式的应用1.1 导入依赖1.2 编写代码1.3 案例测试2. FlinkSQL 方式的应用3. 自定义反序列化器 一、CDC 简介1. 什么是CDCCDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-17 20:15:13
                            
                                313阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在构建实时数仓的过程中,如何快速、正确的同步业务数据是最先面临的问题,本文主要讨论一下如何使用实时处理引擎Flink和数据湖Apache Iceberg两种技术,来解决业务数据实时入湖相关的问题。01-Flink CDC介绍
CDC全称是Change Data Capture,捕获变更数据,是一个比较广泛的概念,只要是能够捕获所有数据的变化,比如数据库捕获完整的变更日志记录增、删、改等,都可以称为            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-29 14:09:53
                            
                                657阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            摘要:本文作者为中国农业银行研发中心丁杨,在 Flink CDC 2.1 版本发布后第一时间下载使用,并成功实现了对 Oracle 的实时数据捕获以及性能调优,现将试用过程中的一些关键细节进行分享。主要内容包括:无法连接数据库无法找到 Oracle 表数据延迟较大调节参数继续降低数据延迟Debezium Oracle Connector 的隐藏参数Flink CDC