字节跳动数据流的业务背景数据流处理的主要是埋点日志。埋点,也叫 Event Tracking,是数据和业务之间的桥梁,是数据分析、推荐、运营的基石。用户在使用 App、小程序、Web 等各种线上应用时产生的行为,主要通过埋点的形式进行采集上报,按不同的来源分为客户端埋点、Web 端埋点、服务端埋点。不同来源的埋点都通过数据流的日志采集服务接收到 MQ,然后经过一系列的 Flink 实时 ETL 对            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-24 15:07:32
                            
                                145阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、准备工作在开始研究Flink CDC原理之前(本篇先以CDC1.0版本介绍,后续会延伸介绍2.0的功能),需要做以下几个工作(本篇以Flink1.12环境开始着手)打开Flink官网(查看Connector模块介绍)打开Github,下载源码(目前不能放链接,读者们自行在github上搜索)apache-flinkflink-cdc-connectorsdebezium开始入坑二、设计提议2.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-19 20:41:34
                            
                                511阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录对flink checkpoint的理解与实现背景什么是flink checkpoint链接我的一些理解checkpoint实现流程checkpoint存储checkpoint实现checkpoint和savepoint的区别AB Test 对flink checkpoint的理解与实现背景由于我们公司的实时架构主要是kafka -> spark/storm -> kafka -            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-19 18:45:31
                            
                                130阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            摘要:本文整理自 Apache Flink Committer,Flink CDC Maintainer,阿里巴巴高级开发工程师徐榜江(雪尽)在 5 月 21 日 Flink CDC Meetup 的演讲。主要内容包括:Flink CDC 技术传统数据集成方案的痛点基于 Flink CDC 的海量数据的实时同步和转换Flink CDC 社区发展点击查看直播回放 & 演讲PDF一、Flink            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-29 07:27:30
                            
                                221阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flink之容错机制一、检查点(Checkpoint)1.1、定义1.2、启用及配置检查点二、保存点(savepoint)2.1、保存点的用途2.2、使用保存点2.2.1、创建保存点2.2.2、从保存点重启应用 一、检查点(Checkpoint)1.1、定义有状态流应用中的检查点(checkpoint),其实就是所有任务的状态在某个时间点的一个快照(一份拷贝)。简单来讲,就是一次“存盘”,让我们            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-07 23:00:35
                            
                                903阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            MySQL CDC连接器允许从MySQL数据库读取快照数据和增量数据。本文档根据官网翻译了如何设置MySQL CDC连接器以对MySQL数据库运行SQL查询。依赖关系为了设置MySQL CDC连接器,下表提供了使用构建自动化工具(例如Maven或SBT)和带有SQL JAR捆绑包的SQL Client的两个项目的依赖项信息。1、Maven依赖<dependency>
  <gro            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-24 12:54:36
                            
                                268阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言:主要讲解了技术原理,入门与生产实践,主要功能:全增量一体化数据集成、实时数据入库入仓、最详细的教程。Flink CDC 是Apache Flink的一个重要组件,主要使用了CDC技术从各种数据库中获取变更流并接入到Flink中,Apache Flink作为一款非常优秀的流处理引擎,其SQL API又提供了强大的流式计算能力,因此结合Flink CDC能带来非常广阔的应用场景。例如,Flink            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-05 20:31:18
                            
                                594阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录1.CDC概述1.1 CDC1.2 CDC 分类1.3 Flink-CDC1.4 ETL 分析2.Flink CDC 编码2.1 提前准备2.2 mysql 的设置2.3 java 代码编写3.利用自定义格式编码4.Flink Sql 编码5.Flink CDC 2.0            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-05-26 00:37:26
                            
                                1044阅读
                            
                                                                                    
                                1评论
                            
                                                 
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言       关于cdc(change data capture)不知道的小伙伴们可以去百度一下,简单来说就是对于数据库的变更进行一个探测,因为数据库的更改对于客户端来说是没有感知的,你需要开启线程去查询,才知道数据有没有更新,但是就算是查询,如果是直接select * from ....,这样获取的结果还要和上次获取的结果对比,才知道数据有没有发生变化            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-27 13:42:28
                            
                                262阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录简介种类基于日志的 CDC 方案介绍flink作为etl工具应用场景开源地址最新flink cdc官方文档分享流程图1.X痛点目前支持开发方式开发测试大致流程使用mysql开启binlog代码 简介CDC是Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-06 11:24:31
                            
                                381阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            本文介绍了  单表->目标源单表同步,多单表->目标源单表同步。注:1.16版本、1.17版本都可以使用火焰图,生产上最好关闭,详情见文章末尾Flink版本:1.16.2环境:Linux CentOS 7.0、jdk1.8基础文件:flink-1.16.2-bin-scala_2.12.tgz、flink-connector-jdbc-3.0.0-1.16.jar、(            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-24 20:57:00
                            
                                886阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            println(dataBaseList, tableList)
 val debeziumProps = new Properties()
 debeziumProps.setProperty(“debezium.snapshot.mode”,“never”)
 val mysqlSource = MySqlSource.builderString .hostname(sourceFormat.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-22 16:22:52
                            
                                160阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章目录01 Flink CDC介绍02 Apache Iceberg介绍03Flink CDC打通数据实时导入Iceberg实践3.1 数据入湖环境准备3.2 数据入湖速度测试3.3 数据入湖任务运维3.4 数据入湖问题讨论04未来规划4.1 整合Iceberg到实时计算平台4.2 准实时数仓探索  在构建实时数仓的过程中,如何快速、正确的同步业务数据是最先面临的问题,本文主要讨论一下如何使用            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-27 11:37:25
                            
                                116阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录前言:1、springboot引入依赖:2、yml配置文件3、创建SQL server CDC变更数据监听器4、反序列化数据,转为变更JSON对象5、CDC 数据实体类6、自定义ApplicationContextUtil7、自定义sink 交由spring管理,处理变更数据前言:        我的场景是从SQL Server数据库获取指定表的增量数据            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-19 16:09:03
                            
                                489阅读
                            
                                                                                    
                                1评论
                            
                                                 
                 
                
                             
         
            
            
            
            1 说明1.1 案例说明本文使用 Flink CDC 最新版本 2.2 及 Flink 1.14 版本通过 Java DataStream API 做 双流 Join 案例。双流 Join 大致流程:双流Join案例具体划分有:时间窗口联结处理事件窗口联结     处理时间窗口 内联结 案例处理时间窗口 外联结 案例事件时间窗口联结     事件时间窗口 内联结 案例事件时间窗口 外联结 案例间隔            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-11 12:07:53
                            
                                127阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            图文详解CDC技术,看这一篇就够了!Flink CDC Connectors 是 Apache Flink 的一组源端(Source)连接器,通过捕获变更数据(Change Data Capture)从不同数据库中采集数据。项目早期通过集成 Debezium 引擎来采集数据,支持 全量 + 增量 的模式,保证所有数据的一致性。但因为集成了 Debe            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-10 00:20:00
                            
                                398阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            今天为大家带来 Flink checkpoint 核心知识点以及优化方案,本文主要从以下几方面进行介绍:1 Checkpoint 执行流程2 checkpoint 执行失败问题分析3 非对齐checkpoint 优化方案4 动态调整 buffer 大小5 通用增量快照文章 PDF 版本已经整理好,扫描下方二维码,添加土哥微信,发你 PDF 版本。1 chec            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-23 15:37:19
                            
                                218阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
                    本文讲解版本截止到FlinkCDC 2.2一、概述1.1 FlinkCDC 简介Flink CDC (Flink Change Data Capture) 是基于数据库的日志 CDC 技术,实现了全增量一体化读取的数据集成框架。搭配Flink计算框架,Flink CDC 可以高效实现海量数据的实时集成。            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-04 19:14:39
                            
                                494阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、Checkpoint概念    上篇文章我们已经讲了Flink的状态管理,对于这些状态如何保存,我们一起学习一下Flink的Checkpoint机制。Flink本身为了保证其高可用的特性,以及保证作用的Exactly Once的快速恢复,进而提供了一套强大的Checkpoint机制。    Checkpoint机制是Flin            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-16 14:56:19
                            
                                231阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、背景介绍        在 OLTP 系统中,为了解决单表数据量大的问题,通常采用分库分表的方式将单个大表进行拆分以提高系统的吞吐量。但是为了方便数据分析,通常需要将分库分表拆分出的表在同步到数据仓库、数据湖时,再合并成一个大表。       &            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-03 15:24:26
                            
                                224阅读
                            
                                                                             
                 
                
                                
                    