今天主要简单介绍下CI/CD持续集成 & 交付 & 部署,以及延伸出来的Devops。Devops我也不知道是啥,百度百科给出的定义是(过程、方法与系统的统称),不知道看官明白没,反正我是没看明白,我给的定义就是“只能意会,不能言传”。通俗点说就是开发+测试+运维,一条龙服务。在早期团队里面,开发人员写完代码,自测以后,通知测试团队,并且手动发布部署到测试服            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-15 16:39:22
                            
                                37阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # Flink CDC, MySQL, Kafka和Hudi的科普
在现代数据处理和分析中,实时的数据流处理变得越来越重要。Apache Flink是一个流处理和批处理框架,能够处理高吞吐量和低延迟的数据。Flink CDC(Change Data Capture)是Flink的一个特性,用于捕获和处理数据库的变更。
在本篇文章中,我们将深入了解如何使用Flink CDC从MySQL数据库中捕            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-08-02 06:52:14
                            
                                115阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            CDC概念 CDC全称是Change data Cpature,即变更数据捕获,主要面向数据库的变更,是数据库领域非常常见的技术,主要用于捕获数据库的一些变更,然后可以把变更数据发送到下游。 CDC类型 1.基于查询的,客户端会通过SQL方式查询源库表变更数据,然后对外发送。 2.基于日志的,这也是            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-06-10 19:17:35
                            
                                1015阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1. 什么是DebeziumDebezium是一个开源的分布式平台,用于捕捉变化数据(change data capture)的场景。它可以捕捉数据库中的事件变化(例如表的增、删、改等),并将其转为事件流,使得下游应用可以看到这些变化,并作出指定响应。2. Debezium常规使用架构根据Debezium官网[1]提供的常规使用的架构图:可以看到,在对RMSDB数据源做数据摄入时,使用的是Kafk            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-12-21 16:27:07
                            
                                1420阅读
                            
                                                                                    
                                1评论
                            
                                                 
                 
                
                             
         
            
            
            
            1. 介绍Apache Hudi是一个开源的数据湖框架,旨在简化增量数据处理和数据管道开发。借助Hudi可以在Amazon S3、Aliyun OSS数据湖中进行记录级别管理插入/更新/删除。AWS EMR集群已支持Hudi组件,并且可以与AWS Glue Data Catalog无缝集成。此特性可使得直接在Athena或Redshift Spectrum查询Hudi数据集。对于企业使用AWS云的            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-12-21 17:14:28
                            
                                395阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            flink cdc 使用目前 cdc 产品 非常多 ,目前我使用canal ,flink cdc (集成 debezium) 二者 对比相对来说 flink cdc 更加强大,功能很多 但是 有很多 坑,迭代速度很快,借助flink 分布式计算框架,分布式处理 数据。1. canal装个服务端,客户端自己写,当然也提供了一些适配器,我之前是定制 客户端写的组件。https://github.com            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-11 16:23:13
                            
                                100阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            flink cdc 采集mysql写入hudi java实现的描述:
在现代数据系统中,从MySQL等关系数据库实时获取变更数据并写入大数据存储成为了一个重要的需求。Apache Flink 的 Change Data Capture (CDC) 能够高效地实现这一目标,而 Apache Hudi 则能够帮助我们在数据湖中管理这些数据的增量变化。本文将深入探讨如何实现将 Flink CDC 用于            
                
         
            
            
            
            有一个这样的场景,有大批量数据在mongo中,其中mongo中数据还会频繁变更,但是几乎不会删除,这样的数据需要产生一个大屏来供用户看统计数据,之前的设计方案是直接通过定时任务每10分钟去mongo计算一次,这种做法除了计算慢还可能会导致影响业务,所以需要通过大数据来计算增加大屏的实时性,且降低对业务的影响。我提供如下解决方案:mongo中数据通过cdc同步到kafka,然后kafka中数据再分别            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-04 15:09:13
                            
                                400阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            基于Apache Hudi 的CDC数据入湖            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-06-06 16:28:25
                            
                                191阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            CDC背景介绍首先我们介绍什么是CDC?CDC的全称是Change data Capture,即变更数据捕获,它是数据库领域非常常...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-09-28 11:40:58
                            
                                213阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            COW(Copy-on-Write)
COW(Copy-on-Write)更新流程如下
首先,对要更新的数据进行去重,确保每个记录只有一个条目。这是为了避免多个记录更新同一个键,导致数据不一致。
对这批数据创建索引,将HoodieKey(包含键和分区信息)映射到HoodieRecordLocation(包含文件ID和记录偏移量)。创建索引 (HoodieKey => Hoodie            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-04-24 21:57:50
                            
                                603阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1. CDC背景介绍首先我们介绍什么是CDC?CDC的全称是Change data Capture,即变更数据捕获,它是数据库领域非常常见的技术,主要用于捕获数据库的一些变更,然后可以把变更数据发送到下游。它的应用比较广,可以做一些数据同步、数据分发和数据采集,还可以做ETL,今天主要分享的也是把DB数据通过CDC的方式ETL到数据湖。对于CDC,业界主要有两种类型:•基于查询,客户端会通过SQL            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-12-21 16:06:26
                            
                                190阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # CDC 架构解析与示例
## 引言
CDC(Change Data Capture,变更数据捕获)是一种用于记录数据库中数据变更的技术。它能够以接近实时的方式捕获数据变化,并将这些变化传递至数据仓库或其他存储系统,以便进行分析和处理。CDC 架构通常在现代数据集成和数据湖中扮演着重要角色。本文将探讨 CDC 的架构构成,使用示例代码阐明其实现方式,并通过图示展示其工作流程。
## CDC            
                
         
            
            
            
            1. 环境准备•Flink 1.12.2_2.11•Hudi 0.9.0-SNAPSHOT(master分支)•Spark 2.4.5、Hadoop 3.1.3、Hive 3.1.22. Flink CDC写入HudiMySQL建表语句如下create table users(    id bigint auto_increment primary key,    name varchar(20)            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-12-21 17:23:32
                            
                                1424阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1. 环境准备•Flink 1.12.2_2.11•Hudi 0.9.0-SNAPSHOT(master分支)•S...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-07-13 13:30:06
                            
                                2725阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # Hudi数据架构详解
## 引言
Apache Hudi是一个开源的数据湖技术,它提供了一种用于实时分析和批量导入数据的数据管理框架。Hudi能够在数据湖中提供增量和快速查询,同时保证数据一致性和可靠性。本文将介绍Hudi的数据架构,包括数据模型、元数据管理和数据读写流程,并结合代码示例进行详细说明。
## Hudi数据架构
### 数据模型
Hudi将数据划分为三个核心概念:记录(            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-03-05 06:33:01
                            
                                117阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Hudi 的架构
Apache Hudi(Hive Upserts Deltas for Incremental processing)是一个用于处理大规模数据集的开源框架,专为大数据生态系统设计。它允许用户在大数据平台上进行高效的增量数据处理,提高了数据的可操作性和数据管道的灵活性。随着数据量的日益增加,传统的数据湖架构在数据写入和读取方面存在性能瓶颈,Hudi 提供了一种解决方案,通过支持快            
                
         
            
            
            
            Apache Hudi 是由 Uber 开源的在分布式文件系统上提供对大型分析数据集的摄取、管理以及查询的数据湖框架。2019 年 1 月加入 Apache 孵化器进行孵化,5 月份,Hudi 晋升为 Apache 顶级项目。本文主要从 “增量处理”的角度切入来谈谈 Hudi 对于数据湖的重要性。更多关于 Apache Hudi 的框架功能、特性、使用场景以及最新进展等可关注 QCon 全球软件开            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-07 18:00:17
                            
                                94阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            大数据研发高级工程师唐尚文,在 Flink Forward Asia 2022 数据集成专场的分享。            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-08-01 09:35:40
                            
                                147阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            VDI为集中存储、集中运算的虚拟桌面架构。该架构是把所有的客户机数据运算都集中在服务器端管理,将远端的这个显示结果的视频帧压缩后传输到客户端后进行还原显示。       VDI的优势是,提高服务器利用率,快速部署,从本质上的集中管控,集中存储不在客户端残留任何数据,保障数据安全性,可以做服务器集群实现负载均衡、高可用和分布式存储等功能,对客户端配置要求非常低,支持ARM架构,可以随时            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-07 12:17:12
                            
                                196阅读
                            
                                                                             
                 
                
                                
                    