3.1 kafka工作流程及文件存储机制Kafka 中消息是以 topic 进行分类的, 生产者生产消息,消费者消费消息,都是面向 topic的。topic 是逻辑上的概念,而 partition 是物理上的概念,每个 partition 对应于一个 log 文件,该 log 文件中存储的就是 producer 生产的数据。 Producer 生产的数据会被不断追加到该log 文件末端,且每条数据
转载
2024-03-20 10:12:39
48阅读
历经大约3个月时间,Apache Hudi 社区终于发布了0.5.1版本,这是Apache Hudi发布的第二个Apache版本,该版本中一些关键点如下版本升级将Spark版本从2.1.0升级到2.4.4将Avro版本从1.7.7升级到1.8.2将Parquet版本从1.8.1升级到1.10.1将Kafka版本从0.8.2.1升级到2.0.0,这是由于将spark-streaming-kafka
转载
2024-10-06 13:40:36
56阅读
Optional简介
Optional是java8中新增的API
用于完美解决空指针异常
使用Optional类可避免显式的空值判断
所以笔者在jdk1.8的环境下,大量的使用Optional这个容器
例: Optional可检测一个null容器
如:
Optional.ofNullable(null)
此时当isPresent方法返回true时
调用get()方法则可返回其
Rec: FuRenjie 概述
kafka是分布式的,分区的,复本提交服务。
kafka维护了一个topics,是消息类别或队列的基本单位
向topics发送消息的进程叫生产者
从topics订阅并处理消息的叫消费者
kafka是运行在由多个叫broker的服务组成的集群中。
所有服务器端与客户端交互使用了简单高效的TCP协
转载
2024-10-09 09:21:32
58阅读
0.进入shell ./sql-client.sh embedded shell 1.建表关联kafka CREATE TABLE order_kafka_source( `orderId` STRING, `userId` STRING, `orderTime` STRING, `ip` STRI
原创
2022-06-10 19:17:17
1542阅读
1. CDC背景介绍首先我们介绍什么是CDC?CDC的全称是Change data Capture,即变更数据捕获,它是数据库领域非常常见的技术,主要用于捕获数据库的一些变更,然后可以把变更数据发送到下游。它的应用比较广,可以做一些数据同步、数据分发和数据采集,还可以做ETL,今天主要分享的也是把DB数据通过CDC的方式ETL到数据湖。对于CDC,业界主要有两种类型:•基于查询,客户端会通过SQL
转载
2021-12-21 16:06:26
190阅读
基于Apache Hudi 的CDC数据入湖
原创
2022-06-06 16:28:25
191阅读
CDC背景介绍首先我们介绍什么是CDC?CDC的全称是Change data Capture,即变更数据捕获,它是数据库领域非常常...
转载
2021-09-28 11:40:58
213阅读
导语随着大数据时代的到来,各大互联网公司对于数据的重视程度前所未有,各种业务对数据的依赖也越来越重。有一种观点认为大数据存在“3V”特性:Volume, Velocity, Variety。这三个“V”表明大数据的三方面特征:量大,实时和多样。这三个主要特征对数据采集系统的影响尤为突出。多种多样的数据源,海量的数据以及实时高效的采集是数据采集系统主要面对的几个问题。我们想要在数据上创造价值,首先要
转载
2024-07-04 05:23:50
167阅读
本博文主要包括一下内容: 1,SparkStreaming on Kafka Direct工作原理机制 2,SparkStreaming on Kafka Direct 案例实战 3,SparkStreaming on Kafka Direct源码解析一:SparkStreaming on Kafka Direct工作原理机制:1、Direct方式特点:(1)D
转载
2024-09-04 17:21:34
326阅读
目录0. 相关文章链接1. 编译Hudi源码1.1. Maven安装1.2. 下载并编译hudi2. 安装HDFS3. 安装Spark4. 在spark-shell中运行hudi程序主要介绍的Apache原生的Hudi、HDFS、Spark等的集成使用0. 相关文章链接数据湖 文章汇总1. 编译Hudi源码虽然对hudi的下载编译在博主的另一篇博文里有介绍,但这里是系统的介绍Hudi的体验使用,所
转载
2023-12-11 10:53:04
48阅读
1. 引入Hudi支持以下存储数据的视图读优化视图 : 在此视图上的查询将查看给定提交或压缩操作中数据集的最新快照。该视图仅将最新parquet文件暴露给查询,所以它有可能看不到最新的数据,并保证与非Hudi列式数据集相比,具有相同的列式查询性能增量视图 : 对该视图的查询只能看到从某个提交/压缩后写入数据集的新数据。该视图有效地提供了更改流,来支持增量数据管道。实时视图 : 在此视图上的查询将查
原创
2021-12-22 11:07:34
512阅读
零、步骤 一、Flink SQL集成Kafka 1.创建topic(一分区一备份) flink-topic 2.准备flink-sql-connector-kafka_2.12-1.13.1.jar,放入flink/lib下 3.启动client,指定jar ./sql-client.sh embe
原创
2022-06-10 18:01:42
2175阅读
# 从Kafka消费数据写入Hudi
## 1. 流程图
```mermaid
journey
title Kafka 消费写入 Hudi 流程
section 开始
开始 --> 获取Kafka消息
section 消费Kafka消息
获取Kafka消息 --> 解析消息
解析消息 --> 写入Hudi
sect
原创
2024-03-13 03:46:37
121阅读
# Flink CDC, MySQL, Kafka和Hudi的科普
在现代数据处理和分析中,实时的数据流处理变得越来越重要。Apache Flink是一个流处理和批处理框架,能够处理高吞吐量和低延迟的数据。Flink CDC(Change Data Capture)是Flink的一个特性,用于捕获和处理数据库的变更。
在本篇文章中,我们将深入了解如何使用Flink CDC从MySQL数据库中捕
原创
2023-08-02 06:52:14
115阅读
前段时间做过一个小调研:你还在手动埋点?手动跑数据?,后面就一直关注这个方面的知识,各家的方案都不同。数据统计这件事情,大厂99%都是自研,也不会使用第三方服务。数据统计这件事情不只是前端的事情,而且要涉及到后端,核心需要做两件事情:第一,前端需要上报数据;第二,后端能够把数据保存好,能够快速获取数据;当需要分析数据的时候,能够快速地通过平台直接查看,每次做需求的时候,能够提供AB策略,可直观地看
一、页缓存技术 + 磁盘顺序写 首先Kafka每次接收到数据都会往磁盘上去写,如下图所示。 那么在这里我们不禁有一个疑问了,如果把数据基于磁盘来存储,频繁的往磁盘文件里写数据,这个性能会不会很差?大家肯定都觉得磁盘写性能是极差的。没错,要是真的跟上面那个图那么简单的话,那确实这个性能是比较差的。但是实际上Kafka在这里有极为优秀和出色的设计,就是为了保证数据写入性能,首先Kafka是
转载
2024-02-23 23:07:34
62阅读
# Flink 读取 Kafka 数据并写入 MySQL
Apache Flink 是一个强大的流处理框架,而 Apache Kafka 是一个广泛使用的分布式消息队列。将这两个技术结合起来,能够实现实时数据处理和持久化。本文将带你探讨如何使用 Flink 从 Kafka 中读取数据,并将其写入 MySQL 数据库。
## 环境准备
在开始之前,你需要准备以下环境:
1. **Apache
原创
2024-10-15 05:48:47
68阅读
一、整合hive集成hudi方法:将hudi jar复制到hive lib下cp ./packaging/hudi-hadoop-mr-bundle/target/hudi-hadoop-mr-bundle-0.5.2-SNAPSHOT.jar $HIVE_HOME/lib4.1 hive hive 查询hudi 数据主要是在hive中建立外部表数据路径指向hdfs 路径,同时hudi
转载
2023-09-26 11:07:28
171阅读
面对海量数据开发场景,一种支持存储多种原始数据格式、多种计算引擎、高效的元数据统一管理的存储方式能极大的提高开发效率。