历经大约3个月时间,Apache Hudi 社区终于发布了0.5.1版本,这是Apache Hudi发布的第二个Apache版本,该版本中一些关键点如下版本升级将Spark版本从2.1.0升级到2.4.4将Avro版本从1.7.7升级到1.8.2将Parquet版本从1.8.1升级到1.10.1将Kafka版本从0.8.2.1升级到2.0.0,这是由于将spark-streaming-kafka
转载 2024-10-06 13:40:36
56阅读
导语随着大数据时代的到来,各大互联网公司对于数据的重视程度前所未有,各种业务对数据的依赖也越来越重。有一种观点认为大数据存在“3V”特性:Volume, Velocity, Variety。这三个“V”表明大数据的三方面特征:量大,实时和多样。这三个主要特征对数据采集系统的影响尤为突出。多种多样的数据源,海量的数据以及实时高效的采集是数据采集系统主要面对的几个问题。我们想要在数据上创造价值,首先要
转载 2024-07-04 05:23:50
167阅读
# 从Kafka消费数据写入Hudi ## 1. 流程图 ```mermaid journey title Kafka 消费写入 Hudi 流程 section 开始 开始 --> 获取Kafka消息 section 消费Kafka消息 获取Kafka消息 --> 解析消息 解析消息 --> 写入Hudi sect
原创 2024-03-13 03:46:37
121阅读
前段时间做过一个小调研:你还在手动埋点?手动跑数据?,后面就一直关注这个方面的知识,各家的方案都不同。数据统计这件事情,大厂99%都是自研,也不会使用第三方服务。数据统计这件事情不只是前端的事情,而且要涉及到后端,核心需要做两件事情:第一,前端需要上报数据;第二,后端能够把数据保存好,能够快速获取数据;当需要分析数据的时候,能够快速地通过平台直接查看,每次做需求的时候,能够提供AB策略,可直观地看
# Flink CDC, MySQL, KafkaHudi的科普 在现代数据处理和分析中,实时的数据流处理变得越来越重要。Apache Flink是一个流处理和批处理框架,能够处理高吞吐量和低延迟的数据。Flink CDC(Change Data Capture)是Flink的一个特性,用于捕获和处理数据库的变更。 在本篇文章中,我们将深入了解如何使用Flink CDC从MySQL数据库中捕
原创 2023-08-02 06:52:14
115阅读
3.1 kafka工作流程及文件存储机制Kafka 中消息是以 topic 进行分类的, 生产者生产消息,消费者消费消息,都是面向 topic的。topic 是逻辑上的概念,而 partition 是物理上的概念,每个 partition 对应于一个 log 文件,该 log 文件中存储的就是 producer 生产的数据。 Producer 生产的数据会被不断追加到该log 文件末端,且每条数据
转载 2024-03-20 10:12:39
48阅读
一、页缓存技术 + 磁盘顺序写 首先Kafka每次接收到数据都会往磁盘上去写,如下图所示。  那么在这里我们不禁有一个疑问了,如果把数据基于磁盘来存储,频繁的往磁盘文件里写数据,这个性能会不会很差?大家肯定都觉得磁盘写性能是极差的。没错,要是真的跟上面那个图那么简单的话,那确实这个性能是比较差的。但是实际上Kafka在这里有极为优秀和出色的设计,就是为了保证数据写入性能,首先Kafka
0.进入shell ./sql-client.sh embedded shell 1.建表关联kafka CREATE TABLE order_kafka_source( `orderId` STRING, `userId` STRING, `orderTime` STRING, `ip` STRI
原创 2022-06-10 19:17:17
1542阅读
背景我们云平台打造新一代数据湖存储,从kafka实时读取海量数据入湖,需要经受性能,稳定性等各方面考验。同时历史影响,kafka中数据格式牵扯业务非常广,难以修改。要在这种情况下完成优化入湖操作。由于性能压测过程中发现hudi官方自带的数据入湖工具不足以支撑我们海量数据(五分钟峰值2百万)入库,针对我们业务场景,需要进行优化,使其使用最低资源进行最大限度入湖。关键字Hudi:数据湖存储引擎,版本为
转载 2024-04-07 09:32:02
167阅读
文章目录前言一. pyspark连接hudi二. 创建表三. 插入数据四. 查询数据五. Time Travel查询六. 更新数据七. 增量查询八. 基于时间点查询九. 删除数据9.1 软删除9.2 硬删除十. 插入覆盖十一. Spark其它命令11.1 Alter Table11.2 Partition SQL Command参考: 前言软件版本Python3.8Hadoop3.3.2Spar
零、步骤 一、Flink SQL集成Kafka 1.创建topic(一分区一备份) flink-topic 2.准备flink-sql-connector-kafka_2.12-1.13.1.jar,放入flink/lib下 3.启动client,指定jar ./sql-client.sh embe
原创 2022-06-10 18:01:42
2175阅读
1. 引入Hudi支持以下存储数据的视图读优化视图 : 在此视图上的查询将查看给定提交或压缩操作中数据集的最新快照。该视图仅将最新parquet文件暴露给查询,所以它有可能看不到最新的数据,并保证与非Hudi列式数据集相比,具有相同的列式查询性能增量视图 : 对该视图的查询只能看到从某个提交/压缩后写入数据集的新数据。该视图有效地提供了更改流,来支持增量数据管道。实时视图 : 在此视图上的查询将查
原创 2021-12-22 11:07:34
512阅读
-1,基于接收者Receiver-based的方法算子:KafkaUtils.createStream 方法:PUSH,从topic中去推送数据,将数据推送过来 API:调用的Kafka高级API 效果:SparkStreaming中的Receivers,恰好Kafka有发布/订阅 ,然而:此种方式企业不常用,说明有BUG,不符合企业需求。因为:接收到的数据存储在Ex
转载 2024-09-23 21:21:22
66阅读
一、整合hive集成hudi方法:将hudi jar复制到hive lib下cp ./packaging/hudi-hadoop-mr-bundle/target/hudi-hadoop-mr-bundle-0.5.2-SNAPSHOT.jar  $HIVE_HOME/lib4.1 hive hive 查询hudi 数据主要是在hive中建立外部表数据路径指向hdfs 路径,同时hudi
转载 2023-09-26 11:07:28
171阅读
编译 hudi如果是第一次编译 hudi 会花很长时间,maven 本地仓库为空的情况下,我花了40分钟(视网络环境)。编译步骤
转载 2022-05-26 12:19:38
1449阅读
2评论
hudi 的概述
原创 2022-10-23 00:03:53
538阅读
Apache Hudi(发音为“Hoodie”)在DFS的数据集上提供以下流原语插入更新 (如何改变数据集?)增量拉取 (如何获取变更的数据?)在本节中,我们将讨论重要的概念和术语,这些概念和术语有助于理解并有效使用这些原语。时间轴在它的核心,Hudi维护一条包含在不同的即时时间所有对数据集操作的时间轴,从而提供,从不同时间点出发得到不同的视图下的数据集。H
转载 2023-09-04 13:04:17
80阅读
场景 实时产生的数据写入到Kafka,由Spark实时读取Kafka的数据,写入hudi 实现 package com.zhen.hudi.streaming import com.zhen.hudi.didi.SparkUtils import org.apache.hudi.DataSource
原创 2022-06-10 19:16:39
178阅读
前言无论是在 lamda 架构还是 kappa 架构中,实时计算通常是使用 flink+mq 来实现的,而在这些场景中涉及到多张表 join 时,一般我们的使用方法是多张流表 join 如:Regular Join、Interval Join,或者流表 + 维表的方式 join 如:Temporal join。但无论是那种方式都会存在一些问题,比如窗口开的过小,数据晚到导致数据丢失。窗口开的过大,
转载 2023-08-11 14:54:54
230阅读
摘要:本文作者刘杰,介绍了顺丰科技数仓的架构,趟过的一些问题、使用 Hudi 来优化整个 job 状态的实践细节,以及未来的一些规划。主要内容为:数仓架构Hudi 代码躺过的坑状态优化未来规划顺丰科技早在 2019 年引入 Hudi ,当时是基于 Spark 批处理,2020 年对数据的实时性要求更高公司对架构进行了升级,在社区 Hudi on Flink 的半成品上持续优化实现 Binlog 数
转载 2024-05-28 19:25:23
93阅读
  • 1
  • 2
  • 3
  • 4
  • 5